Este es el primer post de la serie estadística gráfica, dónde te quiero explicar las herramientas gráficas más interesantes para que las entiendas y las utilices para visualizar tus datos. La intención de estos posts es que puedas usar e interpretar los gráficos de la mejor manera posible. Para ello te voy a ir definiendo los conceptos estadísticos que hay detrás de cada gráfico. ¡Espero que te sean muy útiles! Hoy toca el super conocido histograma.
Es de las primeras herramientas gráficas que nos explican en cualquier curso de estadística,…pero, ¿sabes la estadística que hay detrás? ¿sabes cómo dibujarlo correctamente? Es interesante que veas y entiendas conceptos como: la frecuencia absoluta, relativa, número de «bins», las clases…
Una aplicación: la pirámide de la población
Seguro que has visto alguna vez una pirámide de población. Puedes ver que se trata de muchas barras que nos indican la cantidad de hombres o de mujeres que tienen una determinada edad.
Te he puesto un ejemplo de una pirámide de la población de Catalunya para el 2015. Para dibujar esta pirámide necesitas saber las personas que viven en Catalunya y sus edades. Existen muchas páginas web que nos reflejan estos datos. Yo he encontrado los datos aquí.
Este gráfico te permite de manera muy visual saber cómo está distribuida la población por edades. Ver si una población es joven, si se está envejeciendo etc. Los sociólogos, incluso, clasifican las formas de las pirámides.
Si es más gruesa de la parte inferior significa que tenemos una población que es joven y, es típica de los países menos desarrollados económicamente o, si es más gruesa en la parte media es una población que se está envejeciendo, típica de los países más «ricos» etc. Te dejo una página web muy interesante donde puedes ver las pirámides de población de todos los países del mundo.
Como puedes ver en la figura la pirámide de la población está formada por dos histogramas girados.
- Un histograma de las edades de hombres (azul)
- Un histograma de las edades de mujeres (rojo)
Puedes descargarte los datos que he usado. Como has visto el histograma se trata de barras y cada barra indica la cantidad de la variable que queremos representar 🙂 . Es super útil para ver la distribución de los datos. Si tienes un volumen alto de datos puedes intuir que tipo de distribución de probabilidad tienen tu datos. El histograma se utiliza para representar variables numéricas.
Un símil: histograma y el 4 en ralla
Ahora ya has visto que la pirámide de las población es un histograma (dos). Pero detrás de él tienes más cosas que aprender. Para ello quiero explicarte el significado del histograma con un símil. ¡Venga empezamos!
Para mí un histograma es como poner fichas en una especie de tablero del cuatro en ralla, ¿te acuerdas?
Imagínate que en lugar de hacer la pirámide de la población de Catalunya la queremos hacer del Pueblo de Pequeñiland. En el ayuntamiento de Pequeñiland tenemos el censo de la población y podemos disponer de la base de datos de la edad (variable numérica) y el sexo (variable categórica) de todos los habitantes del pueblo.
Piensa que cada persona es una ficha del juego con un número que es la edad y que puede ser roja o amarilla. (amarilla = Mujer, roja = Hombre). El número es la variable numérica y el color una variable categórica. Esta última te permite agrupar (clustering) según el sexo. Separas los dos colores.
Para el color rojo (el grupo de hombres) vas colocando fichas en el tablero del cuatro en ralla teniendo en cuenta que cada columna del tablero representa un grupo de edades (de 10 en 10 por ejemplo). Fíjate en la figura.
Vas creando el mapa o el diagrama de la población fácilmente colocando la fichas en tu personalizado tablero del cuatro en ralla. Puedes crear el tablero del juego con tantas columnas como quieras, cada columna tendrá como etiqueta un rango de edad, por ejemplo entre 0-5 años, 5-10 años, 10-15 años etc. Tienes libertad para diseñar tu propio tablero. (La distribución de fichas será distinta por cada tablero que diseñes. Pero las fichas que vas a utilizar son las mismas.)
Estamos haciendo dos cosas
- Personalizar el tablero. Decidir cuantas columnas tiene mi tablero y que rango de edad tiene cada una.
- Segundo colocar las fichas en la columna correspondiente. Cuando ponemos una ficha encima de la otra, en realidad, lo que nos interesa ver es la altura de las columna de fichas. Estas alturas de fichas son el número de personas de ese rango de edad. En el fondo estamos contando. (frecuencia absoluta)
Los conceptos: frecuencias y clases
Te le pongo fácil:
- La altura de las barras es la frecuencia absoluta. Cantidad de personas de un mismo rango de edad.
- La etiqueta de cada barra son las clases. Las clases son intervalos de la variable numérica, en este caso rango de edades. Cada clase es un bin del histograma. La resolución de un histograma es proporcional a la cantidad de clases o bins.
En lugar de pensar en frecuencia absoluta o número de sujetos de una misma clase puedes pensar en porcentaje de la población. Eso es, en frecuencia relativa. Simplemente:
frecuencia relativa = frecuencia absoluta / número de datos
La frecuencia relativa es una proporción de población con un rango de edad determinado.
Además de esto puedes pensar en acumular las frecuencias. Eso es podemos calcular la frecuencia absoluta o relativa acumulada. Acumulada significa sumar las fichas de cada columna por orden. En al figura que te he puesto seria lo siguiente:
frecuencia acumulada 1 = altura primera columna = 1
frecuencia acumulada 2 = altura primera columna + altura segunda columna = 1 + 3 = 4
frecuencia acumulada 3 = altura primera columna + altura segunda columna + altura tercera columna= 1 + 3 +3 = 7
…
El concepto de acumular las frecuencias nos puede servir para visualizar los datos de otra manera. Puede ser interesante si quieres ver la uniformidad de la distribución de tus datos.
El lenguaje matemático y estadístico
Si eres purista y te gusta esto de las mates aquí te dejo con la notación para los conceptos de frecuencia absoluta, frecuencia relativa, frecuencia absoluta acumulada y frecuencia relativa acumulada. En ocasiones vas a ver que estos conceptos se colocan en forma de tabla. Te muestro la tabla de frecuencias correspondiente al histograma de Pequeñiland aquí. Si abres el archivo podrás ver que por cada clase le corresponde un valor de frecuencias.
- Número de datos:
- Datos, variable numérica (edad):
- Número de clases o BINS:
- Frecuencia absoluta:
- Frecuencia relativa:
- Frecuencia absoluta acumulada:
- Frecuencia relativa acumulada:
- Fórmula de la frecuencia relativa:
- Fórmulas frecuencia absoluta acumulada:
Esto es todo lo que te quería contar sobre el histograma. Ha sido un post un poco teórico pero necesario para poder usar este gráfico. Te estoy preparando otros donde te voy a explicar como dibujarlo en la práctica.
Pues nada, si has llegado hasta aquí solo pedirte una cosita, explícanos donde has utilizado el histograma y qué otros gráficos utilizas.
Salut company! 🙂