¿Quieres saber cuál es la herramienta perfecta para comparar grupos? ¿Quieres comparar diferentes experimentos y saber cuál tiene los valores más grandes? Lo podrás hacer en un solo gráfico y de un vistazo. No te pierdas el segundo post de la serie Estadística Descriptiva. Sigue leyendo y te aseguro que sacarás un montón de información de este gráfico inofensivo: el boxplot.
En el post anterior te mostré qué es un histograma y los secretos escondidos que hay detrás. ¿Recuerdas que decía que el histograma es muy útil para observar cómo se distribuye tu variable numérica? El Boxplot también lo es. Si lo miras con cariño incluso te revelará más información en menos tiempo.
Tabla de contenidos
El interés del box-plot
El máximo interés del box-plot es visualizar la distribución de una variable numérica de la manera más simplificada posible. Sólo utiliza los valores de los cuartiles, los extremos (el mínimo y el máximo) y valores raros o outliers.
No depende de valores ponderados como la media. Simplemente se fija en las características de la posición. En el fondo, primero ordena la variable y después la caracteriza según la posición de los cuartiles y los valores extremos.
La gracia del boxplot es visualizar una variable numérica de diferentes grupos o categorías. Te facilita la vida cuando comparas varios grupos.
Por ejemplo, en el siguiente gráfico te muestro los puntos por partidos de 5 jugadores de la NBA. En él puedes ver cuál es el jugador que mete más puntos, o cuál es el más regular.
Por ejemplo Carmelo Anthony mete más puntos que el resto. Su caja azul se ve más arriba que las demás:
¿Qué necesitas para dibujar un Boxplot?
Para dibujar el diagrama de caja necesitas conocer los valores de posición, llamados cuartiles 1 ,2 y 3. La longitud de la caja es el rango intercuartílico (q3-q1). Y la longitud de los «palos» (las líneas que salen de la caja) son los valores extremos. También necesitas saber cúales son los valores «raros» o outliers. Los dibujarás con un puntito o una crucecita.
- Los cuartiles
- Una distancia para dibujar la caja
- Valores «raros» o outliers
- Valores extremos.
Los cuartiles
Las medidas de posición sirven para cuantificar cómo de concentrada está la variable numérica. Para el box plot utilizarás los famosos cuartiles.
- Ordena la variable numérica de menor a mayor.
- Divide en grupos con el mismo número de observaciones.
Imagina que mides el peso de 100 pacientes de un hospital. Ordenas el peso de las 100 personas de menor a mayor. Haces 4 grupos con el mismo número de personas (4 grupos de 25 personas). El peso de la última persona de cada grupo es un cuartil.
Los cuartiles sirven para identificar fronteras. Responden a la pregunta: qué valor X tiene el 50% de los datos que son menores y 50% que son mayores. Este es la mediana o cuartil 2.
Pueden responder a otras preguntas como a partir de qué valor X divido los datos en dos partes: una con el 25% de los datos y el 75% de los datos. Este es el cuartil 1.
De alguna manera estos valores te informan de donde están los valores que parten los datos en el 25%, en el 50% y en el 75%.
Del ejemplo de los pesos de los 100 pacientes una vez ordenados, el paciente 25 es el cuartil 1, el paciente 50 es el cuartil 2 y el paciente 75 es el cuartil 3 (antes tienes que ordenar de menor a mayor.)
Un repaso:
– cuartil 1: valor X a partir del cual tengo el 25% de los datos por debajo y el 75% por arriba.
– cuartil 2 o mediana: valor X a partir del cual el 50% de los datos están por debajo y por arriba
– cuartil 3: valor X a partir del cual el 75% de los datos están por debajo y el 25% por arriba
Una distancia para dibujar la caja
La dimensión de la caja viene definida por el Q1 y el Q3. La distancia que hay entre estos dos valores es el rango intercuartílico. Así de fácil.
IQR = cuartil3-cuartil1
Valores extremos y valores raros
Ahora viene lo difícil. ¿Preparado? El boxplot es un instrumento muy astuto y no se fía de los valores muy muy grandes o los valores muy muy pequeños. Los calificará como raros y los pintará con una crucecita o un puntito.
Para distinguir si son valores raros o outliers el boxplot utiliza una regla muy sencillita. Cualquier valor que sea más grande que 1.5 veces la distancia de la caja + cuartil 3 es un valor muy muy grande. El bloxplot lo considerará un valor extraño o outlier. Lo dibujará con una cruz o un puntito.
También para los valores muy muy pequeños. Cualquier valor de la variable que sea menor que el cuartil 1 menos la distancia de la caja, el boxplot lo considerará un valor muy muy pequeño. Será un valor raro o outlier. Lo dibujará con una cruz.
Me preguntarás, ¿y la longitud de las patas del boxplot, cómo la sabes? Muy sencillo. El boxplot considera que el valor más alto que es normal (extremo superior), es el primer valor que se encuentra justo por debajo del cuartil 3 más 1.5 veces la longitud de la caja.
Para el valor más pequeño normal (extremo inferior) el boxplot hace lo mismo. Considera que el valor más pequeño y NO raro, es el primer valor que se encuentra justo por encima del cuartil 1 menos la longitud de la caja.
La Píldora Estadística: el box-plot
Te dejo el vídeo de la colección Píldoras Estadísticas dónde te comparto el resumen del boxplot. Espero que ahora te quede un poquito más claro que antes 😉
Imagen de portada: flickr.com de Institut for global Health Barcelona
Hasta aquí la historia del boxplot. Como sé que te ha servido al menos un poquito sólo te pido que compartas en las redes el post y los vídeos. Me ayudarás a difundir el conocimiento estadístico 😀 ¡Un abrazo!
ernesto dice
Jordi: Gracias, primera vez que entiendo estos cuadritos, al parecer cuando yo di estadistica médica en la carrera o no me lo dieron o lo pase por alto, no solo lo voy a leer y estudiar yo si no que se lo explicare a mi colectivo para que entienda mejor esos cuadritos que hasta ahora eran inentendibles, una vez mas gracias
Jordi Ollé dice
jajajajaja
La verdad que los cuadritos tienen mucha información escondida!
Se utilizan mucho pero es importante entender la esencia de los conceptos 🙂 jejej
1 fuerte abrazo!
Da gusto tener lectores como tu!
Eduardo dice
Jordi,
A menudo compartes materiales muy útiles e interesantes.
En particular, considero que este post es excelente por lo claro y sintético.
Gracias por compartir tus conocimientos de forma tan esmerada.
Felicitaciones!!!
Jordi Ollé dice
Gracias de nuevo Eduardo!
Espero que te haya ayudado
Abrazos
gloria dice
Jordi, super bien este post… me encata lo sencillo que haces que se vea todo, felicidades!!
Solo una cosita… en la imagen del boxplot pones que el límite es «q3+1.5 IQR». Sin embargo, en los apuntes mencionas que es «cuartil 1 menos la distancia de la caja» y en el video (que creo que es lo correcto) dices «q1-1.5 IQR».
Un abrazo!
Jordi Ollé dice
Estás en lo cierto Gloria!
Por arriba es q3+1.5IQR y por abajo es q1-1.5IQR
Abrazos!
Raúl Ortiz Mondragón dice
Gracias por compartir. Es mi primera aproximación a este tema y creo que entendí
Brian dice
Muchas gracias. Muy sencillo de entender.
Sebastian Lopez dice
Gracias por la información. El concepto está explicado de forma excelente; el texto, las gráficas y la estructura de la página web tiene una perfecta armonía que contribuye a la explicación. Gran trabajo.
María José Romero dice
Muchas gracias Jordi, perfectamente explicado!
Jordi Ollé dice
Gracias María! Espero te ayuden mis contenidos y uses el Boxplot 😉