<strong>Exploración gráfica de datos</strong>

Exploración gráfica de datos

.

Por: Náthaly Mondragón Franco

.

La representación gráfica de datos es una manera práctica de explorar y analizar información. Su uso es fundamental a la hora de presentar resultados, comunicar información, interpretar y tomar decisiones. Las técnicas de visualización son una herramienta poderosa que apuntan a facilitar la comprensión de una investigación ya que, sin importar la cantidad de datos que se tengan, siempre será mejor ver una representación visual de la información que ver tablas llenas de números.. Es por esto que, escoger el gráfico adecuado para visualizar la información es una tarea compleja, pues debe permitir al espectador entender el conjunto de datos por medio de una simple imagen (Anouncia, Gohel y Vairamuthu, 2020; Chen, Härdle y Unwin, 2007).

Existe una diferencia entre un gráfico para presentar información y un gráfico para explorar información, y la diferencia radica en la población objetivo Mientras que, el objetivo del primer tipo de gráficos  es normalmente  un agente externo a la investigación, en el caso del segundo tipo, la población objetivo es el mismo investigador. Es por esto que, mientras en el primer caso el objetivo será comunicar conclusiones, en el segundo es encontrar o descartar información, ver el comportamiento de los datos según uno u otro modelo, observar efectos de ajustes aplicados a las variables o a los modelos, entre muchas otras posibilidades (Chen et al, 2007). 

El uso de uno u otro tipo de gráfico para explorar datos va a depender de varios factores, por ejemplo, del tipo de variables, ya que si queremos representar variables nominales utilizaremos un gráfico de barras mientras que, para variables continuas o discretas, podemos utilizar un histograma. También podría depender del tipo de información que se quiera visualizar, para distribuciones se podría usar también un histograma, pero un diagrama de cajas o uno de violines le añadiría la ventaja de visualizar valores atípicos en aquellas distribuciones. O si la información que se quiere obtener es la relación entre los datos se puede elaborar un gráfico de dispersión o una matriz de correlaciones representada en un mapa de calor. Veamos cada uno de estos gráficos en detalle.

Gráfica de barras o Bar Plot

Este tipo de gráfica se utiliza, principalmente, cuando se tienen variables categóricas, es decir, variables cualitativas que pueden tomar un valor dentro de un rango muy limitado de valores, como, por ejemplo, el género. También se pueden utilizar para representar variables discretas, como podría ser el número de hijos de los participantes de un estudio. Normalmente, estas categorías se ubican en el eje x mientras que en el eje y se muestran los valores de una variable cuantitativa o la frecuencia de la variable cualitativa.

Tomado de: Data viz project. Disponible en: https://datavizproject.com/data-type/bar-chart/

Histograma

Este tipo de gráfico se utiliza con variables cuantitativas continuas. Los valores que pueda tomar la variable cuantitativa se deben organizar en segmentos de igual magnitud, lo que se conoce como bins. Esta segmentación debe hacerse de manera que todos tengan la misma amplitud en el gráfico. Este gráfico debe interpretarse en función de las áreas de los rectángulos que se forman en cada bin, ya que estas serán proporcionales a la frecuencia de cada uno de los bins. Si la segmentación se ha hecho con cuidado y se tiene la misma amplitud para todos, la altura de los rectángulos también será proporcional a su frecuencia. 

Al explorar datos, un primer ejercicio que se puede hacer es cambiar la amplitud de los bins para comparar distribuciones. Una de las grandes ventajas de este gráfico es que permite observar y analizar la distribución de los datos para saber si tienen una distribución normal, si está sesgada, si los datos tienen una desviación amplia, entre otros aspectos. La principal desventaja del histograma es que no permite conocer, a primera vista, los datos atípicos.

Tomado de: Data viz project. Disponible en https://datavizproject.com/data-type/histogram/

Diagrama de cajas o Box Plot

Un gráfico que permite visualizar la distribución de una variable continua junto con los valores atípicos es el diagrama de cajas, también conocido como Boxplot o diagrama de cajas y bigotes. Normalmente, el diagrama de cajas se representa de manera vertical, teniendo en el eje y los valores de la variable.

Tomado de: Data viz project. Disponible en: https://datavizproject.com/data-type/box-plot/

La caja que se muestra en el diagrama es el conjunto de datos que se encuentran en el rango intercuartílico, es decir, los valores comprendidos entre el percentil 25 y 75. Dentro de la caja se muestra una línea que representa la mediana, el centro de la distribución, y así se puede visualizar si la distribución se encuentra sesgada o no en función de su mediana. Las líneas que salen de la caja se conocen como bigotes y se extienden hasta los extremos de la distribución. Entre más alejados se encuentren estos segmentos de la gráfica, la dispersión de los datos será mayor. Los valores que se consideran atípicos se mostrarán como puntos en el gráfico.

Explicación del gráfico de cajas y bigotes. Elaboración propia.

Diagrama de violines o Violin plot

Los diagramas de violines son similares a los diagramas de cajas con la particularidad de que muestran la densidad de la distribución de los datos en diferentes valores de la variable. La forma se hace más ancha conforme haya más datos en ese valor de la variable. También existe la posibilidad de visualizar un diagrama de cajas dentro del diagrama de violines representando así mayor cantidad de información. 

Tomado de: Data viz project. Disponible en: https://datavizproject.com/data-type/violin-plot/

Explicación del gráfico de violín. Elaboración propia

Gráfico de dispersión o Scatterplot

Esta representación visual de la información es utilizada para mostrar la covariación entre dos variables continuas. Por medio de este gráfico se puede saber si existen o no relaciones entre las variables. En cada uno de los ejes se tendrá cada variable que se pretende analizar y los puntos que se muestran en el gráfico representan los datos tal como se ubicarían coordenadas en un plano cartesiano. 

Se debe prestar atención cuando los conjuntos de datos con los que se trabajan son muy grandes pues los puntos del gráfico podrían sobreponerse y generar áreas que no permitan una buena visualización. La distribución y orientación de los puntos en el gráfico puede dar un primer indicio de una correlación entre las variables.

Tomado de: Data viz project. Disponible en: https://datavizproject.com/data-type/scatter-plot/

Mapa de calor

Las matrices de correlaciones son necesarias al estudiar las relaciones entre cada par de variables en cualquier análisis multivariado. Una gran cantidad de variables podría dificultar la visualización de las correlaciones dentro de la matriz. Una manera eficiente de representar esa matriz es por medio de un mapa de calor. Este gráfico se mostrará como una rejilla, igual que una matriz de correlación, con la diferencia de que se le agrega color a cada índice de correlación entre las variables. Cuando existen correlaciones negativas entre las variables el gráfico representará las positivas de un color y las negativas de otro. Así entonces, la diagonal del gráfico, la cual representa las correlaciones entre las mismas variables (índices de correlación iguales a 1) se mostrará con el color más fuerte. A medida que la magnitud disminuya, el tono del color también cambiará. Los tonos más claros indicarán las correlaciones más débiles y los más intensos, las correlaciones más fuertes.

Tomado de: Data viz project. Disponible en: https://datavizproject.com/data-type/heat-map/

Hasta aquí se han mostrado  diferentes maneras de explorar los datos por medio de representaciones gráficas de los mismos. Sin embargo, esto es solo un brochazo de todas las formas posibles que hay. Si el lector está interesado puede consultar con mayor profundidad las referencias y bibliografía ofrecidas, que hacen énfasis en la obtención de gráficos en el lenguaje Python. Adicionalmente, otros blogs de esta misma sección tratan diversos temas respecto al análisis preliminar de datos como el tratamiento de outliers y la limpieza de bases de datos.

Referencias

Anouncia, S. M., Gohel, H. A., & Vairamuthu, S. (2020). Data Visualization. Springer Verlag, Singapore.

Bologna, E. (2013). Estadística para psicología y educación. Editorial Brujas.

Chen, C. H., Härdle, W. K., & Unwin, A. (Eds.). (2007). Handbook of data visualization. Springer Science & Business Media.

Data viz project. (s. f.). Recuperado el 27 de septiembre de 2022 de https://datavizproject.com/

Add Comment

Your email address will not be published. Required fields are marked *