Hola mi nobre es Jaime Inigo Avalos Mongil, en este video me gustaría presentar la PEC2 de la asignatura de Visualización de Datos del Máster Universitario de Ciencia de Datos de la UOC
En primer lugar se me pidió representar un diagrama de Sankey. Este diagramas es una técnica de visualización que permite mostrar flujos. Se representan varios nodos mediante rectángulos, y sus conexiones se muestran con flechas o arcos cuyo grosor es proporcional a la importancia del flujo (Holtz & Healy, s.f.).
Normalmente, los gráficos de Sankey se utilizan para mostrar visualmente la transferencia de energía, dinero o materiales,
Los datos adecuados para esta visualización son aquellos que describen la evolucion de un sistema de un estado a otro. Estos datos representan el estado inicial de un sistema y su estado final (Holtz & Healy, s.f.).
Para esta visualizacion he utilizado unos datos de ejemplo que he encontrado en el reposotorio sankey-datasets (Micah Stubbs. (s.f.))
Esta visualización es adecuada para estos datos porque facilita entender cómo se distribuye y transforma la energía entre las distintas fuentes y usos. A la izquierda podemos ver la fuente de la energía, en el centro como se transforma y a la izquierda cómo se consume. Permite ver de un vistazo cuáles son las principales fuentes, consumidores de energía
Un defecto de este tipo de visualizaciones es que si hay demasiados nodos, también existiran muchas conexiones que se cruzan entre ellas haciendo el diagrama no entendible, como ocurre en cuerta manera en este ejemplo que he visualizado.
Holtz, Y., & Healy, C. (s.f.). Sankey Diagram. Data to Viz. https://www.data-to-viz.com/graph/sankey.html
Micah Stubbs. (s.f.). sankey-datasets [Repositorio GitHub]. https://github.com/micahstubbs/sankey-datasets
Dataviz Project. (s.f.). Sankey Diagram. https://datavizproject.com/data-type/sankey-diagram/
The Data Visualisation Catalogue. (s.f.). Diagrama de Sankey. https://datavizcatalogue.com/ES/metodos/diagrama_de_sankey.html
Un gráfico de coordenadas paralelas es una técnica de visualización que permite comparar varias variables numéricas para diferentes observaciones. Cada variable se representa como un eje vertical paralelo, y cada observación se muestra como una línea que cruza todos los ejes, facilitando la identificación de patrones, similitudes y diferencias entre los datos (Holtz & Healy, s.f.).
La desventaja, es que pueden acabar demasiado abarrotadas y, por tanto, ilegibles cuando tienen muchos datos por lo que se suelen limpiar.
Inspirado por la visualización en Viz, utilicé el dataset iris. El conjunto incluye 150 flores de las especies setosa, versicolor y virginica, y para cada una se recogen cuatro medidas numéricas. Personalmente, considero que este dataset es perfecto para este tipo de visualización porque facilita mucho comparar las características morfológicas entre especies y encontrar patrones interesantes en los datos (UCI ML Iris Dataset, s.f.). Se puede ver como las dos especies de arriba tienden a solaparse mientras que la de abajo difiere en características.
Holtz, Y., & Healy, C. (s.f.). Parallel Coordinates Plot. Data to Viz. https://www.data-to-viz.com/graph/parallel.html
UCI Machine Learning Repository. (s.f.). Iris Data Set. Kaggle. https://www.kaggle.com/datasets/uciml/iris
Dataviz Project. (s.f.). Parallel Coordinates. https://datavizproject.com/data-type/parallel-coordinates/
The Data Visualisation Catalogue. (s.f.). Gráfico de coordenadas paralelas. https://datavizcatalogue.com/ES/metodos/grafico_de_coordenadas_paralelas.html
El gráfico ridgeline (también conocidos como Joyplot) sirve para comparar cómo se distribuye una variable numérica en diferentes grupos. Lo interesante es que permiten ver varias distribuciones, como por ejemplo histogramas, a la vez, lo que facilita mucho la comparación visual entre los grupos.
Este gráfico tiene sentido cuando el número de grupos es de medio a alto, de tal manera que las curvas se solapan. Son útiles cuando existe un claro patrón entre los datos, si no las lineas tienden a solaparse entre sí creando un gráfico caótico.
Para este gráfico utilicé un dataset de kaggle de las media de temperaturas por año y por ciudad. Creo que el plot es adecuado para estos datos ya que muestran un patrón que va variando. El cambio es un poco dificil de ver ya que la variación de las temperaturas es pequeña, pero creo que se puede distinguir como, con el paso de los años, es más frecuente ver como las temperaturas altas ocurren más a menudo.
Holtz, Y., & Healy, C. (s.f.). Ridgeline Chart. Data to Viz. https://www.data-to-viz.com/graph/ridgeline.html
GlobalLandTemperaturesByCity. (s.f.). Kaggle. https://www.kaggle.com/datasets/aatithi/globallandtemperaturesbycity
Plotly Community. (2021). Ridgeline/Joy plot without transparency. https://community.plotly.com/t/ridgeline-joy-plot-without-transparency/55028


