El Programa de Doctorado en Ciencias Agrarias y Ambientales organiza el curso «Visualización de datos avanzada con R». Esta actividad está financiada en la convocatoria de ayudas del Vicerrectorado de Política Científica a los programas de doctorado de la UCLM para la organización de actividades formativas complementarias.

El curso se imparte del 11 al 22 de noviembre y tiene un cupo de asistentes de 25 estudiantes, que se matricularán por orden de recepción, enviando un mensaje a Daniel.moya@uclm.es con los siguientes datos:

  • NOMBRE Y APELLIDOS
  • EMAIL CORPORATIVO UCLM
  • CENTRO DE TRABAJO

Descripción del curso:

En las tareas de análisis de datos que necesariamente se realizan en cualquier investigación, el análisis exploratorio es una de las partes más importantes. Dentro del análisis exploratorio, la visualización de datos es la herramienta más potente para una variedad de propósitos, como:

  1. La depuración de datos. La “ingesta”, limpieza y depuración de datos puede llevar el 80% del tiempo de un analista. Las herramientas de visualización son fundamentales para identificar y representar valores atípicos (outliers), valores faltantes (missing data) y un sinfín de patrones que pueden ser útiles para esa depuración, limpieza y corrección.
  2. La identificación de patrones y modelos. Las relaciones entre variables para ajustar modelos de regresión y clasificación, las comparaciones entre grupos, y en general cualquier método de inferencia o predicción, debe estar apoyado por potentes visualizaciones gráficas de los datos. En ocasiones, estas visualizaciones marcan el camino de la investigación.
  3. La presentación de resultados. El resultado final de la investigación ha de verse publicado, tanto en la tesis doctoral como en publicaciones científicas especializadas. Una correcta visualización de datos mejorará la calidad de este resultado final.

El análisis exploratorio y la visualización de datos se suele tratar de forma sucinta en cualquier programa de formación en estadística o en software estadístico. No obstante, es un tema suficientemente amplio e importante como para dedicarle especial atención en la formación de los investigadores, de forma que puedan decidir con solvencia qué representaciones son más adecuadas según los datos disponibles y cómo generar esas visualizaciones con software especializado y potente. Además, los estudiantes de doctorado deben conocer entornos avanzados de gráficos como representación espacial en mapas, gráficos con animaciones o gráficos interactivos.

En este curso se tratarán todos estos temas utilizando el software estadístico y lenguaje de programación R. Partiremos de una explicación pormenorizada de los componentes de un gráfico, y los tipos de gráficos más comunes utilizando el potente paquete {ggplot2}. Con este mismo paquete y algunas extensiones del mismo, aprenderemos a visualizar una gran cantidad de variables utilizando diversos recursos gráficos, como las “facetas”. A continuación, exploraremos diversas formas de representar datos georeferenciados, incluyendo el paquete {leaflet}. Aprenderemos a crear gráficos animados para representar datos temporales, así como algunos tipos de gráficos innovadores (como los waffle charts). Finalmente, crearemos gráficos interactivos para explorar en el navegador con librerías como {plotly} o {highchart}.

Se asume que los asistentes tienen formación previa en estadística y del uso del software estadístico R y del interfaz R Studio.

El curso se impartirá por parte de miembros del Data Science Laboratory (DSLAB). El DSLAB (http://www.datasciencelab.es) está integrado en el Centro de Investigación para las Tecnologías Inteligentes de la Información y sus Aplicaciones de la Universidad Rey Juan Carlos. EL DSLAB realiza actividades de investigación y transferencia, incluyendo cursos en empresas e instituciones públicas sobre herramientas estadísticas y computacionales avanzadas. El DSLAB asignará el profesorado experto en estadística de entre sus miembros.

Contenido:

  1. Importancia y elementos de los gráficos
  2. El paquete ggplot2 de R en el contexto del tidyverse
  3. Visualización de una variable
  4. Visualización de varias variables conjuntamente
  5. Personalización de gráficos: temas y paletas de colores
  6. Anotaciones y otros añadidos a los gráficos
  7. Visualización de datos georeferenciados
  8. Animaciones de gráficos
  9. Algunos gráficos innovadores
  10. Gráficos interactivos

Interés de la actividad:

  • Aprender técnicas avanzadas de visualización de datos multivariante
  • Aprender a personalizar los gráficos para obtener gráficos de alta calidad para publicaciones
  • Ser capaces de representar datos espacio temporales con las herramientas más modernas,
  • Añadir interactividad a a los gráficos para presentaciones de resultados innovadoras

Fechas de realización:

Duración total del curso: 15 h, repartidas en 7 sesiones de dos horas más una breve sesión introductoria:

  • Sesión introductoria (online a demanda de estudiante): Pruebas de conexión y resolución de dudas técnicas. Envío de información para instalación del software. Configuración y resolución de dudas
  • JUEVES 11 NOVIEMBRE (12:00-14:00 h y 18:00 a 20:00): Visualización univariante y multivariante. Opciones avanzadas.
  • LUNES 15 NOVIEMBRE (12:00-14:00 h y 18:00 a 20:00): Visualización de datos georeferenciados
  • MIERCOLES 17 NOVIEMBRE (12:00-14:00 h y 18:00 a 20:00): Animaciones, interactividad y gráficos innovadores
  • LUNES 22 NOVIEMBRE (18:00 a 20:00): Trabajo síncrono de los asistentes sobre un problema propuesto o sus propios datos. Los profesores resolverán dudas y explicarán por separado individualmente o en grupo a los asistentes en salas separadas de Teams en las que podrán compartir sus pantallas.