Ir al contenido principal

Gestión y depósito de datos científicos: Refina tus datos

Información sobre los datos de investigación, gestión y herramientas

Refina tus datos

Refinado y limpieza de datos

En numerosas ocasiones, cuando trabajamos con datos abiertos es necesario hacer un trabajo limpio de revisión, refinado y limpieza de los datos, para asegurar que la calidad de los mismos es adecuada, que pueden ser procesados y que los resultados obtenidos serán verdaderos.

Existen numerosos casos posibles de datos sucios. Algunos ejemplos son:

  • Registros duplicados
  • Espacios en blanco delante o detrás del contenido
  • Errores gramaticales
  • Celdas vacías
  • Datos almacenados en campos inapropiados
  • Caracteres especiales no deseados
  • Problemas con la codificación de caracteres en distintos formatos (UTF-8, ASCII, etc)
  • Campos multivalor o valores agrupados en una celda que hay que separar

Aunque esta revisión requiere una parte de trabajo manual, existen herramientas como OpenRefine que nos pueden ayudar en este proceso.

Datos tabulares

Una de las formas más comunes de presentar los datos de investigación es la llamada matriz de datos, que presenta los datos organizados de forma tabular. Este formato se usa, puesto que su estructura es fácilmente comprensible y editable.

Los datos tabulares se presentan en tablas, normalmente en formato CSV (valores separados por comas), en las que las observaciones (1, 2, 3, etc.) se muestran en filas y las variables (estado civil, edad, nivel de estudios, etc.) en columnas (A, B, C, etc.).

Puede consultarse la Guía práctica para la publicación de datos tabulares en archivos CSV para obtener más información sobre este tipo de datos.

Datos tidy

Cuando trabajamos con datos tabulares, es importante ser consistentes en la organización de datos en filas y columnas para permitir su procesamiento computacional y su posterior compartición.

Los datos bien estructurados se conocen como datos organizados o tidy data. Los datos tidy son un concepto fundamental en la ciencia de datos, propuesto por Hadley Wickham y suponen la organización del contenido de la siguiente manera:

  • Cada variable es una columna
  • Cada observación es una fila

Este formato facilita el análisis y la visualización de datos, ya que herramientas como ggplot2, dplyr y tidyr en R están diseñadas para trabajar con datos organizados de esta manera. 

Ejemplo de datos NO tidy

País 2020 2021 2022
México 126 128 130
Brasil 211 213 215

Ejemplo de datos tidy

País Año Individuos
México 2020 126
México 2021 128
México 2022 130
Brasil 2020 211
Brasil 2021 213
Brasil 2022 215
Ejemplo de transformación a datos tidy (R)

Sobre OpenRefine

Aplicación de código abierto diseñada para la limpieza y refinado de datos, con una apariencia similar a una hoja de cálculo y de mayor facilidad en su uso que los lenguajes de programación.

Entre sus funcionalidades principales, OpenRefine destaca por permitir

  • Trabajar con conjuntos de datos muy voluminosos y realizar transformaciones potentes de manera sencilla
  • Buscar en una columna patrones, tendencias y variación de datos
  • Filtrar y agrupar datos por distintos criterios
  • Aplicar transformaciones para unir datos, transponer o dividir columnas
  • Utilizar fórmulas avanzadas
  • Normalizar y unificar datos 
  • Verificar datos disponibles en servicios web externos: VIAF, Google Maps, Wikidata…

Ejemplo de refinado con OpenRefine

Sobre R y RStudio

R es un lenguaje de programación desarrollado en código abierto orientado a la computación estadística y a la visualización de análisis de datos. Cuenta con una aplicación específica, R Studio. El lenguaje R es uno de los más usados en los campos de aprendizaje automático, minería de datos e inteligencia artificial, incluyendo áreas diversas como la investigación biomédica, el análisis estilométrico en lingüística computacional o las matemáticas financieras. R dispone numerosas herramientas de análisis estadístico de datos, y cuenta con una comunidad de programadores que contribuyen al desarrollo de librerías y herramientas específicas.

Primeros pasos con R y RStudio

En este video puedes ver cómo dar los primeros pasos con R en RStudio:

Recursos de aprendizaje

 

 

Existen numerosas herramientas para el análisis y refinado de datos. Puedes consultar la guía de herramientas de procesado y visualización de datos.

Algunas de las herramientas más utilizadas son:

  • OpenRefine. Aplicación de código abierto diseñada para el refinamiento de datos, con una apariencia similar a una hoja de cálculo. Entre sus funcionalidades principales, destaca la limpieza, la transformación y el enriquecimiento de datos.
  • Amnesia. Herramienta desarrollada por OpenAire para la anonimización de datos personales a partir de datos tabulados (ver pestaña sobre anonimización).
  • Aplicaciones basadas en código
    • R y RStudio. R es un lenguaje de programación desarrollado en código abierto orientado a la computación estadística y a la visualización de análisis de datos. Cuenta con una aplicación específica, R Studio.
    • Python. Python es un lenguaje de programación multiplataforma muy flexible. Se puede ejecutar en las terminales de código del ordenador o a través de la interfaz web Jupyter Notebooks. Al igual que R, cuenta con numerosas librerías que incluyen herramientas para la creación de visualizaciones (Matplotlib), análisis matemático de datos (NumPy o Pandas) o el procesamiento de lenguaje natural (spaCy).