En numerosas ocasiones, cuando trabajamos con datos abiertos es necesario hacer un trabajo limpio de revisión, refinado y limpieza de los datos, para asegurar que la calidad de los mismos es adecuada, que pueden ser procesados y que los resultados obtenidos serán verdaderos.
Existen numerosos casos posibles de datos sucios. Algunos ejemplos son:
Aunque esta revisión requiere una parte de trabajo manual, existen herramientas como OpenRefine que nos pueden ayudar en este proceso.
Una de las formas más comunes de presentar los datos de investigación es la llamada matriz de datos, que presenta los datos organizados de forma tabular. Este formato se usa, puesto que su estructura es fácilmente comprensible y editable.
Los datos tabulares se presentan en tablas, normalmente en formato CSV (valores separados por comas), en las que las observaciones (1, 2, 3, etc.) se muestran en filas y las variables (estado civil, edad, nivel de estudios, etc.) en columnas (A, B, C, etc.).
Puede consultarse la Guía práctica para la publicación de datos tabulares en archivos CSV para obtener más información sobre este tipo de datos.
Cuando trabajamos con datos tabulares, es importante ser consistentes en la organización de datos en filas y columnas para permitir su procesamiento computacional y su posterior compartición.
Los datos bien estructurados se conocen como datos organizados o tidy data. Los datos tidy son un concepto fundamental en la ciencia de datos, propuesto por Hadley Wickham y suponen la organización del contenido de la siguiente manera:
Este formato facilita el análisis y la visualización de datos, ya que herramientas como ggplot2, dplyr y tidyr en R están diseñadas para trabajar con datos organizados de esta manera.
Ejemplo de datos NO tidy
País | 2020 | 2021 | 2022 |
México | 126 | 128 | 130 |
Brasil | 211 | 213 | 215 |
Ejemplo de datos tidy
País | Año | Individuos |
México | 2020 | 126 |
México | 2021 | 128 |
México | 2022 | 130 |
Brasil | 2020 | 211 |
Brasil | 2021 | 213 |
Brasil | 2022 | 215 |
Aplicación de código abierto diseñada para la limpieza y refinado de datos, con una apariencia similar a una hoja de cálculo y de mayor facilidad en su uso que los lenguajes de programación.
Entre sus funcionalidades principales, OpenRefine destaca por permitir
R es un lenguaje de programación desarrollado en código abierto orientado a la computación estadística y a la visualización de análisis de datos. Cuenta con una aplicación específica, R Studio. El lenguaje R es uno de los más usados en los campos de aprendizaje automático, minería de datos e inteligencia artificial, incluyendo áreas diversas como la investigación biomédica, el análisis estilométrico en lingüística computacional o las matemáticas financieras. R dispone numerosas herramientas de análisis estadístico de datos, y cuenta con una comunidad de programadores que contribuyen al desarrollo de librerías y herramientas específicas.
En este video puedes ver cómo dar los primeros pasos con R en RStudio:
Existen numerosas herramientas para el análisis y refinado de datos. Puedes consultar la guía de herramientas de procesado y visualización de datos.
Algunas de las herramientas más utilizadas son: