Ir al contenido principal

Gestión y depósito de datos científicos: Documenta tus datos

Información sobre los datos de investigación, gestión y herramientas

¿Qué es la documentación de los datos?

La documentación de los datos se refiere al proceso de describir, estructurar y contextualizar los datos de investigación para que sean comprensibles, reutilizables y verificables por otros científicos.

Esto incluye metadatos, diccionarios de datos, procedimientos de recopilación y procesamiento, así como licencias de uso.

La documentación garantiza la transparencia, reproducibilidad y accesibilidad de los datos, facilitando su reutilización en futuras investigaciones y promoviendo la colaboración científica. Además, mejora la calidad de la investigación y maximiza el impacto del conocimiento generado.

Documenta tus datos

Documenta tus datos

Es conveniente recopilar la siguiente información:

  • El contexto de la recopilación de datos: historia del proyecto, objetivos e hipótesis
  • Métodos de recopilación de datos: muestreo, proceso de recopilación e instrumentos usados, hardware y software utilizado, escala y resolución, cobertura temporal y geográfica y fuentes de datos secundarias utilizadas
  • Estructura de los archivos y relaciones entre sí
  • Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad 
  • Modificaciones realizadas en los datos a lo largo del tiempo desde su creación original y control de versiones
  • Información sobre el acceso, condiciones de uso o confidencialidad

Para garantizar que los datos pueden ser replicados de manera sencilla y rentable es imprescindible añadir un fichero readme.txt con la información necesaria para que los datos sean comprensibles y reutilizables: descripción, metodología, coberturas, derechos de uso, privacidad.
Es necesario crear un fichero readme.txt para cada conjunto de datos y depositarlo con el resto de ficheros.

Archivo readme

Un archivo readme es un fichero que describe un conjunto de datos. Es el archivo mínimo para documentar un conjunto de datos. Normalmente tiene formato TXT.

Los archivos readme permiten la interpretación y utilización de los datos, y se deposita junto a los datos en un repositorio como e-cienciaDatos.

Es recomendable crearlo al comienzo del proyecto e ir actualizándolo.

Los archivos readme contienen información sobre:

  • Metadatos básicos del conjunto
  • Ddatos de autoría, 
  • Información adicional sobre el conjunto de datos
  • Derechos de uso y privacidad
  • Descripción de los datos y ficheros

El consorcio Madroño ofrece una plantilla en español e inglés.isciplina.

Diccionario de datos

Un diccionario de datos es un documento que describe en detalle la estructura, características y uso de los datos dentro de un conjunto de datos. Sirve como una guía para las personas usuarias, desarrolladoras y administradoras de bases de datos, facilitando la comprensión y gestión de los datos.

Elementos clave de un diccionario de datos:

  • Nombre del campo: Identificador único de cada dato.
  • Tipo de dato: Indica si es texto, número, fecha, booleano, etc.
  • Tamaño: Define la cantidad máxima de caracteres o espacio que ocupa el dato.
  • Descripción: Explicación sobre la finalidad y uso del dato.
  • Restricciones y reglas: Incluye claves primarias, foráneas, valores permitidos, etc.
  • Fuente del dato: Origen del dato en caso de que se importe de otro sistema.
  • Relaciones: Cómo se vincula con otros datos dentro del sistema.

Ejemplos de diccionarios de datos:

Metadatos

Además de la documentación explicativa y contextual recogida en un fichero Readme txt, es necesario describir los datos para poder identificarlos y organizarlos. Esta descripción se hace a través de los metadatos, información estructurada que ayuda a entender los datos con detalle y facilita a otros investigadores encontrarlos, utilizarlos y citarlos correctamente. Se desarrollan durante todo el ciclo de vida de los datos.

Cada área de conocimiento tiene su estándar propio y sus herramientas. Un estándar de metadatos proporciona conjuntos de elementos de metadatos, que tienen un propósito específico. A cada elemento se le da un nombre y una definición, basados en reglas, sintaxis y un vocabulario controlado.