Ir al contenido principal

Gestión y depósito de datos científicos: Organiza y documenta tus datos

Información sobre los datos de investigación, gestión y herramientas

Organizar

Para organizar y documentar los datos correctamente es imprescindible seguir estas pautas:

Elegir el formato adecuado
En la etapa de planificación de la investigación es importante considerar en qué formato se guardarán sus archivos. Una vez que se han seleccionado los datos, para conservarlos y garantizar un acceso abierto y usabilidad de éstos, lo conveniente es convertir los datos a formatos estándar que la mayoría de los programas sean capaces de interpretar. 

Nombres de ficheros y estructura de archivo 
Una estructura de ficheros bien organizada y coherente, archivos con nombres definidos, claros y significativos ayudan a encontrar la información de forma rápida y precisa. Es muy importante pensar bien la jerarquía, la estructura, nombres y versiones de los archivos, sobre todo cuando se trabaja en equipo. 

Almacenar los datos de forma segura
Es importante elegir la forma adecuada de almacenar los datos de investigación con los que se está trabajando en el proyecto.

Describir los datos de investigación
La descripción de los datos debe incluir información necesaria para conocer quién creó los datos o la fuente de los datos en el caso de haber sido recolectados, la tipología y formato de los datos, datos relacionados, quién los puede utilizar, cuándo pueden utilizarse. Esta documentación debe estar accesible junto con sus datos para cuando se requiera interpretarlos. Esta descripción detallada, "metadatos", es fundamental para una correcta interpretación de los datos.

Procesar y analizar los datos

El formato y el software en el que se crean y digitalizan los datos de investigación dependen habitualmente del tipo de análisis que vaya a hacer el investigador y del hardware y software disponible en el proyecto.

Para garantizar el acceso, reutilización y la preservación a largo plazo es cuna buena práctica:

  • utilizar formatos abiertos, no propietarios
  • formatos que no pierdan información al comprimirse como: wav o tiff 
  • formatos sin cifrar ni compilar

Por ello, es conveniente elegir formatos de archivos FAIR en función del tipo de datos que contiene:

  • Contenedores: TAR, GZIP, ZIP
  • Bases de datos: XML, CSV, JSON
  • Geoespacial: SHP, DBF, GeoTIFF, NetCDF
  • Video: MPEG, AVI, MXF, MKV
  • Sonido: WAVE, AIFF, MP3, MXF, FLAC
  • Estadísticas: DTA, POR, SAS, SAV
  • Imágenes: TIFF, JPEG 2000, PDF, DNG, GIF, BMP, SVG
  • Datos tabulares: CSV, TXT
  • Texto: XML, PDF / A, HTML, JSON, TXT, RTF
  • Archivo web: WARC
  • Ficheros comprimidos: no se recomienda el uso de ficheros comprimidos

Es recomendable añadir licencias de uso a los sets de datos que se generen, indicando con ello que utilización de los datos se permite. Para ello se pueden utilizar Licencias Creative Commons, Licencias Open Data Commons que son licencias específicas para datos o Public Domain Dedication and License (PDDL — “Public Domain for data/databases”) permite compartir libremente, modificar y usar este trabajo para cualquier propósito y sin ningún tipo de restricciones.

Para convertir el formato de los archivos se puede recurrir a herramientas como:

Documentar los datos

Es conveniente recopilar la siguiente información:

  • El contexto de la recopilación de datos: historia del proyecto, objetivos e hipótesis
  • Métodos de recopilación de datos: muestreo, proceso de recopilación e instrumentos usados, hardware y software utilizado, escala y resolución, cobertura temporal y geográfica y fuentes de datos secundarias utilizadas
  • Estructura de los archivos y relaciones entre sí
  • Validación de datos, verificación, limpieza y procedimientos llevados a cabo para asegurar su calidad 
  • Modificaciones realizadas en los datos a lo largo del tiempo desde su creación original y control de versiones
  • Información sobre el acceso, condiciones de uso o confidencialidad

Para garantizar que los datos pueden ser replicados de manera sencilla y rentable es imprescindible añadir un fichero readme.txt con la información necesaria para que los datos sean comprensibles y reutilizables: descripción, metodología, coberturas, derechos de uso, privacidad.
Es necesario crear un fichero readme.txt para cada conjunto de datos y depositarlo con el resto de ficheros.

Un ejemplo de plantilla para la redacción del Readme.txt es la del repositorio de datos del Consorcio Madroño, e-cienciaDatos: Plantilla Readme.txt.

Organización y nombre de los archivos

  • Los ficheros y carpetas deben organizarse de manera sistemática para revisar y eliminar periódicamente los que no interesen.
  • Es conveniente crear un máximo de dos o tres niveles de carpetas:
    • 1). Diferenciando carpetas para datos y para documentación
    • 2). Tipo de datos (texto, imagen, audio, vídeo...), actividades (entrevistas, cuestionarios...) y tipo de documentación (publicaciones, metodología...)
  • Es recomendable diferenciar los trabajos finalizados de los en curso.
  • Establecer un sistema claro para registrar los cambios y controlar las versiones identificando con números ordinales los cambios de versión mayores y decimales para cambios menores. Ej.: versión 1.2, versión 2.1...
  • Evitar el uso de etiquetas confusas como: revisión, final, final 2 o "copia definitiva".
  • Decidir cuántas versiones de un archivo y qué versiones se conservarán y durante cuánto tiempo
  • Realizar un seguimiento de la ubicación de los archivos si están almacenados en distintas ubicaciones
  • Elegir una sola ubicación para las versiones importantes o definitivas

Fuente: Grup de Treball de Recerca CSUC

Herramientas para el control de versiones:

  • Subversion (SVN): sistema centralizado en el que todos los ficheros y los datos históricos son almacenados en un repositorio central. Es de código abierto.
  • GIT: sistema distribuido en el que existe un repositorio central y copias de este repositorio en los diferentes equipos locales de los desarrolladores.

Nombre de ficheros

  • Número de versión
  • Fecha de creación
  • Nombre del creador 
  • Descripción del contenido
  • Nombre del equipo de investigación / departamento asociado con los datos
  • Fecha de publicación
  • Número del proyecto 

    Fuente: "Guía gestión de datos de investigación". Biblioteca UPO

 

Pautas a seguir:

  • Nombrar los archivos con nombres cortos y relevantes
  • No utilizar caracteres especiales: ~ ¡ ! @ # $ % ^ & * ( ) ` ; < > ¿ ? , [ ] { } ' " |
  • Usar el guion bajo, mejor que el espacio en blanco
  • Ser consistente con la nomenclatura que se escoge, mayúsculas, minúsculas, forma de las fechas, AAAA‐MM‐DD o  AAAA‐MM

Más información ukdataservice

Herramientas para renombrar ficheros: ​

Metadatos

Además de la documentación explicativa y contextual recogida en un fichero Readme txt, es necesario describir los datos para poder identificarlos y organizarlos. Esta descripción se hace a través de los metadatos, información estructurada que ayuda a entender los datos con detalle y facilita a otros investigadores encontrarlos, utilizarlos y citarlos correctamente. Se desarrollan durante todo el ciclo de vida de los datos.

Cada área de conocimiento tiene su estándar propio y sus herramientas. Un estándar de metadatos proporciona conjuntos de elementos de metadatos, que tienen un propósito específico. A cada elemento se le da un nombre y una definición, basados en reglas, sintaxis y un vocabulario controlado.