Ir al contenido principal

Ciencia abierta y ciencia ciudadana: Datos, protocolos y metodologías

Guía sobre ciencia abierta y ciencia ciudadana y los recursos de la biblioteca de la UNED

Datos, protocolos, metodologías, software y código

En el ámbito de esta guía, se utilizará el término datos con una acepción genérica que incluya protocolos y metodologías, así como los códigos y software resultantes del proceso investigador, en línea con las recomendaciones de la ENCA. Consulta la guía Gestión y depósito de datos científicos para más información.

Recomendado

Ayuda de la biblioteca

Para cualquier duda contacta con:

apoyoinvestigacionbib@adm.uned.es

Datos de investigación

Datos FAIR

Los principios FAIR son un conjunto de directrices a tener en cuenta para que los datos sean:

  • Localizables (Findable): asignando un identificador único y persistente DOI o handle, describiendo los datos con metadatos enriquecidos, incluyendo el identificador asignado e indexándolos en un recurso de búsqueda.
  • Accesibles (Accesible): usando protocolos estandarizados de comunicación que sean abiertos y gratuitos. Incluso cuando los datos no estén disponibles por motivos de privacidad, seguridad nacional o intereses comerciales deben contar con metadatos accesibles. El protocolo debe permitir procedimientos para la autentificación y la autorización. 
  • Interoperables (Interoperable): eligiendo metadatos, vocabularios, formatos  y metodologías estándar y que contengan enlaces a información relacionada mediante identificadores que permitan el intercambio entre investigadores e instituciones. 
  • Reutilizables (Re-Usable): asignando metadatos con atributos que proporcionen información contextual y metadatos de información sobre su procedencia. Deen utilizar  licencias de uso abiertas y legibles por ordenador que permitan su reutilización. 

File:FAIR data principles.jpg

Fuente: Wikidata

Datos abiertos

Los datos se definen como abiertos cuando se pueden utilizar libremente, modificar y compartir por cualquiera para cualquier propósito, incluyendo la creación de un bien común en el que cualquiera puede participar. La única condición que se exige es la de citar la autoría de los mismos, y en su caso, el requerimiento de atribución y de compartirse de la misma manera en que aparecen.

Los datos abiertos se caracterizan por: 

  • Disponibilidad y acceso: la información debe estar disponible para su consulta. 
  • Reutilización y distribución: los datos deben poder reutilizarse y redistribuirse.
  • Universalidad: accesible a todo el mundo. 
  • Publicar los datos de investigación en abierto permite garantizar el acceso de forma libre y universal a los mismos, así como su correcta preservación, explotación, reproducción, difusión, visibilidad e impacto.

Con los datos abiertos se obtienen importantes beneficios como: 

  • Aportar transparencia a los procesos de investigación al facilitar la reproducción y validación de los experimentos e indagaciones realizadas. 
  • Promover y mejorar la investigación y la comprobación de la recogida y medición de datos a través del intercambio y la diversidad de análisis y opiniones.
  • Mejorar la gestión y conservación de los datos, minimizando el riesgo de pérdida, en redes de repositorios a nivel internacional.
  • Potenciar la visibilidad, repercusión y prestigio de los investigadores y sus proyectos
  • Incrementar la eficiencia, reduciendo costes, y la colaboración en la investigación para estimular la productividad científica e industrial. 
  • Garantizar el cumplimiento de los requisitos de los organismos financiadores y la inversión realizada.

Se trata de una tendencia que se enmarca dentro de los movimientos generales hacia la ciencia abierta (Open Science) y a favor de los Datos Abiertos y la transparencia del sector público y el gobierno. 

Datos restringidos

Datos abiertos: Tan abiertos como sea posible, tan cerrados como sea necesario
Los principales organismos financiadores europeos, así como cada vez más editoriales exigen el depósito de los datos de investigación asociados a publicaciones, necesarios para asegurar la replicabilidad de la investigación. Además, se recomienda el depósito en abierto para que los datos puedan ser reutilizados.

El acceso abierto a los datos puede quedar exenta de cumplimiento si los investigadores argumentan por motivos de seguridad, privacidad, confidencialidad, propiedad industrial u otra causa justificable, su imposibilidad de hacerlo. En este caso, el coordinador debe reflejarlo en el plan de gestión de datos.

¿Qué es un PGD?

El Plan de Gestión de Datos (PGD) –Data Management Plan (DMP)-  es un documento elaborado por el grupo de investigación, que describe el ciclo de vida de los datos recopilados, generados y procesados durante el proyecto. Detalla aspectos sobre la recolección o creación, descripción del proyecto, metodología y estándares empleados, organización, documentación, preservación de los datos y repositorio en el que se van a depositar, etc. Esta información puede modificarse en el transcurso del proyecto si hay cambios significativos.

Un modelo es la plantilla del Plan de Gestión de Datos de Digital  Curation Center (DCC) donde se recoge la siguiente información:

  • Información administrativa: identificador del centro, financiador, número de identificación de la financiación, nombre del proyecto, descripción, IP, identificador Orcid del IP, fecha de la primera versión, etc.
  • Descripción de los datos: tipología, volumen, formatos, estructura de los archivos y gestión de las versiones
  • Documentación y metadatos que acompañarán a los datos
  • Requisitos legales y éticos: consentimiento de las personas implicadas, protección de la identidad, tratamiento de los datos sensibles y gestión de derechos de propiedad intelectual
  • Almacenamiento y copias de seguridad: control de acceso a los colaboradores y gestión de las copias de seguridad
  • Selección y preservación: qué datos y cómo serán conservados, dónde se preservarán y restricciones en el intercambio de datos
  • Compartir los datos: bajo qué condiciones se compartirán, cómo encontrarán los usuarios los datos, cuándo estarán disponibles, cóm obtendrán un identificador persistente, etc.
  • Responsabilidades y recursos: asignación de responsabilidades, costes asociados al acceso abierto de los datos, ya que son elegibles para su reembolso durante el periodo del proyecto

undefined

PGDOnline

El Consorcio Madroño ofrece la herramienta PGDOnline para ayudarte en el proceso de creación de tu Plan de Gestión de Datos.

El  plan de gestión de datos (PGD)  describe cómo recopilará, organizará, analizará, conservará y compartirá los datos del proyecto de investigación. Garantiza que cumpla con los requisitos de los financiadores.

Para cualquier duda contacta con repositoriobiblioteca@adm.uned.es 

Otras herramientas
  • Argos: es un servicio desarrollado por OpenAire que simplifica la gestión, validación, monitorización y mantenimiento de los Plan de Gestión de Datos. Permite a los participantes (investigadores, gestores, supervisores, etc) crear un PGDs visible que puede ser compartido libremente entre distintas infraestructuras para llevar a cabo aspectos específicos del proceso de Gestión de Datos de acuerdo con los propósitos y el compromiso de los propietarios de los datos.
  • PGDOnline: Adaptada y traducida al español por el Consorcio Madroño a partir de la herramienta Argos, desarrollada por OpenAIRE. Dispone de una plantilla para proyectos de Horizonte Europa y otra adaptada a convocatorias nacionales. Ayuda a redactar, compartir y exportar un plan de gestión de datos a través de un cuestionario con mucha información prerrellanada que no te obliga a partir de cero. Si eres PDI de la UNED, te recomendamos que la utilices.
  •  En el portal INVESTIGAM-PaGoDa  puedes consultar recursos útiles y material de apoyo para redactar el plan.
  • DMP Online: diseñada por el Digital Curation Center para crear paso a paso un PGD.
  • DMPTool: creada por la Universidad de California.No dispone de plantilla que cumplan con los requerimientos de Horizonte Europa.

De interés: 

 Ejemplos de Planes de Gestión de Datos:

Plantillas:

Horizonte Europa y PGD

Los proyectos de investigación financiados por el Programa Horizonte Europa (2021-2027), Programa Marco de Investigación e Innovación de la Comisión Europea, que generen o reutilicen datos, están obligados a cumplir con los siguientes requisitos: 

  • Elaborar un plan de gestión de datos dentro de los 6 primeros meses del proyecto 

  • Realizar una gestión responsable de los datos de la investigación de acuerdo con los principios FAIR. 

  • Garantizar el acceso abierto a los datos de investigación, según el principio “tan abierto como sea posible, tan cerrado como sea necesario”, depositando los datos en un repositorio de confianza (los repositorios institucionales cumplen este requisito; en el caso de la UNED, el depósito de datos se hace en e-CienciaDatos) bajo una licencia Creative Commons (CC BY), de dominio público (CC0) o equivalente. 

  • Si no se proporciona acceso abierto (a algunos o a todos los datos) por motivos de seguridad, privacidad, confidencialidad, propiedad industrial u otra causa justificable, deberá consignarse en el plan de gestión de datos (Horizon Europe Model Grant Agreement)

  • Aunque haya datos cerrados, los metadatos de los datos depositados deben estar en abierto:  Creative Commons CC0 o CC-BY 

e-cienciaDatos

La biblioteca de la UNED gestiona, de manera consorciada, el repositorio de datos e-cienciaDatos. El repositorio, basado en el software libre Dataverse, cuenta con el sello de calidad CoreTrustSeal y cumple los requisitos de la Comisión Europea para ser considerado como un repositorio de confianza FAIR.  

El depósito en e-cienciaDatos asegura el cumplimiento del mandato de la Ley 09/2022 de la Ciencia, la Tecnología y la Innovación (LCTI), y de diferentes programas de financiación como Horizonte Europa. 

Depósito en e-cienciaDatos

Para depositar un conjunto de datos en e-cienciaDatos, si no dispones de una cuenta de usuario en e-SpacioDatosUNED es necesario solicitarla a: repositoriobiblioteca@adm.uned.es 

El depósito debe realizarlo el propio investigador/a mediante autoarchivo, que será revisado y validado por un equipo de la Biblioteca de la UNED previamente a su publicación final.  

Una vez publicado, se activará el DOI de tu dataset y recibirás un correo de confirmación.

Para hacer el autoarchivo necesitarás: 

  • Conjunto de datos finales (limpios, anonimizados, organizados, etc.).  

¿Qué datos hay que depositar?

Según la LCTI, el personal investigador cuya actividad investigadora esté financiada mayoritariamente con fondos públicos debe depositar una copia de sus publicaciones científicas en un repositorio institucional y, de manera paralela, los datos de investigación asociados a estas publicaciones deberán estar depositados en un repositorio de datos.

La Ley Orgánica 2/2023, de 22 de marzo, del Sistema Universitario (LOSU) se alinea con este mandato y, además, en el artículo 12, define datos como “aquellas fuentes primarias necesarias para validar los resultados de las investigaciones”, una definición amplia que incluye datos tales como conjuntos de datos tabulares, respuestas a entrevistas o encuestas, imágenes, grabaciones o transcripciones y, en definitiva, todas las tipologías de datos recolectados o analizados durante el proceso de investigación.   

Además, los datos deberán cumplir los principios FAIR, para asegurar que los datos sean fáciles de encontrar, accesibles, interoperables y reutilizables.

Los datos de investigación pueden ser de diferentes tipologías y formatos. Pueden incluir datos numéricos y textuales, ser cuantitativos o cualitativos, etc.

Algunos ejemplos de datos de investigación mencionados en la Estrategia Nacional de Ciencia Abierta (ENCA, 2022):

  • Resultados de experimentos
  • Mediciones
  • Observaciones resultantes del trabajo de campo
  • Resultados de encuestas
  • Grabaciones de muestras físicas
  • Documentación
  • Código
  • Configuraciones de instrumentación
  • Estadísticas
  • Imágenes
¿Qué son los datos finales?

El conjunto de datos a depositar ha de ser la versión final de los datos asociados a la publicación, es decir, el conjunto incluye todos los datos que se han usado en la investigación y permite replicar los resultados.  

Para preparar el conjunto de datos es recomendable tener en cuenta las siguientes indicaciones: 

  • Limpieza de datos. Los datos han sido refinados y limpiados (si son datos tabulares se recomienda usar el formato tidy).  

  • Anonimización de datos. Si resulta necesario, los datos sensibles han sido anonimizados o pseudonimizados.  

  • Organización de los archivos. Los archivos han de estar estructurados y nombrados de manera lógica. 

  • Formatos abiertos no propietarios: TXT, CSV, PNG, etc.  

  • Documentación. Los datos deben ir acompañados de toda la documentación necesaria que facilite la interpretación y replicabilidad de los análisis. Ejemplos: archivo readme.txt, diccionario de datos, lista de entrevistas, guías de encuestas, etc. 

  • Metadatos. Para la descripción de los conjuntos de datos, los repositorios usan el esquema Dublin Core Metadata Initiative (DCMI), pero se recomienda el uso de esquemas de metadatos adicionales especializados en cada disciplina. 

¿Cómo cumplir con los principios FAIR?

Los principios FAIR son una serie de principios exigidos por financiadores y agencias evaluadoras, que facilita que los datos que depositamos en el repositorio sean fáciles de encontrar, accesibles, interoperables y reutilizables. Es decir, los principios FAIR aseguran que las investigaciones sean replicables y que los datos recolectados para una investigación puedan usarse también en otros proyectos. 

Algunas de las medidas necesarias para asegurar el cumplimiento de los principios son: 

  • Fáciles de encontrar: 

  • El conjunto de datos tiene un identificador persistente, como DOI o handle.  

  • El conjunto de datos tiene los metadatos necesarios para su localización y uso.  

  • Accesibles: 

  • El conjunto de datos está depositado en un repositorio de datos. 

  • El conjunto de datos está lo más abierto posible. 

  • Los metadatos del conjunto de datos tienen una licencia CC-0. 

  • Interoperables: 

  • El conjunto de datos sigue estándares y normas. 

  • El conjunto de datos usa formatos abiertos. 

  • Reutilizables: 

  • El conjunto de datos está bien documentado, con archivos readme, diccionarios de datos, etc. 

  • El conjunto de datos tiene una licencia clara, y preferiblemente, CC-0 o CC.BY. 

El depósito en e-cienciaDatos garantiza de manera automática el cumplimiento de varias de las medidas necesarias para que nuestro conjunto de datos sea FAIR, ya que asegura la asignación de un DOI, la descripción con metadatos DCMI –incluyendo una licencia Creative Commons–, y la documentación a través de un archivo readme. Los autores deberán asegurar el uso de estándares reconocidos específicos del área, utilizar formatos abiertos, y la documentar de manera prolija el conjunto para completar el cumplimiento de los principios. 

Materiales de apoyo

Existen numerosas herramientas para el análisis, refinado y visualización de datos. Puedes consultar la guía de herramientas de procesado y visualización de datos.

Algunas de las herramientas más utilizadas son:

  • OpenRefine. Aplicación de código abierto diseñada para el refinamiento de datos, con una apariencia similar a una hoja de cálculo. Entre sus funcionalidades principales, destaca la limpieza, la transformación y el enriquecimiento de datos.
  • Amnesia. Herramienta desarrollada por OpenAire para la anonimización de datos personales a partir de datos tabulados (ver pestaña sobre anonimización).
  • Aplicaciones basadas en código
    • R y RStudio. R es un lenguaje de programación desarrollado en código abierto orientado a la computación estadística y a la visualización de análisis de datos. Cuenta con una aplicación específica, R Studio.
    • Python. Python es un lenguaje de programación multiplataforma muy flexible. Se puede ejecutar en las terminales de código del ordenador o a través de la interfaz web Jupyter Notebooks. Al igual que R, cuenta con numerosas librerías que incluyen herramientas para la creación de visualizaciones (Matplotlib), análisis matemático de datos (NumPy o Pandas) o el procesamiento de lenguaje natural (spaCy).
  • Aplicaciones de Business Intelligence
    • Tableau. Herramienta de Bussiness Intelligence y visualización de datos mediante gráficos y cuadros de mando. Es una herramienta de software propietario y cuenta con una versión gratuita (Tableau Public) y otra de pago con más funcionalidades (Tableau Desktop). La versión gratuita exige la publicación de los resultados en su página web, por lo que es necesario anonimizar cualquier dato sensible antes de trabajar en esta aplicación.
  • Sistemas de información geográfica
    • QGIS. Sistema de información geográfica de software libre y código abierto. Ofrece funcionalidades similares a ArcGIS pero tiene una interfaz algo menos intuitiva, aunque cuenta con documentación de uso.
    • ArcGIS. Herramienta para tratamiento y análisis de datos geográficos y creación de mapas. Es una herramienta de software propietario y cuenta con una versión gratuita (ArcGIS Online) y otra de pago con más funcionalidades (ArcGIS Pro). ArcGIS Online está basada en la nube. En su página pueden encontrarse numerosos recursos de formación.