En el ámbito de esta guía, se utilizará el término datos con una acepción genérica que incluya protocolos y metodologías, así como los códigos y software resultantes del proceso investigador, en línea con las recomendaciones de la ENCA. Consulta la guía Gestión y depósito de datos científicos para más información.
Consulta la guía: Gestión y depósito de datos científicos
Para cualquier duda contacta con:
Los principios FAIR son un conjunto de directrices a tener en cuenta para que los datos sean:
Fuente: Wikidata
Los datos se definen como abiertos cuando se pueden utilizar libremente, modificar y compartir por cualquiera para cualquier propósito, incluyendo la creación de un bien común en el que cualquiera puede participar. La única condición que se exige es la de citar la autoría de los mismos, y en su caso, el requerimiento de atribución y de compartirse de la misma manera en que aparecen.
Los datos abiertos se caracterizan por:
Con los datos abiertos se obtienen importantes beneficios como:
Se trata de una tendencia que se enmarca dentro de los movimientos generales hacia la ciencia abierta (Open Science) y a favor de los Datos Abiertos y la transparencia del sector público y el gobierno.
Datos abiertos: Tan abiertos como sea posible, tan cerrados como sea necesario
Los principales organismos financiadores europeos, así como cada vez más editoriales exigen el depósito de los datos de investigación asociados a publicaciones, necesarios para asegurar la replicabilidad de la investigación. Además, se recomienda el depósito en abierto para que los datos puedan ser reutilizados.
El acceso abierto a los datos puede quedar exenta de cumplimiento si los investigadores argumentan por motivos de seguridad, privacidad, confidencialidad, propiedad industrial u otra causa justificable, su imposibilidad de hacerlo. En este caso, el coordinador debe reflejarlo en el plan de gestión de datos.
El Plan de Gestión de Datos (PGD) –Data Management Plan (DMP)- es un documento elaborado por el grupo de investigación, que describe el ciclo de vida de los datos recopilados, generados y procesados durante el proyecto. Detalla aspectos sobre la recolección o creación, descripción del proyecto, metodología y estándares empleados, organización, documentación, preservación de los datos y repositorio en el que se van a depositar, etc. Esta información puede modificarse en el transcurso del proyecto si hay cambios significativos.
Un modelo es la plantilla del Plan de Gestión de Datos de Digital Curation Center (DCC) donde se recoge la siguiente información:
El Consorcio Madroño ofrece la herramienta PGDOnline para ayudarte en el proceso de creación de tu Plan de Gestión de Datos.
El plan de gestión de datos (PGD) describe cómo recopilará, organizará, analizará, conservará y compartirá los datos del proyecto de investigación. Garantiza que cumpla con los requisitos de los financiadores.
Para cualquier duda contacta con repositoriobiblioteca@adm.uned.es
De interés:
Preguntas frecuentes en materia de gestión de datos y Plan de gestión de datos para la convocatoria Proyectos de generación del Conocimiento 2024 del Ministerio de Ciencia e innovación.
Ejemplos de Planes de Gestión de Datos:
Plantillas:
Los proyectos de investigación financiados por el Programa Horizonte Europa (2021-2027), Programa Marco de Investigación e Innovación de la Comisión Europea, que generen o reutilicen datos, están obligados a cumplir con los siguientes requisitos:
Elaborar un plan de gestión de datos dentro de los 6 primeros meses del proyecto
Realizar una gestión responsable de los datos de la investigación de acuerdo con los principios FAIR.
Garantizar el acceso abierto a los datos de investigación, según el principio “tan abierto como sea posible, tan cerrado como sea necesario”, depositando los datos en un repositorio de confianza (los repositorios institucionales cumplen este requisito; en el caso de la UNED, el depósito de datos se hace en e-CienciaDatos) bajo una licencia Creative Commons (CC BY), de dominio público (CC0) o equivalente.
Si no se proporciona acceso abierto (a algunos o a todos los datos) por motivos de seguridad, privacidad, confidencialidad, propiedad industrial u otra causa justificable, deberá consignarse en el plan de gestión de datos (Horizon Europe Model Grant Agreement).
Aunque haya datos cerrados, los metadatos de los datos depositados deben estar en abierto: Creative Commons CC0 o CC-BY
La biblioteca de la UNED gestiona, de manera consorciada, el repositorio de datos e-cienciaDatos. El repositorio, basado en el software libre Dataverse, cuenta con el sello de calidad CoreTrustSeal y cumple los requisitos de la Comisión Europea para ser considerado como un repositorio de confianza FAIR.
El depósito en e-cienciaDatos asegura el cumplimiento del mandato de la Ley 09/2022 de la Ciencia, la Tecnología y la Innovación (LCTI), y de diferentes programas de financiación como Horizonte Europa.
Para depositar un conjunto de datos en e-cienciaDatos, si no dispones de una cuenta de usuario en e-SpacioDatosUNED es necesario solicitarla a: repositoriobiblioteca@adm.uned.es
El depósito debe realizarlo el propio investigador/a mediante autoarchivo, que será revisado y validado por un equipo de la Biblioteca de la UNED previamente a su publicación final.
Una vez publicado, se activará el DOI de tu dataset y recibirás un correo de confirmación.
Para hacer el autoarchivo necesitarás:
Conjunto de datos finales (limpios, anonimizados, organizados, etc.).
Archivo readme.txt según la plantilla de archivos readme de e-SpacioDatosUNED, disponible en inglés y español. Puede adjuntarse otra documentación si fuera necesario.
Según la LCTI, el personal investigador cuya actividad investigadora esté financiada mayoritariamente con fondos públicos debe depositar una copia de sus publicaciones científicas en un repositorio institucional y, de manera paralela, los datos de investigación asociados a estas publicaciones deberán estar depositados en un repositorio de datos.
La Ley Orgánica 2/2023, de 22 de marzo, del Sistema Universitario (LOSU) se alinea con este mandato y, además, en el artículo 12, define datos como “aquellas fuentes primarias necesarias para validar los resultados de las investigaciones”, una definición amplia que incluye datos tales como conjuntos de datos tabulares, respuestas a entrevistas o encuestas, imágenes, grabaciones o transcripciones y, en definitiva, todas las tipologías de datos recolectados o analizados durante el proceso de investigación.
Además, los datos deberán cumplir los principios FAIR, para asegurar que los datos sean fáciles de encontrar, accesibles, interoperables y reutilizables.
Los datos de investigación pueden ser de diferentes tipologías y formatos. Pueden incluir datos numéricos y textuales, ser cuantitativos o cualitativos, etc.
Algunos ejemplos de datos de investigación mencionados en la Estrategia Nacional de Ciencia Abierta (ENCA, 2022):
El conjunto de datos a depositar ha de ser la versión final de los datos asociados a la publicación, es decir, el conjunto incluye todos los datos que se han usado en la investigación y permite replicar los resultados.
Para preparar el conjunto de datos es recomendable tener en cuenta las siguientes indicaciones:
Limpieza de datos. Los datos han sido refinados y limpiados (si son datos tabulares se recomienda usar el formato tidy).
Anonimización de datos. Si resulta necesario, los datos sensibles han sido anonimizados o pseudonimizados.
Organización de los archivos. Los archivos han de estar estructurados y nombrados de manera lógica.
Formatos abiertos no propietarios: TXT, CSV, PNG, etc.
Documentación. Los datos deben ir acompañados de toda la documentación necesaria que facilite la interpretación y replicabilidad de los análisis. Ejemplos: archivo readme.txt, diccionario de datos, lista de entrevistas, guías de encuestas, etc.
Metadatos. Para la descripción de los conjuntos de datos, los repositorios usan el esquema Dublin Core Metadata Initiative (DCMI), pero se recomienda el uso de esquemas de metadatos adicionales especializados en cada disciplina.
Los principios FAIR son una serie de principios exigidos por financiadores y agencias evaluadoras, que facilita que los datos que depositamos en el repositorio sean fáciles de encontrar, accesibles, interoperables y reutilizables. Es decir, los principios FAIR aseguran que las investigaciones sean replicables y que los datos recolectados para una investigación puedan usarse también en otros proyectos.
Algunas de las medidas necesarias para asegurar el cumplimiento de los principios son:
Fáciles de encontrar:
El conjunto de datos tiene un identificador persistente, como DOI o handle.
El conjunto de datos tiene los metadatos necesarios para su localización y uso.
Accesibles:
El conjunto de datos está depositado en un repositorio de datos.
El conjunto de datos está lo más abierto posible.
Los metadatos del conjunto de datos tienen una licencia CC-0.
Interoperables:
El conjunto de datos sigue estándares y normas.
El conjunto de datos usa formatos abiertos.
Reutilizables:
El conjunto de datos está bien documentado, con archivos readme, diccionarios de datos, etc.
El conjunto de datos tiene una licencia clara, y preferiblemente, CC-0 o CC.BY.
El depósito en e-cienciaDatos garantiza de manera automática el cumplimiento de varias de las medidas necesarias para que nuestro conjunto de datos sea FAIR, ya que asegura la asignación de un DOI, la descripción con metadatos DCMI –incluyendo una licencia Creative Commons–, y la documentación a través de un archivo readme. Los autores deberán asegurar el uso de estándares reconocidos específicos del área, utilizar formatos abiertos, y la documentar de manera prolija el conjunto para completar el cumplimiento de los principios.
Preguntas frecuentes en materia de gestión de datos y Plan de gestión de datos para la convocatoria Proyectos de generación del Conocimiento 2024 del Ministerio de Ciencia e innovación.
Existen numerosas herramientas para el análisis, refinado y visualización de datos. Puedes consultar la guía de herramientas de procesado y visualización de datos.
Algunas de las herramientas más utilizadas son: