DOI 10.35381/cm.v11i1.1537
Reproducibilidad en R: un caso de práctica científica y entrenamiento de pares
Reproducibility in R: a case study of research practices and peer-to-peer scientific training
Zulemma Julia Bazurto-Blacio
Universidad de Guayaquil, Guayaquil, Guayas
Ecuador
https://orcid.org/0000-0002-4558-8050
Rubén Raúl Fuentes-Diaz
ruben.fuentesdi@ug.edu.ec
Universidad de Guayaquil, Guayaquil, Guayas
Ecuador
https://orcid.org/0000-0003-2038-2934
Fanny Jaramillo-Villavicencio
Universidad de Guayaquil, Guayaquil, Guayas
Ecuador
https://orcid.org/0009-0009-3063-3232
Johanna Estefanía Rangel-Saltos
johanna.rangels@ug.edu.ec
Universidad de Guayaquil, Guayaquil, Guayas
Ecuador
https://orcid.org/0000-0002-4920-507X
Revisado: 10 de diciembre 2024
Aprobado: 15 de enero 2025
Publicado: 01 de febrero 2025
RESUMEN
El principio de Reproducibilidad es un pilar de las buenas prácticas de ciencia abierta para la administración de datos científicos. En particular, en la Facultad de Ciencias Administrativas, de 109 profesores investigadores encuestados, el 50% termina su investigación publicando un artículo científico, pero solo el 89% no hace público el código fuente utilizado en su investigación. La falta de conocimientos técnicos y de tiempo para invertir en un proceso reproducible, son algunos de los aspectos que impiden que profesores investigadores implementen prácticas de ciencia abierta. Lo anterior se convierte en una oportunidad para la praxis científica y la formación de pares y estudiantes. En este trabajo se muestra cómo implementar reproducibilidad en investigación científica, formando estudiantes que se puedan considerar investigadores nóveles y, que tomen el rol de mentores de carrera temprana de sus profesores investigadores, a través de un semillero de investigación de reproducibilidad basada en R.
Descriptores: Reproducibilidad; replicabilidad; investigación reproducible; enseñanza de la reproducibilidad; mentoría. (Tesauro UNESCO)
ABSTRACT
Descriptors: Reproducibility; replicability; reproducible research; teaching reproducibility; mentorship. (UNESCO Thesaurus)
INTRODUCCIÓN
La ciencia abierta posee tantas definiciones como autores la han intentado definir, es decir, puede significar cosas diferentes para personas diferentes. Se destaca que este es un concepto que ha sido ampliamente desarrollado y aplicado más intensamente en América del norte y Europa. Por ejemplo, Fecher y Friesike (2014) hablaban de la ciencia abierta y sus 5 escuelas de pensamiento para referenciar sus orígenes. Sin embargo, pese a estas diferentes vertientes de definiciones, para aproximar más al cono sur, se toma la recomendación que hizo UNESCO en 2021 para tener formalmente una definición. En resumen, menciona que la ciencia abierta es un nuevo paradigma, así como un constructo que integra en la empresa científica prácticas de reproducibilidad, transparencia, intercambio y colaboración, buscando incrementar las colaboraciones científicas y el intercambio de información, en beneficio de la ciencia y la sociedad, más allá de la comunidad científica tradicional.
En la granularidad de la taxonomía de la ciencia abierta, desarrollada por el proyecto FOSTER (Facilitate Open Science Training for European Research), hay 9 componentes que ayudarían a comprender mejor la diversidad de prácticas y recursos relacionados a la ciencia abierta (Pontika et al., 2015). En particular, el componente de investigación reproducible abierta (Open reproducible research por su significado en inglés) anida los subcomponentes asociados a la reproducibilidad y los flujos de trabajos propiamente dichos.
Naturalmente, las definiciones sobre reproducibilidad suelen ser variadas, desde la primera vez que mocionó este término el profesor Jon Claerbout en 1992, hasta pasar por algo más contemporáneo como Stodden (2014). Formalmente, para los fines de este trabajo, se adopta la conceptualización de las Academias Nacionales de Ciencias, Ingeniería y Medicina (National Academies of Sciences, Engineering, and Medicine), que en 2019 definía a la reproducibilidad como el proceso de obtener los mismos resultados, utilizando los mismos datos de entrada y siguiendo los mismos pasos computacionales relativos a los métodos y el análisis. En este sentido, un resultado reproducible se refiere a cuando los mismos pasos de análisis realizados en el mismo conjunto de datos producen sistemáticamente la misma respuesta (The Turing Way Community, 2022). Mientras, un resultado es replicable cuando el mismo análisis realizado en diferentes conjuntos de datos, produce respuestas cualitativamente similares (Plesser, 2018).
En un contexto general, el debate sobre la crisis de la reproducibilidad lleva años en discusión, amplificado por la creciente preocupación ante una serie de estudios de reproducibilidad que no han logrado replicar resultados positivos anteriores (Hunter, 2017). El estudio de Baker (2016), realizó una encuesta a más de 1500 científicos en la cual el 70% afirmó que no pudo reproducir los experimentos publicados de otros científicos, y el 50% no pudo reproducir su propio experimento. En Ecuador, la reproducibilidad no es todavía una práctica común en el ámbito científico en general; razones para esto son la falta de evidencias que demuestren su necesidad, la falta de incentivos y la falta de guías y licencias, ampliamente aceptadas y establecidas que faciliten la apertura y publicación de datos y códigos (Nüst et al., 2017).
Pese a lo anterior, la reproducibilidad ha ganado espacio y auge para su implementación en el ámbito científico y educativo. Dogucu y Cetinkaya Rundel (2022) recogen tres dimensiones bajo las cuales se podría desarrollar la reproducibilidad: investigación reproducible, enseñanza de la reproducibilidad y la enseñanza reproducible. En este trabajo se abordan las dos primeras dimensiones.
Desde el punto de vista de la práctica científica se concibe la investigación reproducible, la cual suele darse en un entorno de investigación donde principalmente quienes son protagonistas son los investigadores y profesores investigadores. Esta dimensión tiene como propósito entregar un producto científico, siendo los artículos científicos publicados los productos más destacados, pero no los únicos. Dada la praxis in-situ de un investigador, ésta se sujeta el método científico, por lo cual se tendrán 4 componentes presentes asociados al contexto de la reproducibilidad y son: la data, el código, las herramientas que utilice para procesamiento de la data y finalmente los resultados. En este sentido, hacer investigación reproducible va a involucrar que el investigador posea formación en ciencia abierta.
Por ejemplo, hacer una investigación científica de manera reproducible presupone hacer los datos abiertos y esto implica que estos datos cumplan los principios FAIR, es decir, que sean fáciles de encontrar, accesibles, interoperables y reusables (Wilkinson et al., 2016). En un sentido más simple y detallado, los principios FAIR en la práctica, involucraría que los metadatos sean accesibles, que los datos estén en protocolos abiertos y gratuitos, y que estén publicados con una licencia adecuada. (Vazano et al., 2024).
En relación con el código que se utilice para reproducir análisis, también deberá ser abierto. Es decir, el investigador deberá tener claro que la investigación basada en datos requiere entender cómo trabajar con código científico. Para lo anterior, se necesitan herramientas como el control de versiones, para gestionar los cambios en el código, facilitar la colaboración y contar con un repositorio donde se almacene este código.
Las herramientas de procesamiento de datos seleccionadas deberán ser aquellas que faciliten aspectos como la construcción del código científico, el versionamiento del mismo e, incluso, la presentación de los resultados. Un claro ejemplo de software libre para lo anterior es R, pero no se restringe al mismo.
Finalmente, la presentación de resultados puede tener varias vías, desde la ciencia abierta. Entre ellos, tener un plan de gestión de publicaciones que incluya el uso de pre-prints, que promuevan rápidamente la diseminación del conocimiento, así como el uso de herramientas de gestión de referencias como Zotero y Mendeley, por mencionar algunas.
La segunda dimensión es la enseñanza de la reproducibilidad que, a diferencia de la anterior, ésta se encuentra asociada a tomar las prácticas de investigación reproducible y enseñarlas a otros. Lo anterior entonces, cambia el entorno porque se enmarca en uno de enseñanza que puede ser un aula o un laboratorio de prácticas. Los actores también serán diferentes e involucra a profesores investigadores o investigadores que tomarían el rol de instructores que enseñan a estudiantes; sea éste un estudiante de pregrado, un estudiante doctoral e incluso un estudiante de enseñanza media. Esta dimensión de la reproducibilidad se caracteriza porque es posible la enseñanza entre pares, es decir, no sólo la relación jerárquica profesor-estudiante; sino que puede darse una mentoría entre profesores, estudiantes o incluso cruzada. Es decir, que un estudiante enseñe reproducibilidad a un instructor/profesor que no tiene formación sobre temas de ciencia abierta y reproducibilidad.
En comparación con la investigación reproducible que, claramente tenía un producto final formal como un artículo científico, en la enseñanza de la reproducibilidad es primordial definir cuál será el input bajo el cual se enseñarán las prácticas de reproducibilidad. En este sentido, se puede seleccionar un producto científico de otro, como un artículo publicado por algún investigador e intentar reproducirlo; o tomar un proyecto propio de análisis de datos, con data propia, para introducir la práctica de la reproducibilidad. Esto formalmente en la literatura es referido, por su significado en inglés, como ex-ante documentation y ex-post reproduction (Ball et al., 2022).
La enseñanza de la reproducibilidad presenta ventajas y desventajas asociadas a su propia naturaleza. Uno de sus desafíos, desde el punto de vista del instructor y por el entorno en el que se realiza, guarda relación con aspectos que son propiamente asociados a la docencia. Por ejemplo: grupos heterogéneos para aprender las prácticas de reproducibilidad, productos de investigación difíciles de ser aprendidos por los estudiantes, así como una deserción temprana por parte de los mentores, frente a la posibilidad de que el entrenamiento de pares no resulte como se espera. Por otra parte, la ventaja sustantiva es que, a quienes se forman en reproducibilidad, se les hace una exposición temprana a este tipo de prácticas que podrían sensibilizarlos a tomar la carrera de investigadores, así como a tener una habilidad adicional para el campo laboral y decidirse a ser mentores de otros.
De manera que, abordados los diferentes enfoques de reproducibilidad, este trabajo tiene como eje principal mostrar cómo las dos primeras dimensiones fueron implementadas en un proyecto formador de reproducibilidad basada en R en la Facultad de Ciencias Administrativas de la Universidad de Guayaquil.
Por lo anterior, 3R Project persigue impulsar en la comunidad universitaria el uso de la reproducibilidad en investigación basada en R como vía de fortalecimiento para la producción científica. El objetivo anterior se enfocará en implementar un flujo de trabajo reproducible, basado en R, para la obtención de diferentes productos científicos a través del entrenamiento de pares. En este sentido, 3R Project mezcla la investigación reproducible con la enseñanza de reproducibilidad, pues, involucra como actores profesores investigadores dispuestos a poner en un formato reproducible su artículo científico publicado y, a estudiantes, formándose en prácticas de reproducibilidad para hacer ex-post reproduction.
MÉTODO
3R Project, Reproducible Research in R por sus siglas en inglés, es un semillero de investigación vigente de la carrera de Licenciatura en Gestión de la Información Gerencial que surge de un estudio previo realizado por Macías et al. (2024) en la Facultad de Ciencias Administrativas de la Universidad de Guayaquil. Los autores mapearon las prácticas de ciencia abierta en investigación científica en 109 profesores investigadores de la Facultad, mediante un cuestionario de 19 preguntas, basado en el modelo de encuesta desarrollado por el equipo de investigación de la Universidad de California y Open Research Funder Group (ORFG). En dicho mapeo abordaron 4 aspectos relacionados a la ciencia abierta: experiencia y participación en investigación científica, conocimiento y percepción de la ciencia abierta, prácticas de ciencia abierta y limitantes de ciencia abierta.
Para desarrollar el 3R Project se seleccionó, en 2 etapas diferenciadas, a 23 estudiantes postulantes, que cumplieron el criterio de inclusión de ser un estudiante con matrícula activa, de tercer semestre en adelante, en la Universidad de Guayaquil. Se considera como factor de agrupamiento el grado de experticia en programación. Por otra parte, se reclutó un profesor investigador voluntario de la facultad de Ciencias Administrativas, quien proveyó un artículo científico publicado en una revista de acceso abierto, en el eje temático de finanzas corporativas para ser llevado a un estado reproducible. Se estableció a R como el software principal para el flujo de trabajo reproducible a desarrollar.
Se llevaron a cabo 4 estrategias categorizadas por dimensión de reproducibilidad; dos estrategias asociadas a la enseñanza de la reproducibilidad que fueron: el entrenamiento, así como la mentoría y refuerzo de competencias. Las estrategias asociadas a la investigación reproducibles fueron: el desarrollo de proyectos de investigación reproducibles, y la divulgación científica. Para realizar estas 4 estrategias se dan flujos de roles variados.
Desde la dimensión de la formación de pares, el entrenamiento se dio por parte de profesores-instructores hacia estudiantes; enseñando R para manipulación de datos, control de versiones, formación en investigación reproducible en R y mejores prácticas de reproducibilidad. Posteriormente, con el número de estudiantes formados (denominados mentores de carrera temprana) se ejecutó la estrategia de mentoría en 2 flujos bifurcados y paralelos. Por un lado, los estudiantes formados se dedicaron a formar a otros estudiantes interesados en los tópicos asociados a la investigación reproducible. Por otra parte, los estudiantes formados pasan a ser los mentores de aquellos profesores investigadores que no poseen el conocimiento técnico en ciencia abierta y reproducibilidad, y tienen la intención de implementar las prácticas de reproducibilidad en su investigación.
Las otras dos estrategias que están asociadas a la investigación reproducible cubren la dimensión de la práctica científica. La estrategia de producto reproducible se da de estudiante a profesor investigador pues, los estudiantes formados llevan a cabo el flujo de trabajo de reproducibilidad in situ para el producto científico del profesor investigador.
Finalmente, para poder involucrar a futuros actores de la comunidad universitaria, profesores investigadores e investigadores nóveles difunden los resultados del flujo de trabajo de ex-post reproduction a la comunidad académica.
RESULTADOS
El desarrollo de 3R Project acorde a las estrategias descritas anteriormente, presentó variantes en función de las etapas diferenciadas de selección de los estudiantes postulantes. En la dimensión de la enseñanza de la reproducibilidad, la estrategia de entrenamiento consideró tanto workshops presenciales así como virtuales; esto dado que los 22 estudiantes seleccionados fueron ingresando al Semillero de forma escalonada y por tal su formación también lo fue.
Figura 1. Estrategias desarrolladas por tipo de entrenamiento y naturalezas de equipo.
Elaboración: Los autores.
Como se aprecia en la figura 1, para la estrategia de mentoría se conformaron dos grupos: equipo de formadores y equipo aprendiz. El equipo de formadores conformado por aquellos estudiantes entrenados que principalmente fueron los mentores de sus pares; mientras que el equipo aprendiz incluye a estudiantes que sólo tenían interés en formarse y no involucrarse en mentoría ni en estrategia alguna de la dimensión de investigación reproducible.
El desarrollo del producto reproducible, como parte de la dimensión de la práctica científica, se llevó a cabo con la conformación de dos grupos: equipo base y equipo reproducible; los integrantes de estos grupos son los estudiantes que previamente fueron formados en los tópicos de R para manipulación de datos, control de versiones con Github y contenidos asociados a principios de ciencia abierta. Aunque ambos equipos realizaron tareas asociadas a la implementación del flujo de trabajo reproducible para el artículo científico proveído por el profesor investigador participante, ciertamente el equipo base es el responsable de lograr el status reproducible de éste. Una diferencia fundamental de los integrantes del equipo base es que éstos tuvieron una formación externa internacional para alcanzar la certificación otorgada por el programa de NASA TOPS (Transform to Open Science), cuyo plan de estudios de 5 módulos está diseñado para dotar a investigadores, estudiantes y ciudadanos científicos de los conocimientos y habilidades necesarios para transicionar a las prácticas de la ciencia abierta, incluyendo el desarrollo de un plan de ciencia abierta y gestión de datos.
Tanto el equipo base como el equipo reproducible, en una primera fase, implementaron en R y Rmarkdown la automatización de pipelines de los datos del artículo científico del profesor participante. El alojamiento del proyecto de datos de R y el trabajo colaborativo se dió mediante un repositorio creado en Github.
Entre sus principales hallazgos reseñan que más del 50% de profesores investigadores terminan su investigación publicando un artículo científico, pero de estos más del 30% afirmó que participar en Ciencia Abierta lleva mucho tiempo. Las principales barreras reseñadas en dicho estudio respecto a poner en práctica la ciencia abierta fueron: la falta de tiempo (40,38%), y la falta de conocimientos técnicos (32,05%). De igual manera hay más del 50% de profesores encuestados que no conocían en lo absoluto herramientas y plataformas para participar en Ciencia Abierta.
Para evaluar el impacto de 3R project se utilizaron métricas cuantitativas y cualitativas que se muestran en la tabla 1. En relación con el engagement de mentores de carrera temprana en workshops de reproducibilidad, el 77.27% de estudiantes participantes completaron con éxito todo el programa de formación que incluyó habilidades de manejo de datos en R y un enfoque exhaustivo de la reproducibilidad de la investigación. Del número total de estudiantes capacitados, el 50% son estudiantes mujeres que pertenecen a alguna minoría subrepresentada (negras e indígenas) y que actualmente se encuentran desempleadas. No se reportaron estudiantes madres solteras. Otro resultado importante se observó respecto al total de participantes que se comprometieron inicialmente con la estrategia de mentoría; 14.28% de dichos mentores abandonaron 3R Project.
Tabla 1.
Definición de métricas de impacto de 3R Project.
Métricas |
Definición |
Naturaleza de la métrica |
Engagement de mentores de carrera temprana en workshops de reproducibilidad |
Esta métrica hace un seguimiento del porcentaje de mentores de carrera temprana que han completado con éxito todo el programa de formación |
Cuantitativa |
Porcentaje de estudiantes mujeres enroladas |
Mide el número total de estudiantes mujeres de minorías subrepresentadas (negras e indígenas), madres solteras y actualmente desempleadas, que fueron capacitadas y lo compara con el total de estudiantes participantes capacitados. |
Cuantitativa |
Tasa de deserción de los mentores |
Mide el número de mentores que abandonaron el proyecto y lo compara con el total de participantes que se comprometieron inicialmente con la estrategia de mentoría |
Cuantitativa |
Evaluación de la satisfacción de los estudiantes participantes |
Obtiene información de los estudiantes participantes de 3R project sobre la experiencia general, el nivel de dificultad de la transición a las prácticas de la ciencia abierta y la reproducibilidad, la percepción de la reproducibilidad aplicada, la colaboración como recurso y la facilidad de uso del flujo de trabajo de acceso abierto implementado. |
Cualitativa |
Elaboración: Los autores.
Finalmente, la evaluación de la satisfacción de los estudiantes participantes realizada mediante una encuesta en línea mostró que 98% de ellos calificó la experiencia en general en 3R Project como muy satisfactoria; adicionalmente, 34% de los estudiantes participantes calificaron con dificultad media la transición a las prácticas de la ciencia abierta y la reproducibilidad. El 67% de los estudiantes participantes calificaron la percepción de la reproducibilidad, así como la facilidad de uso del flujo de trabajo de acceso abierto implementado como muy satisfactoria; mientras que el 98% de los participantes calificó la colaboración como un excelente recurso.
CONCLUSIONES
Este estudio encontró que la necesidad de introducir estrategias internas en investigación científica en la Facultad de Ciencias Administrativas se convirtió en una oportunidad para la implementación de un proyecto de transición a las prácticas de la ciencia abierta y reproducibilidad a través de un semillero de investigación denominado 3R Project.
La implementación del proyecto mostró cómo pueden combinarse la investigación reproducible y la enseñanza de la reproducibilidad para dar paso al entrenamiento de pares y a la praxis científica a través de estrategias asociadas a estas 2 dimensiones de la reproducibilidad. El desarrollo del proyecto reveló que las estrategias de entrenamiento y mentoría se dan en un entorno de enseñanza en el que los flujos de roles e interacción son de profesor-instructor a estudiantes, de estudiantes a estudiantes y de estudiante a profesor investigador.
La evaluación de impacto del 3R Project mostró mediante las métricas cuantitativas que más del 70% de estudiantes participantes lograron completar el programa de formación y se convirtieron en investigadores nóveles, así como mentores de carrera temprana. Se evidenció paridad de género respecto al número de estudiantes capacitados y una tasa de deserción del 14.28% de mentores de carrera temprana. La encuesta de satisfacción realizada por los estudiantes participantes en 3R Project mostró que 98% de éstos considera como muy satisfactoria la experiencia en general en el semillero de investigación y como excelente el recurso de colaboración. Alrededor del 35% consideró que la transición a las prácticas de reproducibilidad y ciencia abierta es medianamente difícil. Sin embargo, 67% de los estudiantes participantes encuestados mostraron una alta satisfacción respecto a la percepción de reproducibilidad y al uso del workflow de acceso abierto implementado en el producto científico del proyecto.
En conclusión, se espera que este trabajo ayude el desarrollo de la carrera temprana de investigadores y mentores, así como a facilitar la transición hacia la reproducibilidad del flujo de trabajo de un profesor investigador cuyo producto final sea un artículo científico publicado.
FINANCIAMIENTO
No monetario.
AGRADECIMIENTOS
A todos los autores por sus relevantes aportes en el análisis documental del presente estudio.
REFERENCIAS CONSULTADAS
Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533, 452-454. https://doi.org/10.1038/533452a
Ball, R., Medeiros, N., Bussberg, N. W., & Piekut, A. (2022). An invitation to teaching reproducible research: Lessons from a symposium. Journal of Statistics and Data Science Education, 30(3), 209-218. https://doi.org/10.1080/26939169.2022.2099489
Dogucu, M., & Çetinkaya-Rundel, M. (2022). Tools and recommendations for reproducible teaching. Journal of Statistics and Data Science Education, 30(3), 251-260. https://doi.org/10.1080/26939169.2022.2138645
Fecher, B., & Friesike, S. (2014). Open science: One term, five schools of thought. En S. Bartling & S. Friesike (Eds.). Opening science: The evolving guide on how the internet is changing research, collaboration and scholarly publishing. (pp. 17-47). Springer. https://n9.cl/wmpdh
Hunter, P. (2017). The reproducibility crisis: Reaction to replication crisis should not stifle innovation. EMBO Reports, 18, 1493-1496. https://doi.org/10.15252/embr.201744876
National Academies of Sciences, Engineering, and Medicine. (2018). Data science for undergraduates: Opportunities and options. National Academies Press. https://doi.org/10.17226/25104
Nüst, D., Konkol, M., Pebesma, E., Kray, C., Schutzeichel, M., Przibytzin, H., & Lorenz, J. (2017). Opening the publication process with executable research compendia. D-Lib Magazine, 23(1/2). https://n9.cl/68gdv
Plesser, H. (2018). Reproducibility vs. replicability: A brief history of a confused terminology. Frontiers in Neuroinformatics, 11, Article 76. https://doi.org/10.3389/fninf.2017.00076
Pontika, N., Knoth, P., Cancellieri, M., & Pearce, S. (2015). Fostering open science to research using a taxonomy and an eLearning portal. En International Conference on Knowledge Technologies and Data-driven Business. (pp. 1-15). ACM. http://oro.open.ac.uk/44719/
Stodden, V. (2014). 2014: What scientific idea is ready for retirement? Edge. https://n9.cl/a6ewg
The Turing Way Community. (2022). The Turing Way: A handbook for reproducible, ethical and collaborative research (1.0.2). https://n9.cl/8n7ns
UNESCO. (2021). Recommendation on open science. (Documento CL/4349) https://n9.cl/ibz19
Vazano, I., Rajngewerc, M., Compagnucci, M., et al. (2024). ALTa Ciencia Abierta: Datos Abiertos. Zenodo. https://doi.org/10.5281/zenodo.12702352
Wilkinson, M., Dumontier, M., Aalbersberg, I. J., et al. (2016). The FAIR guiding principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18
©2025 por los autores. Este artículo es de acceso abierto y distribuido según los términos y condiciones de la licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) (https://creativecommons.org/licenses/by-nc-sa/4.0/)