Beta Solutions
- Jan 26, 2020
- 3 min read

Nature: recomendaciones para trabajar con grandes bases de datos

El 13 de enero de este año se publicó un artículo en la revista Nature, sobre once recomendaciones para trabajar con grandes bases de datos. Acá les presentamos un resumen comentado a las que consideramos son las más importantes, así como algunos paquetes del tidyverse de R que pueden ser usados.

1. Cuida tus datos

Resguarda los datos crudos en un repositorio (en línea y físico). Trabaja siempre sobre una copia: nunca modifiques el archivo original. Algunas alternativas en línea pueden ser:

• Dropbox

• Google Drive

• OneDrive

Una vez los datos fueron verificados y ordenados, pueden resguardarse en repositorios en línea más formales como Mendeley Data, DRYAD o ZENODO, entre otros. La mayoría de estos repositorios generan un DOI (Digital Object Identifier) a la base de datos, lo que permite que los datos sean citables, y por supuesto usados. En otro artículo publicado en la revista Nature se presenta un listado exhaustivo de repositorios científicos clasificados según disciplina. Este artículo puede ser consultado aquí.

2. Visualiza la información

Esto es muy útil para identificar tendencias, pero en especial es útil para identificar errores como fallas en transcripción, magnitudes o decimales anormales, valores irreales, etc. Para grandes bases de datos, las funciones gráficas de R son muy útiles y fácil de ejecutar. Para explorar datos con especificación más avanzadas, recomendamos usar el paquete ggplot2.

3. Registra y muestra la secuencia de trabajo

Mostrar el cómo se llegó a un producto particular es tan importante como el producto. Esto implica registrar todos los pasos al tratamiento de los datos, como qué versión de los datos se utilizó, los pasos de limpieza y control de calidad y cualquier código de procesamiento que se ejecutó. Esta información es necesaria para documentar y reproducir cualquier resultado. Registrar los pasos es algo tan simple como dejar registro en el archivo de comandos tantos comentarios como pasos se han ejecutado, para qué y porqué se ejecutó (usando # para que R reconozca que se trata de un comentario). No obstante, podemos registrar esto con mayor estética si usamos un generador de documentos como Rmarkdown. Esta herramienta es muy versátil para generar documentos de alta calidad, incluyendo códigos de R, Python y SQL.

4. Registra los metadatos

El archivo de metadatos indica cómo se recopilaron, formatearon y organizaron las observaciones. Los datos pierden útilidad si se desconoce esta información. Los metadatos pueden incluir tanta información del proyecto como sea posible: fecha, lugar, método, instrumentos, personas, correos, etc. Algunas plataformas tienen una plantilla particular para metadatos, pero nosotros mismos podemos generar nuestros metadatos en un documento de texto, o cualquier otro programa. Lo importante es registrar el origen de la información.

5. Automatiza procesos

La bases de datos cada vez son mas grandes. Esto implica que si debemos resumir variables, crear nuevas, reordenar, etc., debemos apoyarnos en procesos automatizados. Hacer esto manualmente seguramente implicará cometer un error. Es frecuente mover o quitar columnas, transformar datos, etc. en un archivo Excel; pero la posibilidad de crear un desastre es altísima. Para limpiar, ordenar y transformar sin errores grandes bases de datos, usen paquetes como tidyr y dplyr.

6. Haga que el tiempo de computo cuente

La mayoría de nuestras computadoras pueden lidiar con cierta cantidad de datos, pero suelen demorar procesar bases de datos que son muy largas. Grandes bases de datos requieren high-performance computing (HPC, por sus siglas en inglés). Si ese es el caso, podemos trabajar con un servidor. Muchas instituciones académicas tienen servidores para su personal. Si no tenemos acceso a una, RStudio Server proporciona una interfaz gratuita basada en navegador para una versión de R que se ejecuta en un servidor remoto de Linux. Existen otros servidores comerciales como Amazon, Google y Microsoft.

7. Usa un control de versiones

Los sistemas de control de versiones permiten seguir con precisión cómo ha cambiado un archivo con el tiempo y quién realizó los cambios. Algunas alternativas son: Harvard Dataverse, Zenodo, Dat, y git. Este último es más útil para hacer seguimiento a proyectos que al historial de una base de datos per se, y es ideal para versionar un proyecto de análisis desde Rstudio. Presenta además la ventaja de ir generando un respaldo físico (en el computador) y remoto hacia github.

Para leer el artículo completo en Nature sigue este vínculo.

Statistics for Biological and Environmental Studies