Preámbulo
Recientemente se publicó en el sitio web R-bloggers.com la síntesis de una seríe de pasos de programación en R para evaluar estadísticamente la epidemiología del COVID-19 usando datos de acceso público. El autor de los análisis es el epidemiólogo Dr. Tim Churches, Investigador principal en UNSW Medicine South Western Sydney Clinical School en el Hospital de Liverpool (Sydney), y científico de datos de salud en el Instituto Ingham de Investigación Médica Aplicada, también ubicado en Liverpool, Sydney. Este investigador ha estado publicando en su blog todos los códigos con explicaciones detalladas del proceso. La fuente principal de datos que él usó fue Wikipedia y la John Hopkins University.
Más allá de lo epidemiológico y delicado del asunto, el artículo muestra la relevancia del procesamiento adecuado de datos para comprender oportunamente situaciones tan delicadas como el COVID-19, pero en especial, para generar estadísticas reproducibles y útiles para la toma de decisiones. Todo el proceso, desde la adquisición de datos, limpieza, arreglo, estadísticas y visualización, se hizo con R y librerías del tidyverse.
Acá vamos a reproducir algunos de los códigos disponibles en ese artículo solo para demostración. Si tienen mayor interés, pueden acceder al artículo completo acá o visitar el blog del Dr. Churches.
Adquisición y visualización de datos:
Para evitar transcribir datos e introducir errores, así como para agilizaren el proceso de obteción de información, lo mejor es cosechar datos de repositorios que se mantengan actualizados. En EEUU, el Center for Systems Science and Engineering de la John Hopkins University (JHU CCSE) levanta información actualizada de interés internacional. Acá el código para extraer la información de internet usando el paquete rvest. Luego, para limpiar, ordenar y resumir la información en una base de datos se usó dplyr, y lubridate. Hicimos algunas modificaciones para representar el incremento de casos confirmados en el tiempo en algunos países de nuestro interés, ya que el artículo principal se centra en EEUU, así que incluímos a China, Italia y México. Luego, usamos el paquete ggplot2 para construir un gráfico:
En síntesis, gracias a los códigos desarrollados por el Dr. Tim Churches, pudimos apreciar como la información de un tema tan sensible como lo es el COVID-19 puede ser obtenida de la web, arreglada para análiss estadísticos y representada gráficamente en tiempo casi real. Este tipo de aproximaciones son fundamentales para la planificación de las políticas en salud pública. Es importante destacar la existencia del R Epidemics Consortium (RECON). Esta es una organización internacional no gubernamental sin fines de lucro que reúne expertos en ciencia de datos, salud pública y desarrollo de software para crear la próxima generación de herramientas analíticas para informar sobre la respuesta a brotes de enfermedades, emergencias sanitarias y crisis humanitarias, utilizando R y otras recursos gratuitos de código abierto.
Si quieres mayor información sobre métodos como estos para aplicarlos en tu área de investigación, no dudes en contactarnos por info@bs-stats.com
Comments