Corpus médico en español de revistas médicas de Chile

¿En qué consiste?

La cantidad de información registrada en forma digital en la ficha clínica aumenta cada año.Estas fichas contienen una gran cantidad de datos, los cuales pueden estar en formatoestructurado o no estructurado. El texto clínico no estructurado puede ser analizado mediantetécnicas de procesamiento de lenguaje natural, sin embargo, existen pocas herramientascomputacionales desarrolladas para el lenguaje clínico en idiomas distintos del inglés. Enparticular, existe insuficiente cantidad de texto clínico en español para entrenar algoritmos.

Una forma de obtener textos médicos para entrenar algoritmos es por medio de la aglomeraciónde artículos de revistas médicas de acceso libre en línea, lo cual ha mostrado un buen desempeño en tareas de procesamiento de texto clínico en inglés cuando son comparados con algoritmos entrenados sobre textos de índole general. Esto se denomina corpus biomédico,donde por corpus entendemos un muestra representativa texto.

Corpus completo

En este lugar se encuentra el link que lleva a la dirección de GitHub de todos los corpus de las diferentes revistas médicas de Chile
GIT HUB

Datos más relevantes de este corpus

El corpus se compone de 13.000 archivos TXT, los cuales pesan en conjunto 1.09 GB, con 67.246.025 palabras en total y 373.268 palabras diferentes. La especialidad con más palabras totales es pediatría y la con más palabras diferentes es medicina interna.

Revistas incluidas

Este corpus médico se incluyen 13 diferentes revista de distintas especialidades médicas, entre las cuales se encuentran:

International journal of odontostomatology

Link de corpus de GitHub de "International journal of odontostomatology"

GIT HUB

Revista chilena de cardiología

Link de corpus de GitHub de "Revista chilena de cardiología"

GIT HUB

Revista chilena de radiología

Link de corpus de GitHub de "Revista chilena de radiología"

GIT HUB

Revista médica de Chile

Links de corpus de GitHub de "Revista medica de Chile"

Parte 1 Parte 2 Parte 3

Revista Chilena de neuro-psiquiatría

Link de corpus de GitHub de "Revista Chilena de Neuro-psiquiatria"

GIT HUB

Revista de Cirugía

Link de corpus de GitHub de "Revista de Cirugía"

Parte 1 Parte 2

Revista clínica de periodoncia, implantología y rehabilitación oral

Link de corpus de GitHub de "Revista clínica de periodoncia, implantología y rehabilitación oral"

GIT HUB

Revista de otorrinolaringología y cirugía de cabeza y cuello

Link de corpus de GitHub de "Revista de otorrinolaringología y cirugía de cabeza y cuello"

GIT HUB

Revista chilena de enfermedades respiratorias

Link de corpus de GitHub de "Revista chilena de enfermedades respiratorias"

GIT HUB

Revista chilena de infectología

Link de corpus de GitHub de "Revista chilena de infectología"

Parte 1 Parte 2

Revista chilena de nutrición

Link de corpus de GitHub de "Revista chilena de nutrición"

GIT HUB

Revista chilena de obstetricia y ginecología

Link de corpus de GitHub de "Revista chilena de obstetricia y ginecología"

Parte 1 Parte 2

Revista chilena de pediatría

Link de corpus de GitHub de "evista chilena de pediatría"

Parte 1 Parte 2

Métodos

Se utilizó la biblioteca de Python scrapy para extraer el texto de todos los artículos disponibles de las revistas médicas chilenas en SciELO. Posteriormente, por medio de la biblioteca Beautiful Soup, también en Python, se procesaron los archivos con el fin de obtener un corpus funcional.

Poyecciones

Se espera que con esta herramienta que es de acceso libre para toda la comunidad científica y de desarrolladores mejore el procesamiento de texto clínico en español