La cantidad de información registrada en forma digital en la ficha clínica aumenta cada año.Estas fichas contienen una gran cantidad de datos, los cuales pueden estar en formatoestructurado o no estructurado. El texto clínico no estructurado puede ser analizado mediantetécnicas de procesamiento de lenguaje natural, sin embargo, existen pocas herramientascomputacionales desarrolladas para el lenguaje clínico en idiomas distintos del inglés. Enparticular, existe insuficiente cantidad de texto clínico en español para entrenar algoritmos.
Una forma de obtener textos médicos para entrenar algoritmos es por medio de la aglomeraciónde artículos de revistas médicas de acceso libre en línea, lo cual ha mostrado un buen desempeño en tareas de procesamiento de texto clínico en inglés cuando son comparados con algoritmos entrenados sobre textos de índole general. Esto se denomina corpus biomédico,donde por corpus entendemos un muestra representativa texto.
El corpus se compone de 13.000 archivos TXT, los cuales pesan en conjunto 1.09 GB, con 67.246.025 palabras en total y 373.268 palabras diferentes. La especialidad con más palabras totales es pediatría y la con más palabras diferentes es medicina interna.
Este corpus médico se incluyen 13 diferentes revista de distintas especialidades médicas, entre las cuales se encuentran:
Link de corpus de GitHub de "International journal of odontostomatology"
GIT HUB
Links de corpus de GitHub de "Revista medica de Chile"
Parte 1 Parte 2 Parte 3
Link de corpus de GitHub de "Revista Chilena de Neuro-psiquiatria"
GIT HUB
Link de corpus de GitHub de "Revista clínica de periodoncia, implantología y rehabilitación oral"
GIT HUB
Link de corpus de GitHub de "Revista de otorrinolaringología y cirugía de cabeza y cuello"
GIT HUB
Link de corpus de GitHub de "Revista chilena de enfermedades respiratorias"
GIT HUB
Link de corpus de GitHub de "Revista chilena de infectología"
Parte 1 Parte 2Se utilizó la biblioteca de Python scrapy para extraer el texto de todos los artículos disponibles de las revistas médicas chilenas en SciELO. Posteriormente, por medio de la biblioteca Beautiful Soup, también en Python, se procesaron los archivos con el fin de obtener un corpus funcional.
Se espera que con esta herramienta que es de acceso libre para toda la comunidad científica y de desarrolladores mejore el procesamiento de texto clínico en español