Artículo 10 Hacia la construcción automática de grafos del conocimiento desde fuentes de datos heterogéneas

10.1 Introducción

Los grafos del conocimiento (Knowledge Graph, KG) se han popularizado en la industria desde que Google introdujo este término al describir su propio KG que opera detrás de su motor de búsqueda. Un KG es una base de conocimiento curada: colección de hechos; el cual incluye entidades que están relacionadas unas a otras a través de enlaces etiquetados y dirigidos (predicados). Tanto las entidades como los predicados están definidos típicamente en una ontología. Una ontología es una especificación explícita de una conceptualización (Gruber, 1993); en términos sencillos, es un modelo de datos que abstrae conceptos e interrelaciones de un dominio de conocimiento específico.

Desde el año pasado, varias ontologías han sido publicadas en la literatura científica (principalmente en los campos de medicina, biología y sociología), las cuales modelan y definen diversos conceptos relacionados con la actual pandemia COVID-19 desde diferentes perspectivas. Asimismo, algunos conjuntos de datos de estudios de COVID-19 han sido publicados en diversos formatos. En un mundo ideal, sería beneficioso el crear de forma automática KGs a partir de estos conjuntos de datos asociados con ontologías específicas. Este artículo presenta una introducción a un proyecto sombrilla en curso que intenta resolver este problema, atacando una amplia variedad de retos técnicos con soluciones en tareas específicas.

10.2 Artículo

Tubería de artefactos de software para la construcción automática de KGs

Una tubería de construcción para KGs (KG Construction Pipeline, KGCP) es un conjunto integrado de artefactos de software que automatizan diversas tareas para construir KGs a partir de fuentes de datos específicas. Dependiendo del dominio y la naturaleza de los datos, un KGCP puede incluir diversas tareas para la extracción, limpieza, y preparación de los datos, seguido de la aplicación de diversas técnicas de procesamiento de lenguaje natural (Natural Language Processing , NLP) para el reconocimiento y enlazamiento de entidades identificadas y encontradas en los datos. En general, las técnicas de NLP son útiles cuando los datos son no estructurados como, por ejemplo, aquellos provenientes de documentos codificados en diversos formatos (PDF, DOCX, PPTX, etc.). El autor de este artículo está trabajando en varios proyectos de investigación relacionados que tienen como objetivo el desarrollo de un KGCP para fuentes de datos no estructuradas. A continuación, se presentará una pequeña introducción de algunos de estos componentes. Todos los recursos (código fuente, documentación relevante, arquitectura, demos, y ejemplos) de este KGCP pueden ser accedidos en el siguiente enlace: https://w3id.org/kgcp/.

MEL (Metadata Extractor & Loader: Extractor y cargados de metadatos) (Rodríguez Méndez, 2021) es un artefacto de software que integra de forma liviana varias bibliotecas y paquetes para extraer los metadatos y el contenido textual de diversos archivos (más de 20 formatos diferentes). MEL realiza tareas de preprocesamiento, limpieza de datos y un análisis textual básico del contenido (concordancia de patrones -expresiones regulares- y extracción de palabras clave). Los metadatos y contenido textual extraídos se almacenan en archivos en formato JSON (JavaScript Object Notation : Notación de objetos en JavaScript).

TNNT (The NLP/NER Toolkit: La caja de herramientas de NLP/NER) (Seneviratne, 2021) automatiza la tarea de extracción de entidades nombradas categorizadas desde información no estructurada (archivos en diferentes formatos), utilizando diversas herramientas NLP recientes de última generación y modelos NER. TNNT está integrada con MEL. TNNT integra perfectamente en un solo artefacto de software 9 herramientas NLP y 21 modelos NER de última generación, facilitando el análisis NER para información basada en contenido no estructurado. TNNT puede reconocer 18 categorías diferentes de entidades. Los resultados obtenidos (entidades reconocidas) se utilizan en tareas posteriores en el KGCP para enriquecer el KG a ser generado.

J2RM (JSON-to-RDF Mappings: Mapeos de JSON a RDF) (Rodríguez Méndez, 2020) es una herramienta que procesa mapeos de datos en formato JSON a tripletas RDF (Resource Description Framework : Marco de descripción de recursos) guiadas por la estructura de una ontología OWL2 (OWL2 Web Ontology Language : Lenguaje de ontología para la Web). Los mapeos se definen como “propiedades de anotación” asociadas con cada entidad de interés definida en la ontología. Dichos mapeos están dentro de un archivo de ontología por lo que pueden distribuirse y ser compartidos fácilmente para automatizar la creación de grafos RDF. Con J2RM, uno puede trabajar con diferentes estructuras JSON donde todos los mapeos se encuentran embebidos en un archivo específico de ontología. Los mapeos J2RM han sido diseñados como extensiones no estándares a la especificación de JSON-Pointer (apuntadores JSON) con sus propias primitivas que definen transformaciones y operaciones básicas aplicadas a los datos JSON. Los mapeos J2RM operan a nivel de clases y propiedades (de tipos de datos, anotación y objetos) definidos en el archivo de la ontología objetivo.

Otros componentes aún en desarrollo que conforman el ecosistema del mencionado KGCP son: KG-I (Integración de KGs) para automatizar tareas de integración (encontrar entidades equivalentes) en diferentes KGs, y KG-ER (Reconciliación de entidades en KGs) que analiza la estructura de KGs para encontrar el conjunto mínimo de atributos (propiedades de tipos de datos) que puede identificar instancias de clases específicas.

10.3 Conclusiones

Bajo el contexto actual de la pandemia de COVID-19, sería muy útil el construir de forma automática KGs basados en RDF, a partir de conjuntos heterogéneos de datos y ontologías OWL2 relacionadas con este tema que han sido publicados en varios campos científicos. Estos KGs acerca del COVID-19, definirían hechos (datos, entidades y predicados), así como conceptos y sus interrelaciones, los cuales brindarían un modelo semántico con el cual se podrían aplicar algoritmos de aprendizaje automático para descubrir patrones en la información, así como aplicar reglas de inferencia para descubrir nuevo conocimiento. Un conjunto de herramientas integradas que automaticen las tareas de construcción de KGs como el KGCP presentado en este artículo, aceleraría el proceso de análisis y descubrimiento de información que coadyuvaría en diferentes áreas científicas para encontrar soluciones a los retos que actualmente nos presenta la actual pandemia.

10.4 Referencias

[1] [Gruber, Tom]. [Toward Principles for the Design of Ontologies Used for Knowledge Sharing. International Journal of Human-Computer Studies. 43 (5–6): 907–928. 1993].
[3] [Seneviratne, Sandaru, Sergio J. Rodríguez Méndez, Xuecheng Zhang, Pouya G. Omran, Kerry Taylor, y Armin Haller.][“TNNT: The Named Entity Recognition Toolkit” (version pre-impresa en arXiv)]. Recuperado de: https://arxiv.org/abs/2108.13700. [Último acceso: 2021].
[4] [Rodríguez Méndez, Sergio J., Armin Haller, Pouya G. Omran, Jesse Wright, y Kerry Taylor. “J2RM: an Ontology-based JSON-to-RDF Mapping Tool”][(Conferencia; Proceedings of the ISWC 2020 Demos and Industry Tracks: From Novel Ideas to Industrial Practice - co-located with The 19th International Semantic Web Conference - ISWC 2020). CEUR Workshop Proceedings. Vol. 2721. Pp. 368-373]. Recuperado de: http://ceur-ws.org/Vol-2721/paper593.pdf. [Último acceso: 2021].