Introducción. Minería de textos y procesamiento del lenguaje natural
Contents
1. Introducción. Minería de textos y procesamiento del lenguaje natural#
Borja Navarro Colorado
Minería de textos es el conjunto de técnicas y herramientas desarrolladas para extraer información de grandes colecciones textuales, tanto información implícita como explícita.
Esa información está codificada en textos, es decir, en un idioma o lengua. La minería de textos necesita, por tanto, interpretar (en mayor o menor medida) los textos y a partir de esa interpretación extraer la información. La disciplina computacional que idea y desarrolla sistemas para la interpretación lingüística de los textos es el procesamiento del lenguaje natural (PLN o NLP por sus siglas en inglés: Natural Language Processing), disciplina híbrida entre la lingüística y la computación.
Este primer bloque de la asignatura es una introducción a los conceptos fundamentales del procesamiento del lenguaje natural. Se expondrá cómo modeliza formalmente la información lingüística y los métodos clásicos de interpretación. También se comentarán herramientas y recursos útiles para la minería de textos.
1.1. Contenido teórico#
Todo el contenido teórico de este primer bloque está en este PDF.
Para la clase del 8 de febrero debes haber leído los capítulos 1 a 5 (ambos incluidos) y haber realizado el primer cuestionario. Tiempo estimado de lectura: dos horas y media. Tiempo estimado para realizar el cuestionario: media hora.
Para la clase del 15 de febrero debes leer los capítulo 5 y 6, y realizar el segundo cuestionario. Tiempo estimado de lectura: dos horas. Tiempo estimado para realizar el cuestionario: media hora.
1.2. Contenido práctico#
En este primer bloque realizaremos dos actividades prácticas:
Práctica 1. Clase del 8 de frebreo. Aplicar un pipeline de PLN estándar a un documento. Se utilizará la herramienta SpaCy. Ver enunciado.
Práctica 2. Clase del 15 de febrero. Extracción de topics de una colección de documentos mediante Topic Modeling. Ver enunciado.