1. Introducción. Minería de textos y procesamiento del lenguaje natural#

Borja Navarro Colorado

Minería de textos es el conjunto de técnicas y herramientas desarrolladas para extraer información de grandes colecciones textuales, tanto información implícita como explícita.

Esa información está codificada en textos, es decir, en un idioma o lengua. La minería de textos necesita, por tanto, interpretar (en mayor o menor medida) los textos y a partir de esa interpretación extraer la información. La disciplina computacional que idea y desarrolla sistemas para la interpretación lingüística de los textos es el procesamiento del lenguaje natural (PLN o NLP por sus siglas en inglés: Natural Language Processing), disciplina híbrida entre la lingüística y la computación.

Este primer bloque de la asignatura es una introducción a los conceptos fundamentales del procesamiento del lenguaje natural. Se expondrá cómo modeliza formalmente la información lingüística y los métodos clásicos de interpretación. También se comentarán herramientas y recursos útiles para la minería de textos.

1.1. Contenido teórico#

Todo el contenido teórico de este primer bloque está en este PDF.

Para la clase del 8 de febrero debes haber leído los capítulos 1 a 5 (ambos incluidos) y haber realizado el primer cuestionario. Tiempo estimado de lectura: dos horas y media. Tiempo estimado para realizar el cuestionario: media hora.

Para la clase del 15 de febrero debes leer los capítulo 5 y 6, y realizar el segundo cuestionario. Tiempo estimado de lectura: dos horas. Tiempo estimado para realizar el cuestionario: media hora.

1.2. Contenido práctico#

En este primer bloque realizaremos dos actividades prácticas:

  • Práctica 1. Clase del 8 de frebreo. Aplicar un pipeline de PLN estándar a un documento. Se utilizará la herramienta SpaCy. Ver enunciado.

  • Práctica 2. Clase del 15 de febrero. Extracción de topics de una colección de documentos mediante Topic Modeling. Ver enunciado.