1. Introducción. Minería de textos y procesamiento del lenguaje natural#

Borja Navarro Colorado

Minería de textos es el conjunto de técnicas y herramientas desarrolladas para extraer información de grandes colecciones textuales, tanto información implícita como explícita.

Esa información está codificada en textos, es decir, en un idioma o lengua. La minería de textos necesita, por tanto, interpretar (en mayor o menor medida) los textos y a partir de esa interpretación extraer la información. La disciplina computacional que idea y desarrolla sistemas para la interpretación lingüística de los textos es el procesamiento del lenguaje natural (PLN o NLP por sus siglas en inglés: Natural Language Processing), disciplina híbrida entre la lingüística y la computación.

Este primer bloque de la asignatura es una introducción a los conceptos fundamentales del procesamiento del lenguaje natural. Se expondrá cómo modeliza formalmente la información lingüística y los métodos clásicos de interpretación. También se comentarán herramientas y recursos útiles para la minería de textos.

1.1. Contenido teórico#

Todo el contenido teórico de este primer bloque está en este PDF.

Para la clase del 8 de febrero debes haber leído los capítulos 1 a 5 (ambos incluidos) y haber realizado el primer cuestionario. Tiempo estimado de lectura: dos horas y media. Tiempo estimado para realizar el cuestionario: media hora.

Para la clase del 15 de febrero debes leer los capítulo 5 y 6, y realizar el segundo cuestionario. Tiempo estimado de lectura: dos horas. Tiempo estimado para realizar el cuestionario: media hora.

1.2. Contenido práctico#

En este primer bloque realizaremos dos actividades prácticas:

Práctica 1. Clase del 8 de frebreo. Aplicar un pipeline de PLN estándar a un documento. Se utilizará la herramienta SpaCy. Ver enunciado.
Práctica 2. Clase del 15 de febrero. Extracción de topics de una colección de documentos mediante Topic Modeling. Ver enunciado.

Minería de Textos

Introducción. Minería de textos y procesamiento del lenguaje natural

Contents

1. Introducción. Minería de textos y procesamiento del lenguaje natural#

1.1. Contenido teórico#

1.2. Contenido práctico#