7. Práctica 1b : Topic modeling.#

Borja Navarro Colorado

7.1. Objeto#

El objetivo de este ejercicio es practicar la conversión de un corpus en una representación semántica vectorial. Para ello se utilizará el modelo LDA topic modeling. Este modelo extrae temas recurrentes de un corpus a partir de su representación vectorial de las palabras. La herramienta para realizar la práctica es Gensim, y el corpus el corpus de noticias LexEsp. De nuevo se utilizará COLAB para facilitar el trabajo.

Breve explicación de LDA-Topic Modeling: explicación inicial

7.2. Proceso y entrega#

La tarea es encontrar los temas comunes en un corpus de noticias. Para ello:

  1. Cargar el corpus LexEsp en COLAB (fichero comprimido en la UA-Nube)

  2. Pre-procesar el corpus. Como mínimo debe ser tokenizado. Además se puede lematizar y/o filtrar “stopwords” o seleccionar categorías gramaticales. Para ello se puede utilizar SpaCy como en la práctica anterior, u otras herramientas de PLN como NLTK.

  3. Crear el modelo LDA con Gensim.

  4. Visualizar los topics del corpus con pyLDAvis

Una vez creado todo, analiza los topics resultantes y cambia la configuración del experimento hasta hallar la lista de topics más clara. Parámetros que se pueden modificar:

Con la configuración óptima, entrega el enlace del cuaderno COLAB (modo lectura) mediante la opción de entrega de prácticas de UA-CLOUD.

7.3. Documentación.#

Para realizar la práctica, sigue este tutorial (oficial) de LDA con Gensim:

Otras páginas útiles:

7.4. Otras herramientas#

Para realizar Topic Modeling, existen otras herramientas como: