Materiales de Minería de Textos
Contents
Materiales de Minería de Textos#
Universitat d’Alacant, curso 2022–2023#
«This is an exciting time to be working in speech and language processing», Daniel Jurafsky, James H. Martin, 2009
«You shall know a word by the company it keeps», John Rupert Firth, 1957
Novedades#
10 Feb |
Ya tenéis disponibles en la sección “Actividades previas” las actividades a realizar esta semana antes de la siguiente clase presencial. |
01 Feb |
En la sección “Actividades previas” podrás ir encontrando cada semana las actividades a realizar antes de la siguiente clase presencial. Habrá también un enlace a un pequeño cuestionario que tienes que rellenar antes de las 23.59 del día anterior con tu cuenta gcloud.ua.es. Recuerda que estos cuestionarios contribuyen a la nota final. Ya tienes disponible las actividades y el cuestionario a realizar antes de la clase del 8 de febrero de 2023. |
25 Ene |
Se ha publicado la primera versión de los materiales de la asignatura. Estos materiales pueden pueden ir cambiando antes de la clase en la que se impartan. |
Actividades previas#
Antes de la clase del 10/05/2023: lee los contenidos que se detallan en el apartado correspondiente a esta clase de la página de técnicas para la minería de textos; a continuación, realiza este test (plazo límite: 23:59 del 09/05/2023); termina también de comentar el notebook que empezaste en la clase anterior.
Antes de la clase del 26/04/2023: lee los contenidos que se detallan en el apartado correspondiente a esta clase de la página de técnicas para la minería de textos; a continuación, realiza este test (plazo límite: 23:59 del 27/04/2023); termina también de comentar el notebook que empezaste en la clase anterior.
Antes de la clase del 29/03/2023: lee los contenidos y visualiza los vídeos que se detallan en el apartado correspondiente a esta clase de la página de técnicas para la minería de textos; a continuación, realiza este test (plazo límite: 23:59 del 28/03/2023). Nota: esta clase y las siguientes serán impartidas por un profesor diferente a los de las sesiones anteriores, pero hay que realizar actividades previas como cualquier otra semana.
Antes de la clase del 22/03/2023: lee el Tema 5 y 5.1; a continuación, contesta el siguiente test: test (plazo límite: 23:59 del 21/03/2023)
P.Ev2. Evaluación 2 (común). Apertura el 22/02/2023 - Cierre 23:59 del 29/03/2023 - Fuera de plazo hasta 05/04/23.
Antes de la clase del 15/03/2023: lee el Tema 4; a continuación, contesta el siguiente test: test (plazo límite: 23:59 del 14/03/2023)
Antes de la clase del 08/03/2023: lee el Tema 3; a continuación, contesta el siguiente test: test (plazo límite: 23:59 del 07/03/2023)
Antes de la clase del 01/03/2023: lee el Tema 2 y 2.1; a continuación, contesta estos tests: test1 y test2 (plazo límite: 23:59 del 28/02/2023)
P.Ev1. Evaluación 1 (común). Apertura el 22/02/2023 - Cierre 23:59 del 01/03/2023 - Fuera de plazo hasta 08/03/23.
Antes de la clase del 22/02/2023: lee el Tema 1 del bloque 2; a continuación, contesta este test (plazo límite: 23:59 horas del 21/02/2023). IMPORTANTE: PARA ESTA SESION SE HARÁ UNA EXCEPCIÓN Y EL PLAZO LÍMITE SERÁ: 23:59 horas del 28/02/2023
Antes de la clase del 15/02/2023: lee los apartados 5 y 6 del bloque 1, y luego contesta el siguiente cuestionario (plazo límite: 23:59 horas del 14/02/2023).
Antes de la clase del 08/02/2023: lee los apartados 1, 2 y 3 del bloque 1; a continuación, contesta este test (plazo límite: 23:59 horas del 07/02/2023).
Guía docente y normas del curso#
Estos son los materiales de clase de la asignatura Minería de Textos, coordinada por el profesor Juan Antonio Pérez Ortiz (@japer3z) de la Universitat d’Alacant e impartida también por los profesores Francisco de Borja Navarro Colorado y Yoan Gutiérrez Vázquez.
Para obtener información sobre la evaluación de la asignatura puedes consultar la guía docente. Algunos aspectos adicionales que no están recogidos en la guía son los siguientes:
Las prácticas se realizan individualmente o en parejas, según se indique en el enunciado de cada una de ellas. Cada uno de los tres bloques de la asignatura tendrá uno o más trabajos prácticos. Los trabajos del primer bloque contarán un 15% en la nota final de las prácticas, los del segundo un 50% y un 35% los del tercero.
La asistencia a prácticas es obligatoria. Se pasará lista en cada sesión presencial. Se puede tener un máximo de 3 faltas sin justificar. Si se acumulan más faltas no justificadas, no se podrá superar la parte de prácticas en la primera convocatoria, pero sí en la segunda (si se realizan las entregas correspondientes antes del día del examen) o en las otras convocatorias extraordinarias.
El código fuente de estas páginas, escrito en MyST para Jupyter Book, está disponible en Github.
Puedes obtener una copia local de estas páginas (por ejemplo, para poder consultarlas sin conexión) ejecutando::
wget --mirror --no-parent --convert-links --page-requisites https://jaspock.github.io/mtextos2223/
Pero ten en cuenta que su contenido irá cambiando a lo largo del curso.
Presentación de la asignatura#
La diferencia entre los términos minería de textos y procesamiento del lenguaje natural es un tanto difusa. Podríamos decir que la minería de textos es el proceso de descubrimiento de patrones y obtención de información relevante de grandes colecciones de textos. Al igual que en el concepto más amplio de minería de datos, el énfasis no es en la extracción (minado) de los datos en sí, sino en la extracción de patrones y conocimiento relevante. En el caso de la minería de textos, las fuentes de información son textos digitalizados, que no incluyen otras fuentes de información más estructurada como las bases de datos. El procesamiento del lenguaje natural, por otro lado, aplica técnicas lingüísticas, computacionales y de aprendizaje automático a datos en lenguaje natural, habitualmente en forma de texto o voz, para resolver tareas que requieren que el ordenador adquiera cierta comprensión sobre su contenido. El procesamiento de voz no se suele considerar parte de la minería de textos, pero esta se vale en la mayor parte de las situaciones de las técnicas de procesamiento del lenguaje natural para conseguir sus objetivos.
La asignatura se centra en presentar los fundamentos, características y aplicaciones de las técnicas actuales para el procesamiento del lenguaje natural, pero no pretende entrar en excesivos detalles sobre modelos muy recientes ni estar completamente a la última, ya que el ritmo de aparición de sistemas que mejoran los resultados de los anteriores es extremadamente rápido (podríamos decir que semanal en muchos casos y mensual en otros). Como ejemplo, el conjunto de benchmarks llamado SuperGLUE quedó prácticamente obsoleto en menos de dos años por la sucesiva aparición de arquitecturas que conseguían cada vez mejores resultados en los problemas que incluía.
La asignatura tiene tres bloques: el primero (”Introducción a la minería de textos”) introduce los fundamentos de la lingüística computacional; en el segundo (”Aplicaciones de la minería de textos”) se discuten algunas de las aplicaciones más importantes del procesamiento del lenguaje natural; por último, el tercer bloque (”Técnicas para la minería de textos”) estudia con cierto nivel de detalle las arquitecturas neuronales más empleadas en el área.
Para saber más#
Para ampliar lo aprendido en la asignatura puedes consultar algunas de estas fuentes en línea:
“Speech and language processing” (borrador de la tercera edición).
“The mathematical engineering of deep learning”
Materiales del curso “Natural language processing with deep learning” de Stanford.
Materiales del curso “Neural nets for NLP” de la Universidad Carnegie Mellon.
