Nombre: PROCESAMIENTO DE LENGUAJE NATURAL ESCRITO
Código: 525103009
Carácter: Obligatoria
ECTS: 6
Unidad Temporal: Cuatrimestral
Despliegue Temporal: Curso 3º - Segundo cuatrimestre
Menciones/Especialidades:
Lengua en la que se imparte: Castellano
Carácter: Presencial
Nombre y apellidos: PASTOR FRANCO, JUAN ÁNGEL
Área de conocimiento: Lenguajes y Sistemas Informáticos
Departamento: Tecnologías de la Información y las Comunicaciones
Teléfono: 4150 - 968326507
Correo electrónico: juanangel.pastor@upct.es
Horario de atención y ubicación durante las tutorias:
Titulaciones:
Categoría profesional: Profesor Titular de Universidad
Nº de quinquenios: 4
Nº de sexenios: 3 de investigación
Curriculum Vitae: Perfil Completo
[CB3 ]. Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes (normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética
[CB5 ]. Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía
[CG1 ]. Conocer y aplicar la analítica de datos y técnicas estadísticas apropiadas para descubrir nuevas relaciones en los datos y realizar aportaciones a procesos de las organizaciones, así como apoyar en la toma de decisiones.
[CG4 ]. Capacidad para aplicar los métodos generales de la ciencia e ingeniería de datos en los tipos de datos de dominios específicos, así como en la presentación de los datos, el modelado de datos y procesos, los roles organizacionales y las relaciones entre estos.
[CE23 ]. Aplicar técnicas de procesamiento de lenguaje natural escrito y machine learning, para desplegar modelos para el análisis y la predicción de datos.
Conocer las características principales de los sistemas de procesamiento del lenguaje natural escrito.
Aplicar las técnicas de procesamiento del lenguaje natural escrito a partir de fuentes de datos no estructurados más usadas en ciencia e ingeniería de datos.
Conocer las soluciones computaciones y las posibles plataformas de análisis de texto.
Elegir las tecnologías adecuadas para desarrollar, estructurar e instrumentar máquinas, experimentos, procesos y sistemas.
Modelar la aplicación de análisis de texto escrito para desarrollar mejores instrumentos, máquinas, experimentos, procesos y sistemas adecuados.
Procesamiento del lenguaje natural.<br> Niveles de procesamiento.<br><br> Procesamiento lexico-morfológico.<br> Tokenización, stemming, lematización, expresiones regulares.<br> POS Tagging.<br><br> Procesamiento sintáctico y semántico del lenguaje.<br> Análisis sintáctico superficial y análisis de dependencias. <br> Semántica léxica, distribucional, desambiguación.<br><br> Extracción y recuperación de información.<br> Extracción de entidades (NER), extracción de relaciones.<br> Modelo espacio vectorial.<br> Sistemas pregunta-respuesta.<br><br> Clasificación de textos.<br> Análisis de sentimiento y emociones.<br><br> Modelos del lenguaje.<br> Deep learning en PLN.<br><br>
1.- Introducción al Procesamiento del Lenguaje Natural
Métodos basados en conocimiento vs métodos basados en corpus.
Niveles de procesamiento.
2.- Procesamiento léxico morfológico
Procesamiento básico del texto.
Tokenización, stemming, lematización, expresiones regulares.
POS Tagging.
3.- Procesamiento sintáctico y semántico.
Análisis sintáctico superficial y análisis de dependencias.
Análisis semántico. Semántica léxica, distribucional, desambiguación.
4.- Representaciones de texto
Modelos del lenguaje.
Modelo de espacio vectorial.
N-gramas.
Embeddings.
Deep learning en PLN:
Transformers y LLM.
Zero and Few Shot Learning en PLN.
5.- Tareas y aplicaciones de PLN
Clasificación de texto.
Análisis de sentimientos y emociones..
Extracción de información.
Extracción de entidades (NER), extracción de relaciones, expresiones temporales, modelado de tópicos.
Sistemas pregunta-respuesta. Chatbots.
Métricas para la evaluación de sistemas de PLN
Práctica 1: P1. Aplicaciones prácticas de Procesamiento del lenguaje natural escrito
Sesiones de prácticas que incluyen la realización de ejercicios sencillos sobre distintas aplicaciones y tecnologías de procesamiento del lenguaje natural relacionados con todos los temas de la asignatura como preprocesamiento de texto, análisis léxico, morfológico, sintáctico, clasificación de texto, extracción de información, reconocimiento de entidades o sistemas de pregunta-respuesta, uso de LLM, etc. Estas sesiones se realizan fundamentalmente en los laboratorios de prácticas para aprender contenidos prácticos sobre el uso de librerías y frameworks actuales para el PLN. Algunas de estas sesiones prácticas tendrán ejercicios para resolver en casa. Relacionado con: Tema 1: Introducción al Procesamiento del Lenguaje Natural. Tema 2: Procesamiento léxico morfológico. Tema 3: Procesamiento sintáctico y semántico. Tema 4: Representaciones de texto Tema 5: Tareas y aplicaciones de PLN.
Práctica 2: P2. Desarrollo de una pequeña aplicación de procesamiento del lenguaje natural
Se realizará el desarrollo de un proyecto basado en tecnologías de PLN alrededor del caso de estudio de la asignatura como la clasificación de texto o de perfilado de autores. De esta segunda práctica, además del software desarrollado, se realizará un informe técnico que será evaluado para la parte práctica de la asignatura. Relacionado con: Tema 2: Procesamiento léxico morfológico. Tema 3: Procesamiento sintáctico y semántico. Tema 4: Representaciones de texto Tema 5: Tareas y aplicaciones de PLN.
La Universidad Politécnica de Cartagena considera como uno de sus principios básicos y objetivos fundamentales la promoción de la mejora continua de las condiciones de trabajo y estudio de toda la Comunidad Universitaria. Este compromiso con la prevención y las responsabilidades que se derivan atañe a todos los niveles que integran la Universidad: órganos de gobierno, equipo de dirección, personal docente e investigador, personal de administración y servicios y estudiantes. El Servicio de Prevención de Riesgos Laborales de la UPCT ha elaborado un "Manual de acogida al estudiante en materia de prevención de riesgos" que puedes encontrar en el Aula Virtual, y en el que encontraras instrucciones y recomendaciones acerca de cómo actuar de forma correcta, desde el punto de vista de la prevención (seguridad, ergonomía, etc.), cuando desarrolles cualquier tipo de actividad en la Universidad. También encontrarás recomendaciones sobre cómo proceder en caso de emergencia o que se produzca algún incidente. En especial, cuando realices prácticas docentes en laboratorios, talleres o trabajo de campo, debes seguir todas las instrucciones del profesorado, que es la persona responsable de tu seguridad y salud durante su realización. Consúltale todas las dudas que te surjan y no pongas en riesgo tu seguridad ni la de tus compañeros.
Topic 1: Introduction to Natural Language Processing.
Knowledge-based methods vs. corpus-based methods.
Levels of processing.
Topic 2: Morphological lexical processing.
Basic text processing.
Tokenization, stemming, lemmatization, regular expressions.
POS Tagging.
Topic 3: Syntactic and semantic processing.
Shallow syntactic analysis and dependency analysis.
Semantic analysis. Lexical, distributional semantics, disambiguation.
Topic 4: Text representations Language models.
Vector space model.
N-grams.
Embeddings.
Deep learning in NLP:
Transformers and LLM.
Zero and Few Shot Learning in NLP.
Topic 5: NLP tasks and applications. Text classification.
Sentiment and emotion analysis..
Information extraction.
Entity extraction (NER), relation extraction, temporal expressions, topic modeling.
Question-answer systems. Chatbots.
Metrics for evaluating NLP systems.
El objetivo principal de esta asignatura es el de abordar las tecnologías para el Procesamiento del Lenguaje Natural (PLN) diferenciando entre los distintos niveles de procesamiento escrito. Se estudiarán los conceptos de aproximaciones basadas en conocimiento y corpus, los distintos niveles de procesamiento del texto, las representaciones del texto basadas en modelos estadísticos, lingüísticos y de embeddings, los modelos del lenguaje, las arquitecturas de deep learning actuales como Transformers y los modelos del Lenguaje de Gran Escala (LLM).
A nivel técnico, se estudiarán distintas librerías, frameworks. A nivel de ingeniería del software, se estudiará como se pueden abordar distintas tareas de PLN tales como la clasificación de texto, resumen automático, la extracción de entidades, la extracción de tópicos, los sistemas tipo pregunta y respuesta o los chatbots. En este sentido, se analizarán distintos tipos de representación de texto para cada tarea del PLN y se estudiarán las métricas principales para la evaluación del rendimiento y efectividad.
Exposición teórica: Exposición de los contenidos teóricos de la asignatura por parte del profesor. También se contemplan las sesiones informativas sobre el desarrollo del trabajo de fin de grado o prácticas externas.
Actividades de clase expositiva: Exposición teórica, clase magistral, proyección, dirigida al grupo completo de estudiantes, con independencia de que su contenido sea teórico o práctico/aplicado. Junto a la exposición de conocimientos, en las clases se
plantean cuestiones, se aclaran dudas, se realizan ejemplificaciones, se establecen relaciones con las diferentes actividades prácticas que se realizan y se orienta la búsqueda de información.
20
100
Seminarios y actividades de aula: Exposición, análisis y debate dentro del contexto de aplicaciones específicas de contenidos teóricos, así como planteamiento y resolución de ejercicios y casos prácticos en el aula, tanto al grupo completo como en grupos reducidos. También se contemplan conferencias, debates y seminarios temáticos.
Actividades de clase expositiva: Exposición teórica, clase magistral, proyección, dirigida al grupo completo de estudiantes, con independencia de que su contenido sea teórico o práctico/aplicado. Junto a la exposición de conocimientos, en las clases se
plantean cuestiones, se aclaran dudas, se realizan ejemplificaciones, se establecen relaciones con las diferentes actividades prácticas que se realizan y se orienta la búsqueda de información.
5
100
Prácticas de laboratorio: Ejercicios y resolución de problemas, aprendizaje orientado a proyectos, estudio de casos, exposición y discusión de trabajos, simulaciones y/o prácticas con ordenadores, generalmente desarrolladas en grupos reducidos.
Actividades prácticas de laboratorio: Actividades de los estudiantes en aulas de informática o específicas, realizadas en grupos reducidos o individualmente, dirigidas al uso y conocimiento de la materia de estudio, supervisadas por el profesor.
28
100
Trabajo autónomo del alumno: Estudio y preparación de contenidos teórico-prácticos, trabajo individual consistente en lecturas, búsquedas de información, sistematización de contenidos, elaboración de informes o estudio para la elaboración de casos entre otras actividades.
Estudio individual, teórico y práctico, de los temas incluidos en la guía.
90
0
Tutorías formativas y resolución de dudas: Asistencia individualizada -tutorías individuales- o en grupo -tutorías colectivas- a los estudiantes por parte del profesor.
Tutorías: Sesiones programadas individuales o en grupo de orientación, revisión o apoyo a los estudiantes por parte del profesor con independencia de que los contenidos sean teóricos o prácticos.
3
100
Evaluación: Pruebas individuales, ya sean escritas, orales o con medios informáticos, donde el estudiante demostrará los conocimientos teóricos y prácticos adquiridos durante las actividades formativas asociadas a la enseñanza de la materia.
Véase apartado dedicado a la evaluación.
4
100
Exámenes individuales: Pruebas objetivas, de desarrollo, de respuesta corta, de ejecución de tareas o de escala de actitudes, realizadas por los estudiantes para mostrar los conocimientos teóricos y prácticos adquiridos ya sea de forma oral, escrita o utilizando un ordenador.
Exámenes individuales: Pruebas objetivas, de desarrollo, de respuesta corta, de ejecución de tareas o de escala de actitudes, realizadas por los estudiantes para mostrar los conocimientos teóricos y prácticos adquiridos ya sea de forma oral, escrita o utilizando un ordenador.
40 %
Procedimientos de observación del trabajo del estudiante: Registros de participación, de realización de actividades, cumplimiento de plazos, participación en foros, informes de seguimiento del trabajo fin de grado y registros sobre el desarrollo de las prácticas externas.
No se consideran en el presente curso
0 %
Informe técnico. En este instrumento incluimos los resultados de actividades prácticas, o de laboratorio, junto con sus memorias descriptivas y posibles resúmenes del estado del arte sobre temas concretos. La opción de realizar entrevistas personales o presentaciones de los trabajos realizados también entran en esta categoría.
Informe técnico. En este instrumento incluimos los resultados de actividades prácticas, o de laboratorio, junto con sus memorias descriptivas y posibles resúmenes del estado del arte sobre temas concretos. La opción de realizar entrevistas personales o presentaciones de los trabajos realizados también entran en esta categoría.
60 %
Exámenes individuales: Pruebas objetivas, de desarrollo, de respuesta corta, de ejecución de tareas o de escala de actitudes, realizadas por los estudiantes para mostrar los conocimientos teóricos y prácticos adquiridos ya sea de forma oral, escrita o utilizando un ordenador.
Exámenes individuales: Pruebas objetivas, de desarrollo, de respuesta corta, de ejecución de tareas o de escala de actitudes, realizadas por los estudiantes para mostrar los conocimientos teóricos y prácticos adquiridos ya sea de forma oral, escrita o utilizando un ordenador.
40 %
Procedimientos de observación del trabajo del estudiante: Registros de participación, de realización de actividades, cumplimiento de plazos, participación en foros, informes de seguimiento del trabajo fin de grado y registros sobre el desarrollo de las prácticas externas.
No se consideran en el presente curso
0 %
Informe técnico. En este instrumento incluimos los resultados de actividades prácticas, o de laboratorio, junto con sus memorias descriptivas y posibles resúmenes del estado del arte sobre temas concretos. La opción de realizar entrevistas personales o presentaciones de los trabajos realizados también entran en esta categoría.
Informe técnico. En este instrumento incluimos los resultados de actividades prácticas, o de laboratorio, junto con sus memorias descriptivas y posibles resúmenes del estado del arte sobre temas concretos. La opción de realizar entrevistas personales o presentaciones de los trabajos realizados también entran en esta categoría.
60 %
USO DE LA IA: Todos los recursos y materiales no originales que se utilicen en los ejercicios evaluables, incluyendo herramientas
de Inteligencia Artificial, ayuda de compañeros, recursos de internet, libros, artículos, etc. deberán referenciarse claramente en el
código fuente y la documentación asociada a los ejercicios prácticos entregados.
Los criterios para establecer la nota que aparecerá en el acta son los siguientes:
- Si el alumno no realiza ninguna entrega de prácticas ni se presenta a ninguna evaluación de prueba, su calificación será "No Presentado".
- Si el alumno supera algún instrumento de evaluación y no entrega o no se presenta a los otros, su calificación será "No Presentado".
- Si el alumno no supera un instrumento de evaluación y no presenta o no supera el otro, su calificación será "Suspenso" con la nota del instrumento no superado.
- En otro caso (es decir, se superan los dos intrumentos), su calificación será resultado de aplicar los pesos establecidos para cada instrumento.
- En el caso de plagio, copia o utilización de medios fraudulentos en las diferentes pruebas, se aplicará el artículo 22 del Reglamento Evaluación de Estudiantes (REVA) de la Universidad de Murcia, que conllevará suspender la prueba y, en su caso, podrá ser objeto de sanción previa apertura de expediente académico.
Autor: Jurafsky Daniel
Título: Speech and Language Processing: An Introduction to Natural Language Processing , Computational Linguistics, and Speech Recognition
Editorial: Prentice Hall
Fecha Publicación: 2008
ISBN: 978-0131873216
Bibliografía básica
- Transparencias, apuntes y ejemplos prácticos de la asignatura.
- Dan Jurafsky, James H. Martin (2024). Speech and Language Processing. Stanford University. Disponible online: https://web.stanford.edu/~jurafsky/slp3/
- Tunstall, Lewis, Leandro Von Werra, and Thomas Wolf. Natural language processing with transformers. " O'Reilly Media, Inc.", 2022.
Bibliografía complementaria
- CS224N: Natural Language Processing with Deep Learning. Curso disponible online: https://web.stanford.edu/class/cs224n/
- Bird, Steven, Ewan Klein, and Edward Loper. Natural language processing with Python: analyzing text with the natural language toolkit. " O'Reilly Media, Inc.", 2009.
- Zhai, ChengXiang, and Sean Massung. Text data management and analysis: a practical introduction to information retrieval and text mining. Association for Computing Machinery and Morgan & Claypool, 2016