Nombre: RECUPERACIÓN DE INFORMACIÓN
Código: 525103003
Carácter: Obligatoria
ECTS: 6
Unidad Temporal: Cuatrimestral
Despliegue Temporal: Curso 3º - Primer cuatrimestre
Menciones/Especialidades:
Lengua en la que se imparte: Castellano
Carácter: Presencial
Nombre y apellidos: GARCÍA GARCÍA, LAURA
Área de conocimiento: Ingeniería Telemática
Departamento: Tecnologías de la Información y las Comunicaciones
Teléfono: 968326497
Correo electrónico: laura.garcia@upct.es
Horario de atención y ubicación durante las tutorias: Las tutorías se realizarán a demanda del estudiante mediante solicitud remitida al correo laura.garcia@upct.es
Titulaciones:
Categoría profesional: Programa Juan de la Cierva Formación
Nº de quinquenios: No procede por el tipo de figura docente
Nº de sexenios: No procede por el tipo de figura docente
Curriculum Vitae: Perfil Completo
[CB1 ]. Que los estudiantes hayan demostrado poseer y comprender conocimientos en un área de estudio que parte de la base de la educación secundaria general, y se suele encontrar a un nivel que, si bien se apoya en libros de texto avanzados, incluye también algunos aspectos que implican conocimientos procedentes de la vanguardia de su campo de estudio
[CB2 ]. Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio
[CB5 ]. Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía
[CG2 ]. Conocer y aplicar los fundamentos de ingeniería y tecnologías informáticas actuales para diseñar e implementar nuevas aplicaciones de análisis de datos.
[CG3 ]. Capacidad para desarrollar experimentos y para implementar sistemas, infraestructuras, procesos y herramientas con el fin de soportar la manipulación de los datos durante todo el ciclo de vida de estos.
[CG5 ]. Conocer, desarrollar e implementar estrategias de gestión de datos con el fin de realizar su recolección, almacenamiento, preservación y disponibilidad para posteriores procesamientos.
[CE14 ]. Desarrollar e implementar modelos de datos relevantes, definir metadatos usando estándares y prácticas comunes para distintos tipos de fuentes de datos en una variedad de dominios científicos e industriales.
[CE15 ]. Procesar y analizar datos procedentes de fuentes, tipos y formatos de datos semi estructurados y estructurados de interés para Ciencia de datos.
[CE17 ]. Asegurar la calidad de los datos, su accesibilidad, interoperabilidad, cumplimiento de estándares y publicación (data curation).
[CE3 ]. Extraer información de fuentes tipos y formatos de datos semiestructurados y estructurados de interés para la ciencia de datos, incluyendo texto, imágenes, y conjuntos de datos de libre disposición, y hacerlos disponibles para análisis y usos posteriores.
Conocer las características de los tipos de fuentes de datos más usadas en ciencia e ingeniería de datos.
Preparar conjuntos de datos a partir de fuentes de datos distribuidas y abiertas.
Aplicar las técnicas de recuperación y extracción de información a partir de fuentes de datos estructurados y semi-estructurados más usadas en ciencia e ingeniería de datos.
Evaluar la efectividad de procesos de extracción de información.
Comprender el rol de la semántica y los metadatos en el procesamiento de fuentes de datos distribuidas.
Heterogeneidad de datos en Internet. Fuentes de datos abiertas. Datos estructurados y semi-estructurados. Tipos de acceso por software. Metadatos y semántica. Modelos de recuperación de información. Análisis basado en enlaces. Web crawling. Métricas de evaluación.
Tema 1: Introducción
Tema 2: Modelos básicos de recuperación de información
-Modelo booleano de recuperación de información
-Índices invertidos. Conceptos básicos y funcionamiento
-Consultas en el modelo booleano. Procesamiento mediante un índice invertido. Optimización de consultas
-Modelo booleano extendido: consultas de frases. Índices posicionales.
-Construcción de índices.
-Compresión de índices: Variable-byte codes.
-Evaluación de índices
Tema 3: Modelos de espacio vectorial
-Scoring
-Term-weighting
-TF-IDF
-Distancia del coseno
-BM25
-Problemas: versiones mínimas de python.
-Evaluación NDGC
-Aprendizaje pesos
Tema 4: Análisis de enlaces
-Técnicas de ranking basadas en análisis matricial
-PageRank
-Análisis de grafos para redes sociales
Tema 5: Metadatos y semántica
-APIs de acceso datos
-CSV, XML, JSON, parquet, y otros
-OpenData
-Web Scraping/crawling
Práctica 1: Práctica 1
Ficheros invertidos / compresión / búsquedas booleanas. -Relacionado con Tema 2: Modelos básicos de recuperación de información
Práctica 2: Práctica 2
Modelos espacio vectorial: TF-IDF / BM25. -Relacionado con Tema 3: Modelos de espacio vectorial
Práctica 3: Práctica 3
PageRank -Relacionado con Tema 4: Análisis de enlaces
Práctica 4: Práctica 4
Web-crawling + scraping. Enlaces HTML. Fuentes OpenData (formatos parquet, XML, JSON y otros) -Relacionado con Tema 5: Metadatos y semántica
La Universidad Politécnica de Cartagena considera como uno de sus principios básicos y objetivos fundamentales la promoción de la mejora continua de las condiciones de trabajo y estudio de toda la Comunidad Universitaria. Este compromiso con la prevención y las responsabilidades que se derivan atañe a todos los niveles que integran la Universidad: órganos de gobierno, equipo de dirección, personal docente e investigador, personal de administración y servicios y estudiantes. El Servicio de Prevención de Riesgos Laborales de la UPCT ha elaborado un "Manual de acogida al estudiante en materia de prevención de riesgos" que puedes encontrar en el Aula Virtual, y en el que encontraras instrucciones y recomendaciones acerca de cómo actuar de forma correcta, desde el punto de vista de la prevención (seguridad, ergonomía, etc.), cuando desarrolles cualquier tipo de actividad en la Universidad. También encontrarás recomendaciones sobre cómo proceder en caso de emergencia o que se produzca algún incidente. En especial, cuando realices prácticas docentes en laboratorios, talleres o trabajo de campo, debes seguir todas las instrucciones del profesorado, que es la persona responsable de tu seguridad y salud durante su realización. Consúltale todas las dudas que te surjan y no pongas en riesgo tu seguridad ni la de tus compañeros.
Unit 1: Introduction
Unit 2: Basic information retrieval models
-Boolean information retrieval model
-Inverted indexes. Basic concepts and operation
-Boolean model queries. Processing using an inverted index. Query optimization
-Extended Boolean model: phrase queries. Positional indexes.
-Index construction.
-Index compression: Variable-byte codes.
-Index evaluation
Unit 3: Vector Space Models
-Scoring
-Term-weighting
-TF-IDF
-Cosine Distance
-BM25
-Problems: minimal python versions.
-NDGC evaluation
-Learning weights
Unit 4: Link analysis
-Ranking techniques based on matrix analysis
-PageRank
-Graph analysis for social networks
Unit 5: Metadata and semantics
-Data access APIs
-CSV, XML, JSON, parquet, and others
-OpenData
-Web Scraping/crawling
Exposición teórica: Exposición de los contenidos teóricos de la asignatura por parte del profesor. También se contemplan las sesiones informativas sobre el desarrollo del trabajo de fin de grado o prácticas externas.
Exposición de los contenidos teóricos de la asignatura por parte del profesor. También se contemplan las sesiones informativas sobre el desarrollo del trabajo de fin de grado o prácticas externas.
20
100
Seminarios y actividades de aula: Exposición, análisis y debate dentro del contexto de aplicaciones específicas de contenidos teóricos, así como planteamiento y resolución de ejercicios y casos prácticos en el aula, tanto al grupo completo como en grupos reducidos. También se contemplan conferencias, debates y seminarios temáticos.
Exposición, análisis y debate dentro del contexto de aplicaciones específicas de contenidos teóricos, así como planteamiento y resolución de ejercicios y casos prácticos en el aula, tanto al grupo completo como en grupos reducidos. También se contemplan conferencias, debates y seminarios temáticos.
5
100
Prácticas de laboratorio: Ejercicios y resolución de problemas, aprendizaje orientado a proyectos, estudio de casos, exposición y discusión de trabajos, simulaciones y/o prácticas con ordenadores, generalmente desarrolladas en grupos reducidos.
Ejercicios y resolución de problemas, aprendizaje orientado a proyectos, estudio de casos, exposición y discusión de trabajos, simulaciones y/o prácticas con ordenadores, generalmente desarrolladas en grupos reducidos.
28
100
Trabajo autónomo del alumno: Estudio y preparación de contenidos teórico-prácticos, trabajo individual consistente en lecturas, búsquedas de información, sistematización de contenidos, elaboración de informes o estudio para la elaboración de casos entre otras actividades.
Estudio y preparación de contenidos teórico-prácticos, trabajo individual consistente en lecturas, búsquedas de información, sistematización de contenidos, elaboración de informes o estudio para la elaboración de casos entre otras actividades.
90
0
Tutorías formativas y resolución de dudas: Asistencia individualizada -tutorías individuales- o en grupo -tutorías colectivas- a los estudiantes por parte del profesor.
Asistencia individualizada -tutorías individuales- o en grupo -tutorías colectivas- a los estudiantes por parte del profesor.
3
100
Evaluación: Pruebas individuales, ya sean escritas, orales o con medios informáticos, donde el estudiante demostrará los conocimientos teóricos y prácticos adquiridos durante las actividades formativas asociadas a la enseñanza de la materia.
Pruebas individuales, ya sean escritas, orales o con medios informáticos, donde el estudiante demostrará los conocimientos teóricos y prácticos adquiridos durante las actividades formativas asociadas a la enseñanza de la materia.
4
100
Exámenes individuales: Pruebas objetivas, de desarrollo, de respuesta corta, de ejecución de tareas o de escala de actitudes, realizadas por los estudiantes para mostrar los conocimientos teóricos y prácticos adquiridos ya sea de forma oral, escrita o utilizando un ordenador.
El examen será teórico-práctico, entendiendo que puede incluir toda la materia vista en teoría y en prácticas.
50 %
Procedimientos de observación del trabajo del estudiante: Registros de participación, de realización de actividades, cumplimiento de plazos, participación en foros, informes de seguimiento del trabajo fin de grado y registros sobre el desarrollo de las prácticas externas.
0 %
Informe técnico. En este instrumento incluimos los resultados de actividades prácticas, o de laboratorio, junto con sus memorias descriptivas y posibles resúmenes del estado del arte sobre temas concretos. La opción de realizar entrevistas personales o presentaciones de los trabajos realizados también entran en esta categoría.
Existe la posibilidad de que se evalúe partes de las prácticas en el laboratorio dentro del horario de clase como forma de probar que se ha seguido la parte práctica de la asignatura.
50 %
Exámenes individuales: Pruebas objetivas, de desarrollo, de respuesta corta, de ejecución de tareas o de escala de actitudes, realizadas por los estudiantes para mostrar los conocimientos teóricos y prácticos adquiridos ya sea de forma oral, escrita o utilizando un ordenador.
El examen será teórico-práctico, entendiendo que puede incluir toda la materia vista en teoría y en prácticas.
50 %
Procedimientos de observación del trabajo del estudiante: Registros de participación, de realización de actividades, cumplimiento de plazos, participación en foros, informes de seguimiento del trabajo fin de grado y registros sobre el desarrollo de las prácticas externas.
Registros de participación, de realización de actividades, cumplimiento de plazos, participación en foros, informes de seguimiento del trabajo fin de grado y registros sobre el desarrollo de las prácticas externas.
0 %
Informe técnico. En este instrumento incluimos los resultados de actividades prácticas, o de laboratorio, junto con sus memorias descriptivas y posibles resúmenes del estado del arte sobre temas concretos. La opción de realizar entrevistas personales o presentaciones de los trabajos realizados también entran en esta categoría.
Existe la posibilidad de que se evalúe partes de las prácticas en el laboratorio dentro del horario de clase como forma de probar que se ha seguido la parte práctica de la asignatura.
50 %
Cada parte, teoría y práctica, se consideran aprobadas si se obtiene una calificación de 5 o más en una escala de 0 a 10. La nota final será la media ponderada de la teoría y las prácticas en el caso de haber aprobado ambas, o la nota del menor de los suspensos en el caso de haber suspendido alguna de las dos. En cualquier otro caso, será NP.
Autor: Baeza-Yates, Ricardo
Título: Modern information retrieval the concepts and technology behind search,
Editorial: Addison Wesley,
Fecha Publicación: 2010
ISBN: 9780321416919
Autor: Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze
Título: Introduction to Information Retrieval
Editorial: Cambridge University Press
Fecha Publicación: 2008
ISBN:
Autor: Russell, Matthew
Título: Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Site.
Editorial: O'Reilly
Fecha Publicación: 2019
ISBN:
Versión online del libro "Introduction to Information Retrieval", Cambridge University Press. 2008. (Disponible en: https://nlp.stanford.edu/IR-book/information-retrieval-book.html)