Nombre: INTRODUCCIÓN A DATA SCIENCE
Código: 504104010
Carácter: Optativa
ECTS: 6
Unidad Temporal: Cuatrimestral
Despliegue Temporal: Curso 4º - Segundo cuatrimestre
Menciones/Especialidades:
Lengua en la que se imparte: Castellano
Carácter: Presencial
Nombre y apellidos: KESSLER NEYER, MATHIEU
Área de conocimiento: Estadística e Investigación Operativa
Departamento: Matemática Aplicada y Estadística
Teléfono: 968325697
Correo electrónico: mathieu.kessler@upct.es
Horario de atención y ubicación durante las tutorias:
miércoles - 16:30 / 19:30
HOSPITAL DE MARINA, planta 0, Despacho B05
jueves - 16:30 / 19:30
HOSPITAL DE MARINA, planta 0, Despacho B05
Titulaciones:
Doctor en Matemáticas, especialidad Estadística Matemáticas en la Universidad Pierre et Marie Curie, París (FRANCIA) - 1996
Máster en Ciencias Exactas, especialidad Probabilidad y Procesos estocásticos en la Universidad Pierre et Marie Curie, París (FRANCIA) - 1993
Licenciado en Ciencias Exactas en la Université Paris Diderot (FRANCIA) - 1992
Categoría profesional: Catedrático de Universidad
Nº de quinquenios: 5
Nº de sexenios: 4 de investigación
Curriculum Vitae: Perfil Completo
[CG3 ]. Conocimiento de materias básicas y tecnologías, que le capacite para el aprendizaje de nuevos métodos y tecnologías, así como que le dote de una gran versatilidad para adaptarse a nuevas situaciones.
[C1 ]. Específica de formación común a la rama de telecomunicación: Capacidad para aprender de manera autónoma nuevos conocimientos y técnicas adecuados para la concepción, el desarrollo o la explotación de sistemas y servicios de telecomunicación
[C4 ]. Específica de formación común a la rama de telecomunicación: Capacidad de analizar y especificar los parámetros fundamentales de un sistema de comunicaciones
[TR2 ]. Trabajar en equipo
[TR5 ]. Aplicar a la práctica los conocimientos adquiridos
Al finalizar el programa formativo, el estudiante debe:
Poseer las destrezas para la preparación de datos para su procesado y análisis.
Haber adquirido buenas prácticas para la organización de un proyecto de análisis de datos, siendo consciente de las convenciones más habituales.
Ser capaz de escoger y calcular resúmenes númericos pertinentes del conjunto, por grupos y usando agregación de datos.
Conocer los prinicipios básicos de la visualización de datos, para presentar información, siendo capaz de recurrir a gráficas interactivas y cuadros de mandos.
Conocer los dos problemas fundamentales del análisis de datos: clasificar y predecir.
Ser capaz de plantear una función de coste para un problema de predicción o de clasificación y conocer el algoritmo básico de minimización, el algoritmo del gradiente.
Ser capaz de evaluar la eficiencia de un algoritmo.
Ser consciente del problema de sobreajuste, conocer métodos de selección de variables.
Conocer las técnicas estadísticas de reducción de dimensión.
Conocer las técnicas descriptivas de clasificación y obtención de información de series temporales así como los modelos probabilísticos más populares de series temporales.
Aplicar las técnicas de alisado exponencial para obtener tendencias, componentes estacionales de series temporales.
Tomar conciencia de que los conocimientos, aptitudes, capacidades y destrezas adquiridas con esta materia resultan fundamentales para su futura actividad profesional.
Dos problemas fundamentales del análisis de datos: clasificar y predecir. Modelos para la clasificación y predicción. Definición de la función de coste. Algoritmos de minimización de la función coste para la estimación de parámetros: gradiente y variantes. Evaluación de la calidad de la predicción. Reducción de dimensión: análisis de componentes principales. Introducción a las series temporales. Técnicas de alisado. Métodos de predicción.
Preparación de los datos, cálculo de resúmenes numéricos, representaciones gráficas
Tema 1. Manipulación y preparación de datos. Introducción. Formato correcto de los datos para su adecuado procesamiento. Buenas prácticas para la estructura de un proyecto de análisis de datos: carpetas nombres de variables,
Tema 2. Cálculo de resúmenes numéricos por grupos. Agregación de datos. Identificación y tratamiento de datos faltantes.
Tema 3. Representaciones gráficas.. Visualización de información.
Predicción y clasificación
Tema 4. Problemas de predicción: la regresión lineal múltiple. Función de coste, algoritmo del gradiente, minimización numérica y minimización explícita. Modelo estadístico Normal para la regresión lineal múltiple. Intervalos de confianza y de predicción.
Tema 5. La clasificación: regresión logística. Función coste. Fronteras de decisión. Precisión y sensibilidad de un algoritmo de clasificación binario. Estrategía 'One versus all' para problema multiclase.
Evaluar y simplificar la predicción o clasificación
Tema 6. Selección de características. Problema de sobreajuste, regularización de la función de coste, métodos estadísticos de selección de variables,
Tema 7. Evaluación de un algoritmo. División del conjunto de datos disponible en subconjuntos de entrenamiento, validación y test. Estimación del coste computacional de un algoritmo
Reducción de dimensión
Tema 8. El análisis en componentes principales. Principios del análisis en componentes principales, descomposición de la matriz de covarianza o correlación. Técnicas para la elección del número de componentes.
Datos con un componente temporal
Tema 9. Introducción a las series temporales. Concepto de serie y gráfico temporal. Componentes de una serie temporal. Tendencia, componente estacional. Métodos de alisado exponencial
Preparación de los datos, cálculo de resúmenes numéricos, representaciones gráficas
Práctica 1. Introducción al software de prácticas Python y al editor integrado Visual Studio Code. Recomendaciones de estilo. Estructura de un proyecto de análisis de datos. Jupyter Notebooks Práctica 2. Manipulación de datos con Python, librerías numpy y pandas. Importación de datos. Práctica 3. Transformación de columnas, cálculo de resúmenes por grupos con la librería pandas Práctica 4. Gráficas con Python. Introducción a la librería mathplotlit. Análisis del consumo horario eléctrico de una vivienda durante 3 años.
Predicción y clasificación
Práctica 5. Regresión líneal simple. y múltiple Análisis de los datos de selectividad y nota media de los egresados de los grados de la ETSIT. (I) Práctica 6. Algoritmos de machine learning con scikit-learn Práctica 7. Problema de clasificación: Regresión logística
Evaluar y simplificar la predicción o clasificación
Práctica 8. Evitar el sobreajuste: regularización de la función de coste y selección de variables (I). Principios básicos e ilustración. (II). Aplicación a un conjunto de reconocimiento de dígitos
Reducción de dimensión
Práctica 9 Análisis de componentes principales (I). Ilustración y principios básicos (II). Aplicación a un conjunto de imágenes de caras.
Datos con un componente temporal
Práctica 10. Análisis clásico de series temporales. Componentes de la serie, gráficas temporales. Métodos de alisado exponencial para series temporales. Métodos de predicción para series temporales.
La Universidad Politécnica de Cartagena considera como uno de sus principios básicos y objetivos fundamentales la promoción de la mejora continua de las condiciones de trabajo y estudio de toda la Comunidad Universitaria. Este compromiso con la prevención y las responsabilidades que se derivan atañe a todos los niveles que integran la Universidad: órganos de gobierno, equipo de dirección, personal docente e investigador, personal de administración y servicios y estudiantes. El Servicio de Prevención de Riesgos Laborales de la UPCT ha elaborado un "Manual de acogida al estudiante en materia de prevención de riesgos" que puedes encontrar en el Aula Virtual, y en el que encontraras instrucciones y recomendaciones acerca de cómo actuar de forma correcta, desde el punto de vista de la prevención (seguridad, ergonomía, etc.), cuando desarrolles cualquier tipo de actividad en la Universidad. También encontrarás recomendaciones sobre cómo proceder en caso de emergencia o que se produzca algún incidente. En especial, cuando realices prácticas docentes en laboratorios, talleres o trabajo de campo, debes seguir todas las instrucciones del profesorado, que es la persona responsable de tu seguridad y salud durante su realización. Consúltale todas las dudas que te surjan y no pongas en riesgo tu seguridad ni la de tus compañeros.
Preparing data, computing summaries and visualization
Unit 1. Manipulating and preparing data for posterior analysis
Unit 2. Computing summaries of data
Unit 3 Data visualizations
Prediction and classification
Unit 4. Prediction using multiple linear regression
Unit 5. Classification using logistic regression
Assess and simplify the prediction or classification
Unit 6. Variables selection
Unit 7 How to assess the performance of my algorithm?
Dimension reduction
Unit 8. Dimension reduction: Principal Component Analysis
Data with time component
Unit 9. Introduction to time series
Clase en aula convencional: teoría, problemas, casos prácticos, seminarios, etc
Se exponen los conceptos y los algoritmos asociados a los contenidos de teoría de la asignatura
Se plantean y se resuelven problemas o casos de estudio que ilustren los conceptos y algoritmos expuestos en las actividades de teoría. Son conjuntos de datos sencillos y en muchos de los casos se realiza con el software de análisis de datos.
30
100
Clase en aula de informática: prácticas
Se realizan los trabajos de análisis de datos (carga, limpieza, preparación, programación de los algoritmos, interpretación de los resultados), que aplican los conceptos y algoritmos vistos en clases de teoría
30
100
Trabajo del estudiante: estudio o realización de trabajos individuales o en grupo
El estudiante realiza los trabajos propuestos en clase, de entrega obligatoria o los opcionales, usando el software de análisis de datos.
El estudiante repasa lo visto en clase, visualiza los vídeos de apoyo, consulta obras bibliográficas para la consolidación del aprendizaje.
120
0
Exámenes escritos y/u orales (evaluación de contenidos teóricos, aplicados y/o prácticas de laboratorio)
Presentación del análisis de un conjunto de datos, desde la preparación y manipulación, análisis, visualización de datos. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis, así como la presentación de los resultados obtenidos.
0 %
Informes de laboratorio, problemas propuestos, simulaciones, estudio de casos, actividades de aprendizaje cooperativo, portafolios, presentaciones orales, informes de prácticas tutorizadas, autoevaluación y coevaluación, etc
Completar bloques de códigos en trabajos propuestos que consisten en el análisis de conjuntos de datos. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis y el manejo del software estadístico.
100 %
Tablas de observación para evaluar el desempeño de actividades (incluidas las prácticas de laboratorio) sobre las que no se requiera documentación escrita
Tablas de observación para evaluar el desempeño de actividades (incluidas las prácticas de laboratorio) sobre las que no se requiera documentación escrita
0 %
Informes de laboratorio, problemas propuestos, simulaciones, estudio de casos, actividades de aprendizaje cooperativo, portafolios, presentaciones orales, informes de prácticas tutorizadas, autoevaluación y coevaluación, etc
Completar bloques de códigos en trabajos propuestos que consisten en el análisis de conjuntos de datos. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis y el manejo del software estadístico.
100 %
Realización de actividades y otras pruebas (individualmente o en grupos), como actividades de gamificación.
Autor: Hastie, Trevor
Título: The elements of statistical learning data mining, inference, and prediction
Editorial: Springer
Fecha Publicación: 2009
ISBN: 9780387848570
Autor: Peña Sánchez de Rivera, Daniel
Título: Ánalisis de series temporales
Editorial: Alianza
Fecha Publicación: 2005
ISBN: 8420691283
Autor: Kessler, M.
Título: Métodos Estadísticos de la Ingeniería
Editorial: Universidad Politécnica de Cartagena
Fecha Publicación: 2008
ISBN: 9788496997073
Autor: Chen, Daniel Y.
Título: Pandas for everyone: python data analysis
Editorial: Addison-Wesley
Fecha Publicación: 2018
ISBN: 9780134546933
Autor: Wassermann, L.
Título: All of statistics. A concise course in Statistical Inference
Editorial: Springer
Fecha Publicación: 2004
ISBN: 0387402721
Autor: McKinney, Wes
Título: Python for data analysis: data wrangling with Pandas, NumPy, and IPython
Editorial: O`Reilly
Fecha Publicación: 2017
ISBN: 9781491957660
Autor: Lubanovic, Bill
Título: Introducing Python: modern computing in simple packages
Editorial: O'Reilly Media
Fecha Publicación: 2019
ISBN: 9781492051367
- Aula virtual de la asignatura accesible para todos los alumnos matriculados a través de la siguiente dirección web: https://aulavirtual.upct.es/
- Repositorio Github de la asignatura: https://github.com/mkesslerct/data_science_Python