Nombre: INTRODUCCIÓN A DATA SCIENCE
Código: 505104009
Carácter: Optativa
ECTS: 6
Unidad Temporal: Cuatrimestral
Despliegue Temporal: Curso 4º - Segundo cuatrimestre
Menciones/Especialidades:
Lengua en la que se imparte: Castellano
Carácter: Presencial
Nombre y apellidos: RUIZ ABELLÓN, MARÍA CARMEN
Área de conocimiento: Estadística e Investigación Operativa
Departamento: Matemática Aplicada y Estadística
Teléfono: 968338914
Correo electrónico: maricarmen.ruiz@upct.es
Horario de atención y ubicación durante las tutorias:
lunes - 16:00 / 20:00
HOSPITAL DE MARINA, planta 0, Despacho B030
Las tutorías se realizarán online a través de Teams. Los estudiantes interesados en realizar una tutoría deberán contactar con la profesora mediante correo electrónico para acordar día y hora.
miércoles - 12:00 / 14:00
HOSPITAL DE MARINA, planta 0, Despacho B030
Las tutorías se realizarán online a través de Teams. Los estudiantes interesados en realizar una tutoría deberán contactar con la profesora mediante correo electrónico para acordar día y hora.
Titulaciones:
Categoría profesional: Profesora Titular de Universidad
Nº de quinquenios: 5
Nº de sexenios: 3 de investigación y 1 de transferencia
Curriculum Vitae: Perfil Completo
Responsable de los grupos: G1
[CG3 ]. Conocimiento de materias básicas y tecnologías, que le capacite para el aprendizaje de nuevos métodos y tecnologías, así como que le dote de una gran versatilidad para adaptarse a nuevas situaciones.
[C1 ]. Capacidad para aprender de manera autónoma nuevos conocimientos y técnicas adecuados para la concepción, el desarrollo o la explotación de sistemas y servicios de telecomunicación
[C4 ]. Capacidad de analizar y especificar los parámetros fundamentales de un sistema de comunicaciones
Se recomienda un manejo básico de la teoría de la probabilidad, a nivel de la asignatura de formación básica -Estadística- por ejemplo.
[TR2 ]. Trabajar en equipo
[TR5 ]. Aplicar a la práctica los conocimientos adquiridos
Al finalizar el programa formativo, el estudiante debe:
Poseer las destrezas para la preparación de datos para su procesado y análisis.
Haber adquirido buenas prácticas para la organización de un proyecto de análisis de datos, siendo consciente de las convenciones más habituales.
Ser capaz de escoger y calcular resúmenes númericos pertinentes del conjunto, por grupos y usando agregación de datos.
Conocer los prinicipios básicos de la visualización de datos, para presentar información, siendo capaz de recurrir a gráficas interactivas y cuadros de mandos.
Conocer los dos problemas fundamentales del análisis de datos: clasificar y predecir.
Ser capaz de plantear una función de coste para un problema de predicción o de clasificación y conocer el algoritmo básico de minimización, el algoritmo del gradiente.
Ser capaz de evaluar la eficiencia de un algoritmo Ser consciente del problema de sobreajuste, conocer métodos de selección de variables.
Conocer las técnicas estadísticas de reducción de dimensión.
Conocer las técnicas descriptivas de clasificación y obtención de información de series temporales así como los modelos probabilísticos más populares de series temporales.
Aplicar las técnicas de alisado exponencial para obtener tendencias, componentes estacionales de series temporales.
Tomar conciencia de que los conocimientos, aptitudes, capacidades y destrezas adquiridas con esta materia resultan fundamentales para su futura actividad profesional
Dos problemas fundamentales del análisis de datos: clasificar y predecir. Modelos para la clasificación y predicción. Definición de la función de coste. Algoritmos de minimización de la función coste para la estimación de parámetros: gradiente y variantes. Evaluación de la calidad de la predicción. Reducción de dimensión: análisis de componentes principales. Introducción a las series temporales. Técnicas de alisado. Métodos de predicción.
Preparación de los datos, cálculo de resúmenes numéricos, representaciones gráficas
Tema 1. Manipulación y preparación de datos. Introducción. Formato correcto de los datos para su adecuado procesamiento. Buenas prácticas para la estructura de un proyecto de análisis de datos.
Tema 2. Cálculo de resúmenes numéricos por grupos. Agregación de datos. Identificación y tratamiento de datos faltantes.
Tema 3. Representaciones gráficas. Visualización de información.
Predicción y clasificación
Tema 4. Problemas de predicción: la regresión lineal múltiple. Función de coste, algoritmo del gradiente, minimización numérica y minimización explícita. Modelo estadístico Normal para la regresión lineal múltiple. Intervalos de confianza y de predicción.
Tema 5. La clasificación: regresión logística. Función coste. Fronteras de decisión. Precisión y sensibilidad de un algoritmo de clasificación binario. Estrategía 'One versus all' para problemas multiclase.
Evaluar y simplificar la predicción o clasificación
Tema 6. Selección de características. Problema de sobreajuste, regularización de la función de coste, métodos estadísticos de selección de variables.
Tema 7. Evaluación de un algoritmo. División del conjunto de datos disponible en subconjuntos de entrenamiento, validación y test. Estimación del coste computacional de un algoritmo
Reducción de dimensión
Tema 8. El análisis en componentes principales. Principios del análisis en componentes principales, descomposición de la matriz de covarianza o correlación. Técnicas para la elección del número de componentes.
Datos con un componente temporal
Tema 9. Introducción a las series temporales. Concepto de serie y gráfico temporal. Componentes de una serie temporal. Tendencia, componente estacional. Métodos de alisado exponencial
Preparación de los datos, cálculo de resúmenes numéricos, representaciones gráficas
Práctica 1. Introducción al software de prácticas Python y al editor integrado Visual Studio Code. Recomendaciones de estilo. Estructura de un proyecto de análisis de datos. Jupyter Notebooks Práctica 2. Manipulación de datos con Python, librerías numpy y pandas. Importación de datos. Práctica 3. Transformación de columnas, cálculo de resúmenes por grupos con la librería pandas Práctica 4. Gráficas con Python. Introducción a la librería Matplotlib.
Predicción y clasificación
Práctica 5. Regresión lineal simple y múltiple. Práctica 6. Algoritmos de machine learning con scikit-learn. Práctica 7. Problema de clasificación: Regresión logística.
Evaluar y simplificar la predicción o clasificación
Práctica 8. Evitar el sobreajuste: regularización de la función de coste y selección de variables. Principios básicos e ilustración.
Reducción de dimensión
Práctica 9 Análisis de componentes principales. Ilustración y principios básicos.
Datos con un componente temporal
Práctica 10. Análisis clásico de series temporales. Componentes de la serie, gráficas temporales. Métodos de alisado exponencial para series temporales. Métodos de predicción para series temporales.
La Universidad Politécnica de Cartagena considera como uno de sus principios básicos y objetivos fundamentales la promoción de la mejora continua de las condiciones de trabajo y estudio de toda la Comunidad Universitaria. Este compromiso con la prevención y las responsabilidades que se derivan atañe a todos los niveles que integran la Universidad: órganos de gobierno, equipo de dirección, personal docente e investigador, personal de administración y servicios y estudiantes. El Servicio de Prevención de Riesgos Laborales de la UPCT ha elaborado un "Manual de acogida al estudiante en materia de prevención de riesgos" que puedes encontrar en el Aula Virtual, y en el que encontraras instrucciones y recomendaciones acerca de cómo actuar de forma correcta, desde el punto de vista de la prevención (seguridad, ergonomía, etc.), cuando desarrolles cualquier tipo de actividad en la Universidad. También encontrarás recomendaciones sobre cómo proceder en caso de emergencia o que se produzca algún incidente. En especial, cuando realices prácticas docentes en laboratorios, talleres o trabajo de campo, debes seguir todas las instrucciones del profesorado, que es la persona responsable de tu seguridad y salud durante su realización. Consúltale todas las dudas que te surjan y no pongas en riesgo tu seguridad ni la de tus compañeros.
Preparing data, computing summaries and visualization
Unit 1. Manipulating and preparing data for posterior analysis
Unit 2. Computing summaries of data
Unit 3 Data visualizations
Prediction and classification
Unit 4. Prediction using multiple linear regression
Unit 5. Classification using logistic regression
Assess and simplify the prediction or classification
Unit 6. Variables selection
Unit 7 How to assess the performance of my algorithm?
Dimension reduction
Unit 8. Dimension reduction: Principal Component Analysis
Data with time component
Unit 9. Introduction to time series
Estudio personal o en grupo de alumnos
Estudio y preparación de contenidos teórico-prácticos, trabajo individual consistente en lecturas de apuntes y otros materiales.
45
0
Preparación de trabajos y ejercicios (incluye tiempo para consulta bibliográfica y documentación)
Preparación de trabajos, búsquedas de información, elaboración de informes o estudio para la elaboración de casos entre otras actividades.
75
0
Clase de teoría
Exposición de los contenidos teóricos de la asignatura por parte del profesor.
9
100
Clase orientada a la resolución de problemas y caso de estudio
Clase orientada a la resolución de problemas y caso de estudio
9
100
Clase práctica en laboratorio
Clase en laboratorio de informática centradas en el uso del software estadístico y puesta en práctica de las técnicas vistas en la asignatura.
30
100
Presentación de trabajos ante el profesor
Exposición y defensa de los trabajos realizados
6
100
Realización de pruebas de evaluación (tiempo de duración de los exámenes y otras pruebas de evaluación en el aula)
Realización de pruebas de evaluación (tiempo de duración de los exámenes y otras pruebas de evaluación en el aula)
6
100
Exámenes escritos y/u orales (evaluación de contenidos teóricos, aplicados y/o prácticas de laboratorio)
Presentación del análisis de un conjunto de datos, desde la preparación y manipulación, análisis, visualización de datos. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis, así como la presentación de los resultados obtenidos.
0 %
Informes de laboratorio, problemas propuestos, simulaciones, estudio de casos, actividades de aprendizaje cooperativo, portafolios, presentaciones orales, informes de prácticas tutorizadas, autoevaluación y coevaluación, etc
A lo largo del cuatrimestre, se propondrán trabajos consistentes en el análisis de conjuntos de datos para su resolución durante las clases prácticas y fuera de ellas. Los trabajos contarán con plazos de entrega y podrá exigirse su defensa. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis, así como el manejo del software estadístico.
100 %
Tablas de observación para evaluar el desempeño de actividades (incluidas las prácticas de laboratorio) sobre las que no se requiera documentación escrita
Tablas de observación para evaluar el desempeño de actividades (incluidas las prácticas de laboratorio) sobre las que no se requiera documentación escrita
0 %
Exámenes escritos y/u orales (evaluación de contenidos teóricos, aplicados y/o prácticas de laboratorio)
Presentación del análisis de un conjunto de datos, desde la preparación y manipulación, análisis, visualización de datos. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis, así como la presentación de los resultados obtenidos.
0 %
Informes de laboratorio, problemas propuestos, simulaciones, estudio de casos, actividades de aprendizaje cooperativo, portafolios, presentaciones orales, informes de prácticas tutorizadas, autoevaluación y coevaluación, etc
Los estudiantes que no hayan superado la asignatura en el sistema de evaluación continua, deberán entregar los trabajos que se indique en cada caso, similares a los propuestos durante el cuatrimestre. Los trabajos contarán con plazo de entrega y podrá exigirse su realización parcial y defensa presencialmente. Se evalúa principalmente la capacidad de aplicar conocimientos a la práctica y la capacidad de análisis, así como el manejo del software estadístico.
100 %
Realización de actividades y otras pruebas (individualmente o en grupos), como actividades de gamificación.
Autor: Hastie, Trevor
Título: The elements of statistical learning data mining, inference, and prediction
Editorial: Springer
Fecha Publicación: 2009
ISBN: 9780387848570
Autor: Peña Sánchez de Rivera, Daniel
Título: Ánalisis de series temporales
Editorial: Alianza
Fecha Publicación: 2005
ISBN: 8420691283
Autor: Kessler, M.
Título: Métodos Estadísticos de la Ingeniería
Editorial: Universidad Politécnica de Cartagena
Fecha Publicación: 2008
ISBN: 9788496997073
Autor: Chen, Daniel Y.
Título: Pandas for everyone: python data analysis
Editorial: Addison-Wesley
Fecha Publicación: 2018
ISBN: 9780134546933
Autor: Wassermann, L.
Título: All of statistics. A concise course in Statistical Inference
Editorial: Springer
Fecha Publicación: 2004
ISBN: 0387402721
Autor: McKinney, Wes
Título: Python for data analysis: data wrangling with Pandas, NumPy, and IPython
Editorial: O`Reilly
Fecha Publicación: 2017
ISBN: 9781491957660
Autor: Lubanovic, Bill
Título: Introducing Python: modern computing in simple packages
Editorial: O'Reilly Media
Fecha Publicación: 2019
ISBN: 9781492051367
- Aula virtual de la asignatura accesible para todos los alumnos matriculados a través de la siguiente dirección web: https://aulavirtual.upct.es/
- Repositorio Github de la asignatura: https://github.com/mkesslerct/data_science_Python