MF1 - UD3 - Preparacion y Clasificacion de Datos de Entrenamiento

MF1: Inteligencia artificial
Unidad Didáctica 3: Preparación y clasificación de datos de

entrenamiento
Proyecto financiado por el Ministerio de Educación y Formación Profesional - U.E. Next Generation
Dirección de proyecto UGT España:
Fernando Montalvo Martín
Coordinación de proyecto UGT España:
Manuela Jiménez Luna
Diseño y adaptación pedagógica UGT España:

Érika Cruz Torres
Miriam Escribano Cotera
Revisión de contenidos UGT España:

Érika Cruz Torres
Miriam Escribano Cotera
Javier Vaquero Andaluz
Carlos Sayalero Caballero
Dirección de proyecto Telefónica Educación Digital:

Gemma-Ruth Lazovsky
Coordinación de proyecto Telefónica Educación Digital:
Yesmariana Gómez Fernández
Coordinación pedagógica Telefónica Educación Digital:

Nines Ruiz-Valdepeñas del Amo
Autoría contenidos Telefónica Educación Digital:

Mirella Jiménez Gutiérrez
Angélica Comesaña Comesaña
Mª de las Nieves Pardo Díaz
Ana Castro Antonio
Laura Gutiérrez Pérez
Diseño gráfico y producción audiovisual Telefónica Educación Digital:

Erick Biain Galán
Ismael Sanz Sánchez
Revisión y edición de contenidos Telefónica Educación Digital:

Naiara San Pedro Zamora
María Luisa Belmonte Carmona
2
Índice
Índice .................................................................................................................................................................. 3
1 INICIO ......................................................................................................................................................... 5
1.1 Consideraciones previas ........................................................................................................................ 5
1.2 Introducción............................................................................................................................................. 5
1.2.1 ¿Qué vas a aprender en esta unidad? ........................................................................................ 6
1.2.2 ¿Para qué vas a aprender estos contenidos? ........................................................................... 6
1.2.3 ¿Cómo vas a conseguir el gran reto de este módulo formativo? ............................................ 7
2 INTELIGENCIA ARTIFICIAL ....................................................................................................................... 8
2.1 Aprendizaje automático y preparación de los datos ............................................................................ 8
2.2 Definición ............................................................................................................................................... 10
2.3 Muestreo de datos ................................................................................................................................ 12
2.4 Datos etiquetados ................................................................................................................................. 12
2.4.1 ¿Sabes cuál es la gran ventaja de los datos etiquetados? ..................................................... 13
2.5 Datos no etiquetados ............................................................................................................................ 13
2.5.1 Preprocesamiento de datos ..................................................................................................... 14
2.6 Normalización de los datos .................................................................................................................. 14
2.7 Ingeniería de características (feature engineering) ............................................................................. 15
2.8 Remuestreo de datos ............................................................................................................................ 17
2.9 Evaluación de datos .............................................................................................................................. 19
2.9.1 Matriz de confusión .................................................................................................................. 19
2.9.2 Caso de uso ............................................................................................................................... 21
2.9.3 Validación cruzada ................................................................................................................... 21
2.9.4 ¿Cómo se realiza este proceso? .............................................................................................. 23
2.9.5 Caso de uso ............................................................................................................................... 23
2.9.6 Entrenamiento para el reto ....................................................................................................... 24
3 GUIA PARA LA PREPARACIÓN DE DATOS DE ENTRENAMIENTO ....................................................... 25
3.1 Definir el objetivo y comprender los datos .......................................................................................... 26
3.2 Limpieza de datos ................................................................................................................................. 26
3.3 Transformación de datos ..................................................................................................................... 26
3.4 Selección de características ................................................................................................................ 27
3.5 División de conjuntos, validación y prueba .......................................................................................... 27
3.6 Manejo de desequilibrios de clase ....................................................................................................... 27
3.7 Normalización y estandarización ......................................................................................................... 28
3.8 Evaluación y refinamiento .................................................................................................................... 28
4 GUIA PARA LA PREPARACIÓN DE LOS DATOS EN APRENDIZAJE SUPERVISADO ............................ 29
4.1 Definición del problema y recopilación de datos ................................................................................ 30
3
4.2 Análisis Exploratorio de Datos (EDA)................................................................................................... 30
4.3 Limpieza y preprocesamiento de datos .............................................................................................. 30
4.4 División de datos en conjuntos de entrenamiento y prueba .............................................................. 31
4.5 Selección de características y reducción de dimensionalidad .......................................................... 32
4.6 Construcción y entrenamiento del modelo ......................................................................................... 32
4.7 Evaluación y ajuste del modelo ............................................................................................................ 32
4.8 Caso de uso ........................................................................................................................................... 33
5 GUIA PARA LA PREPARACIÓN DE DATOS CON APRENDIZAJE NO SUPERVISADO .......................... 34
5.1 Definir el objetivo y recopilar datos ...................................................................................................... 35
5.2 Análisis exploratorio de datos (EDA) ................................................................................................... 35
5.3 Limpieza y preprocesamiento de datos .............................................................................................. 35
5.4 Selección de características y reducción de dimensionalidad .......................................................... 36
5.5 Normalización de datos ........................................................................................................................ 36
5.6 Selección de algoritmos y ajuste de hiperparámetros ....................................................................... 37
5.7 Evaluación del modelo y análisis de resultados ................................................................................. 37
5.8 Caso de uso ........................................................................................................................................... 38
5.9 Entrenamiento para el reto ................................................................................................................... 39
5.10 ¿Qué has aprendido en esta unidad? ........................................................................................... 40
5.11 Referencias bibliográficas ............................................................................................................ 41
6 ANEXOS ................................................................................................................................................... 42
6.1 Glosario .................................................................................................................................................. 42
6.1.1 Clustering .................................................................................................................................. 42
6.1.2 Coeficiente ................................................................................................................................ 42
6.1.3 Convergencia............................................................................................................................. 42
6.1.4 Descenso de gradiente ............................................................................................................. 42
6.1.5 Desvío estándar ........................................................................................................................ 42
6.1.6 Discretización ............................................................................................................................ 42
6.1.7 Folds .......................................................................................................................................... 42
6.1.8 Insights ...................................................................................................................................... 43
6.1.9 Outliers....................................................................................................................................... 43
4
1 INICIO
1.1 Consideraciones previas
A lo largo del documento encontrarás algunas palabras con un enlace que te llevará al glosario del curso
para que puedas consultar su significado si así lo necesitas.
También encontrarás otros enlaces a vídeos o páginas web externas. Te recomendamos que los abras
pulsando el botón derecho del ratón y seleccionando la opción “Abrir hipervínculo” para que se muestren en
una ventana emergente distinta a la actual.
1.2 Introducción
El aprendizaje automático y la preparación de datos pertenecen al campo de la inteligencia artificial. El

primero se refiere al desarrollo de algoritmos y modelos que aprenden los datos para tomar decisiones o
realizar predicciones. Sin embargo, para lograr resultados precisos y fiables, es necesario efectuar una
cuidadosa preparación de los datos de entrada. Esto implica procesos como la limpieza, transformación y
selección de variables, con el objetivo de garantizar que los datos sean coherentes y adecuados para su uso.
La suma de aprendizaje automático y preparación de datos obtiene insights valiosos para la toma de
decisiones en diferentes campos. Veamos ejemplos de entrenamiento de aprendizaje automático aplicados
a la vida real.
5
1.2.1 ¿Qué vas a aprender en esta unidad?
1. Aprendizaje automático y preparación de los datos

a. Definición
b. Muestreo de datos
c. Datos etiquetados
d. Datos no etiquetados
e. Normalización de los datos
f. Ingeniería de características (feature engineering)
g. Remuestreo de datos
h. Evaluación de datos
i. Matriz de confusión
ii. Validación cruzada

2. Guía para preparación de datos de entrenamiento.
3. Guía para la preparación de los datos en aprendizaje supervisado.
4. Guía para la preparación de datos con aprendizaje no supervisado.
1.2.2 ¿Para qué vas a aprender estos contenidos?
Para realizar operaciones con aplicaciones de inteligencia artificial, alimentándolas con datos específicos
para personalizar los resultados obtenidos y mejorar los resultados.
6
1.2.3 ¿Cómo vas a conseguir el gran reto de este módulo formativo?
Te planteamos el siguiente objetivo que te ayudará a lograrlo:

• Detallar el procedimiento de clasificación de datos de entrenamiento para una aplicación de
inteligencia artificial.
7
2 INTELIGENCIA ARTIFICIAL
2.1 Aprendizaje automático y preparación de los datos
Veamos un ejemplo de aprendizaje de datos para entender cómo se puede aplicar a la vida real. Piensa en
una plataforma de contenido audiovisual. Utilizando algoritmos de aprendizaje automático, el sistema
analiza las calificaciones y preferencias de las personas usuarias para crear un perfil personalizado y
sugerir películas o series según su gusto, mejorando así su experiencia. Esto es posible gracias a datos que
aportan información de valor. Pero, para llegar aquí, ha sido necesaria una correcta preparación de datos.
¿Sabías que la preparación de los datos es clave para el aprendizaje automático y para obtener buenos
resultados? Descubriremos los motivos en los próximos apartados.
Razones para realizar la preparación de datos:
• Calidad de los datos

Para conseguir resultados precisos, los modelos de aprendizaje automático requieren datos de
alta calidad y fiabilidad. Durante su preparación se pueden identificar y corregir errores,
eliminar valores atípicos (outliers) y manejar datos faltantes o incompletos, garantizando que
los utilizados para el entrenamiento estén libres de inconsistencias.
8
• Normalización y estandarización
Los datos pueden estar en diferentes formatos, escalas y unidades. La preparación de datos
permite normalizarlos y estandarizarlos para asegurar que los diferentes atributos o
características tengan una importancia equitativa en el modelo. Además, ayuda a evitar
problemas derivados de la heterogeneidad de los datos; esto podría afectar negativamente el
rendimiento del modelo.
• Selección y transformación de características

Los conjuntos de datos pueden contener gran cantidad de características o atributos. Algunos
pueden no ser relevantes o redundantes. Durante la preparación de datos, es posible realizar
técnicas de selección de las características fundamentales, aplicar transformaciones o crear
nuevas a partir de las ya existentes para mejorar la representación de los datos y aumentar la
capacidad predictiva del modelo.
• Manejo de desequilibrios y sesgos

Los conjuntos de datos pueden presentar desequilibrios en la distribución de clases o sesgos
hacia ciertos grupos. La preparación de datos permite abordar este problema mediante técnicas
de remuestreo, como el submuestreo o sobremuestreo de las clases minoritarias, o ajustes de
pesos en el entrenamiento del modelo para evitar el sesgado hacia las clases mayoritarias y
mejorar su capacidad para generalizar correctamente a todas las clases o grupos. Veamos un
ejemplo.
En un escenario de predicción de cancelación de suscripción a un servicio de música, se utiliza
el aprendizaje automático para desarrollar un modelo. Los datos de entrenamiento están
desequilibrados, con una gran mayoría de personas usuarias que no la han cancelado. Hay que
aplicar técnicas de remuestreo, como el submuestreo de la clase mayoritaria o el
sobremuestreo de la clase minoritaria, para obtener un modelo más preciso y predecir cuáles
tienen más probabilidad de cancelar su suscripción.
9
• Reducción de la dimensionalidad
En conjuntos de datos con muchas características, puede haber problemas de dimensionalidad
alta; esto puede afectar al rendimiento del modelo y aumentar el tiempo de entrenamiento.
Podemos aplicar técnicas de reducción de la dimensionalidad para reducir la cantidad de
características sin perder información importante:
o Análisis de Componentes Principales (ACP, o en su versión inglesa, Principal Component
Analysis, PCA).
o Selección de características basadas en la importancia.
2.2 Definición
Como hemos visto anteriormente, el aprendizaje automático es un campo que se enfoca en enseñar a los
ordenadores a resolver diferentes tipos de problemas utilizando datos extraídos de casos reales del
pasado. Cada caso tiene características medibles que describen el problema que se está tratando de
resolver. También se le puede asignar una etiqueta a cada caso con información, que es la respuesta que el
algoritmo debe ser capaz de predecir.
Te dejamos a continuación una infografía que te ayudará a entenderlo mejor:
10
¡Recuerda! A veces no es posible asignar una etiqueta, por ejemplo, cuando la solución del problema no se
conoce. Son los ejemplos no etiquetados.
Veamos esta información aplicada a un ejemplo práctico:
11
Queremos crear un sistema que identifique automáticamente si un correo electrónico es spam. Recopilamos
correos etiquetados como "spam" o "no spam" y extraemos características de ellos, como palabras clave,
longitud del mensaje o una dirección extraña.
Si entrenamos al algoritmo utilizando estos datos y características aprenderá patrones y relaciones entre
ellas y las etiquetas (spam o no spam).
Una vez entrenado, el algoritmo sabrá si recibes un correo de spam o no y lo mandará a la bandeja de correo
no deseado.
2.3 Muestreo de datos
Esta técnica analiza una muestra representativa de datos dentro de un conjunto más grande. Toma una
fracción de ellos para sacar deducciones y generalizar conclusiones sobre el conjunto de la población total.
La muestra debe reflejar las características y propiedades del conjunto completo de datos, de manera que las
conclusiones obtenidas a partir de ella puedan extrapolarse al total con un margen de error aceptable.
2.4 Datos etiquetados
Son aquellos en los que cada ejemplo de datos está asociado con una etiqueta o una clase. Es decir,
conoce la respuesta correcta para cada muestra de datos.
Estas etiquetas pueden ser proporcionadas por humanos o generadas automáticamente y se utilizan para
entrenar modelos predictivos. El objetivo es aprender la relación entre las características de entrada (variables
independientes) y las etiquetas de salida (variable dependiente).
12
Volvamos al ejemplo anterior del correo spam. Recopilaremos algunos casos reales de correos junto con
sus respectivas etiquetas. Mira la tabla, te ayudará a entenderlo.
Correo electrónico Etiqueta
¡Gana un premio increíble! Spam
Mañana reunión de equipo No spam
50% descuento en zapatos Spam
Pago hotel aceptado No spam
En este caso, los datos etiquetados consisten en los correos junto con la etiqueta correspondiente que
indica si son o no "spam".
Como has podido observar, usando estos datos etiquetados, podemos entrenar un algoritmo para que
aprenda a distinguir entre correos no deseados y deseados basándose en las características presentes en
los mensajes.
La codificación de variables por categorías es importante en la preparación de datos que se realiza antes de
entrenar un modelo de aprendizaje automático.
Sigamos avanzando para saber más de este tema. Las variables categóricas son características que
representan diferentes categorías o etiquetas, como el estado de ánimo (feliz/triste), el color de los ojos
(azul/marrón) o la marca comercial (Toyota/Ford). Muchos algoritmos de aprendizaje automático no
pueden trabajar directamente con variables categóricas, porque necesitan valores numéricos para
funcionar correctamente. Antes, es necesario efectuar una transformación de estas variables.
2.4.1 ¿Sabes cuál es la gran ventaja de los datos etiquetados?
Permite entrenar modelos de aprendizaje automático con supervisión, aprendiendo patrones y características
específicas que ayudan a obtener predicciones precisas sobre nuevos datos no vistos.
¿Sabías que la obtención y etiquetado de grandes cantidades de datos puede ser costosa y consumir
mucho tiempo, ya que generalmente requiere la intervención humana para asignar las etiquetas correctas?
No debemos olvidar que las máquinas no son inteligentes y que sólo hacen aquello para lo que están
programadas. Somos las personas las que decimos qué datos se recogen y cómo se procesan.
2.5 Datos no etiquetados
Son datos que no tienen etiquetas asociadas a información explícita sobre las categorías a las que pertenecen
o sus etiquetas no están disponibles. Únicamente contienen características o atributos de los ejemplos, pero
son útiles en las siguientes situaciones:
13
2.5.1 Preprocesamiento de datos
Los datos no etiquetados pueden ser utilizados para tareas de limpieza, normalización y transformación de
datos antes del entrenamiento.
Pueden incluir:
● Eliminar valores atípicos.
● Imputar valores faltantes.
● Escalar características.
● Otros.
2.6 Normalización de los datos
La normalización de datos o escala de datos, transforma los datos originales a una escala común y
consistente. Su objetivo es asegurar que todas las características tengan un rango similar y no dominen el
modelo debido a diferencias en las unidades o magnitudes de los datos.
La importancia de la normalización en el aprendizaje automático radica en varios aspectos:
14
• Evita sesgos en el modelo
Algoritmos de aprendizaje, como las redes neuronales o los algoritmos basados en distancias,
pueden verse afectados por la escala de los datos. Si las variables tienen diferentes escalas, estos
pueden dar más importancia a las variables con valores más grandes, generando sesgos y
afectando al rendimiento del modelo.
• Acelera la convergencia del modelo hacia una solución óptima
Al tener datos en una escala común, los algoritmos pueden encontrar relaciones y patrones de
manera fácil y rápida durante el entrenamiento.
• Mejora la interpretación de los coeficientes
En algoritmos como la regresión lineal (que ya vimos en la unidad anterior), la normalización de
datos puede mejorar la interpretación de los coeficientes. Si las variables están en diferentes
escalas, los coeficientes asociados a ellas pueden ser difíciles de comparar y evaluar su
importancia relativa.
• Estabiliza los algoritmos sensibles a la varianza
La normalización puede estabilizar algoritmos, como el descenso de gradiente, al reducir la
varianza de los datos y asegurar una mejor convergencia.
¡Importante! No todos los algoritmos requieren la normalización de datos. Por ejemplo, los árboles de
decisión o los algoritmos basados en reglas, no están afectados por la escala de los datos. En otros casos,
la normalización puede garantizar resultados más consistentes y mejores rendimientos en el aprendizaje
automático.
2.7 Ingeniería de características (feature engineering)
En los siguientes puntos trataremos en profundidad la ingeniería de características. Esta técnica selecciona,
crea o modifica características para representar mejor los datos y mejorar la capacidad del modelo. Extrae
información útil de datos y resalta las relaciones o patrones importantes que no son evidentes inicialmente.
15
Las tareas propias de la ingeniería de características son:
● Creación de nuevas características
A partir de las existentes, usa operaciones matemáticas, como las combinaciones, para extraer
información adicional.
● Transformación de características
Aplica transformaciones a las ya existentes para mejorar su distribución o hacerlas más adecuadas
para el modelo, por ejemplo:
● La normalización.
● La discretización.
● La escala logarítmica.
● Selección de características
Es un proceso específico de la ingeniería de características centrado en identificar y seleccionar las

más relevantes o informativas, eliminando las que sean redundantes o irrelevantes (reduce la
dimensionalidad).
16
Esta selección se realiza mediante métodos que evalúan la relevancia de cada característica:
1. Pruebas estadísticas.
2. Análisis de correlación.
3. Técnicas de selección basadas en modelos o algoritmos de selección de características específicas.
2.8 Remuestreo de datos
Esta técnica corrige datos desbalanceados en la clasificación para evitar la distribución desigual de clases
en el conjunto de datos. Significa que una o varias clases tienen una cantidad significativamente mayor o
menor de ejemplos comparado con otras, lo que puede sesgar los resultados en favor de la clase mayoritaria.
Veamos las razones para aplicar el remuestreo y corregir datos desbalanceados:
Mejorar la precisión: Si una clase tiene una representación mucho mayor en el conjunto de datos, el modelo
puede estar sesgado y no aprender correctamente la clase minoritaria. Al remuestrear equitativamente cada
clase, aumentando la cantidad de ejemplos de la minoritaria o disminuyendo los de la mayoritaria, se mejora
17
la precisión del modelo.
Evitar el sesgo: Los modelos de aprendizaje automático están diseñados para minimizar el error global y, en
presencia de clases desbalanceadas, pueden tender a clasificar la mayoría de los ejemplos como
pertenecientes a la clase mayoritaria. El remuestreo ayuda a evitar este sesgo al proporcionar al modelo más
ejemplos de la clase minoritaria para aprender y ajustar sus parámetros de manera equilibrada.
Aumentar la generalización: Esto ayuda al modelo a realizar predicciones más precisas en nuevos datos y
evitar el sobreajuste a la clase mayoritaria. El remuestreo puede aumentar la generalización del modelo al
proporcionar una cantidad suficiente de ejemplos de la clase minoritaria para capturar su variabilidad y
patrones subyacentes.
Existen dos enfoques comunes de remuestreo:
Submuestreo (undersampling) Sobremuestreo (oversampling)
Consiste en reducir la cantidad de ejemplos de Consiste en aumentar la cantidad de

la clase mayoritaria seleccionando solo una ejemplos de la clase minoritaria mediante la
fracción de ellos. duplicación o generación sintética de nuevos
ejemplos.
Ambos enfoques tienen ventajas y desventajas. La elección depende del contexto y las características
específicas del conjunto de datos.
¡Importante! El remuestreo puede introducir cierto grado de sesgo o información redundante en los datos.
Es fundamental evaluar su impacto en el rendimiento del modelo.
18
2.9 Evaluación de datos
2.9.1 Matriz de confusión
Esta herramienta evalúa el desempeño de un modelo de clasificación. Es una matriz con cuatro celdas que
muestra la cantidad de predicciones realizadas por el modelo en función de las clases reales.
Para ayudarte a entender la estructura general de la matriz, te proponemos que pienses en un caso médico,
como la realización de pruebas de detección temprana de una enfermedad para poder tratar cuanto antes a
aquellas personas que aún no tienen síntomas evidentes.
Pincha en cada botón para conocer su estructura general:
● Verdadero positivo (TP): El modelo predijo correctamente una instancia como positiva cuando
realmente lo era.
● Falso positivo (FP): El modelo hizo una predicción incorrecta indicando positiva cuando en realidad
era negativa.
● Falso negativo (FN): El modelo predijo incorrectamente considerándola como negativa cuando en
realidad era positiva.
● Verdadero negativo (TN): El modelo predijo correctamente una instancia como negativa cuando
realmente lo era.
19
Si aplicamos lo aprendido, con estos valores, podemos calcular métricas de evaluación del desempeño del
modelo:
● Precisión (precision)
Mide la proporción de instancias clasificadas correctamente como positivas en relación con todas
las instancias clasificadas como positivas (TP / (TP + FP)). A mayor precisión, menor cantidad de
falsos positivos.
● Recall o sensibilidad
Mide la proporción de instancias positivas clasificadas correctamente en relación con todas las
instancias realmente positivas (TP / (TP + FN)).
● Exactitud (accuracy)
Mide la proporción de las instancias clasificadas correctamente, tanto positivas como negativas ((TP
+ TN) / (TP + TN + FP + FN)). La exactitud proporciona una medida general del rendimiento del
modelo.
● F1-Score
Es una métrica que combina la precisión y el recall en un solo valor. Es útil cuando hay un
desequilibrio entre las clases. El F1-Score se calcula como 2 x (precision x recall) / (precision + recall).
20
¿Sabías que la matriz de confusión permite visualizar claramente los resultados de las predicciones del
modelo, facilitando la identificación de posibles problemas, como la tendencia del modelo a clasificar
erróneamente una clase específica?
2.9.2 Caso de uso
La matriz de confusión se puede utilizar para diagnosticar si un paciente tiene o no COVID en base a la
información médica. Y como no queremos que se vayan sin diagnosticar pacientes que realmente lo tengan,
maximizaremos la sensibilidad.
2.9.3 Validación cruzada
Esta técnica evalúa el rendimiento de un modelo estadístico o de aprendizaje automático. Divide el conjunto
de datos disponibles en múltiples subconjuntos o "pliegues" (folds) y realiza varios entrenamientos y
evaluaciones del modelo utilizando diferentes combinaciones de estos pliegues.
¿Cuáles son las razones por las que se utiliza la validación cruzada?
21
● Evaluación más confiable
Al efectuar múltiples evaluaciones del modelo, en diferentes divisiones de los datos, proporciona una
estimación fiable de su rendimiento en comparación con una única división de entrenamiento y
prueba. Esto ayuda a reducir la dependencia del rendimiento del modelo en una sola partición de los
datos.
● Mejor uso de los datos
Usa de manera eficiente el conjunto de datos disponible utilizando todos para entrenar y evaluar el
modelo en diferentes iteraciones. Es útil en conjuntos de datos pequeños, donde cada instancia es
valiosa para el aprendizaje del modelo.
● Detección de sobreajuste
Ayuda a identificar si el modelo está sobre ajustando los datos de entrenamiento al evaluar su
rendimiento en conjuntos de prueba diferentes. Por ejemplo, si el modelo tiene un buen rendimiento
en los datos de entrenamiento, pero un rendimiento deficiente en los de prueba en varias iteraciones,
es una señal de posible sobreajuste.
22
2.9.4 ¿Cómo se realiza este proceso?
El siguiente ejemplo te ayudará a entender mejor este apartado.

1. Estás desarrollando un modelo de aprendizaje automático para predecir si un estudiante
pasará un examen según su expediente.
2. Divides tu conjunto de datos en otros más pequeños y realizas el proceso de entrenamiento
y evaluación del modelo en cinco rondas. En cada una, seleccionas uno de los grupos como
conjunto de prueba y los restantes como entrenamiento.
3. El modelo muestra un rendimiento excelente en la mayoría de las rondas, obteniendo altas
tasas de precisión en la predicción de los resultados. Pero, en una ronda, muestra un
rendimiento inferior, obteniendo una tasa de precisión más baja.
4. Este resultado inusual podría indicar un posible sobreajuste del modelo a los datos de
entrenamiento en esa ronda. El modelo ha aprendido a ajustarse demasiado a los patrones
y características de ese conjunto de entrenamiento en particular.
Al detectar este sobreajuste puedes ajustar los hiperparámetros del modelo, que son configuraciones
específicas del algoritmo que afectan su rendimiento, aumentar el tamaño del conjunto de
entrenamiento o utilizar técnicas de regularización para mejorar la capacidad de generalización del
modelo y obtener resultados más consistentes.
2.9.5 Caso de uso
La validación cruzada se usa mucho en el campo económico. A medida que pasa el tiempo se va
determinando como una moneda USD o euro o bitcóin se comporta. Cruzando datos de comportamiento de
estas monedas con sucesos históricos se puede determinar el riesgo que hay de inversión.
23
2.9.6 Entrenamiento para el reto
¡Pon a prueba lo aprendido!
¿Qué debemos tener en cuenta antes de entrenar un modelo de aprendizaje automático?

a) La preparación de datos no es necesaria, ya que son capaces de trabajar directamente con cualquier
tipo de datos.
b) La preparación de datos es importante para garantizar la calidad de los datos, mejorar el
rendimiento del modelo y evitar sesgos.
c) Los datos heterogéneos no afectan al rendimiento del modelo.
Feedback ¡Recuerda! Es importante comprender la importancia de la preparación de datos en el

entrenamiento de modelos de aprendizaje automático.
¿Cuál es el proceso que convierte variables categóricas en representaciones numéricas?

a) La discretización.
b) La codificación.
c) El muestreo.
Feedback: La codificación de variables categóricas es precisamente el proceso de convertir variables

categóricas en representaciones numéricas. Esto se realiza para que los algoritmos de aprendizaje
automático puedan trabajar con estas variables y extraer información útil de ellas.
¿Qué es la validación cruzada y por qué se utiliza en el aprendizaje automático?

a) Es un método para dividir el conjunto de datos en conjuntos de entrenamiento y prueba.
b) Es un método para seleccionar el mejor algoritmo de aprendizaje automático.
c) Es un método que muestra la cantidad de predicciones realizadas por el modelo en función de
las clases reales.
Feedback: Es un método que se utiliza para dividir el conjunto de datos en conjuntos de entrenamiento y
prueba, lo que permite una evaluación más sólida del rendimiento del modelo.
24
3 GUIA PARA LA PREPARACIÓN DE DATOS DE
ENTRENAMIENTO
Esta infografía muestra los pasos con las mejores prácticas para la preparación de datos.
25
3.1 Definir el objetivo y comprender los datos
Es crucial comprender el objetivo y la información requerida, analizando el tipo de problema (clasificación,

regresión, agrupamiento, etc.) y determinando qué variables son relevantes para el modelo.
Además, es importante explorar los datos para:

● Identificar patrones.
● Identificar valores atípicos.
● Identificar posibles problemas de calidad.
3.2 Limpieza de datos
Es necesario un proceso que identifique y corrija los datos erróneos o valores no válidos que puedan llevarnos
a predicciones de mala calidad.
Esto implica:
● Manejar valores faltantes, aplicando técnicas como el imputado de valores medios o la eliminación
de filas, dependiendo del contexto.
● Identificar y eliminar duplicados para evitar sesgos.
● Corregir errores o inconsistencias.
Es importante verificar y corregir errores, como datos incorrectos o incoherentes que afecten al rendimiento
del modelo.
3.3 Transformación de datos
Los datos pueden requerir transformaciones para adecuarse al modelo, como la normalización de variables
numéricas o la codificación de variables categóricas.
26
También se pueden aplicar técnicas de reducción de dimensionalidad, como Análisis de Componentes
Principales (ACP), para disminuir la cantidad de variables y mejorar la eficiencia del modelo.
3.4 Selección de características
Identifica las variables más relevantes y elimina las que no contribuyen significativamente a la predicción.
La selección de características ayuda a reducir la complejidad y el ruido en el modelo, mejorando su

rendimiento y capacidad de generalización.
Los métodos que se utilizan para identificar las variables más informativas serían:
● Correlación.
● Pruebas estadísticas.
● Algoritmos de selección automática de características.
3.5 División de conjuntos, validación y prueba
Para obtener una evaluación imparcial y precisa del modelo es esencial dividir los datos en conjuntos
separados de entrenamiento, validación y prueba:
● El entrenamiento se utiliza para ajustar los parámetros del modelo.

● La validación se usa para ajustar hiperparámetros y tomar decisiones de modelado.
● La prueba se utiliza para evaluar el rendimiento final del modelo.
3.6 Manejo de desequilibrios de clase
Cuando una clase tiene muchos más ejemplos que otras, es necesario manejar esta circunstancia para evitar
sesgos en el modelo.
27
Las técnicas aplicadas para equilibrar las clases y mejorar la capacidad de predicción son:
● Submuestreo.
● Sobremuestreo.
● Generación de muestras sintéticas.
3.7 Normalización y estandarización
Son técnicas comunes aplicadas a los datos de entrenamiento.
● Normalización: Ajusta los datos a un rango específico, como [0, 1], asegurando que todas las
variables tengan la misma escala.
● Estandarización: Transforma los datos para que tengan una media de 0 y una desviación estándar
de 1, facilitando la comparación entre variables.
3.8 Evaluación y refinamiento
Aplicadas las técnicas anteriores, es crucial evaluar el rendimiento del modelo en los datos de entrenamiento
usando métricas adecuadas, como precisión, recall, F1-score o curvas ROC.
Cuando los resultados no son satisfactorios, se pueden ajustar los pasos anteriores:
● Realizar una limpieza adicional de datos.
● Probar diferentes técnicas de transformación.
● Ajustar los hiperparámetros del modelo.
¡Recuerda! Siguiendo las prácticas descritas, garantizamos que los datos estén limpios, transformados y
seleccionados correctamente para construir modelos efectivos.
Una buena preparación de datos permite obtener información valiosa y tomar decisiones fundamentadas en
el análisis y la predicción.
28
4 GUIA PARA LA PREPARACIÓN DE LOS DATOS EN
APRENDIZAJE SUPERVISADO
El aprendizaje supervisado permite construir modelos capaces de hacer predicciones precisas basadas en
datos de entrenamiento etiquetados. En esta guía, exploraremos los pasos fundamentales para preparar
estos sistemas.
A continuación, te mostramos una infografía que te ayudará a tener una visión más global del concepto:
29
4.1 Definición del problema y recopilación de datos
Identificar el problema y recopilar datos etiquetados relevantes.
Primer paso, definir el problema a resolver. Esto implica comprender el objetivo final, identificar las variables
de entrada (características) y la de salida (etiqueta) que se desea predecir. Luego se deben recopilar los datos
relevantes para entrenar y evaluar el modelo supervisado. Estos datos deben estar etiquetados con las
variables de entrada junto con las etiquetas correspondientes.
4.2 Análisis Exploratorio de Datos (EDA)
Consiste en explorar y comprender los datos en profundidad.
Incluye:
● Analizar estadísticas descriptivas.
● Detectar valores atípicos.
● Visualizar distribuciones y relaciones entre variables.
● Realizar un muestreo aleatorio de datos para una inspección detallada.
4.3 Limpieza y preprocesamiento de datos
Los datos pueden requerir transformaciones para adecuarse al modelo como la normalización de variables
numéricas o la codificación de variables categóricas.
Esta etapa aborda los problemas de calidad de los datos y realiza acciones de limpieza y preprocesamiento:
30
● Tratar valores faltantes o nulos.
● Eliminar duplicados.
● Corregir errores obvios.
● Manejar valores atípicos.
Además, se deben normalizar o estandarizar las variables de entrada para asegurar que todas tengan una
escala similar y facilitar el proceso de aprendizaje.
Se pueden aplicar técnicas de codificación o transformación de variables categóricas en representaciones

numéricas adecuadas para el modelo.
4.4 División de datos en conjuntos de entrenamiento y prueba
Separar los datos para entrenar y evaluar el modelo.
Es fundamental dividir los datos en conjuntos de entrenamiento y prueba. El primero ajusta los parámetros
del modelo, el segundo evalúa el rendimiento final del modelo en datos no vistos.
La división adecuada ayuda a evaluar la capacidad de generalización del modelo y evitar el sobreajuste, donde
el modelo se ajusta demasiado a los datos de entrenamiento y no puede generalizar correctamente a nuevos
datos.
31
4.5 Selección de características y reducción de dimensionalidad
Identificar y eliminar características irrelevantes y reducir la cantidad de variables.
Los conjuntos pueden contener características redundantes que afectan negativamente el rendimiento del
modelo. Para ello, identificar las variables más relevantes para la predicción y eliminar las irrelevantes. Esto
puede basarse en técnicas de correlación, pruebas estadísticas o algoritmos de selección de características.
¿Sabías que la reducción de dimensionalidad, como el uso de ACP (Análisis de Componentes Principales),
ayuda a disminuir la cantidad de variables y mejorar la eficiencia del modelo?
4.6 Construcción y entrenamiento del modelo
Seleccionar y ajustar el modelo de aprendizaje supervisado adecuado.
Preparados los datos, se puede construir y entrenar el modelo de aprendizaje supervisado, seleccionando el
algoritmo adecuado según el tipo de problema y los datos disponibles. Se deben ajustar los hiperparámetros
del modelo y entrenar el modelo utilizando el conjunto de entrenamiento.
4.7 Evaluación y ajuste del modelo
Evaluar el rendimiento del modelo en el conjunto de prueba y realizar ajustes si es necesario.
Es esencial evaluar el rendimiento del modelo en el conjunto de prueba utilizando métricas para el tipo de
problema, como las que vimos al principio de la unidad:
● Precision.
● Recall.
● F1-score.
● Curvas ROC.
32
Si no cumple con los requisitos deseados, se pueden realizar otros ajustes:
● Cambiar hiperparámetros.
● Probar diferentes algoritmos.
● Recopilar más datos de entrenamiento.
4.8 Caso de uso
Retomemos el ejemplo del correo electrónico y la identificación de spam.
El primer paso es recopilar los correos electrónicos que se hayan identificado como spam o no spam. (cada
correo se denomina instancia o modelo). Los correos tienen elementos o atributos característicos como
dirección del remitente, asunto, fecha y hora, cuerpo del correo… que deben ser convertidos a una forma
numérica para que el modelo lo pueda entender. Esto se puede llevar a cabo con la técnica Bag of Words que
has visto en la unidad anterior.
Ahora que ya tienes los datos preprocesados se puede empezar el entrenamiento del modelo, utilizando una
de las técnicas de regresión que viste en la unidad anterior, de manera que el modelo aprenderá a diferenciar
lo que es spam de lo que no, asignando más o menos peso a diferentes palabras. Por ejemplo, si aparece la
palabra “sorteo” es más probable que se trate de spam.
Después de que el modelo haya sido entrenado, podemos utilizarlo para predecir si un correo nuevo es spam
o no lo es.
Para los problemas anteriores podemos encontrar diferentes escenarios de entrenamiento en aprendizaje
automático. Estos difieren en los tipos de conjuntos de entrenamiento y en el método para procesar los
datos de entrenamiento, prueba y validación.
¿Recuerdas que hemos visto los tipos de aprendizaje en la unidad anterior? Aquí te dejamos un resumen para
refrescar tu memoria.
33
5 GUIA PARA LA PREPARACIÓN DE DATOS CON
APRENDIZAJE NO SUPERVISADO
Este aprendizaje descubre patrones y estructuras ocultas en los datos sin la necesidad de etiquetas
previas. A diferencia del supervisado, no dispone de información de salida para guiar el proceso de
entrenamiento.
En esta infografía veremos una aproximación a los principales pasos recogidos en la guía para una tener
una visión global.
34
5.1 Definir el objetivo y recopilar datos
Determinar el objetivo del proyecto y recopilar los datos necesarios.
El primer paso es definir el objetivo del proyecto determinando qué tipo de información se busca extraer de
los datos como:
● Agrupamientos.
● Estructuras latentes.
● Reducción de dimensionalidad.
● Análisis de asociación.
Luego, se recopilan datos adecuados para el análisis no supervisado.
5.2 Análisis exploratorio de datos (EDA)
Explorar y comprender los datos en profundidad para identificar patrones y características importantes.
EDA identifica patrones y características importantes en los datos para explorar y comprenderlos en
profundidad:
● Analizar estadísticas descriptivas.
● Visualizar distribuciones y relaciones entre variables.
● Detectar posibles valores atípicos.
5.3 Limpieza y preprocesamiento de datos
35
Realizar acciones de limpieza y preprocesamiento para garantizar la calidad de los datos.
● Manejo de valores faltantes.
● Eliminación de duplicados.
● Corrección de errores obvios.
Además, se pueden aplicar técnicas de normalización, estandarización o transformación de variables para

asegurar que los datos sean coherentes y comparables entre sí.
5.4 Selección de características y reducción de dimensionalidad
Seleccionar las características más relevantes y reducir la complejidad del análisis.
Técnicas como ACP o de selección automática de características identifican las variables más informativas
y reducen la dimensionalidad de los datos, mejorando la eficiencia del análisis.
5.5 Normalización de datos
Asegurar que las variables tengan la misma escala y sean comparables.
36
Es importante que todas las variables tengan la misma escala y sean comparables entre sí. Esto evita que
algunas dominen el análisis debido a su rango o magnitud. Se puede aplicar normalización para escalar los
datos a un rango específico o para que tengan una media de 0 y una desviación estándar de 1:
● Normalización Min-Max.
● Normalización Z-score.
5.6 Selección de algoritmos y ajuste de hiperparámetros
Elegir los algoritmos adecuados y ajustar sus parámetros para obtener resultados óptimos.
En el aprendizaje no supervisado, se seleccionan los algoritmos adecuados según los objetivos y los datos
disponibles. Existen diversos algoritmos:
● Clustering (agrupamiento).
● Análisis de Componentes Principales (ACP).
● Análisis de Correspondencia Múltiple (ACM).
● Otros.
5.7 Evaluación del modelo y análisis de resultados
Evaluar el rendimiento del modelo y analizar los resultados obtenidos.
Aplicado el algoritmo de aprendizaje no supervisado, se evalúan los resultados y se analiza la calidad del
modelo. Esto puede implicar medidas de rendimiento específicas para cada técnica, como la inercia en el
clustering o la varianza explicada en el ACP. Es esencial realizar una interpretación y análisis de los resultados
para extraer conclusiones relevantes y tomar decisiones.
37
5.8 Caso de uso
Ahora veamos un ejemplo de preparación de datos para un modelo de aprendizaje no supervisado.
El departamento de marketing de una empresa quiere ver qué promociones dejará satisfechos a sus
clientes, además de traer a otro cliente nuevos a su supermercado.
En primer lugar, necesitamos recoger datos de los clientes: sexo, edad, ubicación geográfica (por eso en
algunos centros nos preguntan nuestro código postal cuando pasamos por caja), productos que solemos
adquirir y frecuencia, entre otros. Y, aunque estos datos no son etiquetados (no supervisado), sí
necesitamos transformarlos para que sean comprensibles para el algoritmo. Para ello debemos
normalizarlos y así todas las características tendrán la misma escala.
Una vez preparados los datos, aplicamos un algoritmo que nos identifique segmentos de clientes, como el
K-means que has visto con anterioridad. Y una vez que la asignación de los segmentos deja de cambiar
significativamente porque el algoritmo ha terminado, tenemos a cada cliente asignado a un segmento
concreto con una característica específica.
Esta segmentación me puede ayudar a diseñar una campaña dirigida a mujeres jóvenes que compran con
poca frecuencia pero que queremos captar, por ejemplo.
38
5.9 Entrenamiento para el reto
¡Pon a prueba lo aprendido!
¿Cuál de estos pasos está dentro de la preparación de datos de entrenamiento?

a) Definir el objetivo y comprender los datos.
b) Verificar los resultados del entrenamiento.
c) Clonación de conjuntos, validación y prueba
Feedback: La respuesta correcta es definir el objetivo y comprender los datos.
Estas preparando los datos de entrenamiento de Machine Learning (ML) y es necesario que el sistema
identifique los datos inconsistentes que puedan influir en el correcto funcionamiento del modelo. Esto se lleva
a cabo en la fase:
a) Comprensión de datos.
b) Limpieza de datos.
c) Transformación de datos.
Feedback: La limpieza de datos consiste en filtrar todos los datos e identificar y eliminar aquellos erróneos
que pueden provocar que nuestro modelo no haga las predicciones de forma correcta.
¿Cuál es la principal característica del aprendizaje no supervisado?

a) Su utilizan las curvas ROC para la evaluación y ajustes del modelo.
b) Descubre patrones y estructuras ocultas en los datos sin necesidad de etiquetas previas.
c) Dispone de información de salida para guiar el proceso de entrenamiento
Feedback: La respuesta correcta es descubrir patrones y estructuras ocultas en los datos sin necesidad de
etiquetas previas.
39
6 CIERRE
6.1 ¿Qué has aprendido en esta unidad?
En esta unidad hemos aprendido:

● Cómo se preparan y clasifican datos para el entrenamiento de modelos de aprendizaje automático.
● Que existen datos etiquetados y no etiquetados que aportan información o ayudan a mejorar los
modelos de entrenamiento.
● Cómo usar datos no etiquetados en técnicas como el procesamiento de datos, el aprendizaje no
supervisado y el aprendizaje semisupervisado.
● Cómo evaluar datos a través de la matriz de confusión o de la validación cruzada.
● Hemos manejado los pasos fundamentales para la preparación de datos tanto en aprendizaje
supervisado como no supervisado.
En la próxima unidad veremos en qué consiste el despliegue de aplicativos basados en inteligencia artificial
con el reconocimiento facial y los aspectos clave de utilizar el modelo DLOps en tus procesos. ¿Nos
acompañas? ¡Ya no queda nada!
Recuerda que ponemos a tu disposición el documento Mediateca, donde encontrarás contenido adicional
para ampliar información. Te animamos también a entrar en el foro del Módulo Formativo, donde
encontrarás actividades e información de actualidad para comentar con el resto de participantes.
40
6.2 Referencias bibliográficas
A continuación, puedes ver la relación de recursos (artículos, estudios, investigaciones, páginas web...) que
se han consultado y citado para elaborar el contenido de esta Unidad Didáctica:
• Harrington, P. (2012). Machine learning in action. Simon and Schuster. Manning Press.
• Janiesch, C., Zschech, P., & Heinrich, K. (2021). Machine learning and deep learning. Electronic
Markets, 31(3), 685-695.
• Norman, A. T. (2019). Aprendizaje automático en acción. Litres
¡Has terminado la unidad!
41
7 ANEXOS
7.1 Glosario
7.1.1 Clustering
Es una técnica de aprendizaje automático no supervisado que agrupa datos similares en conjuntos
llamados clústeres. Su objetivo es descubrir patrones o estructuras ocultas en los datos sin etiquetas
predefinidas.
Volver al contenido
7.1.2 Coeficiente
Es la relación entre dos variables, es decir, la proporción de la variabilidad de A que puede ser explicada
por B.
Volver al contenido
7.1.3 Convergencia
Coincidencia, concurrencia.
Volver al contenido
7.1.4 Descenso de gradiente
Un algoritmo que estima numéricamente dónde una función genera sus valores más bajos y nos
permite encontrar mínimos.
Volver al contenido
7.1.5 Desvío estándar
Medida de dispersión que nos indican cuanto de dispersos están los datos con respecto de la media.
Volver al contenido
7.1.6 Discretización
proceso matemático mediante el cual vamos a obtener resultados aproximados de la ecuación

diferencial del problema, de forma que haya un número limitado de estados posibles.
Volver al contenido
7.1.7 Folds
42
Se refiere a divisiones del conjunto de datos utilizadas en técnicas como la validación cruzada. Son
conjuntos más pequeños y mutuamente excluyentes que se utilizan para entrenar y evaluar un modelo
de manera iterativa.
Volver al contenido
7.1.8 Insights
Son percepciones o conocimientos valiosos obtenidos del análisis de datos o experiencias, que
proporcionan una comprensión clara de patrones o tendencias subyacentes. Son valiosos para la toma
de decisiones informadas y el desarrollo de estrategias efectivas.
Volver al contenido
7.1.9 Outliers
Conocidos como valores atípicos, son observaciones o puntos de datos que se alejan
significativamente del patrón general o esperado en un conjunto de datos. Estos valores se encuentran
fuera del rango típico y pueden ser el resultado de errores de medición, eventos inusuales o
características únicas. Pueden tener un impacto significativo en el análisis de datos y deben ser
identificados y tratados adecuadamente para evitar distorsiones o conclusiones incorrectas.
Volver al contenido
43

MF1 - UD3 - Preparacion y Clasificacion de Datos de Entrenamiento

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MF1 - UD3 - Preparacion y Clasificacion de Datos de Entrenamiento

Cargado por

Copyright:

Formatos disponibles

MF1: Inteligencia artificial

Unidad Didáctica 3: Preparación y clasificación de datos de

Diseño y adaptación pedagógica UGT España:

Revisión de contenidos UGT España:

Dirección de proyecto Telefónica Educación Digital:

Coordinación pedagógica Telefónica Educación Digital:

Autoría contenidos Telefónica Educación Digital:

Diseño gráfico y producción audiovisual Telefónica Educación Digital:

Revisión y edición de contenidos Telefónica Educación Digital:

1.1 Consideraciones previas

El aprendizaje automático y la preparación de datos pertenecen al campo de la inteligencia artificial. El

1. Aprendizaje automático y preparación de los datos

e. Normalización de los datos

f. Ingeniería de características (feature engineering)

ii. Validación cruzada

3. Guía para la preparación de los datos en aprendizaje supervisado.

4. Guía para la preparación de datos con aprendizaje no supervisado.

1.2.2 ¿Para qué vas a aprender estos contenidos?

Te planteamos el siguiente objetivo que te ayudará a lograrlo:

2.1 Aprendizaje automático y preparación de los datos

Razones para realizar la preparación de datos:

• Calidad de los datos

• Selección y transformación de características

• Manejo de desequilibrios y sesgos

Te dejamos a continuación una infografía que te ayudará a entenderlo mejor:

Veamos esta información aplicada a un ejemplo práctico:

2.3 Muestreo de datos

2.4 Datos etiquetados

Correo electrónico Etiqueta

¡Gana un premio increíble! Spam

Mañana reunión de equipo No spam

50% descuento en zapatos Spam

Pago hotel aceptado No spam

2.4.1 ¿Sabes cuál es la gran ventaja de los datos etiquetados?

2.5 Datos no etiquetados

2.6 Normalización de los datos

La importancia de la normalización en el aprendizaje automático radica en varios aspectos:

2.7 Ingeniería de características (feature engineering)

Es un proceso específico de la ingeniería de características centrado en identificar y seleccionar las

2.8 Remuestreo de datos

Veamos las razones para aplicar el remuestreo y corregir datos desbalanceados:

Existen dos enfoques comunes de remuestreo:

Submuestreo (undersampling) Sobremuestreo (oversampling)

Consiste en reducir la cantidad de ejemplos de Consiste en aumentar la cantidad de

2.9.1 Matriz de confusión

Pincha en cada botón para conocer su estructura general:

2.9.2 Caso de uso

2.9.3 Validación cruzada

El siguiente ejemplo te ayudará a entender mejor este apartado.

2.9.5 Caso de uso

¡Pon a prueba lo aprendido!

¿Qué debemos tener en cuenta antes de entrenar un modelo de aprendizaje automático?

Feedback ¡Recuerda! Es importante comprender la importancia de la preparación de datos en el

¿Cuál es el proceso que convierte variables categóricas en representaciones numéricas?

Feedback: La codificación de variables categóricas es precisamente el proceso de convertir variables

¿Qué es la validación cruzada y por qué se utiliza en el aprendizaje automático?

Es crucial comprender el objetivo y la información requerida, analizando el tipo de problema (clasificación,

Además, es importante explorar los datos para:

3.2 Limpieza de datos

3.3 Transformación de datos

3.4 Selección de características

La selección de características ayuda a reducir la complejidad y el ruido en el modelo, mejorando su

3.5 División de conjuntos, validación y prueba