Aporte Etapa 2

Análisis de Datos
Etapa 2 - Diseño de sistemas de aprendizaje automático
Elaborado por:
Luis Florentino Rodríguez Baquero
Grupo:
202016908_28
Tutor:
Javier Leonardo Pineda Uribe
Universidad Nacional Abierta y a Distancia-UNAD

Escuela de Ciencias básicas y Tecnología
Ingeniería de Sistemas
Acacias – 2023
Matriz de confusión
Una matriz de confusión es una herramienta utilizada en problemas de clasificación
en aprendizaje automático, representa la calidad de un modelo de clasificación al mostrar la
cantidad de predicciones correctas e incorrectas hechas por el modelo en un conjunto de
datos de prueba, la matriz de confusión tiene cuatro elementos principales:
• Verdaderos Positivos (VP): Representa la cantidad de casos positivos que fueron
clasificados correctamente como positivos por el modelo.
• Verdaderos Negativos (VN): Representa la cantidad de casos negativos que fueron
clasificados correctamente como negativos por el modelo.
• Falsos Positivos (FP): Representa la cantidad de casos negativos que fueron
incorrectamente clasificados como positivos por el modelo (errores de tipo I).
• Falsos Negativos (FN): Representa la cantidad de casos positivos que fueron
incorrectamente clasificados como negativos por el modelo (errores de tipo II).

Verdaderos positivos
Los Verdaderos Positivos (VP) son un término que se utiliza en el contexto de la
matriz de confusión en problemas de clasificación en aprendizaje automático, representan
la cantidad de casos positivos que fueron clasificados correctamente como positivos por el
modelo de clasificación; los VP son un indicador importante de la capacidad de un modelo
de clasificación para identificar con precisión las instancias positivas de una clase en un
conjunto de datos.
Verdaderos negativos
Los Verdaderos Negativos (VN) son un término que se utiliza en el contexto de la
matriz de confusión en problemas de clasificación en aprendizaje automático, representan
la cantidad de casos negativos que fueron clasificados correctamente como negativos por el
modelo de clasificación; los VN son un indicador importante de la capacidad de un modelo
de clasificación para identificar con precisión las instancias negativas de una clase en un
conjunto de datos.
Falsos positivos
Los Falsos Positivos (FP) son un término utilizado en el contexto de la matriz de
confusión en problemas de clasificación en aprendizaje automático, representan la cantidad
de casos negativos que fueron incorrectamente clasificados como positivos por el modelo
de clasificación; los FP son un tipo de error que puede cometer un modelo de clasificación,
y son importantes de entender porque pueden tener implicaciones en situaciones donde
clasificar erróneamente un caso como positivo puede tener consecuencias negativas o
costosas.
falsos negativos
Los Falsos Negativos (FN) son un término que se utiliza en el contexto de la matriz
de confusión en problemas de clasificación en aprendizaje automático, representan la
cantidad de casos positivos que fueron incorrectamente clasificados como negativos por el
modelo de clasificación; los FN son un tipo de error que puede cometer un modelo de
clasificación, y son importantes de entender porque pueden tener implicaciones en
situaciones donde clasificar erróneamente un caso como negativo puede tener
consecuencias negativas o costosas.

Precisión
La precisión es una métrica de evaluación de modelos de clasificación que mide la
proporción de predicciones positivas hechas por el modelo que son realmente correctas, se
calcula utilizando la siguiente fórmula:
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 =
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃) + 𝐹𝑎𝑙𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝐹𝑃)
En esta fórmula:
• Los Verdaderos Positivos (VP) son los casos positivos que fueron clasificados
correctamente como positivos por el modelo.
• Los Falsos Positivos (FP) son los casos negativos que fueron incorrectamente
clasificados como positivos por el modelo.

Recall
El Recall, también conocido como Sensibilidad o Tasa de Verdaderos Positivos, es
una métrica de evaluación de modelos de clasificación que mide la capacidad del modelo
para identificar correctamente todos los casos positivos en un conjunto de datos, se calcula
utilizando la siguiente fórmula:
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃)

𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃) + 𝐹𝑎𝑙𝑠𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (𝐹𝑁)
En esta fórmula:
• Los Verdaderos Positivos (VP) son los casos positivos que fueron clasificados
correctamente como positivos por el modelo.
• Los Falsos Negativos (FN) son los casos positivos que fueron incorrectamente
clasificados como negativos por el modelo.

F1 Score
El F1 Score es una métrica de evaluación de modelos de clasificación que combina
la precisión y el recall en una sola métrica para proporcionar una medida más completa del
rendimiento del modelo, se calcula utilizando la siguiente fórmula:
2 ∙ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 𝑆𝑐𝑜𝑟𝑒 =
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
El F1 Score es útil cuando deseas encontrar un equilibrio entre la precisión (cuántas
de las predicciones positivas son realmente correctas) y el recall (cuántos de los casos
positivos reales se detectan correctamente), esta métrica es especialmente valiosa en
problemas de clasificación donde hay un desequilibrio entre las clases o cuando los Falsos
Negativos y los Falsos Positivos tienen costos diferentes.

Specifiticy (Especificidad)
La Specificity, también conocida como Tasa de Verdaderos Negativos (TVPN), es
una métrica de evaluación de modelos de clasificación que mide la capacidad del modelo
para identificar correctamente todos los casos negativos en un conjunto de datos. Se calcula
utilizando la siguiente fórmula:
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 (𝑉𝑁)

𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (𝑉𝑁) + 𝐹𝑎𝑙𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝐹𝑃)
En esta fórmula:
• Los Verdaderos Negativos (VN) son los casos negativos que fueron clasificados
correctamente como negativos por el modelo.
• Los Falsos Positivos (FP) son los casos negativos que fueron incorrectamente
clasificados como positivos por el modelo.

Curva ROC (Receiver Operating Characteristic Curve)
La Curva ROC es una herramienta gráfica utilizada para evaluar el rendimiento de
un modelo de clasificación binaria en función de su capacidad para distinguir entre las
clases positivas y negativas en diferentes umbrales de decisión, se representa gráficamente
la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) en un rango
de umbrales de clasificación.
• Tasa de Verdaderos Positivos (TPR): También conocida como Recall o
Sensibilidad, es la proporción de casos positivos reales que el modelo clasifica
correctamente como positivos.
• Tasa de Falsos Positivos (FPR): Representa la proporción de casos negativos
reales que el modelo clasifica incorrectamente como positivos.

R cuadrado (R²)
R cuadrado, también conocido como coeficiente de determinación, es una métrica
utilizada en análisis de regresión para evaluar la calidad de un modelo de regresión en
función de la proporción de la varianza total de la variable dependiente que es explicada
por el modelo, la fórmula básica para calcular R cuadrado es la siguiente:
𝑆𝑆𝑅
𝑅2 = 1 −
𝑆𝑆𝑇
Donde:
• SSR (Suma de Cuadrados de Residuos) es la suma de los cuadrados de las
diferencias entre los valores reales de la variable dependiente y las predicciones del
modelo. Representa la varianza no explicada por el modelo.
• SST (Suma de Cuadrados Total) es la suma de los cuadrados de las diferencias entre
los valores reales de la variable dependiente y su media. Representa la varianza total
de los datos.
En algunos casos extremos, R-cuadrado puede tener un valor menor que cero también,
lo que significa que los valores predichos del modelo funcionan peor que solo tomando la
media simple como predicción para todas las observaciones.

R cuadrado ajustado (R² ajustado)
El R cuadrado ajustado es una métrica que se utiliza para evaluar la calidad de un
modelo de regresión, al igual que el R cuadrado convencional (R²), sin embargo, el R
cuadrado ajustado tiene en cuenta la cantidad de predictores (variables independientes) en
el modelo, lo que lo hace útil para comparar modelos con diferentes números de predictores
y determinar cuál es el más apropiado, la fórmula para calcular el R cuadrado ajustado es la
siguiente:
2 (1 − 𝑅2 ) ∙ (𝑛 − 1)
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 =1−
𝑛−𝑝−1
Donde:
• R² es el R cuadrado convencional.
• n es el número de observaciones en el conjunto de datos.
• p es el número de predictores (variables independientes) en el modelo.

Estimación de máxima verosimilitud (MLE)
La Estimación de Máxima Verosimilitud (MLE) es un método utilizado en
estadísticas y teoría de probabilidad para estimar los parámetros desconocidos de un
modelo estadístico, el objetivo principal del MLE es encontrar los valores de los parámetros
que maximizan la verosimilitud de los datos observados bajo el modelo propuesto.
Criterios de información de Akaike (AIC)
Son un conjunto de medidas utilizadas para evaluar y comparar la calidad relativa
de diferentes modelos estadísticos, especialmente en el contexto de análisis de regresión y
análisis de series temporales, los AIC proporcionan una forma de seleccionar el modelo que
mejor se ajusta a los datos observados mientras penaliza la complejidad del modelo, el AIC
se calcula de la siguiente manera:
𝐴𝐼𝐶 = −2 ∗ ln(𝐿) + 2 ∗ 𝑘
Donde:
• AIC es el valor del criterio de información de Akaike.
• k es el número de parámetros estimados en el modelo.
• L es la función de verosimilitud del modelo.

Entropía
La entropía en el análisis de datos se refiere a una medida de la impureza o desorden
en un conjunto de datos, especialmente en el contexto de algoritmos de árboles de decisión
y clasificación; si la muestra es completamente homogénea, la entropía es cero y si la
muestra se divide por igual, tiene una entropía de 1, el cálculo de la entropía se realiza de la
siguiente manera en el contexto de árboles de decisión:
• Se calcula la entropía antes de realizar una división en el conjunto de datos.
• Luego, se realiza una división en el conjunto de datos en función de un atributo o
característica particular.
• Después de la división, se calcula la entropía para cada uno de los subconjuntos
resultantes.
• La ganancia de información se calcula restando la entropía después de la división de
la entropía antes de la división.
El objetivo es seleccionar la división que maximice la ganancia de información, lo que
significa que reduce la entropía y hace que los subconjuntos resultantes sean más puros.
Esto se utiliza para construir árboles de decisión que pueden clasificar datos de manera
efectiva.
Ganancia de información
La ganancia de información es una métrica utilizada en el análisis de datos y la
construcción de árboles de decisión y en la toma de decisiones basadas en datos para
seleccionar la mejor característica para realizar una división.
El cálculo de la ganancia de información implica los siguientes pasos:
1. Se calcula la entropía del nodo padre antes de la división, que mide la impureza en
ese nodo.
2. Se divide el conjunto de datos en función de un atributo y se calcula la entropía de
los nodos hijos resultantes después de la división.
3. Se pondera la entropía de los hijos según su tamaño relativo.
4. La ganancia de información se obtiene restando la entropía ponderada de los hijos a
la entropía del padre.
La fórmula típica para calcular la ganancia de información es:
𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 𝑑𝑒 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑐𝑖ó𝑛 =
𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑣𝑖𝑠𝑖ó𝑛 − 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 𝑑𝑒𝑠𝑝𝑢é𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑐𝑖𝑠𝑖ó𝑛 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎

Gini
El Índice de Gini, a veces simplemente llamado "Gini", es una métrica utilizada en
el análisis de datos y la construcción de árboles de decisión, se utiliza para medir la
impureza de un conjunto de datos o la impureza de un nodo en un árbol de decisión, cuanto
menor sea el valor del Índice de Gini, más puro o homogéneo se considera el conjunto de
datos o el nodo, el cálculo del Índice de Gini se realiza de la siguiente manera:
1. Se calcula el Índice de Gini antes de realizar una división en el conjunto de datos o
el nodo. Esto implica calcular la suma ponderada de las impurezas de las clases
presentes en el conjunto de datos o el nodo.
2. Luego, se realiza una división en el conjunto de datos o el nodo según un atributo o
característica específica.
3. Se calcula el Índice de Gini después de la división para cada uno de los
subconjuntos resultantes.
4. La ganancia de Gini se calcula restando la suma ponderada de los Índices de Gini
después de la división de la suma ponderada de los Índices de Gini antes de la
división.

Aporte Etapa 2

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aporte Etapa 2

Cargado por

Copyright:

Formatos disponibles

Análisis de Datos

Etapa 2 - Diseño de sistemas de aprendizaje automático

Luis Florentino Rodríguez Baquero

Universidad Nacional Abierta y a Distancia-UNAD

Una matriz de confusión es una herramienta utilizada en problemas de clasificación

en aprendizaje automático, representa la calidad de un modelo de clasificación al mostrar la

cantidad de predicciones correctas e incorrectas hechas por el modelo en un conjunto de

datos de prueba, la matriz de confusión tiene cuatro elementos principales:

• Verdaderos Positivos (VP): Representa la cantidad de casos positivos que fueron

clasificados correctamente como positivos por el modelo.

• Verdaderos Negativos (VN): Representa la cantidad de casos negativos que fueron

clasificados correctamente como negativos por el modelo.

• Falsos Positivos (FP): Representa la cantidad de casos negativos que fueron

incorrectamente clasificados como positivos por el modelo (errores de tipo I).

• Falsos Negativos (FN): Representa la cantidad de casos positivos que fueron

incorrectamente clasificados como negativos por el modelo (errores de tipo II).

Los Verdaderos Positivos (VP) son un término que se utiliza en el contexto de la

matriz de confusión en problemas de clasificación en aprendizaje automático, representan

modelo de clasificación; los VP son un indicador importante de la capacidad de un modelo

Los Verdaderos Negativos (VN) son un término que se utiliza en el contexto de la

matriz de confusión en problemas de clasificación en aprendizaje automático, representan

modelo de clasificación; los VN son un indicador importante de la capacidad de un modelo

Los Falsos Positivos (FP) son un término utilizado en el contexto de la matriz de

confusión en problemas de clasificación en aprendizaje automático, representan la cantidad

y son importantes de entender porque pueden tener implicaciones en situaciones donde

clasificar erróneamente un caso como positivo puede tener consecuencias negativas o

de confusión en problemas de clasificación en aprendizaje automático, representan la

clasificación, y son importantes de entender porque pueden tener implicaciones en

situaciones donde clasificar erróneamente un caso como negativo puede tener

consecuencias negativas o costosas.

La precisión es una métrica de evaluación de modelos de clasificación que mide la

calcula utilizando la siguiente fórmula:

𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃)

correctamente como positivos por el modelo.

clasificados como positivos por el modelo.

El Recall, también conocido como Sensibilidad o Tasa de Verdaderos Positivos, es

utilizando la siguiente fórmula:

𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃)

correctamente como positivos por el modelo.

clasificados como negativos por el modelo.

El F1 Score es una métrica de evaluación de modelos de clasificación que combina

rendimiento del modelo, se calcula utilizando la siguiente fórmula:

El F1 Score es útil cuando deseas encontrar un equilibrio entre la precisión (cuántas

positivos reales se detectan correctamente), esta métrica es especialmente valiosa en

Negativos y los Falsos Positivos tienen costos diferentes.

La Specificity, también conocida como Tasa de Verdaderos Negativos (TVPN), es

utilizando la siguiente fórmula:

𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 (𝑉𝑁)

correctamente como negativos por el modelo.

clasificados como positivos por el modelo.

La Curva ROC es una herramienta gráfica utilizada para evaluar el rendimiento de

un modelo de clasificación binaria en función de su capacidad para distinguir entre las

clases positivas y negativas en diferentes umbrales de decisión, se representa gráficamente

• Tasa de Verdaderos Positivos (TPR): También conocida como Recall o

Sensibilidad, es la proporción de casos positivos reales que el modelo clasifica

correctamente como positivos.

• Tasa de Falsos Positivos (FPR): Representa la proporción de casos negativos

reales que el modelo clasifica incorrectamente como positivos.

R cuadrado, también conocido como coeficiente de determinación, es una métrica

utilizada en análisis de regresión para evaluar la calidad de un modelo de regresión en

función de la proporción de la varianza total de la variable dependiente que es explicada

por el modelo, la fórmula básica para calcular R cuadrado es la siguiente:

• SSR (Suma de Cuadrados de Residuos) es la suma de los cuadrados de las