Está en la página 1de 15

Análisis de Datos

Etapa 2 - Diseño de sistemas de aprendizaje automático

Elaborado por:

Luis Florentino Rodríguez Baquero

Grupo:

202016908_28

Tutor:
Javier Leonardo Pineda Uribe

Universidad Nacional Abierta y a Distancia-UNAD


Escuela de Ciencias básicas y Tecnología
Ingeniería de Sistemas
Acacias – 2023
Matriz de confusión

Una matriz de confusión es una herramienta utilizada en problemas de clasificación

en aprendizaje automático, representa la calidad de un modelo de clasificación al mostrar la

cantidad de predicciones correctas e incorrectas hechas por el modelo en un conjunto de

datos de prueba, la matriz de confusión tiene cuatro elementos principales:

• Verdaderos Positivos (VP): Representa la cantidad de casos positivos que fueron

clasificados correctamente como positivos por el modelo.

• Verdaderos Negativos (VN): Representa la cantidad de casos negativos que fueron

clasificados correctamente como negativos por el modelo.

• Falsos Positivos (FP): Representa la cantidad de casos negativos que fueron

incorrectamente clasificados como positivos por el modelo (errores de tipo I).

• Falsos Negativos (FN): Representa la cantidad de casos positivos que fueron

incorrectamente clasificados como negativos por el modelo (errores de tipo II).


Verdaderos positivos

Los Verdaderos Positivos (VP) son un término que se utiliza en el contexto de la

matriz de confusión en problemas de clasificación en aprendizaje automático, representan

la cantidad de casos positivos que fueron clasificados correctamente como positivos por el

modelo de clasificación; los VP son un indicador importante de la capacidad de un modelo

de clasificación para identificar con precisión las instancias positivas de una clase en un

conjunto de datos.

Verdaderos negativos

Los Verdaderos Negativos (VN) son un término que se utiliza en el contexto de la

matriz de confusión en problemas de clasificación en aprendizaje automático, representan

la cantidad de casos negativos que fueron clasificados correctamente como negativos por el

modelo de clasificación; los VN son un indicador importante de la capacidad de un modelo

de clasificación para identificar con precisión las instancias negativas de una clase en un

conjunto de datos.
Falsos positivos

Los Falsos Positivos (FP) son un término utilizado en el contexto de la matriz de

confusión en problemas de clasificación en aprendizaje automático, representan la cantidad

de casos negativos que fueron incorrectamente clasificados como positivos por el modelo

de clasificación; los FP son un tipo de error que puede cometer un modelo de clasificación,

y son importantes de entender porque pueden tener implicaciones en situaciones donde

clasificar erróneamente un caso como positivo puede tener consecuencias negativas o

costosas.

falsos negativos

Los Falsos Negativos (FN) son un término que se utiliza en el contexto de la matriz

de confusión en problemas de clasificación en aprendizaje automático, representan la

cantidad de casos positivos que fueron incorrectamente clasificados como negativos por el

modelo de clasificación; los FN son un tipo de error que puede cometer un modelo de

clasificación, y son importantes de entender porque pueden tener implicaciones en

situaciones donde clasificar erróneamente un caso como negativo puede tener

consecuencias negativas o costosas.


Precisión

La precisión es una métrica de evaluación de modelos de clasificación que mide la

proporción de predicciones positivas hechas por el modelo que son realmente correctas, se

calcula utilizando la siguiente fórmula:

𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃)


𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 =
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃) + 𝐹𝑎𝑙𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝐹𝑃)

En esta fórmula:

• Los Verdaderos Positivos (VP) son los casos positivos que fueron clasificados

correctamente como positivos por el modelo.

• Los Falsos Positivos (FP) son los casos negativos que fueron incorrectamente

clasificados como positivos por el modelo.


Recall

El Recall, también conocido como Sensibilidad o Tasa de Verdaderos Positivos, es

una métrica de evaluación de modelos de clasificación que mide la capacidad del modelo

para identificar correctamente todos los casos positivos en un conjunto de datos, se calcula

utilizando la siguiente fórmula:

𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃)


𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝑉𝑃) + 𝐹𝑎𝑙𝑠𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (𝐹𝑁)

En esta fórmula:

• Los Verdaderos Positivos (VP) son los casos positivos que fueron clasificados

correctamente como positivos por el modelo.

• Los Falsos Negativos (FN) son los casos positivos que fueron incorrectamente

clasificados como negativos por el modelo.


F1 Score

El F1 Score es una métrica de evaluación de modelos de clasificación que combina

la precisión y el recall en una sola métrica para proporcionar una medida más completa del

rendimiento del modelo, se calcula utilizando la siguiente fórmula:

2 ∙ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 𝑆𝑐𝑜𝑟𝑒 =
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

El F1 Score es útil cuando deseas encontrar un equilibrio entre la precisión (cuántas

de las predicciones positivas son realmente correctas) y el recall (cuántos de los casos

positivos reales se detectan correctamente), esta métrica es especialmente valiosa en

problemas de clasificación donde hay un desequilibrio entre las clases o cuando los Falsos

Negativos y los Falsos Positivos tienen costos diferentes.


Specifiticy (Especificidad)

La Specificity, también conocida como Tasa de Verdaderos Negativos (TVPN), es

una métrica de evaluación de modelos de clasificación que mide la capacidad del modelo

para identificar correctamente todos los casos negativos en un conjunto de datos. Se calcula

utilizando la siguiente fórmula:

𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜 (𝑉𝑁)


𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜𝑠 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑜𝑠 (𝑉𝑁) + 𝐹𝑎𝑙𝑠𝑜𝑠 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑜𝑠 (𝐹𝑃)

En esta fórmula:

• Los Verdaderos Negativos (VN) son los casos negativos que fueron clasificados

correctamente como negativos por el modelo.

• Los Falsos Positivos (FP) son los casos negativos que fueron incorrectamente

clasificados como positivos por el modelo.


Curva ROC (Receiver Operating Characteristic Curve)

La Curva ROC es una herramienta gráfica utilizada para evaluar el rendimiento de

un modelo de clasificación binaria en función de su capacidad para distinguir entre las

clases positivas y negativas en diferentes umbrales de decisión, se representa gráficamente

la tasa de verdaderos positivos (TPR) frente a la tasa de falsos positivos (FPR) en un rango

de umbrales de clasificación.

• Tasa de Verdaderos Positivos (TPR): También conocida como Recall o

Sensibilidad, es la proporción de casos positivos reales que el modelo clasifica

correctamente como positivos.

• Tasa de Falsos Positivos (FPR): Representa la proporción de casos negativos

reales que el modelo clasifica incorrectamente como positivos.


R cuadrado (R²)

R cuadrado, también conocido como coeficiente de determinación, es una métrica

utilizada en análisis de regresión para evaluar la calidad de un modelo de regresión en

función de la proporción de la varianza total de la variable dependiente que es explicada

por el modelo, la fórmula básica para calcular R cuadrado es la siguiente:

𝑆𝑆𝑅
𝑅2 = 1 −
𝑆𝑆𝑇

Donde:

• SSR (Suma de Cuadrados de Residuos) es la suma de los cuadrados de las

diferencias entre los valores reales de la variable dependiente y las predicciones del

modelo. Representa la varianza no explicada por el modelo.

• SST (Suma de Cuadrados Total) es la suma de los cuadrados de las diferencias entre

los valores reales de la variable dependiente y su media. Representa la varianza total

de los datos.

En algunos casos extremos, R-cuadrado puede tener un valor menor que cero también,

lo que significa que los valores predichos del modelo funcionan peor que solo tomando la

media simple como predicción para todas las observaciones.


R cuadrado ajustado (R² ajustado)

El R cuadrado ajustado es una métrica que se utiliza para evaluar la calidad de un

modelo de regresión, al igual que el R cuadrado convencional (R²), sin embargo, el R

cuadrado ajustado tiene en cuenta la cantidad de predictores (variables independientes) en

el modelo, lo que lo hace útil para comparar modelos con diferentes números de predictores

y determinar cuál es el más apropiado, la fórmula para calcular el R cuadrado ajustado es la

siguiente:

2 (1 − 𝑅2 ) ∙ (𝑛 − 1)
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 =1−
𝑛−𝑝−1

Donde:

• R² es el R cuadrado convencional.

• n es el número de observaciones en el conjunto de datos.

• p es el número de predictores (variables independientes) en el modelo.


Estimación de máxima verosimilitud (MLE)

La Estimación de Máxima Verosimilitud (MLE) es un método utilizado en

estadísticas y teoría de probabilidad para estimar los parámetros desconocidos de un

modelo estadístico, el objetivo principal del MLE es encontrar los valores de los parámetros

que maximizan la verosimilitud de los datos observados bajo el modelo propuesto.

Criterios de información de Akaike (AIC)

Son un conjunto de medidas utilizadas para evaluar y comparar la calidad relativa

de diferentes modelos estadísticos, especialmente en el contexto de análisis de regresión y

análisis de series temporales, los AIC proporcionan una forma de seleccionar el modelo que

mejor se ajusta a los datos observados mientras penaliza la complejidad del modelo, el AIC

se calcula de la siguiente manera:

𝐴𝐼𝐶 = −2 ∗ ln(𝐿) + 2 ∗ 𝑘

Donde:

• AIC es el valor del criterio de información de Akaike.

• k es el número de parámetros estimados en el modelo.

• L es la función de verosimilitud del modelo.


Entropía

La entropía en el análisis de datos se refiere a una medida de la impureza o desorden

en un conjunto de datos, especialmente en el contexto de algoritmos de árboles de decisión

y clasificación; si la muestra es completamente homogénea, la entropía es cero y si la

muestra se divide por igual, tiene una entropía de 1, el cálculo de la entropía se realiza de la

siguiente manera en el contexto de árboles de decisión:

• Se calcula la entropía antes de realizar una división en el conjunto de datos.

• Luego, se realiza una división en el conjunto de datos en función de un atributo o

característica particular.

• Después de la división, se calcula la entropía para cada uno de los subconjuntos

resultantes.

• La ganancia de información se calcula restando la entropía después de la división de

la entropía antes de la división.

El objetivo es seleccionar la división que maximice la ganancia de información, lo que

significa que reduce la entropía y hace que los subconjuntos resultantes sean más puros.

Esto se utiliza para construir árboles de decisión que pueden clasificar datos de manera

efectiva.
Ganancia de información

La ganancia de información es una métrica utilizada en el análisis de datos y la

construcción de árboles de decisión y en la toma de decisiones basadas en datos para

seleccionar la mejor característica para realizar una división.

El cálculo de la ganancia de información implica los siguientes pasos:

1. Se calcula la entropía del nodo padre antes de la división, que mide la impureza en

ese nodo.

2. Se divide el conjunto de datos en función de un atributo y se calcula la entropía de

los nodos hijos resultantes después de la división.

3. Se pondera la entropía de los hijos según su tamaño relativo.

4. La ganancia de información se obtiene restando la entropía ponderada de los hijos a

la entropía del padre.

La fórmula típica para calcular la ganancia de información es:

𝐺𝑎𝑛𝑎𝑛𝑐𝑖𝑎 𝑑𝑒 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑐𝑖ó𝑛 =

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑣𝑖𝑠𝑖ó𝑛 − 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 𝑑𝑒𝑠𝑝𝑢é𝑠 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑐𝑖𝑠𝑖ó𝑛 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑎


Gini

El Índice de Gini, a veces simplemente llamado "Gini", es una métrica utilizada en

el análisis de datos y la construcción de árboles de decisión, se utiliza para medir la

impureza de un conjunto de datos o la impureza de un nodo en un árbol de decisión, cuanto

menor sea el valor del Índice de Gini, más puro o homogéneo se considera el conjunto de

datos o el nodo, el cálculo del Índice de Gini se realiza de la siguiente manera:

1. Se calcula el Índice de Gini antes de realizar una división en el conjunto de datos o

el nodo. Esto implica calcular la suma ponderada de las impurezas de las clases

presentes en el conjunto de datos o el nodo.

2. Luego, se realiza una división en el conjunto de datos o el nodo según un atributo o

característica específica.

3. Se calcula el Índice de Gini después de la división para cada uno de los

subconjuntos resultantes.

4. La ganancia de Gini se calcula restando la suma ponderada de los Índices de Gini

después de la división de la suma ponderada de los Índices de Gini antes de la

división.

También podría gustarte