Está en la página 1de 27

UNIVERSIDAD NACIONAL DE LOJA

FACULTAD DE LA ENERGÍA, LAS INDUSTRIAS Y LOS RECURSOS NATURALES


NO RENOVABLES

MAESTRÍA EN ELECTRICIDAD
MENSIÓN EN SISTEMAS ELÉCTRICOS DE POTENCIA

NOMBRE DE LA ASIGNATURA
TEMA 1: MÉTODOS MATEMÁTICOS DE LA INTELIGENCIA ARTIFICIAL

DOCENTE: ING. RAÚL CUBILLO BETANCOURT, MSc


CORREO: rcubillob@yahoo.com

PERIODO: Agosto 2021


MAESTRÍA EN ELECTRICIDAD

TEMA 5: TRATAMIENTO DE DATOS MASIVOS, HERRAMIENTAS ANALÍTICAS Y


MODELOS
• Aplicación Software Estadístico SPSS, otras herramientas estadísticas.
• Análisis Clúster
• Tratamiento de Valores extremos

1
ANÁLISIS CLUSTER

En el campo del Machine Learning, el Clustering se enmarca dentro del aprendizaje no supervisado; es decir,
que para esta técnica solo disponemos de un conjunto de datos de entrada, sobre los que debemos obtener
información sobre la estructura del dominio de salida, que es una información de la cual no se dispone

Es importante no confundir el Clustering con los problemas de Clasificación. Las técnicas de Clasificación se
enmarcan dentro del aprendizaje supervisado porque para cada dato tenemos información sobre sus
variables de entrada y de salida; es decir, cada dato u objeto esta etiquetado. Sin embargo para aquellos
casos en los que no disponemos de la salida de cada dato y queramos agrupar estos objetos en grupos
similares, debemos de aplicar alguna de las técnicas de Clustering para saber la procedencia de estos datos.
CLUSTER vs CLASIFICACIÓN
PROBLEMA DE CLASIFICACIÓN CLUSTER

COLOR DE CABELLO
EN CODIGO RGB

𝑓 𝑥 = 𝑛𝑒𝑔𝑟𝑜, 𝑟𝑢𝑏𝑖𝑜, 𝑐𝑎𝑠𝑡𝑎ñ𝑜, 𝑐𝑎𝑛𝑜𝑠𝑜

VARIABLE COLOR DE CABELLO


CLUSTER vs CLASIFICACIÓN
CLUSTER vs CLASIFICACIÓN
METODO K-MEANS

CLUSTERING: clasificación no supervisada, aprendizaje no supervisado

• Los grupos no son predefinidos.


• El objetivo es particionar o segmentar un conjunto de
datos o individuos en grupos que pueden ser disjuntos o
no.
• Los grupos se forman basados en la similaridad de los
datos o individuos en ciertas variables.
• Como los grupos no son dados a priori el experto debe
dar una interpretación de los grupos que se forman

METODOS:

– Clasificación Jerárquica (grupos disjuntos).


– K means – nubes dinámicas(grupos disjuntos).
– Clasificación Piramidal (grupos NO disjuntos).
METODO K-MEANS

ANÁLISIS DE CONGLOMERADOS:

METODOS: Minimizar
distancia
Intra Clúster

Criterio de la Inercia Maximizar


distancia
Inter Clúster
METODO K-MEANS

DEFINICION GENERAL

Dado un conjunto de datos definido por una muestra de un universo, la matriz X, conformada de
n individuos y sobre los que se explican p variables, para cada objeto i se establece un elemento
definido como 𝒙𝒊𝒋 siendo la variable 𝑥𝑖 en el i-ésimo objeto, con j=1,2,3,… p se establece la matriz

𝒙11 𝒙12 𝒙1𝒋 𝒙1𝒑


𝒙21 𝒙22 𝒙2𝒋 𝒙12𝒑
𝑿= ⋮ ⋮ 𝒙𝒊𝒋 ⋮
𝒙𝒏1 𝒙𝒏2 𝒙𝒏𝒋 𝒙𝒏𝒑
OBJETIVO
• Homogénea, respecto a las variables utilizadas para la formación del conjunto de datos.
• Agrupable, mediante un criterio de información cifrada que de manera general podría
resultar desconocida a priori dentro del conjunto de p variables y n individuos.
• Similaridad, que permita determinar la creación de grupos distintos, pero cada uno de
ellos con capacidad de establecer una relación de semejanza interna
METODO K-MEANS

EXPLORACION VISUAL

Una representación visual en


primera instancia, permite durante
este proceso de análisis, extraer
una previa creación de categorías
basadas en la agrupación de los
valores contiguos de las variables y
observaciones existentes

OBJETIVO

• Crear variables categóricas, a partir de variables de escala continuas.


• Reducir un número elevado de categorías ordinales, en un conjunto menor de
categorías.
• Crear un mapeo referencial de la información a través de la información cruda.
• Realizar una adecuada elección del número de clúster a fin de evitar
agrupaciones heterogéneas.
METODO K-MEANS
Es un método de clasificación en el cual, n observaciones se agrupan en k grupos los cuales son
asignados mediante la determinación de la distancia a un valor medio más cercano, en este tipo
de clúster se utilizan algoritmos expectation - maximization para distribuciones gaussianas

𝑛
1 2
𝑖𝑛𝑒𝑟𝑐𝑖𝑎 = ෍ 𝑥𝑖 − 𝜇
𝑛
𝑖=0
Distancia
METODO K-MEANS

Teorema de IGUALDAD DE FISHER

𝐼𝑛𝑒𝑟𝑐𝑖𝑎 𝑇𝑜𝑡𝑎𝑙 = 𝐼𝑛𝑒𝑟𝑐𝑖𝑎 𝑖𝑛𝑡𝑒𝑟_𝑐𝑙𝑎𝑠𝑒𝑠 + 𝐼𝑛𝑒𝑟𝑐𝑖𝑎_𝑖𝑛𝑡𝑟𝑎_𝑐𝑙𝑎𝑠𝑒𝑠

𝐼(𝑃) = 𝐵 𝑃 + 𝑊(𝑊)

• OBJETIVO 𝐵 𝑃 sea máxima


• OBJETIVO 𝑊 𝑃 sea máxima

Notar que, como la inercia I(P) es fija, dada la nube de puntos, entonces al maximizar
B(P) se minimiza automáticamente W(P)
METODO K-MEANS

CUANTOS KLUSTERS?
METODO K-MEANS

ACTIVIDAD EN CLASE 5.1

Realizar el ejercicio de Cluster K-MEANS de la base de datos:

• BD Datos salud

Enviar como evidenciable el archivo de resultados


CLASIFICACION JERARQUICA ASCENDENTE

CLUSTER JERARQUICO
CLASIFICACION JERARQUICA ASCENDENTE

DENDOGRAMA CLASES ENCAJADAS

TABLA T(n,p)

INDICE DE NIVEL DE AGREGACION


CLASIFICACION JERARQUICA ASCENDENTE

D E B A C

INDIVIDUOS
CLASIFICACION JERARQUICA ASCENDENTE
METODO K-MEANS

ACTIVIDAD EN CLASE 5.2


Realizar el ejercicio de Cluster Jerarquico de la base de datos:

• BD Eficiencia Energética

Enviar como evidenciable el archivo de resultados


TRATAMIENTO DE VALORES ATIPICOS
BOXPLOTS O BOX AND WHISKERS

https://matesnoaburridas.wordpress.com/2021/03/28/diagramas-cajas-y-bigotes/
TRATAMIENTO DE VALORES ATIPICOS
TRATAMIENTO DE VALORES ATIPICOS

BOSQUE DE CORTE ALEATORIO ROBUSTO

El algoritmo funciona pasando por una puntuación de anomalía. Una indicación de una
puntuación baja significa que el punto de datos es normal. Sin embargo, si la puntuación está en
un nivel superior, indica la presencia de una anomalía.

La puntuación alta y baja realmente depende de la


aplicación, pero las prácticas habituales siempre sugieren
que una puntuación que supera las tres desviaciones
estándar de la puntuación media es definitivamente una
anomalía. Un hecho incluso interesante sobre este
algoritmo es que funciona bien incluso con datos de gran
dimensión, datos fuera de línea y datos de transmisión en
tiempo real
TRATAMIENTO DE VALORES ATIPICOS

BOSQUE DE AISLAMIENTO
Los métodos utilizados en este enfoque son diferentes de los otros métodos. La mayoría de los
métodos primero intentaron identificar la región normal de los datos y luego avanzaron para
identificar cualquier cosa que pareciera fuera de lugar.

El enfoque utilizado aquí primero separa las


anomalías en lugar de perfilar las regiones
normales. Una ventaja adicional es que
este método funciona mejor con datos de
gran dimensión y ha demostrado ser muy
eficaz.

el algoritmo divide los datos en dos partes


basándose en un valor de umbral aleatorio. Este
proceso continúa de forma recursiva hasta que se
aísla cada punto de datos. Una vez que el algoritmo
se ejecuta a través de todos los datos, filtra los
puntos de datos que tomaron menos pasos que
otros para aislarlos
TRATAMIENTO DE VALORES ATIPICOS

AGRUPACIÓN DE DBSCAN
El nombre del método en sí denota que este
enfoque implica un algoritmo de agrupación. El
algoritmo se utiliza para identificar valores
atípicos mediante un método de detección de
anomalías basado en la densidad. Este método es
ideal para datos unidimensionales y
multidimensionales, se basa en los siguientes
conceptos

Puntos centrales : para comprender este concepto, primero debe conocer los hiperparámetros
utilizados para definir el trabajo de DBScan, es decir, [HP] min_samples (para un número mínimo
de puntos básicos necesarios para formar un clúster) y [HP] eps. eps (para la distancia máxima
entre dos muestras requerida para formar un grupo).
Puntos fronterizos : grupo casi similar a los puntos centrales, pero mucho más lejos del centro del
grupo.
Puntos de ruido : cualquier punto de datos que no pertenezca a ningún tipo de grupo se puede
llamar puntos de ruido. Esto puede ser anómalo o no anómalo, sin embargo, sería muy necesario
realizar más investigaciones.
TRATAMIENTO DE VALORES ATIPICOS

•Forzar. Sustituye los valores atípicos y extremos por el valor más cercano que no se
consideraría extremo. Por ejemplo, si un valor atípico se define como todo lo que queda
por encima o por debajo de tres desviaciones estándar, todos los valores atípicos se
sustituirían por el valor mayor o menor de este intervalo.
•Descartar. Descarta los registros con valores atípicos o extremos para el campo
especificado.
•Anular. Sustituye los valores atípicos y extremos con valores nulos o perdidos por el
sistema.
•Forzar valores atípicos/descartar extremos. Descarta sólo los valores extremos.
•Forzar valores atípicos/anular extremos. Anula sólo los valores extremo
TAREA AUTO APRENDISAJE AA2

CONSULTAR LOS SIGUIENTES MEODOS DE CLASIFICACION Y CLUSTERIZACIÓN


DISPONIBLES EN SPSS

• VECINO MAS CERCANO


• CLUSTER BIEPATICO
MAESTRÍA EN ELECTRICIDAD

También podría gustarte