Capitulo 5 - TRATAMIENTO DE DATOS MASIVOS HERRAMIENTAS ANALITICAS Y MODELOS - Compressed

UNIVERSIDAD NACIONAL DE LOJA
FACULTAD DE LA ENERGÍA, LAS INDUSTRIAS Y LOS RECURSOS NATURALES

NO RENOVABLES
MAESTRÍA EN ELECTRICIDAD
MENSIÓN EN SISTEMAS ELÉCTRICOS DE POTENCIA
NOMBRE DE LA ASIGNATURA
TEMA 1: MÉTODOS MATEMÁTICOS DE LA INTELIGENCIA ARTIFICIAL
DOCENTE: ING. RAÚL CUBILLO BETANCOURT, MSc

CORREO: rcubillob@yahoo.com
PERIODO: Agosto 2021

TEMA 5: TRATAMIENTO DE DATOS MASIVOS, HERRAMIENTAS ANALÍTICAS Y

MODELOS
• Aplicación Software Estadístico SPSS, otras herramientas estadísticas.
• Análisis Clúster
• Tratamiento de Valores extremos
1
ANÁLISIS CLUSTER
En el campo del Machine Learning, el Clustering se enmarca dentro del aprendizaje no supervisado; es decir,
que para esta técnica solo disponemos de un conjunto de datos de entrada, sobre los que debemos obtener
información sobre la estructura del dominio de salida, que es una información de la cual no se dispone
Es importante no confundir el Clustering con los problemas de Clasificación. Las técnicas de Clasificación se
enmarcan dentro del aprendizaje supervisado porque para cada dato tenemos información sobre sus
variables de entrada y de salida; es decir, cada dato u objeto esta etiquetado. Sin embargo para aquellos
casos en los que no disponemos de la salida de cada dato y queramos agrupar estos objetos en grupos
similares, debemos de aplicar alguna de las técnicas de Clustering para saber la procedencia de estos datos.
CLUSTER vs CLASIFICACIÓN
PROBLEMA DE CLASIFICACIÓN CLUSTER
COLOR DE CABELLO
EN CODIGO RGB
𝑓 𝑥 = 𝑛𝑒𝑔𝑟𝑜, 𝑟𝑢𝑏𝑖𝑜, 𝑐𝑎𝑠𝑡𝑎ñ𝑜, 𝑐𝑎𝑛𝑜𝑠𝑜
VARIABLE COLOR DE CABELLO

METODO K-MEANS
CLUSTERING: clasificación no supervisada, aprendizaje no supervisado
• Los grupos no son predefinidos.

• El objetivo es particionar o segmentar un conjunto de
datos o individuos en grupos que pueden ser disjuntos o
no.
• Los grupos se forman basados en la similaridad de los
datos o individuos en ciertas variables.
• Como los grupos no son dados a priori el experto debe
dar una interpretación de los grupos que se forman
METODOS:
– Clasificación Jerárquica (grupos disjuntos).

– K means – nubes dinámicas(grupos disjuntos).
– Clasificación Piramidal (grupos NO disjuntos).
METODO K-MEANS
ANÁLISIS DE CONGLOMERADOS:
METODOS: Minimizar
distancia
Intra Clúster
Criterio de la Inercia Maximizar

distancia
Inter Clúster
METODO K-MEANS
DEFINICION GENERAL
Dado un conjunto de datos definido por una muestra de un universo, la matriz X, conformada de
n individuos y sobre los que se explican p variables, para cada objeto i se establece un elemento
definido como 𝒙𝒊𝒋 siendo la variable 𝑥𝑖 en el i-ésimo objeto, con j=1,2,3,… p se establece la matriz
𝒙11 𝒙12 𝒙1𝒋 𝒙1𝒑

𝒙21 𝒙22 𝒙2𝒋 𝒙12𝒑
𝑿= ⋮ ⋮ 𝒙𝒊𝒋 ⋮
𝒙𝒏1 𝒙𝒏2 𝒙𝒏𝒋 𝒙𝒏𝒑
OBJETIVO
• Homogénea, respecto a las variables utilizadas para la formación del conjunto de datos.
• Agrupable, mediante un criterio de información cifrada que de manera general podría
resultar desconocida a priori dentro del conjunto de p variables y n individuos.
• Similaridad, que permita determinar la creación de grupos distintos, pero cada uno de
ellos con capacidad de establecer una relación de semejanza interna
METODO K-MEANS
EXPLORACION VISUAL
Una representación visual en

primera instancia, permite durante
este proceso de análisis, extraer
una previa creación de categorías
basadas en la agrupación de los
valores contiguos de las variables y
observaciones existentes
OBJETIVO
• Crear variables categóricas, a partir de variables de escala continuas.

• Reducir un número elevado de categorías ordinales, en un conjunto menor de
categorías.
• Crear un mapeo referencial de la información a través de la información cruda.
• Realizar una adecuada elección del número de clúster a fin de evitar
agrupaciones heterogéneas.
METODO K-MEANS
Es un método de clasificación en el cual, n observaciones se agrupan en k grupos los cuales son
asignados mediante la determinación de la distancia a un valor medio más cercano, en este tipo
de clúster se utilizan algoritmos expectation - maximization para distribuciones gaussianas
𝑛
1 2
𝑖𝑛𝑒𝑟𝑐𝑖𝑎 = ෍ 𝑥𝑖 − 𝜇
𝑛
𝑖=0
Distancia
METODO K-MEANS
Teorema de IGUALDAD DE FISHER
𝐼𝑛𝑒𝑟𝑐𝑖𝑎 𝑇𝑜𝑡𝑎𝑙 = 𝐼𝑛𝑒𝑟𝑐𝑖𝑎 𝑖𝑛𝑡𝑒𝑟_𝑐𝑙𝑎𝑠𝑒𝑠 + 𝐼𝑛𝑒𝑟𝑐𝑖𝑎_𝑖𝑛𝑡𝑟𝑎_𝑐𝑙𝑎𝑠𝑒𝑠
𝐼(𝑃) = 𝐵 𝑃 + 𝑊(𝑊)
• OBJETIVO 𝐵 𝑃 sea máxima

• OBJETIVO 𝑊 𝑃 sea máxima
Notar que, como la inercia I(P) es fija, dada la nube de puntos, entonces al maximizar
B(P) se minimiza automáticamente W(P)
METODO K-MEANS
CUANTOS KLUSTERS?
METODO K-MEANS
ACTIVIDAD EN CLASE 5.1
Realizar el ejercicio de Cluster K-MEANS de la base de datos:
• BD Datos salud
Enviar como evidenciable el archivo de resultados

CLASIFICACION JERARQUICA ASCENDENTE
CLUSTER JERARQUICO
DENDOGRAMA CLASES ENCAJADAS
TABLA T(n,p)
INDICE DE NIVEL DE AGREGACION

D E B A C
INDIVIDUOS
METODO K-MEANS
ACTIVIDAD EN CLASE 5.2

Realizar el ejercicio de Cluster Jerarquico de la base de datos:
• BD Eficiencia Energética
Enviar como evidenciable el archivo de resultados

TRATAMIENTO DE VALORES ATIPICOS
BOXPLOTS O BOX AND WHISKERS
https://matesnoaburridas.wordpress.com/2021/03/28/diagramas-cajas-y-bigotes/
BOSQUE DE CORTE ALEATORIO ROBUSTO
El algoritmo funciona pasando por una puntuación de anomalía. Una indicación de una
puntuación baja significa que el punto de datos es normal. Sin embargo, si la puntuación está en
un nivel superior, indica la presencia de una anomalía.
La puntuación alta y baja realmente depende de la

aplicación, pero las prácticas habituales siempre sugieren
que una puntuación que supera las tres desviaciones
estándar de la puntuación media es definitivamente una
anomalía. Un hecho incluso interesante sobre este
algoritmo es que funciona bien incluso con datos de gran
dimensión, datos fuera de línea y datos de transmisión en
tiempo real
BOSQUE DE AISLAMIENTO
Los métodos utilizados en este enfoque son diferentes de los otros métodos. La mayoría de los
métodos primero intentaron identificar la región normal de los datos y luego avanzaron para
identificar cualquier cosa que pareciera fuera de lugar.
El enfoque utilizado aquí primero separa las

anomalías en lugar de perfilar las regiones
normales. Una ventaja adicional es que
este método funciona mejor con datos de
gran dimensión y ha demostrado ser muy
eficaz.
el algoritmo divide los datos en dos partes

basándose en un valor de umbral aleatorio. Este
proceso continúa de forma recursiva hasta que se
aísla cada punto de datos. Una vez que el algoritmo
se ejecuta a través de todos los datos, filtra los
puntos de datos que tomaron menos pasos que
otros para aislarlos
AGRUPACIÓN DE DBSCAN
El nombre del método en sí denota que este
enfoque implica un algoritmo de agrupación. El
algoritmo se utiliza para identificar valores
atípicos mediante un método de detección de
anomalías basado en la densidad. Este método es
ideal para datos unidimensionales y
multidimensionales, se basa en los siguientes
conceptos
Puntos centrales : para comprender este concepto, primero debe conocer los hiperparámetros
utilizados para definir el trabajo de DBScan, es decir, [HP] min_samples (para un número mínimo
de puntos básicos necesarios para formar un clúster) y [HP] eps. eps (para la distancia máxima
entre dos muestras requerida para formar un grupo).
Puntos fronterizos : grupo casi similar a los puntos centrales, pero mucho más lejos del centro del
grupo.
Puntos de ruido : cualquier punto de datos que no pertenezca a ningún tipo de grupo se puede
llamar puntos de ruido. Esto puede ser anómalo o no anómalo, sin embargo, sería muy necesario
realizar más investigaciones.
•Forzar. Sustituye los valores atípicos y extremos por el valor más cercano que no se
consideraría extremo. Por ejemplo, si un valor atípico se define como todo lo que queda
por encima o por debajo de tres desviaciones estándar, todos los valores atípicos se
sustituirían por el valor mayor o menor de este intervalo.
•Descartar. Descarta los registros con valores atípicos o extremos para el campo
especificado.
•Anular. Sustituye los valores atípicos y extremos con valores nulos o perdidos por el
sistema.
•Forzar valores atípicos/descartar extremos. Descarta sólo los valores extremos.
•Forzar valores atípicos/anular extremos. Anula sólo los valores extremo
TAREA AUTO APRENDISAJE AA2
CONSULTAR LOS SIGUIENTES MEODOS DE CLASIFICACION Y CLUSTERIZACIÓN

DISPONIBLES EN SPSS
• VECINO MAS CERCANO

• CLUSTER BIEPATICO

Capitulo 5 - TRATAMIENTO DE DATOS MASIVOS HERRAMIENTAS ANALITICAS Y MODELOS - Compressed

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 5 - TRATAMIENTO DE DATOS MASIVOS HERRAMIENTAS ANALITICAS Y MODELOS - Compressed

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE LOJA

FACULTAD DE LA ENERGÍA, LAS INDUSTRIAS Y LOS RECURSOS NATURALES

DOCENTE: ING. RAÚL CUBILLO BETANCOURT, MSc

PERIODO: Agosto 2021

TEMA 5: TRATAMIENTO DE DATOS MASIVOS, HERRAMIENTAS ANALÍTICAS Y

𝑓 𝑥 = 𝑛𝑒𝑔𝑟𝑜, 𝑟𝑢𝑏𝑖𝑜, 𝑐𝑎𝑠𝑡𝑎ñ𝑜, 𝑐𝑎𝑛𝑜𝑠𝑜

VARIABLE COLOR DE CABELLO

CLUSTERING: clasificación no supervisada, aprendizaje no supervisado

• Los grupos no son predefinidos.

– Clasificación Jerárquica (grupos disjuntos).

Criterio de la Inercia Maximizar

𝒙11 𝒙12 𝒙1𝒋 𝒙1𝒑

Una representación visual en

• Crear variables categóricas, a partir de variables de escala continuas.

Teorema de IGUALDAD DE FISHER

𝐼𝑛𝑒𝑟𝑐𝑖𝑎 𝑇𝑜𝑡𝑎𝑙 = 𝐼𝑛𝑒𝑟𝑐𝑖𝑎 𝑖𝑛𝑡𝑒𝑟_𝑐𝑙𝑎𝑠𝑒𝑠 + 𝐼𝑛𝑒𝑟𝑐𝑖𝑎_𝑖𝑛𝑡𝑟𝑎_𝑐𝑙𝑎𝑠𝑒𝑠

• OBJETIVO 𝐵 𝑃 sea máxima

ACTIVIDAD EN CLASE 5.1

Realizar el ejercicio de Cluster K-MEANS de la base de datos:

Enviar como evidenciable el archivo de resultados

DENDOGRAMA CLASES ENCAJADAS

INDICE DE NIVEL DE AGREGACION

ACTIVIDAD EN CLASE 5.2

Enviar como evidenciable el archivo de resultados

BOSQUE DE CORTE ALEATORIO ROBUSTO

La puntuación alta y baja realmente depende de la

El enfoque utilizado aquí primero separa las

el algoritmo divide los datos en dos partes

CONSULTAR LOS SIGUIENTES MEODOS DE CLASIFICACION Y CLUSTERIZACIÓN

• VECINO MAS CERCANO

También podría gustarte