Está en la página 1de 22

Métodos Exploratorios y Predictivos en Minerı́a de

Datos-UCA

M.Sc. Walter Otoniel Campos Granados−walteroto@gmail.com

Docente: Escuela de Matemática, Facultad de Ciencias Naturales y Matemática


Universidad de El Salvador,
Docente: Maestrı́a en Estadı́stica Aplicada a la Investigación−UCA
Licenciado en Matemática
Maestro en Estadı́stica
Máster en Big Data y Business Intelligence
Certificado: Experto en Minerı́a de Datos y Big Data Analysis.

7 de febrero de 2020

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 1 / 22
Método de K−medias (nubes Dinámicas)

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 2 / 22
Tareas de la Mineria de Datos

Clustering:(clasificación no supervisada, aprendizaje no


supervisado): Es similar a la clasificación(discriminación), excepto
que los grupos no son predefinidos. El objetivo es particionar o
segmentar un conjunto de datos o individuos en grupos que
pueden ser disjuntos o no. Los grupos se forman basados en la
similaridad de los datos o individuos en ciertas variables. Como
los grupos no son dados a priori el experto debe dar una
interpretación de los grupos que se forman.
Métodos:
Clasificación Jerárquica (grupos dfisjuntos) Nubes dinámicas o
k-means (grupos disjuntos)
Clasificación Piramidal (grupos No disjuntos)

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 3 / 22
Análisis de Conglomerados

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 4 / 22
Criterio de la Inercia

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 5 / 22
Criterio de la Inercia

Como se ha mencionado, se quiere obtener clases lo más homogéneas


posibles y tal que estén suficientemente separadas. Este objetivo se
puede concretar numéricamente a partir de la siguiente propiedad:
Supóngase que se está en presencia de una partición P = (C1 , . . . , CK )
de Ω, donde g1 , g2 , . . . , gtK son los centros de gravedad de las clases:

1 X
gk = Xi
|Ck |
i∈Ck

g es el centro de gravedad total:


n
1X
g= Xi
n
i=1

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 6 / 22
Autor (M.Sc. Walter Otoniel Campos Granados)
Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 7 / 22
Definiciones

Inercia Total de la nube de puntos:


n
1X
I= kXi − gk2
n
i=1

Inercia Inter-clases, es decir la inercia de los centros de gravedad


respecto al centro de gravedad total:
K
X |Ck |
B(P) = kgk − gk2
n
k=1

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 8 / 22
inercia intra-clases, es decir la inercia de cada clase:
K K
X 1 XX
W(P) = I(Ck ) = kXi − gk k2
n
k=1 k=1 i∈Ck

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 9 / 22
Teorema: Igualdad de Fisher

Inercia total = Inercia inter-clases +Inercia intra-clases

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 10 / 22
Ejemplo

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 11 / 22
Objetivo: Se quiere que B(P) sea máxima y W(P) sea mı́nima.
Como la inercia I(P) es fija, dada la nube de puntos, entonces al
maximizar B(P) se minimiza automáticamente.
Por lo tanto, los dos objetivos (homogeneidad interior de las clases
y separación entre las clases) se alcanzan al mismo tiempo al
querer minimizar W(P).

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 12 / 22
Problema Combinatorio.

Es necesario hacer notar que, cuando se quiere obtener una


partición en K clases de un conjunto con n individuos, no tiene
sentido examinar todas las posibles particiones del conjunto de
individuos en K clases.
En efecto, se está en presencia de un problema combinatorio muy
complejo; sólo para efectos de ilustración, mencionemos que el
número de particiones en 2 clases de un conjuto con 60 elementos
es aproximadamente 1018 , y para 100 elementos en 5 clases anda
por 1068 .

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 13 / 22
Objetivo del Método de K-medias

Ası́, el objetivo en el método de K-medias es encontrar


una partición P de W y representantes de las clases, tales que W(P)
sea mı́nima.

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 14 / 22
Método de k-medias

Existe un poco de confusión en la literatura acerca del método de


las k-medias, ya que hay dos métodos distintos que son llamados
con el mismo nombre.
Originalmente, Forgy propuso en 1965 un primer método de
reasignación-recentraje que consiste básicamente en la iteración
sucesiva, hasta obtener cenvergencia, de las dos operaciones
siguientes:

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 15 / 22
Representar una clase por su centro de gravedad, esto es, por su
vector de promedios.
Asignar los objetos a la clase del centro de gravedad más cercano.

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 16 / 22
Método de clusterización de las k-medias (nubes
dinámicas)

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 17 / 22
Autor (M.Sc. Walter Otoniel Campos Granados)
Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 18 / 22
Autor (M.Sc. Walter Otoniel Campos Granados)
Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 19 / 22
Autor (M.Sc. Walter Otoniel Campos Granados)
Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 20 / 22
Algoritmo de Clusterización de las k-medias

Algoritmo 1. Algoritmo Básico de K-medias


1. Seleccionamos K puntos como los centos iniciales.
2. Repetir.
3. Formar K clústers asignando todos los puntos
al centroide más cercano
4. Recálcular el centroide de cada clúster
5. Hasta que los centroides no cambien

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 21 / 22
K-medias en RComander
Tener al menos un fichero de datos cargado

Autor (M.Sc. Walter Otoniel Campos Granados)


Métodos Exploratorios y Predictivos en Minerı́a de Datos-UCA
7 de febrero de 2020 22 / 22

También podría gustarte