Está en la página 1de 10

Análisis de conglomerados

El análisis de conglomerados es un conjunto de métodos dentro de las técnicas


denominadas de interdependencia, en los que no se hace distinción entre variables
dependientes e independientes, cuyo objetivo es formar grupos a partir de un conjunto
de elementos.

Observaciones:

1. Se trata de una técnica descriptiva, no explicativa, con intenciones exploratorias


algunas veces.

2. En general la clasificación no resulta tan evidente (o eleva el riesgo de conclusiones


que poco tengan que ver con la realidad en estudio), ya que existe una amplia gama de
situaciones que se presentan para utilizar este método:
 Con muchos casos y muchas variables
 La cantidad de formas de medir el parecido o similitud entre elementos,
 Los diferentes procedimientos de agrupación

Es importante la representatividad de las muestras y vigilar la existencia de


multicolinealidad.

Es frecuente que las variables vengan en diferentes unidades o diferentes escalas de


medición, por lo que conviene estandarizar.

Cuando se presenta multicolinealidad o cuando el número de variables sea excesivo, es


conveniente recurrir a alguna técnica que sintetice la información, como son el ACP o AF.
Los valores extraños en este modelo sería conveniente excluirlos del análisis o darles un
tratamiento especial.

Medidas de semejanza entre dos objetos.


1. Medidas de correlación (predominan los patrones de variación). Dado un conjunto de
variables, dos objetos son muy similares si tienen correlaciones altas, y no serán
similares si tienen correlaciones bajas.

2. Medidas de distancias (predominan los patrones de medición). La distancia euclídea,


distancia de Minkowski, Chebichev, Mahalanobis.

3. Medidas de asociación. Tienen un carácter cualitativo. Índice de Sokal y Michener,


Rogers y Tanimoto, Sokal y Sneath.

PROCEDIMIENTOS DE AGRUPACIÓN:
1. Procedimientos jerárquicos. Dada una población, se trata de establecer una jerarquía
de partes, delimitando un número de subconjuntos, de forma que entre ellos no
tengan elementos comunes y que cada subconjunto esté incluido en el otro:
• Jerárquico ascendente. Comienza con tantos grupos como individuos tenga, y se van
forman grupos entre los individuos más parecidos según un determinado criterio, y
termina con un solo grupo que integra a todos los elementos de la población.
• Jerárquico descendente. Contrario del anterior, se parte del conjunto completo
(población), para luego ir dividiendo en subconjuntos hasta llegar a un grupo con un
solo elemento.

En los métodos jerárquicos se recurre a representaciones gráficas como lo son los


dendogramas y gráficas de témpano.

Entre los procedimientos jerárquicos más utilizados se destacan los denominados de


 Unión.
 Los basados en el centroide
 Con base en la varianza

EL VECINO MÁS CERCANO


Este procedimiento consiste en conformar grupos bajo el criterio de distancia mínima
entre dos elementos; cada uno perteneciente a grupos diferentes. Este procedimiento
se repite hasta que todos los elementos queden clasificados en un solo grupo

El vecino más lejano:


El procedimiento es similar al vecino más cercano, solo que el criterio es el de mayor
distancia entre elementos.

Vínculo medio:

En este caso no intervienen solamente dos elementos, para calcular la distancia entre
grupos se recurre a la media, pero esta adopta muchas variantes. Puede ser la distancia
media entre pares de objeto de los dos grupos sin ponderar, o ponderando por el tamaño
de los grupos o número de elementos de cada uno, sobre todo en el caso de grupos de
tamaños muy diferentes. Los grupos así obtenidos tienen una varianza similar y además
pequeña.

Método del centroide:

El centroide de un grupo es el punto medio en un espacio P dimensional determinado por


las P variables que se consideran en el análisis.
A medida que se producen incorporaciones a un grupo, el número de elementos varía, al
igual que su centroide. Los métodos que se basan en el centroide toman las distancias
entre grupos como la distancia entre sus centroides.
Al considerar puntos medios, los valores extraños no influyen tanto en este método. Este
método tiene variantes según se pondere o no por el tamaño de los grupos (cuando los
grupos se estimen son sensiblemente diferentes).

Procedimientos no jerárquicos.
A partir de un número n de individuos hay que generar k grupos, k < n, siendo k un número
que el analista determina con base en experiencia previa. Los grupos se determinan a
priori. Los procedimientos no jerárquicos intentan un óptimo global y no sucesivos
subóptimos en cada fase de agrupación.
Nota: Este procedimiento permite reasignar un elemento en pasos posteriores a un grupo
diferente al grupo inicialmente asignado.

Los procedimientos no jerárquicos también se denominan de k-medias y se distinguen tres


tipos:

a) Umbral secuencial: Dado un centro de un grupo, todos los elementos de una población
dentro de un valor o umbral se agrupan en un mismo grupo; así se continúa eligiendo otros
centros y formando otros grupos. Una vez que un elemento ha sido asignado a un grupo no
se considera para otro.

b) Umbral paralelo: Con esta opción se fijan varios centros de grupos desde el principio. Los
objetos se asignan dentro del umbral establecido, cuyo centro esté más próximo; las
distancias pueden ser ajustadas a medida que se desarrolla el proceso, o incluso dejar
elementos por fuera, aquellos que no están dentro del umbral establecido para ningún
centro.
c) Método de optimización: Se diferencia en que permite la reasignación de los objetos, de
manera que un objeto asignado a un grupo puede pasar a otro.

Como el principal problema del método de las k−medias es la delimitación en el número


de grupos, se aconseja utilizar primero algún método jerárquico para identificar un número
de grupos razonables y lógicos. Concretado el número de grupos y su composición, la
interpretación de cada uno de ellos se efectúa considerando las característica de los
elementos, recurriendo a las estadísticas descriptivas por grupos de las variables de
partida, lo cual permite poner nombre o clasificar a los grupos, como en el análisis factorial
(variables latentes).

En casos de encontrar valores atípicos es recomendable el uso del método de Ward (método
de vinculación), que es un método más robusto en las estimaciones.

PRUEBA DE HIPOTESIS
Son explicaciones potenciales (o teóricas) que intentan informar acerca de hechos
observados en situaciones en las que existen algunos factores desconocidos.
 Hipótesis nula y se denota por 𝐻0. Suposición tentativa acerca del parámetro
poblacional. Señala que la preposición es verdadera.

 hipótesis alternativa y se denota por 𝐻1. Dice lo contrario de lo que establece la


hipótesis nula y que se sospecha es verdadera. Señala una alternativa a la
preposición.

En el procedimiento de pruebas de hipótesis se usan datos de una muestra para


probar dos afirmaciones contrarias indicadas por 𝐻0 y 𝐻1.

PRUEBA DE HIPOTESIS PARA DOS MUESTRAS:


Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son
iguales.
Ejemplos:
1. Comparar dos métodos de enseñanza.
2. Comparar dos marcas.
Comparar dos ciudades

Pruebas de hipótesis para dos medias:

 Media poblacional: 𝝈𝟏 𝒚 𝝈𝟐 conocidas o 𝒏𝟏 + 𝒏𝟐 ≥ 𝟑𝟎


Utilizar Distribución normal
 Media poblacional: 𝝈𝟏 𝒚 𝝈𝟐 desconocidas y 𝒏𝟏 + 𝒏𝟐 < 𝟑𝟎
Utilizar Distribución t de Student con 𝒏𝟏 + 𝒏𝟐 − 𝟐 grados de libertad

PANTEAMIENTO DE HIPOTESIS

Pruebas Para promedios Valores críticos

Bilateral.
(prueba de 𝐻0: 𝜇1 = 𝜇2 𝑍𝛼 ±𝑡𝛼
dos colas) 2 ,𝒏𝟏+𝒏𝟐−𝟐
𝐻1: 𝜇1 ≠ 𝜇2 𝑍 𝛼 2
1−
2
Unilateral 𝑍𝛼 −𝑡𝛼,𝒏 +𝒏 −𝟐
izquierda. 𝐻0: 𝜇1 ≥ 𝜇2 𝟏 𝟐
(prueba de
una cola) 𝐻1: 𝜇1 < 𝜇2
Unilateral 𝑍1−𝛼 +𝑡𝛼,𝒏 +𝒏 −𝟐
derecha. 𝐻0: 𝜇1 ≤ 𝜇2 𝟏 𝟐
(prueba de
una cola) 𝐻1: 𝜇1 > 𝜇2
DISEÑO COMPLETAMENTE ALEATORIZADO

Es la asignación de los tratamientos a cada unidad experimental que se lleva a cabo en


forma totalmente aleatoria y todas las unidades se suponen homogéneas.
El modelo para un DCA es
𝑦𝑖𝑗 = 𝜇 + 𝑟𝑖 + 𝜀𝑖𝑗

𝑦𝑖𝑗 = 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑗 − é𝑠𝑖𝑚𝑎 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜.


𝜇 = 𝑀𝑒𝑑𝑖𝑎 𝑔𝑙𝑜𝑏𝑎𝑙.
𝑟𝑖 = 𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑎 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑔𝑙𝑜𝑏𝑎𝑙.
𝜀𝑖𝑗: 𝐸𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜

Análisis de varianza
Determina la variabilidad de la respuesta atribuida a efectos de los niveles del factor.

Considere k muestras independientes de tamaño 𝑛1, 𝑛2, … , 𝑛𝑘.


𝑦 ,…,𝑦 ~𝑁(𝜇 , 𝜎 2 )
𝑘1 𝑘𝑛k 𝑘

Efecto de los tratamientos sobre la media común: f(x)

𝜇 + 𝜏1 𝜇 𝜇 + 𝜏2 … 𝜇 + 𝜏𝑘

Efecto tratamiento:
Diferencia entre las medias generadas por los tratamientos 𝑟1, 𝑟2, … , 𝑟𝑘 y la media global

𝜇
(o común), 𝜇.
𝜇 𝜇
Considere las medias 𝜇 tal que: Efecto de los tratamientos
1 𝑖
2 𝑘
𝜇 = 𝜇+𝑟 𝑟 = 𝜇−𝜇
1 1 1 1

𝜇 = 𝜇 +𝑟 𝑟 = 𝜇−𝜇
2 2 2 2

… …
𝜇 = 𝜇+𝑟 𝑟 = 𝜇−𝜇
𝑘 𝑘 𝑘 𝑘

Planteamiento de hipótesis
𝑯 :𝜇 = 𝜇 = ⋯ = 𝜇
𝟎 1 2 𝑘
𝑯 :𝑟 = 𝑟 = ⋯ = 𝑟 = 0
𝟎 1 2 𝑘
𝑯 : 𝜇 ≠ 𝜇 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛 𝑖 𝑦 𝑗, 𝑖 ≠ 𝑗.
𝟏 𝑖 𝑗
𝑯 : 𝑟 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛𝑎 𝑖
𝟏 𝑖

𝑖 = 1,2, … , 𝑘

MANOVA
El análisis multivariado de la varianza es un método para analizar si los diferentes niveles de
uno o más factores influyen de manera distinta en los valores de 2 o más variables numéricas
dependientes relacionadas estadísticamente.

El MANOVA es una extensión del ANOVA, donde se valora diferencias entre grupos a través
de 2 o más variables dependientes de forma simultánea

Observaciones:
1. El contraste con distribución t valora la significación estadística de las diferencias entre
2 medias muestrales independientes.
2. Se trata de encontrar sí la diferencia en las medias se debe a la variabilidad del
muestreo o sí representa una diferencia real.
3. El análisis de varianza (ANOVA) se utilizan en situaciones con 3 o más grupos
definidos por uno o más factores (variables independientes).
• Varianza dentro de los grupos. Se basa en desviaciones puntuales respecto de las
medias de sus grupos respectivos.
• varianza entre los grupos. Se basa en desviaciones de las medias de los grupos
respecto a la media global de todos los datos.

Para contrastar la significación estadística de las diferencias entre los grupos, en el MANOVA,
la hipótesis nula contrastada es la igualdad de vectores de medias de variables
dependientes múltiples entre los grupos.
Observaciones:
 Los contrastes individuales ignoran las correlaciones entre las variables dependientes y
por ello no se emplea toda la información disponible para valorar diferencias globales
en los grupos.
 Si existe multicolinealidad entre las variables dependientes el MANOVA será más
potente que los contrastes univariados separadas

Los supuestos para el modelo son:


 Los vectores de errores se distribuyen de manera independiente con distribución
normal multivariada, con vector de medias igual al vector 0, y matriz de varianzas Σ
definida positiva.
 Las variables dependientes están definidas en la misma unidad experimental y para el
mismo tratamiento tienen distribución normal multivariada.
 Las matrices de covarianzas para cada tratamiento deben ser iguales.
 Las variables dependientes son correlacionadas.
𝑻𝟐 de Hottelling

Si 𝑋 es un vector aleatorio con distribución normal multivariada 𝑁𝑝(𝜇, 𝑉), la variable (𝑋 − 𝜇)


′𝑉−1(𝑋 − 𝜇) es una distribución 𝑋2 con p grados de libertad. Si sustituimos V por su
estimación S, la matriz de varianzas muestral estimada dividiendo por n−1, la distribución
que se obtiene se denomina 𝑻𝟐 de Hottelling.

En general:

𝑇2 = (𝑋 − 𝜇)′𝑆−1(𝑋 − 𝜇)
que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero
calculada con la matriz de covarianzas estimada, se denomina distribución 𝑇2 de Hotelling con
p y n − 1 grados de libertad.

La distribución de Hotelling no se tabula, ya que con una simple transformación se reduce a


la distribución F del análisis de la varianza de Fisher.
𝐹𝑝,𝑛−𝑝= 𝑛 − 𝑝 + 1 /𝑝𝑛 T2

Análisis discrimínate

El análisis discriminante es una técnica estadística multivariante cuya finalidad es analizar si


existen diferencias significativas entre grupos de objetos respecto a un conjunto de
variables medidas sobre los mismos, para en el caso de que existan, explicar en qué sentido
se dan y proporcionar procedimientos de clasificación sistemática de nuevas observaciones de
origen desconocido en uno de los grupos analizados.
Observaciones:
• La regresión múltiple es la técnica de dependencia multivariante utilizada más
extensamente. El principal factor de su popularidad ha sido su capacidad para predecir y
explicar las variables "métricas".
El análisis discriminante trata la situación cuando la variable dependiente es cualitativa (no
métrica).

Los objetivos básicos del análisis discriminante son:


1. Analizar si existen diferencias significativas entre los grupos.
2. Establecer el número y composición de las dimensiones de discriminación entre los
grupos analizados.
4. Determinar qué variables clasificadoras explican la mayor parte de las diferencias
observadas.
5. Construir procedimientos sistemáticos de clasificación de objetos de procedencia
desconocida en los grupos analizados; en ese sentido, uno de los criterios es el que utiliza
funciones discriminantes.
6. Evaluar la significancia estadística y práctica de los resultados obtenidos en el proceso de
clasificación
En forma general, el propósito del análisis discriminante es estimar la relación entre una
variable respuesta (o dependiente) no métrica (categórica) y un conjunto de variables
predictoras (o independientes) métricas:
𝑌 = 𝑋1 + 𝑋2 + 𝑋3 + ⋯ + 𝑋𝑝
No métrica Métricas
En este sentido, la función discriminante se define por

𝑌𝑖 = 𝛽𝑖0 + 𝛽𝑖1𝑋1 + 𝛽𝑖2𝑋2 + 𝛽𝑖3𝑋3 + ⋯ + 𝛽𝑖𝑝𝑋𝑝

La puntuaciones para para un individuo k es

𝑦𝑖𝑘 = 𝛽𝑖0 + 𝛽𝑖1𝑥𝑘1 + 𝛽𝑖2𝑥𝑘2 + 𝛽𝑖3𝑥𝑘3 + ⋯ + 𝛽𝑖𝑝𝑥𝑘𝑝

𝑦𝑖𝑘: Puntuación de la función discriminante i para el individuo k.


𝛽𝑖0: constante
𝛽𝑖𝑗: ponderación discriminante para la variable independiente 𝑋𝑗, 𝑗=1, 2, … , p.
𝑥𝑘𝑗 :Valor de la variable independiente

Regla Distancia de Mahalanobis


Si se conocen las medias en las dos poblaciones y las matrices de varianzas-covarianzas son
iguales, para clasificar a un individuo 𝑥 en una de dos poblaciones se asigna el individuo en
aquella población en la que la distancia de Mahalanobis sea menor.

Elegir Ω1 cuando 𝑑1 < 𝑑2 de lo contrario Ω2


Distancia de mahalanobis
𝑑 = (𝑥 − 𝜇 )′ 𝛴−1(𝑥 − 𝜇 )
𝑖 𝑖 𝑖
Regla de probabilidad posterior:
Si se conocen las medias en las dos poblaciones y las matrices de varianzas-covarianzas son
iguales, para clasificar a un individuo 𝑥 en una de dos poblaciones se asigna el individuo en
aquella población considerando la probabilidad

Elegir Ω1 cuando 𝑃(Ω1|𝑥) > 𝑃(Ω2|𝑥) de lo contrario Ω2

Regla de función discriminante lineal


Si se conocen las medias en las dos poblaciones y las matrices de varianzas-covarianzas son
iguales, para clasificar a un individuo 𝑥 en una de dos poblaciones se asigna el individuo de
acuerdo con la función.

Ω cuando 𝛽 ′ 𝑥 − 𝑘 > 0 de lo contrario Ω


Elegir 1 2

Regla de verosimilitud
Si se conocen las funciones de densidad conjunta en las dos poblaciones y son de dos
poblaciones normales multivariadas 𝑁𝑝(𝜇1, 𝛴1) y 𝑁𝑝(𝜇2, 𝛴2) respectivamente, el criterio de
clasificación depende únicamente de las funciones de densidad, se asigna el individuo 𝑥 en
aquella población en la que tiene mayor probabilidad de pertenecer.

Elegir Ω1 cuando L(x; 𝜇1, 𝛴1)> L(x; 𝜇2, 𝛴2) de lo contrario Ω2

Supuestos del modelo Análisis discriminante:

 Linealidad del fenómeno medido. Verificar si existen relaciones lineales entre las
variables discriminantes dentro de cada población. Sin embargo, si las variables
discriminantes están altamente correlacionadas, esta técnica no es aplicable, ya que
en ese caso la matriz de varianzas-covarianzas no sería invertible.
 Normalidad multivariante. Cada una de las poblaciones definidas por los grupos debe
tener distribución normal multivariante. Para validar este supuesto se suele recurrir
algunas veces a pruebas basadas en la distancia de Mahalanobis, como lo son: La
prueba que incluye los coeficientes de asimetría y curtosis multivariante dados por los
estadísticos
Hay que tener en cuenta que la normalidad univariada de cada una de las variables
definidas en una población no implica normalidad multivariada de esta; esto solo es
cierto si las variables son independientes.

 Igualdad de matrices de varianzas-covarianzas. Las matrices de varianzas-covarianzas


en cada población deben ser iguales. Este supuesto no es tan grave en el caso de que
los tamaños de muestras sean iguales o los tamaños de muestras sean grandes, sobre
todo cuando esta técnica se usa con fines predictivos.
 Ausencia de multicolinealidad. La existencia de variables independientes que sean
combinación lineal (o un coeficiente de determinación cercano a 1) de otras variables
discriminantes hacen que la matriz de varianzas-covarianzas no sea invertible (singular
o casi singular).
Validación de los resultados Análisis discriminante:

1. Extraer una nueva muestra y predecir valores con la nueva muestra, además del
ajuste predictivo (tomando el modelo original).
2. Estimar un modelo separado con la nueva muestra para compararla con la ecuación
original sobre las características de las variables incluidas en el modelo.
3.Tomar una submuestra para estimar el modelo y otra para validarlo; esto en el caso
de la imposibilidad de extraer una nueva muestra.

Validación cruzada
1. Este procedimiento consiste en eliminar el primer vector de observaciones de los
datos y definir la regla discriminante a partir de los datos restantes y luego utilizar la
regla para clasificar la primera observación. Se observa si se clasifica o no en forma
correcta.
2. Reemplazar la primera observación al conjunto de datos y eliminar la segunda. Definir
la regla discriminante y clasificar la segunda observación. Observar si se clasifica o no
en forma correcta.
3. Continuar con el mismo proceso hasta llegar a la última

Reglas discriminantes para más de 2 poblaciones


1. Calcular la distancia cuadrada de Mahalanobis entre una observación y cada una de
las medias de las poblaciones y luego clasificar esa observación en la población a cuya
media se encuentre más próxima.
2. Calcular la probabilidad posterior de una observación para cada una de las
poblaciones en competencia y clasificar esa observación en la población queda la
probabilidad posterior más grande.
3. Calcular el valor de la función de clasificación de cada una de las poblaciones y
clasificar una observación en la población que da el valor más grande para esa función
de clasificación.

Función discriminante cuadrática.


Generalmente es aplicada en situaciones en que en la matriz de varianzas –
covarianzas no es idéntica para las poblaciones. La función discriminante es una
función cuadrática y contendrá términos de segundo orden

También podría gustarte