Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Observaciones:
PROCEDIMIENTOS DE AGRUPACIÓN:
1. Procedimientos jerárquicos. Dada una población, se trata de establecer una jerarquía
de partes, delimitando un número de subconjuntos, de forma que entre ellos no
tengan elementos comunes y que cada subconjunto esté incluido en el otro:
• Jerárquico ascendente. Comienza con tantos grupos como individuos tenga, y se van
forman grupos entre los individuos más parecidos según un determinado criterio, y
termina con un solo grupo que integra a todos los elementos de la población.
• Jerárquico descendente. Contrario del anterior, se parte del conjunto completo
(población), para luego ir dividiendo en subconjuntos hasta llegar a un grupo con un
solo elemento.
Vínculo medio:
En este caso no intervienen solamente dos elementos, para calcular la distancia entre
grupos se recurre a la media, pero esta adopta muchas variantes. Puede ser la distancia
media entre pares de objeto de los dos grupos sin ponderar, o ponderando por el tamaño
de los grupos o número de elementos de cada uno, sobre todo en el caso de grupos de
tamaños muy diferentes. Los grupos así obtenidos tienen una varianza similar y además
pequeña.
Procedimientos no jerárquicos.
A partir de un número n de individuos hay que generar k grupos, k < n, siendo k un número
que el analista determina con base en experiencia previa. Los grupos se determinan a
priori. Los procedimientos no jerárquicos intentan un óptimo global y no sucesivos
subóptimos en cada fase de agrupación.
Nota: Este procedimiento permite reasignar un elemento en pasos posteriores a un grupo
diferente al grupo inicialmente asignado.
a) Umbral secuencial: Dado un centro de un grupo, todos los elementos de una población
dentro de un valor o umbral se agrupan en un mismo grupo; así se continúa eligiendo otros
centros y formando otros grupos. Una vez que un elemento ha sido asignado a un grupo no
se considera para otro.
b) Umbral paralelo: Con esta opción se fijan varios centros de grupos desde el principio. Los
objetos se asignan dentro del umbral establecido, cuyo centro esté más próximo; las
distancias pueden ser ajustadas a medida que se desarrolla el proceso, o incluso dejar
elementos por fuera, aquellos que no están dentro del umbral establecido para ningún
centro.
c) Método de optimización: Se diferencia en que permite la reasignación de los objetos, de
manera que un objeto asignado a un grupo puede pasar a otro.
En casos de encontrar valores atípicos es recomendable el uso del método de Ward (método
de vinculación), que es un método más robusto en las estimaciones.
PRUEBA DE HIPOTESIS
Son explicaciones potenciales (o teóricas) que intentan informar acerca de hechos
observados en situaciones en las que existen algunos factores desconocidos.
Hipótesis nula y se denota por 𝐻0. Suposición tentativa acerca del parámetro
poblacional. Señala que la preposición es verdadera.
PANTEAMIENTO DE HIPOTESIS
Bilateral.
(prueba de 𝐻0: 𝜇1 = 𝜇2 𝑍𝛼 ±𝑡𝛼
dos colas) 2 ,𝒏𝟏+𝒏𝟐−𝟐
𝐻1: 𝜇1 ≠ 𝜇2 𝑍 𝛼 2
1−
2
Unilateral 𝑍𝛼 −𝑡𝛼,𝒏 +𝒏 −𝟐
izquierda. 𝐻0: 𝜇1 ≥ 𝜇2 𝟏 𝟐
(prueba de
una cola) 𝐻1: 𝜇1 < 𝜇2
Unilateral 𝑍1−𝛼 +𝑡𝛼,𝒏 +𝒏 −𝟐
derecha. 𝐻0: 𝜇1 ≤ 𝜇2 𝟏 𝟐
(prueba de
una cola) 𝐻1: 𝜇1 > 𝜇2
DISEÑO COMPLETAMENTE ALEATORIZADO
Análisis de varianza
Determina la variabilidad de la respuesta atribuida a efectos de los niveles del factor.
𝜇 + 𝜏1 𝜇 𝜇 + 𝜏2 … 𝜇 + 𝜏𝑘
Efecto tratamiento:
Diferencia entre las medias generadas por los tratamientos 𝑟1, 𝑟2, … , 𝑟𝑘 y la media global
𝜇
(o común), 𝜇.
𝜇 𝜇
Considere las medias 𝜇 tal que: Efecto de los tratamientos
1 𝑖
2 𝑘
𝜇 = 𝜇+𝑟 𝑟 = 𝜇−𝜇
1 1 1 1
𝜇 = 𝜇 +𝑟 𝑟 = 𝜇−𝜇
2 2 2 2
… …
𝜇 = 𝜇+𝑟 𝑟 = 𝜇−𝜇
𝑘 𝑘 𝑘 𝑘
Planteamiento de hipótesis
𝑯 :𝜇 = 𝜇 = ⋯ = 𝜇
𝟎 1 2 𝑘
𝑯 :𝑟 = 𝑟 = ⋯ = 𝑟 = 0
𝟎 1 2 𝑘
𝑯 : 𝜇 ≠ 𝜇 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛 𝑖 𝑦 𝑗, 𝑖 ≠ 𝑗.
𝟏 𝑖 𝑗
𝑯 : 𝑟 ≠ 0 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔ú𝑛𝑎 𝑖
𝟏 𝑖
𝑖 = 1,2, … , 𝑘
MANOVA
El análisis multivariado de la varianza es un método para analizar si los diferentes niveles de
uno o más factores influyen de manera distinta en los valores de 2 o más variables numéricas
dependientes relacionadas estadísticamente.
El MANOVA es una extensión del ANOVA, donde se valora diferencias entre grupos a través
de 2 o más variables dependientes de forma simultánea
Observaciones:
1. El contraste con distribución t valora la significación estadística de las diferencias entre
2 medias muestrales independientes.
2. Se trata de encontrar sí la diferencia en las medias se debe a la variabilidad del
muestreo o sí representa una diferencia real.
3. El análisis de varianza (ANOVA) se utilizan en situaciones con 3 o más grupos
definidos por uno o más factores (variables independientes).
• Varianza dentro de los grupos. Se basa en desviaciones puntuales respecto de las
medias de sus grupos respectivos.
• varianza entre los grupos. Se basa en desviaciones de las medias de los grupos
respecto a la media global de todos los datos.
Para contrastar la significación estadística de las diferencias entre los grupos, en el MANOVA,
la hipótesis nula contrastada es la igualdad de vectores de medias de variables
dependientes múltiples entre los grupos.
Observaciones:
Los contrastes individuales ignoran las correlaciones entre las variables dependientes y
por ello no se emplea toda la información disponible para valorar diferencias globales
en los grupos.
Si existe multicolinealidad entre las variables dependientes el MANOVA será más
potente que los contrastes univariados separadas
En general:
𝑇2 = (𝑋 − 𝜇)′𝑆−1(𝑋 − 𝜇)
que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero
calculada con la matriz de covarianzas estimada, se denomina distribución 𝑇2 de Hotelling con
p y n − 1 grados de libertad.
Análisis discrimínate
Regla de verosimilitud
Si se conocen las funciones de densidad conjunta en las dos poblaciones y son de dos
poblaciones normales multivariadas 𝑁𝑝(𝜇1, 𝛴1) y 𝑁𝑝(𝜇2, 𝛴2) respectivamente, el criterio de
clasificación depende únicamente de las funciones de densidad, se asigna el individuo 𝑥 en
aquella población en la que tiene mayor probabilidad de pertenecer.
Linealidad del fenómeno medido. Verificar si existen relaciones lineales entre las
variables discriminantes dentro de cada población. Sin embargo, si las variables
discriminantes están altamente correlacionadas, esta técnica no es aplicable, ya que
en ese caso la matriz de varianzas-covarianzas no sería invertible.
Normalidad multivariante. Cada una de las poblaciones definidas por los grupos debe
tener distribución normal multivariante. Para validar este supuesto se suele recurrir
algunas veces a pruebas basadas en la distancia de Mahalanobis, como lo son: La
prueba que incluye los coeficientes de asimetría y curtosis multivariante dados por los
estadísticos
Hay que tener en cuenta que la normalidad univariada de cada una de las variables
definidas en una población no implica normalidad multivariada de esta; esto solo es
cierto si las variables son independientes.
1. Extraer una nueva muestra y predecir valores con la nueva muestra, además del
ajuste predictivo (tomando el modelo original).
2. Estimar un modelo separado con la nueva muestra para compararla con la ecuación
original sobre las características de las variables incluidas en el modelo.
3.Tomar una submuestra para estimar el modelo y otra para validarlo; esto en el caso
de la imposibilidad de extraer una nueva muestra.
Validación cruzada
1. Este procedimiento consiste en eliminar el primer vector de observaciones de los
datos y definir la regla discriminante a partir de los datos restantes y luego utilizar la
regla para clasificar la primera observación. Se observa si se clasifica o no en forma
correcta.
2. Reemplazar la primera observación al conjunto de datos y eliminar la segunda. Definir
la regla discriminante y clasificar la segunda observación. Observar si se clasifica o no
en forma correcta.
3. Continuar con el mismo proceso hasta llegar a la última