Está en la página 1de 26

lOMoARcPSD|2708133

Temas Multivariante

Análisis Multivariante (Universidad de Murcia)

Escanea para abrir en Studocu

Studocu no está patrocinado ni avalado por ningún colegio o universidad.


Descargado por Nicolas ureña (nicknitroso@gmail.com)
lOMoARcPSD|2708133

Tema 1: ANçLISIS MULTIVARIANTE

OBJETIVOS DEL ANçLISIS MULTIVARIANTE:


¥ Relacionar dos conjuntos de variables
¥ Clasificarnuevasobservacionesengruposdefinidos
¥ Encontrar grupos en los datos, si existen
¥ Resumir los datos (reduciendo la dimensi—n con la m’nima pŽrdida de informaci—n)

Los mŽtodos de an‡lisis multivariante son tŽcnicas estad’sticas que se utilizan para
analizar simult‡neamente mœltiples variables y sus relaciones en conjuntos de datos
complejos. Estos mŽtodos pueden clasificarse segœn varios criterios:

1. Objetivo del mŽtodo: Los mŽtodos de an‡lisis multivariante pueden tener diferentes
objetivos, como reducci—n de dimensiones (por ejemplo, An‡lisis de Componentes
Principales), clasificaci—n (por ejemplo, An‡lisis de Discriminante), asociaci—n (por
ejemplo, An‡lisis de Correspondencias), etc.

2. Nivel al que se plantea el an‡lisis (exploratorio o confirmatorio): Algunos mŽtodos


se utilizan para explorar patrones en los datos sin suposiciones previas (an‡lisis
exploratorio), mientras que otros se aplican para confirmar relaciones hipotŽticas
basadas en teor’as previas (an‡lisis confirmatorio).

3. Escala de medida de las variables (mŽtrica o categ—rica):Los mŽtodos var’an en su


capacidad para manejar variables mŽtricas (numŽricas) o categ—ricas (cualitativas).

4. Distinci—n entre las variables utilizadas en el an‡lisis: Se pueden clasificar en


mŽtodos de dependencia y mŽtodos de interdependencia. Los mŽtodos de dependencia
buscan establecer relaciones de dependencia entre variables, como el An‡lisis de
Regresi—n, que examina c—mo una variable depende de otras. Los mŽtodos de
interdependencia exploran las relaciones entre todas las variables en su conjunto,
como el An‡lisis de Componentes Principales, que busca patrones de interdependencia
entre variables.

5. Nœmero de variables dependientes analizadas simult‡neamente:Algunos mŽtodos


multivariados analizan una sola variable dependiente a la vez (univariante), mientras
que otros, como el An‡lisis de Covarianza Multivariante, pueden analizar mœltiples
variables dependientes simult‡neamente.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Tema 2: PARTE I ANOVA DE UN FACTOR

ANOVA, o An‡lisis de Varianza, es una tŽcnica estad’stica utilizada para comparar las
medias de tres o m‡s grupos o poblaciones diferentes para determinar si existen
diferencias significativas entre ellas. El prop—sito principal del ANOVA es determinar si
las diferencias observadas en las muestras son el resultado de variaciones reales en
las poblaciones o si simplemente son el resultado del azar.

El ANOVA funciona al descomponer la variabilidad total en los datos en dos


componentes:
¥ la variabilidad debida a las diferencias entre los grupos
¥ la variabilidad debida a las diferencias dentro de los grupos.

Caracter’sticas y objetivos del ANOVA:

1. MŽtodo de dependencia: es un mŽtodo que se utiliza para analizar la dependencia o


relaci—n entre una variable dependiente (la que se est‡ estudiando) y una o m‡s
variables independientes (factores) que se supone que pueden influir en la variable
dependiente. En otras palabras, se utiliza para evaluar si las diferencias en las
variables independientes tienen un impacto significativo en la variable dependiente.

2. Una variable dependiente mŽtrica y una o m‡s variables independientes categ—ricas


(factores): se aplica cuando la variable dependiente es de naturaleza numŽrica.
Mientras que una o m‡s variables independientes son categ—ricas.

3. An‡lisis inferencial: es una tŽcnica de an‡lisis estad’stico inferencial. Esto significa


que se utiliza para hacer inferencias sobre una poblaci—n m‡s grande bas‡ndose en
muestras de datos recopiladas.

4. Datos experimentales o de encuestas: El ANOVA se puede aplicar a diferentes tipos de


datos, pero es comœnmente utilizado en datos experimentales o encuestas.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Enfoques diferentes para abordar la variabilidad en los datos en ANOVA:

1. Modelo de efectos fijos: se considera que las categor’as o niveles de las variables
independientes son fijas y espec’ficas. Esto significa que se asume que las diferencias
entre estos niveles son constantes y no aleatorias. Por ejemplo, en un estudio sobre el
rendimiento acadŽmico, los efectos fijos podr’an representar las diferencias entre
diferentes escuelas espec’ficas.

2. Modelo de efectos aleatorios: se considera que los niveles de las variables


independientes son muestras aleatorias de una poblaci—n m‡s amplia. En otras
palabras, se asume que los efectos de cada nivel son variables aleatorias con una
distribuci—n espec’fica. Por ejemplo, en un estudio sobre la variabilidad en el peso
de los ratones en diferentes jaulas, se podr’a utilizar un modelo de efectos
aleatorios para representar la variaci—n entre las jaulas.

3. Modelo de efectos mixtos: combina elementos de los modelos de efectos fijos y


aleatorios. En este enfoque, se considera que algunas variables independientes son
fijas (efectos fijos), mientras que otras son aleatorias (efectos aleatorios). Por
ejemplo, en un estudio sobre el rendimiento acadŽmico de estudiantes, se podr’a
considerar la escuela (efecto fijo) y el profesor (efecto aleatorio) como variables
independientes.

La elecci—n entre estos tres enfoques depende de la naturaleza de los datos y las
preguntas de investigaci—n.

El ANOVA de un factor es un mŽtodo estad’stico para probar la hip—tesis nula (H0) de


que tres o m‡s medias poblacionales son iguales frente a la hip—tesis alternativa (H1)
de que al menos una de las medias es diferente. Usando la notaci—n formal de las
hip—tesis estad’sticas con k medias, escribir’amos:

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

ES IMPORTANTE TENER EN CUENTA LOS RESIDUOS PORQUE EN ANOVA DE UN FACTOR


TENEMOS POCOS GRUPOS Y PODEMOS HACER LOS CONTRASTES CON LOS VALORES
INDIVIDUALES PERO EN ANOVA DE 2 FACTORES VEREMOS QUE TENEMOS QUE UTILIZAR LOS
RESIDUOS DIRECTAMENTE PORQUE HAY DEMASIADOS DATOS.

SUPUESTOS CLAVE DEL ANOVA

1. Normalidad de las medias muŽstrales: Se supone que las medias siguen una
distribuci—n normal. Si las medias no se ajustan a una distribuci—n normal, los
resultados del ANOVA pueden no ser v‡lidos.

¥ W es el estad’stico de prueba de Shapiro-


Wilk. Este valor se utiliza para evaluar quŽ tan
bien se ajustan los datos a una distribuci—n
normal. Cuanto m‡s cercano a 1 sea este valor,
mejor se ajustan los datos a una distribuci—n
normal.
¥ p-value es el valor p asociado al test de
Shapiro-Wilk. Representa la probabilidad de
observar los datos si provienen de una
distribuci—n normal. Si el valor p es mayor que
un nivel de significancia dado (generalmente
0.05), no se rechaza la hip—tesis nula y se
concluye que los datos se ajustan a una
distribuci—n normal.

los valores p asociados son 0.5613, 0.1738 y 0.4958 respectivamente. Estos valores p son
relativamente altos, lo que sugiere que no hay evidencia suficiente para rechazar la
hip—tesis nula de que los datos siguen una distribuci—n normal en estos grupos.

Shapiro.test(ANOVA$residual)

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

2. Homogeneidad de varianzas (homocedasticidad): Se supone que la varianza de


las medias es constante en todos los grupos. En otras palabras, se espera que la
dispersi—n de los datos sea similar en todos los grupos. La falta de homogeneidad de
varianzas afecta a la precisi—n de las pruebas estad’sticas.

¥ Df representa los grados de libertad, que en este caso son 2. Esto se debe a que
est‡s comparando las varianzas entre dos grupos.
¥ F value es el estad’stico de prueba de Levene. Este valor es utilizado para evaluar
si las varianzas son homogŽneas entre los grupos. Cuanto m‡s cercano a 1 sea este valor,
m‡s homogŽneas son las varianzas.
¥ Pr (>F) es el valor p asociado a la prueba de Levene. Representa la probabilidad de
observar las diferencias en las varianzas entre los grupos si las varianzas son
homogŽneas. En este caso, el valor p es 0.5276, lo que indica que no hay evidencia
suficiente para rechazar la hip—tesis nula de que las varianzas son homogŽneas entre los
grupos = no encontr— evidencia de diferencias significativas en las varianzas.

3. Independencia: Se asume que las observaciones en cada grupo son independientes


entre s’. Esto significa que los valores en un grupo no est‡n relacionados o
influenciados por los valores en otros grupos. La violaci—n de este supuesto puede
conducir a resultados err—neos en el ANOVA.

Lo que hay que hacer es observar el


gr‡fico en busca de patrones. Idealmente,
no deber’as ver ningœn patr—n discernible;
deber’an estar dispersos aleatoriamente
alrededor de cero sin mostrar tendencias.
Si observas patrones, como una curva en
forma de U, un patr—n en zigzag o una
tendencia en los residuos, esto podr’a
indicar una falta de independencia en los
datos.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

¥ SCT (Suma de Cuadrados Total) representa la variabilidad total en los datos. SCT
refleja cu‡nto var’an todos los valores en el conjunto de datos sin importar en
quŽ grupo o categor’a se encuentren.
¥ SCR (Suma de Cuadrados del Error) representa la variabilidad debida a las
diferencias dentro de los grupos ( Intra grupos). SCF refleja cu‡nto var’an los
grupos entre s’. RESIDUOS
¥ SCF (Suma de Cuadrados de los Factores) representa la variabilidad debida a las
diferencias entre los grupos (intergrupo).

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

El valor F (F = 5.1965) es el estad’stico del ANOVA que sugiere una mayor variabilidad entre los
grupos en comparaci—n con la variabilidad dentro de los grupos. Intergrupos > Intragrupos
P-value: El valor p (p-value = 0.008451) es menor que 0.01, lo que indica que existe una diferencia
significativa entre los grupos en tŽrminos de valoraciones. En otras palabras, hay evidencia
estad’stica de que al menos uno de los grupos de ÒenvasesÓ es diferente en tŽrminos de las
valoraciones.

El ANOVA muestra el nœmero de grados de libertad, la suma de cuadrados, la media de cuadrados,


el valor F y el valor p para el factor ÒenvaseÓ y los residuos. El valor p (< 0.01) confirma la
diferencia significativa entre los grupos.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

El contraste ANOVA (An‡lisis de Varianza) y el contraste t de igualdad de dos medias


son dos pruebas estad’sticas utilizadas en situaciones ligeramente diferentes:

1. Contraste ANOVA:
- Aplicaci—n: El ANOVA se utiliza cuando se desean comparar las medias de m‡s de
dos grupos. Genera un valor p bajo (< 0.05) indica que al menos un grupo es
significativamente diferente de los dem‡s.

2. Contraste t de igualdad de dos medias:


- Aplicaci—n: El contraste t se utiliza cuando se desean comparar las medias de
exactamente dos grupos. Es œtil cuando tienes dos muestras y deseas determinar si las
medias de estas dos muestras son significativamente diferentes. Genera un estad’stico
t y un valor p. Un valor p bajo (< 0.05) indica que las dos medias son
significativamente diferentes.

Una vez analizados los contrastes:

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Cuando un an‡lisis de varianza (ANOVA) tiene problemas de baja potencia, significa


que la prueba estad’stica puede tener dificultades para detectar diferencias
verdaderas o efectos significativos, incluso si realmente existen. En otras palabras, la
potencia de una prueba se refiere a su capacidad para identificar efectos o
diferencias reales en los datos.

Los problemas de baja potencia en un ANOVA pueden deberse a varias razones:

¥ Tama–o de muestra: Si el tama–o de muestra en cada grupo es demasiado


peque–o, la prueba puede no tener suficiente informaci—n para detectar
diferencias reales. Con muestras peque–as, es m‡s dif’cil identificar efectos
significativos.

¥ Efecto peque–o: Si el efecto real que se est‡ tratando de detectar es peque–o, la


prueba puede requerir un tama–o de muestra m‡s grande para identificarlo de
manera significativa.

¥ Nivel de significancia inapropiado: Si se utiliza un nivel de significancia muy bajo


(por ejemplo, α = 0.01), la prueba ser‡ m‡s conservadora y menos propensa a
detectar efectos. A veces, es necesario ajustar el nivel de significancia para
aumentar la potencia de la prueba.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Este c‡lculo nos ayuda a determinar el tama–o muestral necesario en un dise–o


balanceado para detectar un determinado tama–o de efecto con un nivel de
significaci—n (α) y una potencia (1 - β) dados. El proceso implica los siguientes pasos:

1. Especificar el tama–o del efecto (ES, Effect Size): Debes determinar el tama–o del
efecto que deseas detectar. El tama–o del efecto se expresa en tŽrminos de la
diferencia entre los grupos o la magnitud de la relaci—n que est‡s tratando de
identificar.

2. Elegir el nivel de significaci—n (α): Define el nivel de significaci—n deseado, que es la


probabilidad de cometer un error tipo I (rechazar incorrectamente la hip—tesis nula).

3. Determinar la potencia (1 - β): Establece la potencia deseada, que es la probabilidad


de detectar un efecto si realmente existe (no cometer un error tipo II).

4. Seleccionar el dise–o estad’stico: Asegœrate de que tu dise–o estŽ bien definido,


incluyendo el nœmero de grupos y c—mo se realizar‡ la comparaci—n entre ellos (por
ejemplo, ANOVA, pruebas t, regresiones, etc.).

5. Calcular el tama–o muestral necesario: Utiliza una calculadora de potencia y


tama–o de muestra o un software estad’stico para realizar el c‡lculo. Necesitar‡s
proporcionar el tama–o del efecto, el nivel de significaci—n y la potencia, as’ como los
detalles del dise–o (como el nœmero de grupos y la varianza esperada).

El c‡lculo te proporcionar‡ el tama–o muestral necesario para alcanzar la potencia


deseada y detectar el tama–o del efecto especificado.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Un valor de Eta cuadrado (η²) en un ANOVA proporciona informaci—n sobre la


proporci—n de la variabilidad en la variable de respuesta que es explicada por las
diferencias entre los grupos o categor’as del factor analizado. Cuanto mayor sea el
valor de η², mejor ser‡ el ajuste del modelo a los datos. En este caso, el valor de η²
sugiere que el ajuste del modelo ANOVA a los datos es moderado, ya que explica un
porcentaje moderado de la variabilidad en las valoraciones.

¥ DMS (diferencia m’nima significativa o LSD en inglŽs): no controla la probabilidad de


error tipo l global, pero estima la varianza comœn (homoscedasticidad con los datos de
todas las muestras.

¥ BONFERRONI: controla la probabilidad de error tipo I global, estimando la varianza


comœn (homoscedasticidad) con los datos de todas las muestras

¥ HOLM: controla la probabilidad de error tipo I global, estimando la varianza comœn


(homoscedasticidad) con los datos de todas las muestras, y es m‡s potente que
Bonferroni

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Las pruebas de bonferroni, holm y DMS realizan comparaciones por pares entre los grupos. Los valores en la tabla (0.3375,0.2250 y
0,1125) indican la signiÞcancia de las diferencias entre los niveles.

¥TUKEY HSD: controla la probabilidad de error tipo I global, estimando la varianza


comœn (homoscedasticidad) con los datos de todas las muestras, y proporciona tambiŽn
intervalos de confianza para las diferencias de medias

TukeyHSD es una comparaci—n de medias entre los niveles de la variable ÒenvaseÓ a partir de un an‡lisis de varianza (ANOVA). La comparaci—n
entre ÒE2Ó y ÒE1Ó tiene una diferencia media estimada de -0.85, un intervalo de conÞanza desde -2.12 hasta 0.42, y un p-valor ajustado de 0.25. Un
p-valor menor a un nivel de signiÞcancia (0.05 t’picamente) indica una diferencia signiÞcativa entre esos grupos.

Tema 2: PARTE II ANOVA DE DOS FACTORES

El An‡lisis de Varianza de dos factores, o ANOVA de dos factores, es una tŽcnica estad’stica
utilizada para analizar la influencia de dos variables categ—ricas (tambiŽn llamadas factores)
en una variable continua. Es una extensi—n del ANOVA de una v’a, que se utiliza cuando se
tienen dos factores que podr’an estar contribuyendo al resultado de la variable dependiente.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

El ANOVA de dos factores de efectos fijos balanceados se utiliza para responder


preguntas sobre c—mo estos factores afectan una variable dependiente continua. El
resultado del an‡lisis proporciona informaci—n sobre si los factores, las interacciones
entre ellos o ambos tienen un efecto significativo en la variable dependiente.

INTERACCIîN NO SIGNIFICATIVA

Cuando la interacci—n no es significativa en un an‡lisis de varianza (ANOVA) de dos factores,


significa que no hay evidencia estad’stica para afirmar que los efectos de los dos factores se influyen
mutuamente de manera significativa. En otras palabras, los efectos de cada factor son independientes
entre s’ y pueden ser evaluados por separado sin preocuparse por su interacci—n.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Cuando las l’neas en los gr‡ficos de perfil son aproximadamente paralelas, significa
que los efectos de un factor no cambian de manera significativa a medida que el otro
factor var’a. En otras palabras, el impacto de un factor en la variable de respuesta es
constante o uniforme a travŽs de los niveles del otro factor.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

¥ El establecimiento influye en las ventas un 10%.


¥ El tipo de producto influye en las ventas un 68%
¥ El conjunto de variables de establecimiento y tipo de producto influyen en las
ventas un 2% lo cual concuerda con los resultados del anova que nos dec’a que
la relaci—n no era significativa.

INTERACCIîN SIGNIFICATIVA

gr‡ficos de perfil y su interpretaci—n.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

TEMA 3: An‡lisis de componentes principales y an‡lisis factorial

¥ Las relaciones lineales


existentes entre las variables
van a determinar un nuevo espacio de dimensi—n
inferior a 6 que mantiene la m‡xima informaci—n
posible (preferiblemente de dimensi—n 2 — 3, para
poder visualizar los datos).

¥ La idea es que en ese nuevo espacio se mantengan


lo m‡ximo posible las distancias entre los individuos
equivale a retener la mayor varianza o informaci—n
posible).

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

En el an‡lisis de componentes principales (PCA), tipificar y centrar los datos es una


etapa importante del preprocesamiento de datos que ayuda a garantizar que PCA
funcione de manera efectiva.

1. **Centrar los Datos:**


- Centrar los datos significa restar la media de cada variable (caracter’stica) de tus
datos del conjunto de datos original.
- Esto se hace para que la media de cada variable sea igual a cero despuŽs del
centrado. Al hacerlo, se asegura que el centro del sistema de coordenadas sea el
promedio de tus datos.

2. **Tipificar los Datos:**


- Tipificar los datos significa dividir cada valor de cada variable por la desviaci—n
est‡ndar de esa variable.
- Esto se hace para que todas las variables tengan una desviaci—n est‡ndar igual a
uno despuŽs de la tipificaci—n. La tipificaci—n de datos es œtil en PCA cuando las
variables tienen diferentes escalas o unidades de medida. Igualar las desviaciones
est‡ndar garantiza que todas las variables tengan el mismo peso en el an‡lisis.

Una vez que los datos est‡n tipificados y centrados, puedes realizar el an‡lisis de
componentes principales con mayor confianza, ya que los efectos de las diferencias de
escala y sesgos en la media se han eliminado.

La elecci—n entre centrar o tipiÞcar depende de varios factores:

¥ Naturaleza de los datos: Si las unidades de medida de las variables son diferentes y deseas comparar su
impacto relativo, la tipiÞcaci—n puede ser œtil. Si est‡s interesado en la interpretaci—n relativa a una media comœn,
centrar los datos podr’a ser preferible.
¥ Objetivos del an‡lisis: Si buscas comparar grupos o estudiar efectos relativos, el centrado puede ser œtil. Si
buscas evaluar la relaci—n relativa entre variables o ajustar modelos, la tipiÞcaci—n podr’a ser m‡s adecuada.

Calcular las matrices de covarianza y correlaci—n es esencial en PCA para estandarizar los
datos, identificar la estructura de covarianza, entender la varianza explicada y asegurar una
interpretaci—n adecuada de los componentes principales.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

La primera componente principal es


la combinaci—n lineal de las
variables con mayor varianza (recoge
la mayor cantidad de informaci—n
de los datos de partida)
Encontrar un vector u con la
direcci—n de la 1» componente
principal se reduce a resolver este
problema matem‡tico de
maximizaci—n con una restricci—n de
igualdad (longitud 1 para el vector)

Si trabajamos con datos tipificados todas las variables tienen la misma importancia en
el an‡lisis) hay que cambiar en las f—rmulas la matriz de covarianzas S por la matriz
de correlaciones R

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

La segunda componente principal


es la combinaci—n lineal de las
variables originales que recoge la
mayor cantidad de la informaci—n
restante

En general, p variables dar‡n lugar a p componentes principales, cuyas varianzas


corresponden a los valores propios de la matriz de covarianzas S (o de correlaciones R),
de modo que el vector director de cada componente ser‡ un vector propio asociado al
correspondiente valor propio de So de R)

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

TEMA 4: An‡lisis de correspondencias

CARACTERêSTICAS DEL ANçLISIS DE CORRESPONDENCIAS


¥ MŽtodo de interdependencia.
¥ Variables categ—ricas.
¥ OBJETIVO: reducci—n de la dimensi—n

La distancia euclidiana calcula la distancia directa entre dos puntos en un espacio n-


dimensional. Esta distancia se basa en el teorema de Pit‡goras y es la l’nea recta m‡s
corta que conecta dos puntos en un espacio euclidiano.

En un espacio bidimensional (x, y), la f—rmula es:

En un espacio tridimensional (x, y,


Descargado porz), la f—rmula
Nicolas se expande a:
ureña (nicknitroso@gmail.com)
lOMoARcPSD|2708133

PERFILES FILA (distribuciones de la OPINIîN condicionadas a cada nivel de renta, en


frecuencias relativas)

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

PERFILES COLUMNA (distribuciones del NIVEL DE RENTA condicionadas a cada


opini—n, en frecuencias relativas)

DISTANCIA CHI CUADRADO


Esta medida se utiliza comœnmente en el an‡lisis de tablas de contingencia para
determinar si existe una asociaci—n significativa entre las filas y las columnas de la
tabla. Ayuda a evaluar si las frecuencias observadas en la tabla difieren
significativamente de las frecuencias esperadas bajo la hip—tesis nula de independencia
entre las variables.
La f—rmula de la distancia chi-cuadrado entre perfiles de fila implica calcular la suma
de las diferencias cuadradas entre las frecuencias observadas y las frecuencias
esperadas, divididas por las frecuencias esperadas para cada celda en la tabla.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

La distancia chi-cuadrado verifica el principio de equivalencia distribucional: dos


filas (o dos columnas) con el mismo perfil pueden ser sustituidas por una sola fila
(columna) afectada por una masa igual a la suma de las masas sin que se
alteren las distancias entre las columnas (filas)

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

el an‡lisis de correspondencias simples es una tŽcnica utilizada en estad’stica


multivariante que se emplea para explorar y analizar relaciones entre variables
categ—ricas en una tabla de contingencia.

La tabla de contingencia muestra la frecuencia de aparici—n conjunta de dos o m‡s


variables categ—ricas. El an‡lisis de correspondencias simples evalœa estas desviaciones
respecto a la independencia estad’stica esperada entre estas variables. Esta tŽcnica
examina si hay asociaciones o patrones entre las categor’as de las variables que difieren
de lo que se esperar’a si fueran independientes entre s’.

Descargado por Nicolas ureña (nicknitroso@gmail.com)


lOMoARcPSD|2708133

Descargado por Nicolas ureña (nicknitroso@gmail.com)

También podría gustarte