Está en la página 1de 33

Nosotros trabajamos por interdependencia, no vamos a explicar las dependencias

Lo que mas se emplea es el análisis de discriminante

Anexo wikipedia:

Estadística multivariante
Un vector aleatorio es un vector formado por una o más variables aleatorias escalares. La estadística
multivariante se ocupa de los vectores aleatorios que tienen aplicaciones en muchas ciencias y técnicas.
Podemos destacar entre ellas la econometría y la taxonomía. Un modelo explicativo para una variable
aleatoria se basa en explicar esta recurriendo a otras. Los vectores aleatorios nos sirven para construir
este tipo de modelos. Incluso en física, donde parece que los modelos determinan claramente el valor
de las variables, estas padecen errores producidos por variables no incluidos en el modelo o procesos
puramente aleatorios, lo que hace necesario recurrir a modelos estadísticos para estimar sus
parámetros.

Los métodos estadísticos multivariantes y el análisis multivariante son herramientas estadísticas que


estudian el comportamiento de tres o más variables al mismo tiempo. Se usan principalmente para
buscar las variables menos representativas para poder eliminarlas, simplificando así modelos
estadísticos en los que el número de variables sea un problema y para comprender la relación entre
varios grupos de variables. Algunos de los métodos más conocidos y utilizados son la Regresión lineal y
el Análisis discriminante.

Se pueden sintetizar dos objetivos claros:

1. Proporcionar métodos cuya finalidad es el estudio conjunto de datos multivariantes que el


análisis estadístico uni y bidimensional es incapaz de conseguir.

2. Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el que se


encuentre teniendo en cuenta la información disponible por el conjunto de datos analizado.

Existen diferentes modelos y métodos, cada uno con su tipo de análisis:

1. Métodos de Dependencia:
1. Un estudio de la regresión nos permite averiguar hasta que punto una variable puede
ser prevista conociendo otra. Se utiliza para intentar predecir el comportamiento de
ciertas variables a partir de otras, como por ejemplo los beneficios de una película a
partir del gasto en márketing y del gasto en producción.
2. El análisis de la correlación canónica intenta analizar la posible existencia de relación
entre dos grupos de variables.
3. Un análisis discriminante nos puede dar una función discriminante que puede ser
utilizada para distinguir entre dos o más grupos, y de este modo tomar decisiones.
4. Un análisis multivariante de la varianza (MANOVA), extendiendo el análisis de la
varianza (ANOVA), cubre los casos en los que se conozca la existencia de más de
una variable dependiente sin poderse simplificar más el modelo.
5. La regresión logística permite la elaboración de un análisis de regresión para estimar y
probar la influencia de una variable sobre otra, cuando la variable dependiente o de
respuesta es de tipo dicotómico.

2. Métodos de Interdependencia:
1. El análisis de los componentes principales procura determinar un sistema más
pequeño de variables que sinteticen el sistema original.
2. El análisis clúster clasifica una muestra de entidades (individuos o variables) en un
número pequeño de grupos de forma que las observaciones pertenecientes a un
grupo sean muy similares entre sí y muy disimilares del resto. A diferencia del Análisis
discriminante se desconoce el número y la composición de dichos grupos.
3. La Iconografía de las correlaciones.
3. Métodos Estructurales:

Los modelos de ecuaciones estructurales analizan las relaciones existentes entre un grupo de


variables representadas por sistemas de ecuaciones simultáneas en las que se suponen que
algunas de ellas (denominadas constructos) se miden con error a partir de otras variables
observables denominadas indicadores. Los modelos utilizados constan, por lo tanto, de dos
partes: un modelo estructural que especifica las relaciones de dependencia existente entre las
constructos latentes y un modelo de medida que especifica como los indicadores se relacionan
con sus correspondientes constructos.
------------------------------o-----------------

Técnicas fuertemente interpretativas


Objetos

La matriz de datos (se debe cambiar)

Todas las variables son independiente. La matriz de datos es una matriz de np

Se pueden escribir como vector fila y vector columna

EJERCICIO
Las variables deben estar correlaciondas
Se debe hacer la matriz de correlación
Se observa que existe correlación entre las variables, por lo tanto medidas de tendencia lineal

Si no hubieracorrelación, la matriz de correlación tendría la diagonal solo 1 y el determinante cero

Si el determinante de la matriz de correlaciónes uno => no hay relación lineal entre las variables

SI determinante es distinto de 1=> implica que existe correlación entre las variables.

Si hubiera dependencia lineal, deberíamos tener R abs =0

SPSS tiene una sola técnica en análisis factorial y..

SPSS tiene un test de barlet,

Análisis de componentes principales no requiere análisis de normalidad.

D=1-abs R elevado (1/p) -1

Explica la dependencia lineal, en porcentaje de dependencia global de los datos explica la


variabilidad conjunta.

Habiendo correlación significa que hay variables que pueden ser explicadas en relación a otras.

Una variable es explicada en función de otra, y por lo tanto debe cumplirse la transitividad

Puedo juntar variables, que están fuertemente correlacionadas.


Se coloca transponer

Se marca la matriz completa Mdeterm


Hay una fuerte correlación entre las variables

Globalmente la dependencia línea explica el 77% de la variabilidad de este conjunto de datos, esto
hace que el análisis de componentes principales se pueda aplicar.

Dcr explica en menor grado con todo el resto, por lo tanto se eliminará el diámetro de cráneo y se
ver

A cuanto cambia, se aumenta a un 80% la variabilidad explicada.

Calculando la matriz de covarianza


Analisis multivariado0

Todo lo que están en diagonal son las varianzas, los software trabajan por matriz de varianza o
matriz de correlación

Si todas las variables tienen diferentes unidad de medida y fuerte dif entre valores de varianzas
también se ocupa matriz de covarianza???

Si todas las variables tienen la misma unidad de medida y fuerte dif entre valores de varianzas
también se ocupa matriz de correlación

En este caso hay una alta variabilidad entre las varianzas, por lo tanto debe hacerse por matriz de
correlación
Análisis de componentes principales es una técnica estadística que se conoce como

Aprovecha esta dependencia lineal entre las variables independientes


Trabajando con SAS

Matriz de correlación

A mayor potencia, m

dataautos;
input auto Pot acc pes cil lkm;
cards;
1 48 21.5 900.4 1474.9 5.5
2 66 14.4 816.5 1606 6.5
3 52 19.4 900.4 1278.3 7.2
4 70 18.6 938.9 1393 6
5 60 16.4 816.5 1491.3 6.5
6 110 15.5 1526.4 4260.9 11.8
7 140 13.2 1694.2 5211.4 12.1
8 139 12.8 1619.3 4949.2 11.6
9 105 19.2 1603.5 3785.6 12.3
10 95 18.2 1431.1 3277.6 11.5
;
run;

con esto SAS lee solo los datos


Para las componetes principales
Grafico para a par entre las variables, se ve la correlacionneg entre acl y potencia,
A partir de la matriz de correlación, el valor final de los eigenvalues debe ser 5 si se suman.

Primer valor propio explica el 84% de la variabilidad total

Segunda componente explica el 14%

Acumulado se tiene con estas dos variables el 98,38%

Z1 Z2

Esta gráfica esta con dos componentes. El primer vector propio determinado por el primer valor
propio. Si se observa, la potencia esta asociada con el primer componetes principal, , la
aceleración fuertemente con la segunda componetes, peso con la primera, cilindrara con la
primera, y kms/litro muy parecido con el peso.

La primera compo esta relacionda con la potencia, peso cilindrada, y rendimiento

Se segunda comp principal, solo correlacionada con la acelación


Marcando los puntos con ctrl

Un grupo del 1 al 5=> (Se puede ver de la tabla original) Baja potencia, aceleración parecida, auto
liviano, menor rendimiento

Un segundo grupo del 6 al 10


Asocia las componentes principales con las distintas variables.

Es la dirección de los vectores


Vector Rosado solo componente principal 2

Se pueden hacer rotación de ejes, como ortogonales u oblicuas por una mejor visión.

Deben estar activados


Grafico Biplot

Poso con rendimiento se definen prácticamente lo mismo

La aceleración cae en la segunda componte principal.

La componente principal debe llevar a los componentes que relacionen

La segunda es solo aceleración


19/12/12
Excel Medfisi en past
Distancias ¿cuál de los alumnos son similares?

El grupo total tiene alta variabilidad

También podría gustarte