Está en la página 1de 11

ANALISIS MULTIVARIADO

1. Definición
Es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de
datos multivariantes en el sentido de que hay varias variables medidas para cada individuo u
objeto estudiado.
Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo
información que los métodos estadísticos univariados y bivariados son incapaces de conseguir.
Son todas aquellas técnicas estadísticas que simultáneamente analizan múltiples resultados en
los individuos u objetos bajo investigación.
Para que un análisis se considere multivariado todas las variables deben ser aleatorias y
relacionadas de tal manera que el efecto que producen no pueda ser interpretado de manera
individual.

2. Objetivos
El propósito del análisis multivariado, o también conocido como multivariante, es medir,
explicar y predecir el grado de relación que existe entre la variación (combinación lineal
ponderada de las variables).
El carácter multivariante del análisis descansa no solo en el número de variables sino en las
múltiples combinaciones existentes entre las variables.
Puede sintetizarse en dos:
 Proporcionar métodos cuya finalidad es el estudio de conjuntos de datos multivariantes
que el análisis estadístico uni y bidimensional no pueden conseguir.
 Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el que se
encuentre teniendo en cuenta la información disponible por el conjunto de datos
analizados.

3. Tipos de técnicas multivariantes


Se pueden clasificar en tres grandes grupos.
 Método de dependencia: suponen que las variables analizadas están divididas en dos
grupos: las variables dependientes y las variables independientes. El objetivo de los
métodos de dependencia consiste en determinar si el conjunto de variables
independientes afecta al conjunto de variables dependientes y de qué forma.

 Método de interdependencia: estos métodos no distinguen entre variables dependientes


e independientes y su objetivo consiste en identificar que variables están relacionadas,
como lo están y porque.
 Método estructural: suponen que las variables están divididas en dos grupos: el de las
variables dependientes y el de las independientes. El objetivo de estos métodos es
analizar, no solo como las variables independientes afectan a las variables dependientes,
sino también como están relacionadas las variables de los dos grupos entre sí.

4. Aplicaciones médicas de las técnicas multivariantes


Evaluar la presencia o ausencia de determinados síntomas clínicos para diagnosticar la
enfermedad de un paciente (análisis discriminante).
Para estimar la probabilidad de que la sintomatología de una determinada enfermedad
reaparezca antes de un periodo determinado, conocidos el tiempo de respuesta al tratamiento y
los distintos hábitos del paciente (regresión logística).
Se tabula las frecuencias de ciertos estímulos y sus respuestas. Interesa obtener una
representación bidimensional de las correspondencias entre estímulos y respuestas (análisis
factorial de correspondencia).
5. Análisis de Regresión Lineal (Simple y Múltiple)
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre
variables. Tanto en el caso de dos variables (regresión simple) como en el de más de dos
variables (regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y
cuantificar la relación entre una variable llamada dependiente (Y) y una o más variables
llamadas independientes (X), así como para desarrollar una ecuación línea (línea de tendencia)
con fines PRONOSTICOS.

Observando el diagrama de dispersión (que sirve para graficar la relación entre dos variables),
a simple vista parece existir una relación positiva entre ambas variables: conforme aumenta el
porcentaje de alcohol, también aumenta el número de calorías.
¿Cómo podríamos describir los datos que acabamos de proponer? Podríamos decir simplemente
que el aumento del porcentaje de alcohol va acompañado de un aumento en el número de
calorías; pero esto, aunque es correcto, es poco específico. Lo ideal sería analizar mediante una
línea recta que se obtiene mediante una función matemática simple:

El coeficiente B1 es la pendiente de la recta: el cambio medio que se produce en el número de


calorías (Yi) por cada unidad de cambio que se produce en el porcentaje de alcohol (X). El
coeficiente B0 es el punto en el que la recta corta el eje vertical: el número medio de calorías
que corresponde a una cerveza con porcentaje de alcohol cero.
Vemos que, en general, la recta tiene una tendencia “positiva”. La fórmula de la recta aparece
a la derecha del diagrama. La pendiente de la recta (B1) indica que, en promedio, a cada
incremento de UNA unidad en el porcentaje de alcohol (X) le corresponde un incremento
(PRONOSTICO) de 37,65 cal (Yi). El origen de la recta (B0) sugiere que una cerveza sin
alcohol (graduación cero) podría contener -33,77 cal. Y eso, obviamente, no parece posible
pero al examinar el diagrama vemos que no hay cerveza con menos de 2% de alcohol. Aunque
el origen de la recta aporta información sobre lo que podría extrapolarse hacia abajo, al hacer
esto estaríamos efectuando pronósticos en un rango de valores que va más allá de lo que abarcan
los datos disponibles.
Existen diferentes procedimientos para ajustar una función simple, cada uno de los cuales
intenta minimizar una medida diferente de ajuste. La elección preferida ha sido,
tradicionalmente, la recta que hace “mínima la suma de los cuadrados de las distancias
verticales entre cada punto y la recta”. Esto significa que, de todas las rectas posibles, existe
UNA Y SOLO UNA que consigue que las distancias verticales entre cada punto y la recta sean
mínimas (las distancias se elevan al cuadrado porque, de lo contrario, al ser unas positivas y
otras negativas, se anularía unas con otras al sumarlas).
Así pues, aunque siempre resulta posible, cualquiera sea el diagrama de dispersión, obtener la
recta ideal (mediante la mínima suma de los cuadrados), necesitamos información adicional
para determinar el grado de fidelidad con que esa recta describe la pauta de relación existente
en los datos.
¿Cómo podemos cuantificar ese mejor o peor ajuste de la recta? Utilizando el coeficiente de
determinación o correlación R2: el cuadrado del coeficiente de correlación múltiple. Se trata de
una medida estandarizada que toma valores entre 0 y 1 (0 cuando las variables son
independientes y 1 cuando entre ellas existe relación perfecta).
Este coeficiente posee una interpretación muy intuitiva: representa el grado de ganancia que
podemos obtener al PREDECIR una variable basándonos en el conocimiento que tenemos de
otra u otras variables. Si queremos, por ejemplo, pronosticar el número de calorías de una
cerveza sin el conocimiento de otras variables, utilizaríamos la media del número de calorías.
Pero si tenemos información sobre otras variables y del grado de relación entre ambas, es
posible mejorar nuestro pronóstico. El valor R2 del diagrama de la figura 18.2 vale 0,83 lo que
indica que, si conocemos el porcentaje de alcohol de una cerveza, podemos mejorar en un 83%
nuestros PRONOSTICOS sobre su número de calorías si, en lugar de utilizar como pronostico
el número medio de calorías, basamos nuestro pronóstico en el porcentaje de alcohol.

5. Regresión Múltiple

Utilizando el análisis de regresión lineal, podemos utilizar MAS de una variable independiente,
esto se denomina regresión múltiple. Pero en el análisis de regresión múltiple, la ecuación de
regresión ya no define una recta en el plano, sino un HIPERPLANO en un espacio
multidimensional.
Imaginemos un análisis de regresión con “salario” como variables dependientes y “salini”
(salario inicial) y “expprev” (experiencia previa) como variables independientes. La Siguiente
figura muestra el diagrama de dispersión de salario sobre salini y expprev, y el plano de
regresión en un espacio tridimensional.
Con una variable dependiente y dos independientes, necesitamos tres ejes para poder
representar el correspondiente diagrama de dispersión. Y si en lugar de dos variables
independientes utilizáramos tres, sería necesario un espacio de cuatro dimensiones para poder
construir el diagrama de dispersión, etc.
Por tanto, con más de una variable independiente, la representación gráfica de las relaciones
presentes en un modelo de regresión resulta poco intuitiva, muy complicada y nada útil. Es más
fácil y practico partir de la ecuación del modelo de regresión lineal:

De acuerdo con este modelo o ecuación, la variable dependiente (Y) se interpreta como una
combinación lineal de un conjunto de K variables independientes (Xk), cada una de las cuales
va acompañada de un coeficiente (βk) que indica el peso relativo de esa variable en la ecuación.
La ecuación incluye además una constante (β0) y un componente aleatorio (los residuos: ε) que
recoge todo lo que las variables independientes no son capaces de explicar.

6. Regresión Logística

La regresión logística (RL) es la variante de la regresión que corresponde al caso en que se


valora la contribución de diferentes factores en la ocurrencia de un evento simple. En general,
la RL es adecuada cuando la variable de respuesta (llamémosle Y en lo sucesivo) es politómica
(admite varias categorías de respuesta, tales como mejora mucho, mejora, se mantiene igual,
empeora, empeora mucho); pero es especialmente útil cuando solo hay dos posibles desenlaces
(cuando la variable de respuesta es DICOTOMICA), que es el caso más común.
Supongamos que la variable dependiente Y representa la ocurrencia o no de un suceso, por
ejemplo:
- un paciente muere o no antes del alta.
- una persona deja o no de fumar después de un tratamiento.
- en un estudio retrospectivo un individuo es caso o control.
- un paciente positivo al VIH está o no en el estado IV.
Una de las razones que confiere especial interés a la RL en el marco epidemiológico es que con
ella se pueden “controlar” varias variables potencialmente “confusoras” (de cualquier
naturaleza) a la vez. Este rasgo es especialmente atractivo en el marco observacional, pues en
el de los ensayos clínicos, tal control lo ejerce la aleatorización, elemento inaplicable en los
estudios de cohorte o de casos y controles. Hasta que el uso de la RL se generalizó (gracias a
las computadoras personales), el recurso al que se podía apelar era la realización de análisis
estratificados de las asociaciones entre posibles causas y efectos, un procedimiento artesanal y
sumamente limitado del que ahora puede prescindirse por entero.
El problema que resuelve la regresión logística es expresar la probabilidad de cierto desenlace
(Y=1) en función de r variables X1, X2… Xr las cuales pueden ser de cualquier naturaleza
(continuas, discretas, dicotómicas, ordinales o nominales, aunque en este último caso han de
manejarse a través de variables dummy). Concretamente, el resultado fundamental del
programa consiste en hallar los coeficientes β0, β1… βr, que mejor se ajustan a la siguiente
representación funcional:

Donde exp (.) representa la función exponencial.


Un problema importante es estimar los parámetros βr, a partir de un conjunto de observaciones.
El procedimiento de estimación de estos parámetros se basa en el método de máxima
verosimilitud (valor que haga máxima la probabilidad de obtener la muestra observada). Existen
varios programas que realizan estas estimaciones, por ejemplo: LOGIT, RELODI, MULTLR,
EPISTAT, BMDP, SAS, etc.
Variables dummy: son variables de tipo nominal que deben ser incluidas en el modelo
señalando que tienen esa condición. Se trata de variables que no son numéricas (Ej: estado civil
o raza) o que, aunque los valores que contiene aparezcan como números, son en realidad
códigos o se quieren manejar como tales (por ejemplo, si se asigna el valor 1 para indicar que
se trata de un sujeto soltero, el valor 2 para un divorciado, etc.). Supongamos que la variable en
cuestión tiene k clases o categorías (donde k≥2). Epidat 4 construye automáticamente k-1
variables dummy para manejar esta situación.
La RL es una de las técnicas estadístico-inferenciales más empleadas en la producción científica
contemporánea. La finalidad con que se construye ese modelo no es única; básicamente, hay
tres propósitos posibles: que se trate de una mera contribución a la descripción de cierto
proceso, que se aplique en la búsqueda de explicaciones causales o para la construcción de un
modelo para la predicción.

7. Etapas de un análisis multivariante

1. Objetivos del análisis


Se define el problema especificando los objetivos y las técnicas multivariantes que se van a
utilizar. El investigador debe establecer el problema en términos conceptuales definiendo los
conceptos y las relaciones fundamentales que se van a investigar. Se deben establecer si dichas
relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto se
determinan las variables a observar.

2. Diseño del análisis


Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a calcular
(si procede) y las técnicas de estimación a emplear. Una vez determinado todo esto se proceden
a observar los datos.

3. Hipótesis del análisis


Se evalúan las hipótesis subyacentes a la técnica multivariante. Dichas hipótesis pueden ser de
normalidad, linealidad, independencia, homocedasticidad, etc. También se debe decidir qué
hacer con los datos missing.

4. Realización del análisis


Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer
observaciones atípicas (outliers) o influyentes cuya influencia sobre las estimaciones y la
bondad de ajuste se debe analizar.
5. Interpretación de los resultados
Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las variables o del
modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)

6. Validación del análisis


Consiste en establecer la validez de los resultados obtenidos analizando sí los resultados
obtenidos con la muestra se generalizar a la población de la que procede. Para ello se puede
dividir la muestra en varias partes en las que el model se vuelve a estimar y se comparan los
resultados. Otras técnicas que se pueden utilizar aquí son las técnicas de remuestreo (jacknife
y bootstrap)

En el ejemplo siguiente concretamos en qué consistirían dichas etapas para un Análisis de


Regresión Múltiple:
1) Objetivos del análisis: predecir el gasto en cine de una persona a partir de su nivel de ingresos,
nivel educativo, sexo y edad lo cual nos permitiría entender mejor cuáles son las pautas de
comportamiento de la población. Para ello se propone un análisis de regresión múltiple en el
que la variable dependiente sería el gasto en cine y como variables independientes el resto.
2) Diseño del análisis: se decidiría cómo elegir la muestra, el tamaño de la misma y cómo medir
las variables implicadas en el análisis. El gasto en cine podría medirse como el gasto anual en
cine medido en pesos. El nivel de ingresos podría medirse con una variable ordinal, dadas las
reticencias a dar información precisa sobre este tipo de variables; el nivel educativo sería una
variable ordinal; el sexo una variable dicotómica y la edad una variable cuantitativa medida en
años.
El tamaño de la muestra se elegiría en función de la potencia que se quiera dar a la regresión
múltiple. Así, por ejemplo, con un tamaño muestral de 100 observaciones se podría detectar, en
una regresión múltiple lineal, las relaciones con un coeficiente de correlación múltiple (R2) de
aproximadamente igual a 0.3 con una potencia de 0.8% utilizando un nivel de significación
igual a 0.01. Conviene, además, que el ratio del número de observaciones al número de
parámetros a estimar sea lo suficientemente amplio para estimar los parámetros del modelo con
el menor error posible.
3) Hipótesis del análisis: hay que comprobar la linealidad de la relación, la normalidad y la
homocedasticidad. No hay datos missing y se deben estudiar la posible existencia de ouliers en
cada una de las variables.
4) Realización del análisis: se puede utilizar el estimador de mínimos cuadrados del que se
conoce su distribución muestral bajo hipótesis de normalidad. Dicho estimador coincide con el
máximo verosimil y es eficiente. Se puede también utilizar el método de regresión paso a paso
para determinar las variables independientes a incluir en la regresión. Una vez estimada la
ecuación de regresión se estudia la bondad de ajuste mediante el cálculo de R2 y el análisis de
los resíduos. Se estudiaría la homocedasticidad, independencia, posible omisión de variables,
existencia de outliers e influencia de observaciones individuales.
5) Interpretación de los resultados: se interpretaría el valor de los coeficientes obtenidos así
como su signo teniendo cuidado con la posible existencia de multicolinealidad.
6) Validación del análisis: se divide la muestra en dos submuestras de tamaño 50 y se vuelve a
estimar la ecuación de regresión en cada submuestra comparando los resultados.
Bibliografía

 Salvador Figueras, M (2000): "Introducción al Análisis Multivariante", [en línea] 5campus.com,


Estadística <http://www.5campus.com/leccion/anamul> [27 de agosto de 2018]
 Departamento de Estadistica. Universidad Carlos III de Madrid (2010). Análisis de regresión
lineal. Guias de SPSS.
 Epidat 4: Ayuda de Regresión logística. Octubre 2014.
 Dallas E. Johnson. 2000. Metodos Multivariados Aplicados al Analisis de Datos. International
Thomson Editores.
 Hair J., Anderson R., Tatham R., Black W. 2001. Analisis Multivariantes. Prentice Hall.

También podría gustarte