Está en la página 1de 61

METODOS ESTADISTICOS MULTIVARIANTES

4.- REGRESIÓN y CORRELACIÓN MÚLTIPLE

1
REGRESION Y CORRELACIÓN MÚLTIPLE

El procedimiento de Regresión Múltiple está diseñado para construir un


modelo estadístico describiendo el impacto de dos o más factores
cuantitativos X sobre una Yˆ
variable dependiente Y. El modelo ajustado entrega una respuesta
estimada

2
Partimos de una tabla de datos de individuos por variables. Fundamentalmente
debiesen ser cuantitativas. Si hubiesen variables cualitativas, y que son de interés
considerarlas, ellas deben codificarse para transformarlas en cuantitativas y se
denominan variables “dummy”.

3
La Regresión Múltiple puede ser Lineal o No lineal (curvilínea)

4
5
6
USO DE SOFTWARE ESTADÍSTICO EN EL ANÁLISIS MULTIVARIANTES DE DATOS

7
8
9
10
Aplicación de análisis subjetivos y objetivos para la evaluación del Modelo de
Regresión

11
12
13
GRAFICOS UTILIZADOS EN EL DIAGNOSTICO SUBJETIVO

5.- Histogramas

14
Aplicación de análisis objetivos para la evaluación del
modelo de regresión

15
16
17
18
19
Coeficiente de Correlación Lineal Múltiple

20
Coeficiente de Correlación Parcial

21
22
23
1.- Ejemplos aplicando la regresión y correlación múltiple, donde todas las
variables predictoras son Cuantitativas. Uso de Statgraphics Centurión
XVI.1
Ejemplos
Ejemplo 1:
Datos en Archivo Excel “Índice de Adsorción” en la carpeta “Bases de Datos”
En la columna “TABLAS” del panel anterior, si selecciona la ventana “resumen del Análisis”,
obtendrá un interesante y orientador resumen del Método Estadístico Multivariante a
utilizar, según el objetivo que usted persigue
En la columna “GRAFICOS” del panel anterior, si selecciona la ventana “Matriz de
Dispersión” obtendrá un interesante y orientador gráfico del comportamiento
individual de cada variables (gráfico de Cajas” y del comportamiento entre pares de
variables.
Estando desplegado el gráfico “Matriz de Dispersión”, podemos presentar las
dispersiones suavizadas presionando el botón Suavizar/Rotar de la barra de
herramientas de análisis. La gráfica siguiente usa el suavizante por defecto LOWESS
Robusto:
El procedimiento contiene opciones adicionales para transformar los datos:

Transformación Box-Cox: Son una familia de transformaciones potenciales usadas


en estadística para corregir sesgos en la distribución de errores, para corregir varianzas
desiguales (para diferentes valores de la variable predictora) y principalmente para
corregir la no linealidad en la relación (mejorar correlación entre las variables).

Cochrane-Orcutt: Es un procedimiento en econometría, que ajusta un modelo lineal


de correlación serial en el término de error.
Si en la ventana “Procedimiento Ajuste” opta por seleccionar el procedimiento
“selección paso a paso hacia atrás” (Stepwise), el software aplicará un procedimiento
automático de selección de las variables más importantes a considerar en el modelo
estadístico a ajustar a los datos. Muestra todos los pasos hasta llegar al modelo final, en
la ventana “Resumen del Análisis”

Lo cual significa que los estándares de calibración fundamentalmente dependen de la


concentración X1

Complete el análisis de el archivo de datos cuyos resultados los muestra Statgraphics


Centurión.
Este procedimiento ayuda a complementar lo que el usuario pudo haber
decidido en el punto anterior, REGRESION MÚLTIPLE, en cuanto a que modelo
utilizar. Utilizaremos los datos del ejemplo 2 anterior
El procedimiento Selección del Modelo de Regresión está diseñado para ayudar a elegir las
variables independientes que se usarán para construir un modelo de regresión múltiple para predecir
una única variable dependiente Y. El procedimiento considera todas las posibles regresiones que
implican diferentes combinaciones de las variables independientes.
Compara los modelos con base en la R-Cuadrada ajustada, la estadística Cp de Mallows, y el
Cuadrado Medio del Error.
Resumen del Análisis
Presenta información sobre los datos de entrada y los modelos ajustados. La sección superior de la
salida indica el número de observaciones “n” y el número de modelos ajustados.
Mejor ajuste de R-Cuadrada

Esta tabla resume los modelos ajustados, ordenados de forma descendente con respecto a
la estadística R-cuadrada ajustada.
Mejor Cp
Esta tabla muestra los modelos, ordenados de forma descendente con respecto a la
estadística Cp:
Cp: Estadística Cp de Mallows.
Si el modelo ajustado tiene poco sesgo, la Cp debiera estar cerca de “p”. Es deseable
tener un valor pequeño de Cp, siempre que no sea mucho mayor que “p” en donde “p” es
el número de coeficientes en el modelo ajustado (incluyendo la constante). Debe buscar
modelos con valores de Cp cercanos a “p”. La gráfica de Cp, disponible de la lista de
Opciones Gráficas, contiene una línea igual a p para ayudarle a seleccionar los mejores
modelos.
Mejor criterio de información
Esta tabla ordena los modelos de regresión de acuerdo al valor del criterio de
información de Akaike (AIC). El criterio de información se basa en el error cuadrático
medio residual con una penalización que crece con el crecimiento del número de
coeficientes del modelo. La meta es seleccionar un modelo con el mínimo error residual
y con tan pocos coeficientes como sea posible. El mejor modelo es el que minimiza el
criterio de información. A menudo, el mejor modelo depende del criterio de
información seleccionado, cada uno de los cuales utiliza una fórmula diferente para la
penalización
Gráfica de R-Cuadrada Ajustada
Esta gráfica muestra los modelos con los valores más altos de R-Cuadrada ajustada.
La línea conecta los modelos con los mejores valores de R-cuadrada ajustada para cada
número de coeficientes. Advierta que la mejor R-cuadrada ajustada aumenta
notablemente hasta que el número de coeficientes es igual a 3 (correspondiendo a 2
variables independientes).

Remitiéndonos a la tabla anterior, el mejor modelo con 2 podrían ser AB o AD


que tienen R2 ajustada cercano al 96%.
Estando dentro de este gráfico y pulsando el lado derecho del mouse, se despliega un
panel donde puede seleccionar “opciones de ventana” y podrá mejorar el gráfico
anterior, seleccionando en el cuadro de diálogo “etiquetar modelos”
Gráfica del MSE
Esta gráfica muestra los modelos con los menores valores del cuadrado medio del error.
Después de escalar el eje vertical, esta gráfica se muestra:

El MSE continúa cayendo hasta 3 coeficientes, después aumenta levemente. Pero por
el principio de Parsimonia, el modelo es mejor cuanto menos variables tiene. Vea el
grupo de a dos variables con menor MSE (AB, AD, AC)
Ajuste del Mejor Modelo
Si se juzga el modelo AD, es decir considerando las variables originales X1 y X4, como
el mejor, puede ajustarse con el procedimiento Regresión Múltiple, y hacer todo el
análisis que corresponda en esta parte.
1
El siguiente ejemplo ilustra el uso de las variables cualitativas en la Regresión
Múltiple. Supondremos para este ejemplo de que no existe interacción entre las
variables independientes.

Ejemplo:
Analizaremos la base de datos que está en base de Datos con el nombre “Datos 2015
DEPURADOS”, que corresponden a una prospección de un yacimiento en Perú.
Parte de esta base de datos se muestra a continuación. Nótese que la variable
“Alteración” se transformó en dos variables Dummy, AR1 y AR2
En primer lugar haremos una regresión simple entre el Au (Y) y el Cu X), para observar su
comportamiento respecto de un modelo lineal, separados por la variable “Alteración·”

Analizaremos parte de la información que entrega Centurión:


El siguiente ejemplo ilustra el uso de las variables cualitativas en la Regresión
Múltiple. Supondremos para este ejemplo de que no existe interacción entre las
variables independientes.

Haremos una Regresión Múltiple utilizando los datos de la base de datos en Centurión
“Datos 2015 DEPURADOS”. La variable dependiente será Cu en función de las otras
variables cuantitativas como Ag, Au, Pb, etc.- y las variables Dummy, AR1 y AR2
(alteración)
Accediendo al Resumen del Análisis tenemos que se despliega la siguiente
tabla:
Para efectos de modelación estadística, las variables que mejor ayudan a predecir en
el modelo el comportamiento de la ley de Cu, son la ley Au, la Ag, Mo y las variables
Dummy AR1 y AR2.

Si en “opciones de Análisis” seleccionamos “Selección paso a paso hacia atrás”,


tenemos la siguiente tabla con las variables más significativas desde el punto de vista
estadístico.
Las variables predictoras más significativas son la ley de Au, Ag, Pb y Mo y las
variables Dummy AR1 y AR2.
Tiene un coeficiente de determinación R2 de aproximadamente de 77,75%. Es decir
que un 77,75% de la variabilidad de la ley de Cu es explicada por las variables
mencionadas en el párrafo anterior.

También podría gustarte