Está en la página 1de 48

CORRELACIÒN Y REGRESIÒN LINEAL SIMPLE

DOCENTE:

KENNEDY HURTADO IBARRA

Barranquilla – Colombia.
RELACIÒN LINEAL ENTRE DOS VARIABLES

Una relación lineal entre dos variables es aquella que


puede representarse con mejor exactitud mediante
una línea recta.
No toda relación entre dos variables es lineal.
Algunas se representan con mejor exactitud usando
una curva. En este caso, se dice que la relación entre
las variables es curvilínea.
POSIBLES REALACION ENTRE VARIABLES

• El peso de un adolecente, con su estatura.


• Los gastos, con el ingreso disponible en un mes.
• Estatura de los niños, con su edad.
• Demanda de algún articulo, con los gastos de
propaganda.
• Cantidad de cigarrillos al día, y la frecuencia
cardiaca.
DIAGRAMA DE DISPERSIÒN
Para comenzar a estudiar la relación entre dos
variables cuantitativas se utiliza el diagrama de
dispersión, el cual es una grafica de parejas de
valores de las variables involucradas.
Una relación entre dos variables puede ser: Positiva
o negativa.
Relación lineal positiva.
Existe una relación lineal positiva entre las variables X y Y si al
aumentar los valores de X los valores de Y tienden a aumentar.

Relación lineal negativa.


Si existe una relación lineal negativa entre las variables X y Y,
entonces al aumentar los valores de X los valores de Y tienden
disminuir y viceversa.

Relación Imperfecta.
Una relación lineal imperfecta es aquella en la cual existe una
relación positiva negativa, pero no todos los puntos caen sobre
la recta.
ANALISIS DE CORRELACIÒN LINEAL SIMPLE.
Si entre dos variables cuantitativas existen una relación lineal,
el análisis de correlación lineal simple se usa para determinar la
dirección y la magnitud de dicha dirección.

La dirección de la relación se refiere a si esta es positiva o


negativa.

La magnitud de la relación o grado de relación entre las


variables se refiere a la fuerza de la relaciòn que existe entre
las variables. Se trata de expresar cuantitativamente el grado
de relación que existe entre las variables de estudio.
COEFICIENTE DE CORRELACIÒN

Expresa de manera cuantitativa el grado y la


dirección de la relación entre dos variables.
COEFICIENTE DE CORRELACIÒN r DE PEARSON.
Se usa cuando los datos están medidos en una escala
de intervalo de razón.
COEFICIENTE DE CORRELACIÒN rho DE SPEARMAN.
Se utiliza cuando una o ambas variables están
medidas en la escala ordinal, en la escala de
intervalo o la de razón.
COEFICIENTE DE CORRELACIÒN

r = donde:
= -
= -
= -
Tanto como no pueden ser negativas, si puede ser positiva o
negativa.
CARACTERISTICAS DEL COEFICIENTE DE
CORRELACIÒN

El signo del coeficiente de correlación indica si la


relación entre las variables es positiva o negativa.
Si el coeficiente es positivo, entonces la relación es
positiva. En caso contrario, la relación es negativa.
El valor numérico del coeficiente de correlación varia
entre -1 y 1 y ésta describe la magnitud de la relación
entre las variables.
Si r = -1 entonces existe una relación perfecta negativa
entre las variables.
Si r = 0 no existe relación entre las variables.
Si r= 1 entonces existe una relación lineal perfecta
positiva entre las variables.
REGRESIÒN LINEAL SIMPLE

Con frecuencia, nos encontramos en economía con modelos en los que


el comportamiento de una variable, Y, se puede explicar a través de una
variable X; lo que representamos mediante
y=
Si consideramos que la relación f, que liga Y con X, es lineal, entonces: se
puede escribir así:
=
Donde:
: Es la variable respuesta o variable de interés (variable dependiente)
variable predictora o independiente.
: es el intercepto de la línea de regresión con el eje y.
es la pendiente de la línea de regresión y.
: Componente de error aleatorio.

ESTIMACIÒN DE LOS PARÀMETROS y


= = y = -
Ejemplo:
Un supermercado ha decidido ampliar el negocio y decide estudiar de
forma exhaustiva el número de cajas registradoras que va a instalar,
para evitar grandes colas. Para ello, se obtuvieron los siguientes datos
procedentes de otros establecimientos similares acerca del número de
cajas registradoras (variable X) y del tiempo medio de espera (variable Y)
Nª de cajas Tiempo de XY X2 e
registradoras espera en
(X) minutos (y)

10 59 590 100 57,95 1,05 1,1025


12 51 612 144 50,24 0,76 0,5776
14 42 588 196 42,52 -0,52 0,2704
16 32 512 256 34,81 -2,81 7,8961
18 26 468 324 27.09 -1,09 1,1881
20 22 440 400 19,38 2,62 6,8644
= 90 232 = 3210 =1420 =0 =17,899
Interpretación de los coeficientes de Regresión

= = = -3,857143

= = 38,6666-(3,857143)15 = 96,523811
La ecuación de regresión está dada por:
= = 96,523811 - 3,857143
Si el numero de cajas registradora es igual a cero, se espera que el
tiempo para que atiendan un cliente es de 96,52 minutos.
Si se aumenta el numero de cajas en una unidad se espera que el
tiempo de espera del cliente disminuya 3,87 minuto.
ANÀLISIS DE VARIANZA PARA LA REGRESIÒN LINEAL
Se utiliza el método de mínimos cuadrados.
Suma de cuadrado total SCT = = - = 10030 - = 1059,33
Suma de cuadrado del error SCE= - - =10030-96,523811(232)-(-3,857143)3210= 17,90
Suma de cuadrado de Regresión SCR = SCT – SCE = 1059,33 - 17,90 = 1041,43

= 15 = 96,523811
= 90 = -3,857143
=1420
= 3210
= 232
= 10030
= 38,667
GRADOS DE LIBERTAD

Grado de libertad de regresión gl(SCR) = 1


Grado de libertad del error gl(SCE) = n – 2 = 4
Grado de libertad total gl(SCT) = n – 1 = 5

SUMAS DE CUADRADOS MEDIOS


Es el cociente entre las sumas de cuadrados y los grados de libertad.
Cuadrado medio de regresión CMR = = = 1041,43
Cuadrado medio de error CME= = = 4,48
Cuadrado medio total CMT = = = 211,87
ESTADISTICO DE FISHER.
Es el cociente entre el cuadrado medio de regresión y el cuadrado medio del error.

F = = = 232,5
PRUEBA DE HIPÒTESIS
= El modelo no es significativo
=El modelo es significativo
Si F ≥ se rechaza la hipótesis nula; donde, = 1 y =4
Para 95% de confiabilidad = 0,025
Tabla de Fisher = 7,71 ; como F ≥ ; se rechaza la hipótesis nula. Entonces el
modelo es significativo.
TABLA DE ANÀLISIS DE VARIANZA

Fuente de Grados de Suma de Sumas de Estadístico de


variación libertad cuadrados cuadrados Fisher
medios
Regresión 1 1041,43 1041,43 F = = 232,5
Error 4 17,90 4,48
Total 5 1059,33 1058,9
Intervalos de confianza para los parámetros de
regresión.

El intervalo de confianza del 100(1- α)% para la


pendiente se define:

- ≤ β≤ +
Para el intersecto: - ≤ β ≤ +
REGRESION LINEAL MULTIPLE
DOCENTE:
Kennedy Hurtado Ibarra
Matemática
Especialista en Estadística Aplicada
Magister en Estadística Aplicada
Doctor en Ciencias de la Educación
Introducción.
Regresión múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnósticos.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
En un modelo de regresión múltiple, queremos conocer el valor
de una variable respuesta a partir de más de una variable
explicativa:

Este modelo puede ser expresado como:


……………… +.

En esta expresión, cada uno de los coeficientes beta representa


la influencia individual que cada una de las X tiene sobre Y.
Ventajas:
Las hipótesis del modelo son las mismas que en regresión
simple.
Los contrastes, intervalos, diagnosis… también.

Pequeños inconvenientes:
La visualización de los gráficos es un poco más
complicada.
Necesitamos redefinir el coeficiente
REGRESION MULTIPLE CORREGIDO
El coeficiente tiene el inconveniente de que se incrementa
al aumentar el número de variables en el modelo (ya sean
significativas o no). Para paliar este efecto, corregimos el
coeficiente para que tenga en cuenta este efecto, por lo
que en regresión múltiple se utiliza el coeficiente corregido
( o ajustado).
Ejemplo:
Supongamos que obtenemos los siguientes datos en el estudio
de la relación citada sobre la inteligencia y la motivación como
predictores de la calificación final obtenida en el bachillerato en
una muestra de 12 sujetos:
Sujeto CalificacionesMotivacion Notas
1 85 10 4
2 100 20 5
3 95 35 8
4 80 30 7
5 180 45 10
6 90 25 6
7 110 10 6
8 120 15 7
9 80 10 4
10 95 15 4
11 160 15 6
12 150 45 9
Variable dependiente: Notas
Variables independientes:
• Inteligencia
• Motivación

El objetivo, es describir las variables que inciden en la notas

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 1,73747 0,884817 1,96365 0,0812
Inteligencia 0,0187631 0,00871416 2,15318 0,0597
Motivacion 0,108778 0,0224429 4,84688 0,0009
R-cuadrada = 84,9337 porciento
R-cuadrado (ajustado para g.l.) = 81,5856 porciento
Error estándar del est. = 0,845137
Error absoluto medio = 0,610172
Estadístico Durbin-Watson = 1,31244 (P=0,0743)
Autocorrelación de residuos en retraso 1 = 0,314513

La salida muestra los resultados de ajustar un modelo de regresión lineal


múltiple para describir la relación entre Notas y 2 variables
independientes. La ecuación del modelo ajustado es

Notas = 1,73747 + 0,0187631*Inteligencia + 0,108778*Motivacion

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una
relación estadísticamente significativa entre las variables con un nivel de
confianza del 95,0%.
Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio
Razón-F Valor-P
Modelo 36,2384 2 18,1192 25,37 0,0002
Residuo 6,4283 9 0,714256
El estadístico R-Cuadrada indica que el modelo así ajustado explica 84,9337% de la
variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más apropiada
para comparar modelos con diferente número de variables independientes, es
81,5856%. El error estándar del estimado muestra que la desviación estándar de los
residuos es 0,845137. Este valor puede usarse para construir límites para nuevas
observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 0,610172 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay
alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una
autocorrelación serial en los residuos con un nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de
las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que
el valor-P es mayor o igual que 0,05, ese término no es estadísticamente
significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente,
debería considerarse eliminar Inteligencia del modelo
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de
las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que
el valor-P es mayor o igual que 0,05, ese término no es estadísticamente
significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente,
debería considerarse eliminar Inteligencia del modelo

Nuevo Modelo

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 3,29477 0,595206 5,53552 0,0002
Motivacion 0,132592 0,0228041 5,81437 0,0002
Fuente Suma de Cuadrados
Gl Cuadrado Medio
Razón-F Valor-P
Modelo 32,927 1 32,927 33,81 0,0002
Residuo 9,73971 10 0,973971
Total (Corr.) 42,6667 11

R-cuadrada = 77,1726 porciento


R-cuadrado (ajustado para g.l.) = 74,8898 porciento
Error estándar del est. = 0,9869
Error absoluto medio = 0,769188
Estadístico Durbin-Watson = 1,95166 (P=0,4042)
Autocorrelación de residuos en retraso 1 = 0,000884186
La salida muestra los resultados de ajustar un modelo de regresión
lineal múltiple para describir la relación entre Notas y 1 variables
independientes. La ecuación del modelo ajustado es

Notas = 3,29477 + 0,132592*Motivacion

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una
relación estadísticamente significativa entre las variables con un nivel
de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 77,1726%
de la variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más
apropiada para comparar modelos con diferente número de variables
independientes, es 74,8898%. El error estándar del estimado muestra que la
desviación estándar de los residuos es 0,9869. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de
Reportes del menú de texto. El error absoluto medio (MAE) de 0,769188 es el
valor promedio de los residuos.
El estadístico de Durbin-Watson (DW) examina los residuos para
determinar si hay alguna correlación significativa basada en el orden en
el que se presentan en el archivo de datos. Puesto que el valor-P es
mayor que 0,05, no hay indicación de una autocorrelación serial en los
residuos con un nivel de confianza del 95,0%.

Para determinar si el modelo puede simplificarse, note que el valor-P más alto
de las variables independientes es 0,0002, que corresponde a Motivación.
Puesto que el valor-P es menor que 0,05, ese término es estadísticamente
significativo con un nivel de confianza del 95,0%. Consecuentemente,
probablemente no quisiera eliminar ninguna variable del modelo.
ANALISIS DE VARIANZA

Tratamiento Tiempos de carga

Tr 1 6,10 5,40 6,80 5,68

Tr 2 10,90 10,20 9,20 11,90

Tr 3 6,70 6,08 7,10 5,93


2.2. Realización de la técnica de Análisis de Varianza
Una vez se ha realizado el experimento, los datos obtenidos deberán ser
procesados mediante técnicas estadísticas apropiadas para la comprobación de
hipótesis.

Cuando el objetivo es juzgar sobre la validez de hipótesis estadísticas


relacionadas con las medias de tratamientos el análisis de varianza es la
herramienta apropiada para ello, se presentan a continuación los elementos
metodológicos de aplicación de esta técnica:

Sean

𝑦𝑖𝑗 son los valores de la variable dependiente evaluada en el tratamiento 𝑖 y la


observación 𝑗.

Se consideran 𝑎 tratamientos y 𝑛 observaciones (replicas).

Bajo estos supuestos los valores de la variable dependiente pueden ser


presentados en la siguiente tabla:
Tabla N° 3. Datos típicos de un experimento de un solo
factor

Tratamientos
Observaciones Totales Promedios
(niveles)
1 𝑦11 … 𝑦1𝑛 𝑦1. 𝑦ത1.
2 𝑦21 … 𝑦2𝑛 𝑦2. 𝑦ത2.
. . … . . .
. . … . . .
. . … . . .
a 𝑦𝑎1 … 𝑦𝑎𝑛 𝑦𝑎. 𝑦ത𝑎.
𝑦.. 𝑦ത..
Los valores anteriores se presentan de manera recurrente así:

Modelos Estadísticos lineales:

Modelo de las medias

𝑦𝒊𝒋 = 𝜇𝒊 + 𝜀𝒊𝒋 , 𝑖 = 1, … , 𝑎 ; 𝑗 = 1, … , 𝑛
Se considera
𝐸൫𝑦𝒊𝒋 ൯= 𝜇𝒊 . ; ó 𝐸൫𝜀𝒊𝒋 ൯= 0
Modelo de los efectos

𝑦𝒊𝒋 = 𝜇 + 𝜏𝒊 + 𝜀𝒊𝒋 , 𝑖 = 1, … , 𝑎 ; 𝑗 = 1, … , 𝑛
Requisito: que el experimento se lleve a cabo en orden aleatorio para que el ambiente en
el que se apliquen los tratamientos sea lo más uniforme posible.

Objetivos: Probar las hipótesis apropiadas acerca de las medias de los tratamientos y
estimarlas.

Supuestos:
 𝜀𝒊𝒋 ~𝑵ሺ0, σ2 ሻ, es decir𝑦𝒊𝒋 ~𝑵ሺμ + τi , σ2 ሻ
 yij son independientes.
Es frecuente encontrar en la literatura la denominación siguiente para las
expresiones utilizadas:

𝑆𝑆𝑇- Variación total de los datos es la combinación de:

 Suma de cuadrados de los errores


𝑆𝑆𝐸- Variación debida al azar (Variación dentro de las muestras) y

 Suma de cuadrados debida a los tratamientos


𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 -Variación debida al azar cuando la hipótesis nula es verdadera
(Variación entre los tratamientos).

𝑆𝑆𝑇 – Tiene 𝑁 − 1 grados de libertad

𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 - Tiene 𝑎 − 1 grados de libertad

𝑆𝑆𝐸- Tiene 𝑎ሺ𝑛 − 1ሻ = 𝑎𝑛 − 𝑎 = 𝑁 − 𝑎 grados de libertad

𝑆𝑖2 - Varianza muestral del tratamiento 𝑖

𝑎 2
σ 𝑖=1 ൫𝑦𝑖𝑗 − 𝑦ത𝑖 ൯
𝑆𝑖2 = , 𝑖 = 1, … , 𝑎
𝑛−1
Teorema 3

Suponga que tiene lugar el esquema de efectos lineales descrito con anterioridad, es decir,

𝒚𝒊𝒋 ~ 𝑵ሺ0, σ2 ሻ
𝑛
1
𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 2
𝑛 ෍ ሺ𝑦
ത ത. . ሻ2 ~
𝑖 . −𝑦 𝜒𝑛2−1
𝜎
𝑗 =1

𝑎 𝑛
1 2
෍ ෍ ൫𝑦𝑖𝑗 − 𝑦
ത𝑖. ൯ ~ 𝜒𝑎2(𝑛 −1)
𝜎2
𝑖=1 𝑗 =1

𝑆𝑆𝑇𝑟𝑎𝑡 Τ(𝑎 − 1) 𝑀𝑆𝑆𝑇𝑟𝑎𝑡


𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝐹0 = = ~ 𝐹𝑎−1,𝑁−𝑎
𝑆𝑆𝐸 Τ(𝑁 − 𝑎) 𝑀𝑆𝑆𝐸

Entonces 𝐻0 deberá rechazarse y concluirse que hay diferencias en las medias


de los tratamientos.
𝐹0 > 𝐹∝, 𝑎−1, 𝑁−𝑎

OJO. También:
𝑎 𝑛
2
𝑦2. .
𝑆𝑆𝑇 = ෍ ෍ 𝑦𝑖𝑗 −
𝑁
𝑖 =1 𝑗 =1

𝑛
1 2
𝑦2. .
𝑆𝑆𝑇𝑟𝑎𝑡 = ෍ 𝑦𝑖 .−
𝑛 𝑁
𝑗 =1
Ejemplo :

Un ingeniero de desarrollo de productos tiene interés en investigar la


resistencia a la tensión de una fibra sintética nueva que se usará para hacer
telas de camisas para caballero. El ingeniero sabe por experiencia previa que la
resistencia a la tensión se afecta por el peso porcentual del algodón utilizado en
la mezcla de materiales de la fibra. Además, sospecha que al aumentar el
contenido de algodón deberá variar ente 10 y 40 por ciento para que el
producto final tenga otras características de calidad que se desean (como la
capacidad de ser sometido a un tratamiento de planchado permanente). El
ingeniero decide probar ejemplares en cinco niveles del peso porcentual del
algodón: 15, 20, 25, 30 y 35 por ciento. También decide probar cinco
ejemplares en cada nivel del contenido de algodón.
Se trata de un experimento con un solo factor con a=5 niveles del factor y n=5
réplicas. Las 25 corridas deberán realizarse de manera aleatoria. Para ilustrar
como puede aleatorizarse el orden de las corridas suponga que las corridas se
enumeran de la siguiente manera:
Supongamos que el ingeniero corre la prueba en el orden aleatorio que se ha determinado.
En la siguiente tabla se muestran las observaciones que se obtienen para la resistencia a la
tensión.
Tabla N1.
Resultados de la variable resistencia a la tensión según porcentaje de algodón de la fibra.

Tabla N° 6. Secuencia aleatoria de corridas obtenida

Se usará el análisis de varianza para probar:

𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Probar:൞
𝐻1 : 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
Tabla N° 5. Secuencia aleatoria de corridas obtenida
Peso porcentual del
Secuencia de prueba Número de corrida (cod)
algodón
1 8 20
2 18 30
3 10 20
4 23 35
5 17 30
6 5 15
7 14 25
8 6 20
9 15 25
10 20 30
11 9 20
12 4 15
13 12 25
14 7 20
15 1 15
16 24 35
17 21 35
18 11 25
19 2 15
20 13 25
21 22 35
22 16 30
23 25 35
24 19 30
25 3 15
Para resolver el interrogante anterior, primero se calculan las sumas de cuadrados como
sigue:
5 5
2 𝑦..2
𝑆𝑆𝑇 = ෍ ෍ 𝑦𝑖𝑗 −
𝑖 =1 𝑗 =1 𝑁

2
(376)
= ሺ7ሻ2 + ሺ7ሻ2 + ሺ15ሻ2 + ⋯ + ሺ15ሻ2 + ሺ11ሻ2 − = 636.96
25
1 𝑦..2
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = ෍ 𝑦𝑖2 −
𝑛 𝑁
𝑖 =1

2
1 ሺ376 ሻ
= [ሺ49ሻ2 + ⋯ + ሺ54ሻ2 ] − = 475.76
5 25
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠

= 636.96 − 475.76 = 161.20


Tabla N° 7. Análisis de varianza de la resistencia a la tensión

Fuente de Suma de Grados de Cuadrado


𝑭𝟎 Valor p
variación cuadrados libertad medio

Peso
porcentual del 475.76 4 118.94. 14.76 <0.01
algodón
Error 161.20 20 8.06

Total 636.96 24

Observé que el cuadrado medio entre los tratamientos (118.94) es varias veces
mayor que el cuadrado medio del error (8.06). Esto indica que no es posible que
las medias de los tratamientos sean iguales. En términos formales se puede
118 .94
calcular el cociente entre 𝐹, 𝐹0 = 8.06
= 14.76 y comparar este valor con un punto
porcentual apropiado de la cola superior de la distribución 𝐹4,20 . Suponga que el
investigador ha seleccionado 𝛼 = 0.05 por tanto 𝐹0.05,4,20 = 2.87. Puesto que
𝐹0 = 14.76 > 2.87 se rechaza 𝐻0 y se concluye que por lo menos una de las
medias es diferente, es decir que el peso porcentual del algodón en la fibra afecta
de manera significativa la resistencia a la tensión media.

También podría gustarte