Está en la página 1de 10

Tarea I – Estadística III Supuestos del modelo de RLS

(2020 – 02)

Integrante: Catalina Elizabeth Gangas Moreno


Asignatura: Estadísticas III
Profesor: Nicolas Sánchez Acevedo
Carrera: Pedagogía en Matemáticas y Estadísticas
Fecha de Entrega: 25 de septiembre del 2020
Situación:
La distancia Y necesaria para que un vehículo se detenga es una función
de la velocidad X de viaje del vehículo. Suponga que se tiene un conjunto
de datos (𝑥𝑖, 𝑦𝑖) donde se observan 12 vehículos viajando a diferentes
velocidades.

Vehículo Observado Velocidad (kpm) (x) Distancia de Frenado


(y)
1 40 15
2 9 2
3 100 40
4 50 15
5 15 4
6 65 25
7 25 5
8 60 25
9 95 30
10 65 24
11 30 8
12 125 45

a) Grafique los datos de Distancia de Frenado v/s Velocidad

Distancia de Frenado v/s Velocidad


45
42
39
Distancia de Frenado (y)

36
33
30 R² = 0,9672
27
24
21 y = 0,3861x - 2,0108
18
15
12
9
6
3
0
0 20 40 60 80 100 120 140
Velocidad (kpm) (x)
b) Asumiendo linealidad, estime los parámetros del modelo.
Respuesta:
Asumiendo que el modelo cumple con las siguientes características de
linealidad:
✓ El gráfico del diagrama de dispersión (Grafico problema a)) constituye
una primera aproximación no muy rigurosa al estudio de la linealidad.
✓ Podemos completarlo mediante un gráfico en el que se comparan las
puntuaciones residuales y predichas.

Velocidad (kpm) (x) Gráfico de los


residuales
5
Residuos

0
0 20 40 60 80 100 120 140
-5

-10
Velocidad (kpm) (x)

Los parámetros del modelo son los siguientes:

Coeficientes
Intercepción -2,010830875
Velocidad (kpm) (x) 0,386052976
Error típico 2,677978711

Es decir, como ecuación 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀 reemplazando los valores:


𝛽0 = −2,0108
𝛽1 = 0,3861
𝜀 = 2,677978711
c) Calcule e interprete el "𝑟" y "𝒓𝟐 ". ¿Qué significa un 𝒓𝟐 alto con base en
estos datos? ¿Qué sería una inferencia adecuada en relación a este
modelo y lo que sucede a nivel de población?
Respuesta:
Calculo e interpretación de “r o Coeficiente de correlación” y "𝑟 2 o
Coeficiente de determinación”
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,983487733
Coeficiente de determinación R^2 0,96724812

✓ En el modelo se puede apreciar que el coeficiente de correlación que


presenta “es positiva debido a que 0 < r < 1, es decir, significa que
siendo mayor su intensidad cuanto más se aproxima r a 1”, además,
también se puede señalar que ambas variables presentan una
relación lineal positiva exacta al encontrarse cerca de 1.

✓ En el modelo se puede apreciar que el coeficiente determinación


señala que presenta “un valor de 𝑟 2 próximo a 1, lo que significa que
tiene una alta capacidad explicativa de la recta en relación a la
medida de la proporción de variabilidad total de la variable
dependiente.
Un 𝑟 2 alto con base en estos datos no necesariamente significa que el
modelo tiene un buen ajuste, ya que, se tiene que examinar la gráfica de
línea ajustada y la gráfica de residuos. La grafica de línea ajustada muestra
que los datos siguen una función dispersa y el R – cuadrado es un 96,7% y en
la gráfica de residuos vs velocidad se puede apreciar patrones en lugar de
una aleatoriedad, dando a entender que no presenta tanto sesgo (por tener
valores entre 5 y -5 a lo largo de la recta) y un buen ajuste por tener un alto
R – cuadrado.
En relación al modelo y la población se genera la siguiente inferencia: al
tomar una segunda muestra con la misma cantidad de datos el R –
cuadrado (𝑟 2 ) es el mismo.
𝐻0 : 𝑒𝑙 𝑟 2 𝑑𝑒 𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎 𝑙𝑎 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 (𝑟12 = 𝑟22 )
𝐻1 : 𝑒𝑙 𝑟 2 𝑑𝑒 𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑎 𝑙𝑎 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 (𝑟12 ≠ 𝑟22 )
Entonces, al seleccionar diversas muestras que cumplen con las mismas
características y tomado bien los datos, se puede dar el caso de que el 𝑟 2
de las dos muestras sean aproximadamente iguales y exactas, en donde, lo
que sucede a nivel muestral esta reflejando lo que sucede a nivel
poblacional, por lo tanto, al tomar n muestras queda como resultado de
ellos exactamente lo mismo o parecido, es decir, a nivel poblacional, ósea,
considerado que todo está moderado de esa misma manera, básicamente
es estar tomando de lo particular analizando n y llevarlo a lo general.
d) Pruebe los supuestos del modelo e interprete adecuadamente.
El modelo de regresión lineal ha de cumplir una serie de supuestos que
garanticen su correcta aplicación, estos son:
✓ Linealidad
El grafico de dispersión constituye una primera aproximación no muy
rigurosa al estudio de linealidad. Aparentemente lo es. Entonces, se puede
completar mediante un grafico en el que se comparen las puntuaciones
residuales y predichas. Recurriendo a gráficos/dispersión y obteniendo el
siguiente resultado:

Distancia de Frenado v/s Velocidad


50
Distancia de Frenado (y)

40
30
20 y = 0,3861x - 2,0108
R² = 0,9672
10
0
0 20 40 60 80 100 120 140
Velocidad (kpm) (x)

Si la relación o fuera lineal habría alguna configuración manifiesta. Aunque


aparece, igual se corroborara la supuesta linealidad. Además, esto mismo
se puede hacer de una manera más directa recurriendo a gráficos dentro
del comando Regresión. Aquí los resultados están estandarizados, que
ofrece la ventaja de que todas las variables están en la misma escala. Así
pues, obteniendo el siguiente gráfico:
✓ Normalidad
Para comprobar la normalidad se hacen los gráficos de normalidad y se
realiza el contraste de normalidad (Test de Kolmogorov – Smirnov o Test de
Shapiro – Wilks).
Los resultados en cuanto al histograma son:

Y en relación al grafico de probabilidad normal:


Se observa en ambos casos una buena aproximación a la normalidad. No
obstante, para ser más riguroso se puede recurrir a un procedimiento
analítico. A continuación, como se sabe, se dispondrá de la prueba
Kolmogorov – Smirnov para la normalidad.
Vehículo Velocidad pi zi p(zi) |p(zi)-pi| |p(zi)-pi-1|
1 9 0,08333333 -1,3238542 0,092775735 0,0094424 0,09277574
-
2 15 0,16666667 1,15692337 0,123651834 0,04301483 0,0403185
-
3 25 0,25 0,87870533 0,189780534 0,06021947 0,02311387
-
4 30 0,33333333 0,73959631 0,229772492 0,10356084 0,02022751
-
5 40 0,41666667 0,46137826 0,322263623 0,09440304 0,01106971
-
6 50 0,5 0,18316021 0,427336156 0,07266384 0,01066949
7 60 0,58333333 0,09505783 0,537865554 0,04546778 0,03786555
8 65 0,66666667 0,23416686 0,592572277 0,07409439 0,00923894
9 65 0,75 0,23416686 0,592572277 0,15742772 0,07409439
10 95 0,83333333 1,06882099 0,857424831 0,0240915 0,10742483
11 100 0,91666667 1,20793002 0,886462909 0,03020376 0,05312958
12 125 1 1,90347513 0,971510712 0,02848929 0,05484405

Prueba de Kolmogorov – Smirnov para una


x 56,5833333 muestra
s 35,9430315
VELOCIDAD
N 12
KS c 0,15742772
Parámetros normalesa,b Media 56,58

α 0,1 0,05 0,01 Desv. Desviación 35,943

cα 0,819 0,895 1,035 Máximas diferencias Absoluto ,157


k(n) 3,69947548 3,69947548 3,69947548 extremas Positivo ,157
0,22138274 0,24192619 0,27976939 Negativo -,107
KS t 0,24192619 Estadístico de prueba ,157
p-valor > 0,1
Sig. asintótica(bilateral) ,200c,d
a. La distribución de prueba es normal.
b. Se calcula a partir de datos.
c. Corrección de significación de Lilliefors.
d. Esto es un límite inferior de la significación verdadera.
Se puede observar que la probabilidad asociada desde la perspectiva de
la hipótesis nula (de normalidad) es 0,2. Es baja, luego se rechaza dicha
hipótesis.
✓ Homocedasticidad
El supuesto de homocedasticidad exige que para todo el recorrido de la
variable X la varianza del error sea constante. Esto es importante de cara a
la predicción de valores en los cuales la desviación tipo de los residuos forma
parte del cálculo del intervalo de confianza.
El recurso grafico para comprobar la homocedasticidad es el ya conocido
de residuos frente a valores predichos. Entonces, se puede decir que habrá
heterocedasticidad si la configuración de la nube de punto tiene forma de
“embudo”, bien a la derecha o a la izquierda, lo que es indicativo que la
magnitud de los residuos varia en un sentido o en otro. Por lo tanto, en el
siguiente gráfico:

Se observa que no hay una apariencia de un mayor grosor de la nube de


puntos en una dirección u otra, aunque hay que decir que con tan pocos
individuos no hay mucha fundamentación para afirmarlo.

En palabras más sencillas, en este grafico se puede observar como los


residuos se mueven en una franja constante y estable lo cual indica la
existencia de homocedasticidad.

De todas formas, para ser más rigurosos también se dispone de recursos


analíticos; calculando la correlación entre las puntuaciones residuales en
valores absolutos y las puntuaciones predichas. Diciendo en valores
absolutos por que si no la correlación sería cero. Para ello, previamente se
ha de calcular los valores de la variable.
Lo que en realidad se ha realizado en SPSS es que calcule las correlaciones
variadas de “todas con todas”, es decir la matriz de correlaciones donde
aparecen las dos pedidas.
Correlaciones
VELOCIDAD DISTANCIA
VELOCIDAD Correlación de Pearson 1 ,983**
Sig. (bilateral) ,000
N 12 12
DISTANCIA Correlación de Pearson ,983** 1
Sig. (bilateral) ,000
N 12 12
**. La correlación es significativa en el nivel 0,01 (bilateral).

Como resultado, aparece la llamada “matriz de correlaciones”, es decir


todas las correlaciones posibles entre las dos variables. Además, como se
puede observar es una matriz simétrica con unos en diagonal. La
información que contiene cada celda es:

Correlación de Pearson: el coeficiente de correlación entre las dos


variables que aparecen en el encabezamiento de fila y columna.
Sig: el nivel crítico (la significación) que indica la probabilidad de
aceptar la Hipótesis nula, es decir que la correlación sea 0.
N: el número de datos utilizados para hacer cada análisis.

Entonces, se compara el nivel crítico con el nivel de confianza (𝛼). Así:

• Si Sig > 𝛼 : aceptamos, la Hipótesis nula, luego no hay relación entre


ambas variables.
• Si Sig < 𝛼 : rechazamos, la Hipótesis nula, luego aceptamos la alterna.
Ello implica que la correlación es significativa (estadísticamente
diferente de 0).

En este caso, las tres correlaciones son estadísticamente significativas.


✓ Independencia
La independencia podemos comprobarla con el estadístico de Durbin –
Watson. Si éste está entre 1.5 e 2.5, entonces podemos asumir que los
residuos son independientes.

Resumen del modelob


R cuadrado Error estándar
Modelo R R cuadrado ajustado de la estimación Durbin-Watson
1 ,983a ,967 ,964 2,678 2,950
a. Predictores: (Constante), VELOCIDAD
b. Variable dependiente: DISTANCIA

Como se puede apreciar en la tabla el estadístico de Durbin – Watson nos


entrega un valor de 2,950 lo que sugiere, entonces, que los residuos no son
independientes y no cumple con la independencia.
Por lo tanto, en base a todo lo anterior se puede decir que aun si el supuesto
de independencia no cumple el resto de los demás supuestos si cumplen,
por lo que, se puede garantizar que el modelo de regresión lineal presenta
una correcta aplicación.

También podría gustarte