Está en la página 1de 14

11.

78 – Estadística aplicada II
Trabajo práctico Nº 2
Informe grupal
Primer cuatrimestre de 2021

Grupo - M05

APELLIDO Y NOMBRES Nº DE LEGAJO % PARTICIPACIÓN


Rivelli Calvet, Ana Sol 59468
25%
Derecho Castiñeiras, Lourdes
59185
25%
Nicole

Varni, Antonella 59008


25%
Navarrine Nasjleti, Lucía Lourdes 60528
25%
Carnevale, Camila Florencia 59503
0%

Plazo 1 de entrega: 05/06/2021

Plazo 2 de entrega: 06/06/2021


Introducción

Para la realización del trabajo se construyó una ballesta siguiendo el instructivo Ballestanian.pdf.
El fin es poder analizar las distancias recorridas por los proyectiles lanzados mediante la ballesta.
En este caso los proyectiles utilizados fueron tapitas de botellas de jugo de la marca Cepita. Se
colocaron en un bowl 15 tapitas plásticas y para cada lanzamiento se escogió una tapita al azar
sin reposición.
Para el Experimento 1, se definió la variable X como la distancia del broche desde el extremo de
la ballesta medida en cm. Se tomaron 6 valores de referencia para los cuales se hicieron 5
lanzamientos, los mismos se midieron con una cinta métrica y se encuentran en el Anexo 1. Los
niveles seleccionados fueron: 7cm, 8cm, 9cm, 10cm, 11cm, y 12cm.
Para el Experimento 2, se definió la variable X1 como la distancia del broche desde el extremo
de la ballesta medida en m y X2 como la altura a la cual se encontraba la ballesta medida en cm.
La altura se consiguió colocando libros del mismo espesor debajo de la ballesta. Se tomaron 5
valores de referencia de ambas variables, para los cuales se hicieron 3 lanzamientos. Los datos se
encuentran reflejados en el Anexo 2. Los niveles seleccionados para X1 fueron: 7cm, 8cm, 9cm,
10cm, y 11cm, mientras que para X2 fueron: 5cm, 10cm, 15cm, 20cm, y 25cm.
El método de medición optado para el trabajo fue pintar todos los bordes con abundante témpera
de cada tapita antes de ser lanzada. De esta manera, se pudo observar claramente el momento en
que la tapita tocaba el suelo, ya que dejaba una mancha en el mismo. Luego de cada lanzamiento
se limpiaba toda mancha del suelo para evitar confusiones con las nuevas manchas del siguiente
lanzamiento.

PARTE 1

1.1 Luego de realizarse los lanzamientos, se construyó la tabla que se encuentra en el Anexo 1 a
partir de la cual se ejecutó el gráfico de dispersión que se observa en la Gráfico 1.1. El mismo
hace referencia al test de correlación de Pearson, el cual se llevó a cabo utilizando el programa
Minitab. Del gráfico se infiere que la variable explicativa X tiene una correspondencia con
respecto a Y lineal y positiva. Se calculó, además, el coeficiente de Correlación de Pearson,
siendo su valor r = 0,987 lo cual confirma su alta correlación.
Se planteó la siguiente prueba de hipótesis para analizar el nivel significativo de la correlación:
𝐻0 ) ρ = 0 Los datos no presentan correlación.
𝐻0 ) ρ ≠0 Los datos presentan correlación.
Si el valor de p es menor a 5% se rechaza la hipótesis nula H0, ya que los datos no tienen
correlación entre sí. Si el valor de p resulta mayor a 5% se concluye que los datos tienen
correlación entre sí, y no se rechaza la hipótesis nula H0. En este caso se obtuvo un valor de 0,000
para el valor de p, el mismo se puede observar en la Tabla 1.1, con lo cual se rechaza H0 y se
concluye que los datos resultan tener correlación con una certeza del 95%.

Tabla 1.1: Test de Pearson

Gráfico 1.1: Gráfico de Matriz de X e Y

TP N°2 Grupo M05 1


1.2 De la misma forma que en el Experimento 1, se ejecutó el Gráfico 1.2, el cual también hace
referencia al test de correlación de Pearson del cual se infiere una relación lineal positiva para X2
y así como también para X1. En la Tabla 1.2 se exponen los coeficientes de correlación de
Pearson. Cabe destacar que la primera figura del Gráfico 1.2 que presenta en los ejes a las
variables X1 y X2 no será considerada ya que ambas variables son explicativas. Se planteó la
siguiente prueba de hipótesis para analizar el nivel significativo de la correlación entre las
variables X1 e Y, y para X2 e Y:
𝐻0 ) ρ = 0 Los datos no presentan correlación.
𝐻0 ) ρ ≠0 Los datos presentan correlación.
Como en el experimento previo, se consideró que si el valor de p es menor a 5% se rechaza la
hipótesis nula H0, si el valor de p resulta mayor a 5% no se rechaza la hipótesis nula H0. En este
caso ambos valores de p tienen un valor nulo entonces el test es significativo, por lo cual se
rechaza la hipótesis nula y se concluye que existe correlación entre las variables con una certeza
del 95%.

Tabla 1.2: Test de Pearson

Gráfico 1.2: Gráfico de Matriz de X1, X2 e Y

PARTE 2
En esta sección se procederá a analizar el Modelo de Lineal de Primer Orden (MPO)
correspondiente al Experimento 1.

2.1 Se implementó el siguiente modelo teórico de regresión lineal simple: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 ,


en el cual la variable dependiente Y corresponde a la distancia recorrida por la tapita medida en
cm, la variable independiente X corresponde a la distancia del broche desde el extremo de la
ballesta medida en cm (como ya se mencionó previamente en la Introducción), 𝛽0 y 𝛽1 son
parámetros poblacionales desconocidos, donde el primero corresponde al intercepto y el segundo
a la pendiente del modelo, y finalmente ε es la perturbación aleatoria o error. La utilidad de dicho
modelo es predecir la variable Y en función de X. También se definió un segundo modelo ajustado
a buscar, dado por la función predictora 𝑌̂𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 , dónde 𝑏0 es el estimador de 𝛽0 y 𝑏1 es
el estimador de 𝛽1 . Finalmente, para poder realizar ensayos de hipótesis sobre la recta de
regresión, se tuvieron en cuenta los siguientes supuestos:
1) 𝐸(𝜀𝑖 ) = 0 2) 𝐶𝑜𝑣 (𝜀𝑖 , 𝜀𝑗 ) = 0 ∀ 𝑖,j ≠ 0 (no autocorrelación serial)
2
3) 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 (homocedasticidad) 4) 𝜀~NIID(0; 𝜎 2 ) (normalidad)

2.2 En la Tabla 2.1 se presentan los resultados obtenidos del análisis de varianza para el
Experimento 1. Se procedió a realizar un ensayo de hipótesis con un nivel de significación α =
5%, dónde la hipótesis nula global es: Ho) 𝛽𝑖 = 0 contra la hipótesis alterna Ha) 𝛽𝑖 ≠ 0 para 𝑖 =
1 donde la condición de rechazo es que el valor p sea menor o igual a α = 0,05. En este caso, se
puede observar que el valor p obtenido es de 0,000 por lo que se rechaza la hipótesis nula,

TP N°2 Grupo M05 2


concluyendo que el ensayo es estadísticamente
significativo y que el modelo tiene al menos un
parámetro poblacional desconocido distinto de
cero, con un nivel de confianza del 95%.
Por otro lado, el análisis de ANOVA también nos
brinda una estimación de 𝜎2 , cuya importancia
radica en el hecho de que forma parte de los
supuestos del modelo. El error experimental en la Tabla 2.1: Análisis de Varianza
Tabla 2.1 arroja un valor de 27,5 y nos informa
cómo se distribuyen los residuos contra los valores de X. Por último, se puede realizar una prueba
de la falta de ajuste en el modelo dónde: Ho) El MPO ajusta bien a los datos vs. Ha) El MPO no
ajusta bien a los datos, con un nivel de significación del 5% y cuya condición de rechazo es que
el valor p sea menor o igual a α = 0,05. En este caso, el valor p obtenido es de 0,000 por lo que
entonces se rechaza la hipótesis nula y se concluye que el modelo propuesto no ajusta bien a los
datos con un nivel de certeza del 95%

2.3 A continuación, la Tabla 2.2 dispone la estimación de los coeficientes individuales del
modelo, cuyo análisis a realizar es correcto dado que se rechazó previamente la hipótesis nula
global. El ensayo de hipótesis con un nivel de significación del 5% propuesto para el término de
mayor orden (X) es el siguiente: Ho) 𝛽1 = 0 contra
Ha) 𝛽1 ≠ 0 donde la condición de rechazo es que
el valor p sea menor o igual a α = 0,05. Se puede
observar que valor p = 0,000 ≤ α = 0,05 por lo que
se procede a rechazar Ho y se concluye que la
Tabla 2.2: Coeficientes individuales
pendiente 𝛽1 es significativa con un nivel de
certeza del 95%. Para el término independiente, no
se realiza ningún test, dado que su análisis es poco relevante en este caso y siempre se incluye en
el modelo ajustado final.

2.4 La prueba de falta de ajuste ya fue analizada en la


sección 2.1, por lo que ahora se procede a estudiar otras
medidas de calidad de ajuste, como el coeficiente de
determinación 𝑅 2, que mide la bondad de ajuste dentro
de una muestra dada, y la desviación estándar del error Tabla 2.3: Resumen del modelo
S. En la Tabla 2.3 se puede observar que el coeficiente
de determinación es del 97,39% lo que quiere decir
que, el modelo propuesto explica el 97,39% de la variabilidad de Y (la distancia en cm recorrida
por la tapita). Se destaca que es un valor considerablemente alto. Por otro lado, la desviación
estándar del error es de 5,24424. A medida que S sea más pequeño, menor será el error
experimental y, por lo tanto, mayor será la explicación que brindará el modelo.

2.5 Se procede a realizar un análisis residual para la variable Y (la distancia en cm recorrida por
la tapita), representado en la Figura 2.1, con el objetivo de validar los supuestos mencionados en
la sección 2.1 anteriormente.
Para el supuesto de normalidad, adicionalmente se realizó la prueba de normalidad de
Kolmogorov-Smirnov para los residuos, representada en el Gráfico 2.1, dónde: Ho) Los residuos
siguen una distribución normal vs. Ha) Los residuos no siguen una distribución normal. Dado que
el valor p que arroja esta prueba es mayor a 0,15 no se tiene evidencia suficiente para rechazar la
hipótesis nula, y por ende se puede concluir que los residuos siguen una distribución normal, con
un riesgo máximo de estar equivocados del 15%. Por otro lado, en la gráfica de probabilidad
normal de la Figura 2.1 también podemos observar que los residuos se distribuyen en las cercanías
de la recta de normalidad, lo que también nos da un indicio del cumplimiento del supuesto.
En el caso del supuesto de homocedasticidad, podemos observar el gráfico de residuos
estandarizados vs. valor ajustado en la Figura 2.1 y notar que no existe un patrón altamente

TP N°2 Grupo M05 3


marcado en el orden aleatorio de los residuos. Tampoco hay evidencia que demuestre
inconsistencia en la varianza de los residuos, por lo que entonces, se concluye que no hay indicios
de que no se cumpla el supuesto. Como consecuencia, se valida el mismo.
Por otra parte, en el gráfico de residuos estandarizados vs. orden de observación en la Figura 2.1,
se puede observar que los residuos no están correlacionados entre sí, dado que los mismos se
distribuyen de forma aleatoria. Se comprueba entonces que no existe autocorrelación serial y que
se cumple el supuesto de independencia.
Finalmente, para validar el supuesto 𝐸(𝜀𝑖 ) = 0, podemos observar en el Gráfico 2.1 que el valor
medio de los residuos estandarizados es igual a -0,005042. Al tratarse de un número muy cercano
a cero, se valida el supuesto.

Figura 2.1: Gráficas de residuos para Y Gráfico 2.1: Prueba de normalidad de


Kolmogorov-Smirnov de residuos

Cómo último comentario, también se puede observar el histograma en la Figura 2.1, el cual resulta
relevante dado que el modelo cuenta con 30 observaciones. Se nota que no existen valores de los
residuos estándares mayores a 3 y a -3, por lo tanto, no hay indicios de tener outliers en la muestra.

2.6 Luego de haber validado los supuestos de mínimos cuadrados en la sección anterior, el modelo
de regresión lineal ajustado de primer orden propuesto es: 𝑌𝑖 ̂ = 29,51 + 18,114𝑋𝑖. Se puede
interpretar entonces que por cada un centímetro que aumente la distancia del broche desde el
extremo de la ballesta (X), la distancia recorrida por la tapita aumentará 18,114 centímetros (Y).
Recordando que la prueba de falta de ajuste realizada en la sección 2.2 fue significativa, se llega
a la conclusión de que este modelo no es el más indicado para predecir los valores de Y en función
de X. Sin embargo, es importante aclarar que dicha conclusión no invalida el modelo propuesto,
sino que solo nos muestra que este no posee un buen ajuste.

PARTE 3
En esta sección se procederá a analizar el Modelo de Lineal de Primer Orden (MPO)
correspondiente al Experimento 2.

3.1 Se implementó el siguiente modelo teórico de regresión lineal simple: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 +


𝛽2 𝑋2𝑖 + 𝜀𝑖 , en el cual la variable dependiente Y corresponde a la distancia recorrida por la tapita
medida en cm, la variable independiente 𝑋1𝑖 corresponde a la distancia del broche desde el
extremo de la ballesta medida en cm (como ya se mencionó previamente en la Introducción), 𝑋2𝑖
corresponde a la altura a la cual se encontraba la ballesta medida en cm. 𝛽0 , 𝛽1 𝑦 𝐵2 son
parámetros poblacionales desconocidos, y finalmente ε es la perturbación aleatoria o error.
También se definió un segundo modelo ajustado a buscar, dado por la función predictora 𝑌̂ =
𝑏0 + 𝑏1 𝑋1𝑖 + 𝑏2 𝑋2𝑖 , dónde 𝑏0 es el estimador de 𝛽0 , 𝑏1 es el estimador de 𝛽1 y 𝑏2 es el
estimador de 𝛽2 . Finalmente, para poder realizar ensayos de hipótesis sobre la recta de regresión,
se tuvieron en cuenta los siguientes supuestos:
1) (𝜀𝑖 ) = 0 2) 𝐶𝑜𝑣 (𝜀𝑖 , 𝜀𝑗 ) = 0 ∀ 𝑖,j ≠ 0 (no autocorrelación serial)
2
3) 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 (homocedasticidad) 4) 𝜀~NIID(0; 𝜎 2 ) (normalidad)

TP N°2 Grupo M05 4


3.2 En la Tabla 3.1 se presentan los resultados
obtenidos del análisis de varianza para el
Experimento 2. Se procedió a realizar un
ensayo de hipótesis con un nivel de
significación α = 5%, dónde la hipótesis nula
global es : Ho) 𝛽𝑖 = 0 contra la hipótesis
alterna Ha) 𝛽𝑖 ≠ 0 para 𝑖 = 1, 2 donde la
condición de rechazo es que el valor p sea
menor o igual a α = 0,05. En este caso, se puede
observar que el valor p obtenido es de 0,000 por Tabla 3.1: Análisis de la varianza
lo que se rechaza la hipótesis nula, concluyendo
que el ensayo es estadísticamente significativo y que el modelo tiene al menos un parámetro
poblacional desconocido distinto de cero, con un nivel de confianza del 95%.
Por otro lado, el análisis de ANOVA también nos brinda una estimación de 𝜎2 , cuya importancia
radica en el hecho de que forma parte de los supuestos del modelo. El error experimental en la
Tabla 3.1 arroja un valor de 42,3 y nos informa cómo se distribuyen los residuos contra los valores
de X. Por último, se puede realizar una prueba de la falta de ajuste en el modelo dónde: Ho) El
MPO ajusta bien a os datos vs Ha) El MPO no ajusta bien a los datos, con un nivel de significación
del 5% y cuya condición de rechazo es que el valor p sea menor o igual a α = 0,05. En este caso,
el valor p obtenido es de 0,000 por lo que entonces se rechaza la hipótesis nula y se concluye que
el modelo propuesto no ajusta bien a los datos con un nivel de certeza del 95%.

3.3 A continuación, la Tabla 3.2 dispone la


estimación de los coeficientes individuales del
modelo, cuyo análisis a realizar es correcto dado
que se rechazó previamente la hipótesis nula
global. Los ensayos de hipótesis con un nivel de
significación del 5% propuestos son los siguientes: Tabla 3.2: Coeficientes individuales
Ho) 𝛽1 = 0 vs. Ha) 𝛽1 ≠ 0, donde la condición de
rechazo es que el valor p sea menor o igual a α = 0,05 y Ho) 𝛽2 = 0 vs. Ha) 𝛽2 ≠ 0 donde la
condición de rechazo es que el valor p sea menor o igual a α = 0,05. Se puede observar que el
valor p = 0,000 ≤ α = 0,05 para ambos casos, por lo que se procede a rechazar la hipótesis nula en
cada ensayo, y se concluye que 𝛽1 𝑦 𝛽2 son estadísticamente significativos con un nivel de
certeza del 95%. Para el término independiente, no se realiza ningún test, dado que su análisis es
poco relevante en este caso y siempre se incluye en el modelo ajustado final.

3.4 La prueba de falta de ajuste ya fue analizada en la


sección 3.1, por lo que ahora se procede a estudiar otras
medidas de calidad de ajuste, como el coeficiente de
determinación 𝑅 2 y la desviación estándar del error S. En
la Tabla 3.3 se puede observar que el coeficiente de Tabla 3.3: Resumen del modelo
determinación es del 92,05% lo que quiere decir que, el
modelo propuesto explica el 92,05% de la variabilidad de
Y (la distancia en cm recorrida por la tapita). Se destaca que es un valor considerablemente alto.
Por otro lado, la desviación estándar del error es de 6,50629. A medida que S sea más pequeño,
menor será el error experimental y, por lo tanto, más precisa será la explicación que brindará el
modelo.

3.5 Para validar los supuestos utilizados en el modelo, se realizó un análisis residual de la variable
Y. En el Gráfico 3.1, se pueden observar los gráficos de residuos para Y.
Normalidad: Los puntos al principio de la recta forman una onda, lo que implica una distribución
de colas cortas. Esto da indicios de que no se cumple el supuesto de normalidad. Para corroborar
lo observado, se realizó la prueba de normalidad de Kolmogorov-Smirnov con las siguientes

TP N°2 Grupo M05 5


hipótesis: Ho) La muestra sigue una distribución normal vs. Ha) La muestra no sigue una
distribución normal. Como se observa en la Gráfico 3.2, el valor p obtenido es menor a 0,150 por
lo que se rechaza la hipótesis nula y se concluye que la distribución no es normal, con un riesgo
máximo de estar equivocados del 15%.
Homocedasticidad: Podemos observar el gráfico de residuos estandarizados vs. valor ajustado en
la Figura 3.1 y notar que no existe un patrón altamente marcado en el orden aleatorio de los
residuos. Tampoco hay evidencia que demuestre inconsistencia en la varianza de los residuos, por
lo que entonces, se concluye que no hay indicios de que no se cumpla el supuesto. Como
consecuencia, se valida el mismo.
No autocorrelación serial: En la Figura 3.1, en el gráfico de residuos estandarizados vs orden de
la distribución, se puede observar que los residuos se distribuyen aleatoriamente, entonces el
supuesto de que no hay dependencia de los residuos se da por válido.
Finalmente, para validar el supuesto 𝐸(𝜀𝑖 ) = 0, podemos observar en el Gráfico 3.1 que el valor
medio de los residuos estandarizados es igual a -0,004412. Al tratarse de un número muy cercano
a cero, se valida el supuesto.
Cómo último comentario, también se puede observar el histograma en la Figura 3.1, el cual resulta
relevante dado que el modelo cuenta con 75 observaciones. Se nota que existen valores de los
residuos estándares menores a 3, pero mayores a -3 y, por lo tanto, hay indicios de tener outliers
en la muestra y los mismos deben ser eliminados.

Figura 3.1: Gráfica de residuos para Y Gráfico 3.1: Test de normalidad

3.6 El modelo de regresión lineal múltiple ajustado de primer orden propuesto es:
̂𝑖 =92,03+12,06𝑋1𝑖 +1,896𝑋2𝑖 . Por lo tanto, observando la fórmula anterior se puede decir que
𝑌
la distancia recorrida por los proyectiles aumenta en 12,06 cm si se incrementa en 1 cm la distancia
del broche (𝑋1𝑖 ), manteniéndose 𝑋2𝑖 . constante. Además, si se incrementa la altura en la que se
efectuó el disparo en 1 cm (𝑋2𝑖 ), con 𝑋1𝑖 constante, la distancia recorrida de los proyectiles
aumenta en 1,896 cm.

PARTE 4

4.1 Observando el gráfico de probabilidad


normal, incluido en el Gráfico 4.1 algunos
puntos se encuentran alejados de la línea
ajustada, lo que lleva a pensar que habría un
modelo de orden superior que se ajuste mejor
a lo expuesto por los datos. En la Tabla 2.1 se
expone que el valor de p de la fila de ajuste es
0.000. Por lo tanto, considerando ese
resultado y las conclusiones del inciso 2.2, se
asegura que el modelo propuesto no ajusta
bien los datos con un nivel de certeza del
Gráfico 4.1: Diagrama de residuos

TP N°2 Grupo M05 6


95%. Es por esto que se recomienda analizar si un modelo de mayor orden ajusta de forma más
adecuada los datos.
Se define al modelo de regresión lineal de segundo orden poblacional como: Yi = 𝛽0 + 𝛽1 𝑋𝑖 +
𝛽2 𝑋𝑖 2+ ε. Se reconocen a los parámetros poblacionales desconocidos como 𝛽0 , 𝛽1 , 𝛽2 ; la
distancia del broche en centímetros, que se identifica con la variable explicativa X, la cual se
relaciona con la variable Y. Siendo esta última la distancia en centímetros alcanzada por el
proyectil. Por último, ε es el error desconocido. Se recalca que para este modelo se deben cumplir
los siguientes supuestos: Normalidad (ε ~ N(0,𝜎2 )); Independencia (Cov(𝜀𝑖 , 𝜀𝑗 ) = 0 ∀ i ≠ j);
Esperanza nula (E(𝜀𝑖 ) = 0); Homocedasticidad (Var(𝜀𝑖 ) = 𝜎2 ). Y que, además, la hipótesis nula
global para analizar la falta de ajuste es: 𝐻0 ) El modelo propuesto ajusta de manera correcta los
datos vs. 𝐻𝑎 ) El modelo propuesto no ajusta de manera correcta los datos.

Tabla 4.1: Ecuación de Regresión Exp 1 Tabla 4.2: Coeficientes de Ecuación de Regresión Exp 1

Tabla 4.3: Datos Resumen de Modelo Exp 1. Tabla 4.4: Valores de Análisis de Varianza Exp 1

Se comienza analizando la Tabla 4.4, donde se observa que en la falta de ajuste el valor p arroja
una cifra de 0,000 que resulta ser menor a 𝛼 = 0,05. Entonces se rechaza la hipótesis nula y se
concluye que el modelo de segundo orden no ajusta bien a los datos con una certeza del 95%.
Continuando con la Tabla 4.2, se empieza analizando la variable de mayor orden, en nuestro caso
la de orden 2. Se realiza el siguiente ensayo de hipótesis: Ho) 𝛽2 = 0 vs. Ha) 𝛽2 ≠ 0 donde la
condición de rechazo es que el valor p sea menor o igual a α = 0,05. Cómo arroja un valor de p =
0,083 > 𝛼 = 0,05, se rechaza la hipótesis nula y el término resulta ser no significativo y se debe
descartarlo con un riesgo máximo de equivocarse del 5%. Inmediatamente, se prosigue con la
variable del orden siguiente, siendo en este caso la de orden 1, realizando el siguiente test: Ho)
𝛽1 = 0 vs. Ha) 𝛽1 ≠ 0 donde la condición de rechazo es que el valor p sea menor o igual a α =
0,05. Como arroja un valor de p = 0,000 menor a α = 0,05 no se tiene evidencia suficiente para
rechazar la hipótesis nula y el termino resulta significativo con una certeza del 95%. Al tener una
variable significativa de orden 1, se considera que todas las variables de menor orden tienen que
estar incluidas en el modelo, aunque hayan arrojado resultados que indiquen lo contrario.
Adicionalmente, la correlación lineal de la PARTE 1 resultó ser significativa, mientras que en
este caso el modelo no lo fue ya que el valor arrojado de p fue 0,391 > 𝛼 =0,05. Este está incluido
en el modelo, a pesar de ser no significativo debido a que la variable de orden 1 fue significativa.
Estudiando ahora el 𝑅 2 expuesto en la Tabla 4.3 tiene un valor de 97,67%, entonces el 97,67%
de la variabilidad de la distancia en centímetros recorrida por los proyectiles es explicado por el
modelo. Para completar, la desviación estándar del error arroja un valor de S = 5,04677.
Se procede a analizar la gráfica de los residuos, Gráfico 4.1 para verificar el cumplimiento de los
supuestos de mínimos cuadrados.
Normalidad: En el gráfico de probabilidad normal se puede notar que los puntos no se ajustan a
la recta y que presentan un patrón ondulado de colas cortas. Por lo tanto, no se da como válido el
supuesto.
Independencia: En el gráfico de residuos vs orden de observación se valida el supuesto, dado que
no se observa ninguna dependencia entre las variables.

TP N°2 Grupo M05 7


Esperanza nula: A partir de los gráficos de
residuos vs valor ajustado, y residuos vs orden
de observación se valida el supuesto dado que se
cumple una simetría respecto al cero.
Homocedasticidad: A pesar que no se obtiene
suficiente información del gráfico de residuos vs
valor ajustado, se comprueba el supuesto dado
que no se ve un patrón o indicio que demuestre
lo contrario.
Para finalizar, en la Figura 4.1 como el factor
lineal A supera el valor crítico de 2,052 se
concluye que la variable es significativa. Pero el
factor cuadrático AA no supera el valor
crítico de 2,052 por lo que resulta no Figura 4.1: Diagrama de Pareto
significativo. Ambos con un nivel de
confianza del 95%.

4.2 Se presenta a continuación una tabla comparativa de MPO y MSO propuesta para el
Experimento 1

Falta de
Cantidad de 2
Cantidad de 𝑅 Ajuste
Modelo Ecuación de Predicción Parámetros S Error
Parámetros ajustado (valor
significativos
de p)
MPO ̂ = 29,51 +18,114Xi
𝑌𝑖 2 2 5,24424 97,29% 0,000 27,5
̂ = -28,5 + 30,74Xi-
𝑌𝑖
MSO 3 2 5,04677 97,49% 0,000 25,5
0,664𝑋𝑖 2

4.3 Los modelos lineales planteados son de primer y segundo orden para el experimento 1.
Mediante la Tabla expuesta en el inciso 4.2 se analizan la cantidad de parámetros no
significativos, el coeficiente de determinación ajustado, el error experimental y el p-value que
señala la falta de ajuste. Si se estudia el modelo de segundo orden, el parámetro cuadrático no
proporciona información dado que no es significativo. Sin embargo, su 𝑅 2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 es levemente
mayor, lo que quiere decir que explica un poco mejor la variabilidad de la distancia recorrida por
las tapas (Y) que en el modelo de primer orden. También el MSO posee una menor desviación
estándar del error que el MPO, lo que implica que la dispersión de los valores en el primer modelo
mencionado es menor a la del segundo. Analizando ahora el p-value, ambos modelos presentan
uno menor a 0,05 por lo que se presencia una falta de ajuste en ambos modelos con una certeza
del 95%. Tanto MPO como MSO, no ajustan
de manera correcta los datos, lo que expone
que es necesario un término de orden superior
para que el ajuste sea el indicado.

4.4 En el gráfico de probabilidad normal,


incluido en el Gráfico 4.2 se observan que
algunos puntos se encuentran alejados de la
línea ajustada, formando un patrón de colas
cortas, lo que lleva a pensar que debe haber un
modelo de orden superior que se ajuste mejor
a lo expuesto por los datos. En la Tabla 3.1 se
expone que el valor de p de la fila de ajuste es
0,000. Por lo tanto, considerando ese resultado
Gráfico 4.2: Diagrama de residuos
y las conclusiones del inciso 3.2, se asegura que
el modelo propuesto no ajusta bien los datos con

TP N°2 Grupo M05 8


un nivel de certeza del 95%. Es por esto que se recomienda analizar si un modelo de mayor orden
ajusta de forma más adecuada los datos.
Se define al modelo de regresión lineal de segundo orden poblacional como: Y = 𝛽0 +
2 2
𝛽1 𝑋1𝑖 +𝛽2 𝑋2𝑖 + 𝛽3 𝑋1𝑖 + 𝛽4 𝑋2𝑖 + ε. Se reconocen a los parámetros poblacionales desconocidos
como 𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 , 𝛽4 ; la distancia del broche en centímetros, que se identifica con la variable
explicativa 𝑋1𝑖 , la altura en centímetros a la cual se encontraba la ballesta, que corresponde a la
variable explicativa 𝑋2𝑖 , las cuales ambas se relacionan con la variable dependiente Y, siendo esta
última la distancia alcanzada por el proyectil en centímetros. Por último, ε el error desconocido.
Se recalca que para este modelo se deben cumplir los siguientes supuestos: Normalidad (ε ~
N(0,𝜎2 )); Independencia (Cov(𝜀𝑖 , 𝜀𝑗 ) = 0 ∀ i ≠ j); Esperanza nula (E(𝜀𝑖 ) = 0); Homocedasticidad
(Var(𝜀𝑖 ) = 𝜎2 ). Y que, además, la hipótesis nula global para analizar la falta de ajuste es: 𝐻0 ) El
modelo propuesto ajusta de manera correcta a los datos vs. 𝐻𝑎 ) El modelo propuesto no ajusta de
manera correcta a los datos.

Tabla 4.5: Ecuación de Regresión Exp 1 Tabla 4.6: Coeficientes de Ecuación de Regresión Exp 1

Tabla 4.7: Datos Resumen de Modelo Exp 1. Tabla 4.8: Valores de Análisis de Varianza Exp 1

Se comienza analizando la Tabla 4.8, donde se observa que en la falta de ajuste el valor p arroja
una cifra de 0,000 que resulta ser menor 𝛼 = 0,05. Entonces se rechaza la hipótesis nula y entonces
se concluye que el modelo de segundo orden no ajusta bien a los datos con una certeza del 95%.
Continuando con la Tabla 4.6, se comienza analizando las variables de mayor orden, en nuestro
caso la de orden 2. En el caso de X2, se emplea el siguiente ensayo de hipótesis: Ho) 𝛽4 = 0 vs.
Ha) 𝛽4 ≠ 0 donde la condición de rechazo es que el valor p sea menor o igual a α = 0,05. Como
arroja un valor de p = 0,009 menor a 𝛼 = 0,05 se rechaza la hipótesis nula y se concluye entonces
que el término es significativo con una certeza del 95%. En el caso de X1, se emplea el siguiente
ensayo de hipótesis: Ho) 𝛽3 = 0 vs. Ha) 𝛽3 ≠ 0 donde la condición de rechazo es que el valor p
sea menor o igual a α = 0,05. Como arroja un valor de p = 0,000 menor a 𝛼 = 0,05 se rechaza la
hipótesis nula y se concluye entonces que el término es significativo con una certeza del 95%. Al
tener por lo menos una variable significativa de orden 2, se considera que todas las variables
siguientes de menor orden tienen que estar incluidas en el modelo, aunque hayan arrojado
resultados que indiquen lo contrario.
Adicionalmente, sabemos que la correlación lineal de la PARTE 1 resultó ser significativa. En
este caso, dicho término también resulto significativo, ya que el valor arrojado de p fue 0,041
menor a 𝛼 =0,05. Por lo tanto, se incluye en el modelo, teniendo en cuenta que las variables de
mayor orden resultaron ser también significativas. Estudiando ahora el 𝑅 2 expuesto en la Tabla
4.7 tiene un valor de 94,53%, entonces el 94,53% de la variabilidad de la distancia en centímetros
recorrida por los proyectiles es explicado por el modelo. Para completar, se puede observar que
la desviación estándar del error arrojó un valor de S = 5,47513.
Se procede a analizar la gráfica de los residuos, Gráfico 4.2 para verificar el cumplimiento de los
supuestos de mínimos cuadrados.

TP N°2 Grupo M05 9


Normalidad: En el gráfico de probabilidad
normal se puede notar que los puntos no se
ajustan a la recta y que presentan un patrón
ondulado de colas cortas. Por lo tanto, no se da
como válido el supuesto.
Independencia: En el gráfico de residuos vs
orden de observación se valida el supuesto, dado
que no se observa ninguna dependencia entre las
variables.
Esperanza nula: A partir de los gráficos de
residuos vs valor ajustado, y residuos vs orden
de observación se valida el supuesto dado que se Figura 4.2: Diagrama de Pareto
cumple una simetría respecto al cero.
Homocedasticidad: A pesar que no se obtiene
suficiente información del gráfico de residuos vs valor ajustado, se comprueba el supuesto dado
que no se ve un patrón o indicio que demuestre lo contrario.
Para finalizar, en la Figura 4.2 se observa que los factores lineales tanto como los factores
cuadráticos superan el valor crítico de 1,994. Se concluye entonces que todas las variables del
modelo son significativas con un nivel de confianza del 95%.

4.5 Se presenta a continuación una tabla comparativa de MPO y MSO propuesta para el
Experimento 2

Falta de
Cantidad Cantidad de
𝑅2 Ajuste
Modelo Ecuación de Predicción de Parámetros S Error
ajustado (valor
Parámetros significativos
de p)
MPO ̂ = 92,03 +12,06𝑋1𝑖 +1,896𝑋2𝑖
𝑌𝑖 3 3 6,50629 91,83% 0,000 42,3
̂ = -62,9 + 45,75𝑋1𝑖 +3,107𝑋2𝑖
𝑌𝑖
MSO -1,871𝑋1𝑖 2-0,0404𝑋2𝑖 2
5 5 5,47513 94,21% 0,000 29,98

4.6 Los modelos lineales planteados son de primer y segundo orden para el Experimento 2.
Mediante la Tabla expuesta en el inciso 4.5 se analizan la cantidad de parámetros no
significativos, el coeficiente de determinación ajustado, el error experimental y el p-value que
señala la falta de ajuste. En ambos modelos, todas las variables de cada uno resultan significativas.
Sin embargo, su 𝑅 2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 del MSO es mayor al del MPO, lo que quiere decir que explica un
poco mejor la variabilidad de la distancia recorrida por las tapas (Y) que en el MPO. También el
MSO posee una menor desviación estándar del error que el MPO, lo que implica que la dispersión
de los valores en el primer modelo mencionado es menor a la del segundo. Analizando ahora el
p-value, ambos modelos presentan uno menor a 0,05 por lo que se presencia una falta de ajuste
en ambos modelos con una certeza del 95%. Tanto MPO como MSO, no ajustan de manera
correcta los datos, lo que expone que es necesario un término de orden superior para que el ajuste
sea el indicado.

TP N°2 Grupo M05 10


ANEXO

Anexo 1

Anexo 1: Datos obtenidos de los lanzamientos de las tapitas que conforman el Experimento 1
(Aclaración: X es la distancia en centímetros del broche desde la punta de la ballesta)

Anexo 2.

EXPERIMENTO 2
N X1 X2 Y N X1 X2 Y N X1 X2 Y
1 7 5 165 28 11 10 240 55 10 20 251
2 7 5 167 29 11 10 238 56 10 20 256
3 7 5 172 30 11 10 237 57 10 20 254
4 8 5 194 31 7 15 209 58 11 20 262
5 8 5 203 32 7 15 210 59 11 20 257
6 8 5 202 33 7 15 212 60 11 20 258
7 9 5 219 34 8 15 225 61 7 25 222
8 9 5 217 35 8 15 223 62 7 25 226
9 9 5 220 36 8 15 227 63 7 25 225
10 10 5 226 37 9 15 234 64 8 25 231
11 10 5 221 38 9 15 230 65 8 25 235
12 10 5 228 39 9 15 238 66 8 25 238
13 11 5 232 40 10 15 240 67 9 25 248
14 11 5 233 41 10 15 245 68 9 25 250
15 11 5 237 42 10 15 242 69 9 25 247
16 7 10 178 43 11 15 255 70 10 25 251

TP N°2 Grupo M05 11


17 7 10 183 44 11 15 253 71 10 25 255
18 7 10 187 45 11 15 250 72 10 25 257
19 8 10 215 46 7 20 215 73 11 25 263
20 8 10 211 47 7 20 219 74 11 25 268
21 8 10 209 48 7 20 218 75 11 25 267
22 9 10 223 49 8 20 227
23 9 10 221 50 8 20 229
24 9 10 226 51 8 20 232
25 10 10 229 52 9 20 235
26 10 10 234 53 9 20 240
27 10 10 237 54 9 20 243

N RESIDEST COOK N RESIDEST COOK N RESIDEST COOK


1 -3.3303 0.2641 26 0.3749 0.0013 51 0.8672 0.0069
2 -3.0121 0.2160 27 0.8423 0.0065 52 -0.5424 0.0020
3 -2.2167 0.1170 28 -0.5751 0.0054 53 0.2339 0.0004
4 -0.6286 0.0064 29 -0.8899 0.0129 54 0.6997 0.0033
5 0.7881 0.0101 30 -1.0473 0.0179 55 0.0696 0.0000
6 0.6307 0.0065 31 0.6442 0.0058 56 0.8485 0.0066
7 1.4034 0.0274 32 0.8011 0.0089 57 0.5370 0.0026
8 1.0897 0.0165 33 1.1148 0.0173 58 -0.0965 0.0002
9 1.5603 0.0338 34 1.2493 0.0106 59 -0.8836 0.0127
10 0.6118 0.0061 35 0.9388 0.0060 60 -0.7262 0.0086
11 -0.1753 0.0005 36 1.5598 0.0166 61 -0.2949 0.0021
12 0.9266 0.0140 37 0.7716 0.0027 62 0.3415 0.0028
13 -0.3458 0.0028 38 0.1527 0.0001 63 0.1824 0.0008
14 -0.1867 0.0008 39 1.3905 0.0087 64 -0.7734 0.0098
15 0.4497 0.0048 40 -0.1666 0.0002 65 -0.1438 0.0003
16 -2.7411 0.1226 41 0.6096 0.0025 66 0.3285 0.0018
17 -1.9540 0.0623 42 0.1439 0.0001 67 0.0042 0.0000
18 -1.3244 0.0286 43 0.2928 0.0012 68 0.3179 0.0014
19 1.1726 0.0126 44 -0.0209 0.0000 69 -0.1527 0.0003
20 0.5494 0.0028 45 -0.4915 0.0034 70 -1.4220 0.0330
21 0.2378 0.0005 46 0.0986 0.0002 71 -0.7923 0.0102
22 0.5382 0.0020 47 0.7283 0.0087 72 -0.4775 0.0037
23 0.2277 0.0004 48 0.5709 0.0053 73 -1.4467 0.0498
24 1.0040 0.0069 49 0.0883 0.0001 74 -0.6512 0.0101
25 -0.4040 0.0015 50 0.3999 0.0015 75 -0.8103 0.0156

Anexo 2: Datos obtenidos de los lanzamientos de las tapitas que conforman el Experimento 2.
(Aclaración: X1 es la distancia del broche desde la punta de la ballesta en centímetros y X2 la
altura de la ballesta desde el suelo en centímetros)

TP N°2 Grupo M05 12


BIBLIOGRAFÍA

Material provisto por la cátedra I.T.B.A – 11.78 Estadística Aplicada II, 2021

TP N°2 Grupo M05 13

También podría gustarte