Está en la página 1de 25

Grupo No: 03

Integrantes del grupo: Kevin García, María Emilia Guzmán, Emmy Guillén, Javier
Mejía, Tahís Muñoz

PRÁCTICA REGRESIÓN LINEAL SIMPLE EN R

1. Obtención de modelos de datos

MODELO 1: Datos totales


Diagrama de dispersión

El comportamiento creciente que representa la relación entre la altura y el peso del género
masculino y femenino es moderadamente lineal, por lo que, se procede a realizar un
modelo de regresión lineal simple para verificar si se puede explicar la relación lineal
entre estas variables con la misma.
Mínimos cuadrados
̂0 = −132,9910
𝐵
̂1 = 3,8181
𝐵

Modelo de Regresión Lineal Simple


𝑦̂𝑖 = −132,9910 + 3,8181 𝑥𝑖

Coeficiente de determinación
𝑅2 = 0,6004
Este coeficiente de determinación es más cercano a 1 en comparación al 0, esto puede
indicar, que no se captó en su totalidad la variabilidad de Y (variable respuesta) a través
de las variables de explicación.

Correlación
𝑟𝑥𝑦 = 0,7748761

Los datos del peso y la altura de la muestra del género masculino y femenino tienen una
correlación positiva, lo que implica, que, en cierta medida, los datos están relacionados
linealmente.
Relación entre el coeficiente de determinación y el coeficiente de
correlación
𝑟𝑥𝑦 = √𝑅2

𝑟𝑥𝑦 = √0,6004

𝑟𝑥𝑦 ≈ 0,7748548

→ 0,7748761 ≈ 0,7748548
Se cumple la relación entre el coeficiente de determinación y el coeficiente de correlación
en un modelo de regresión lineal simple.

Prueba individual del modelo para B0

𝑷𝒓𝒖𝒆𝒃𝒂 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖𝒂𝒍 𝒅𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐


𝐻0 : 𝐵0 = 0
𝑣𝑠.
𝐻1 : 𝐵0 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = < 2 ∙ 10−16


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵0 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.
Prueba individual del modelo para B1
𝑷𝒓𝒖𝒆𝒃𝒂 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖𝒂𝒍 𝒅𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐
𝐻0 : 𝐵1 = 0
𝑣𝑠.
𝐻1 : 𝐵1 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = < 2 ∙ 10−16


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵1 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.

Prueba global del modelo de regresión


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔 𝒑𝒂𝒓𝒂 𝑩𝟏
𝐻0 : 𝐵1 = 0
𝑣𝑠.
𝐻1 : 𝐵1 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = < 2,2 ∙ 10−16


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵1 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.
Verificación de los supuestos del modelo
I. Distribución Normal de los residuos
i. Histograma de los residuos estandarizados

A través del histograma se observa que existe un sesgo hacia la derecha, se puede concluir
que los residuos no tienen un comportamiento normal.

ii. Metodología de Tendencia a la Simetría


Residuos entre ±1
Un 71,73% de los residuos cae en este intervalo. Este valor se aproxima a 68,27%, que
es el porcentaje que establece la metodología que deben estar dentro de este rango. Por lo
que, se puede decir que se cumple con este criterio.
Residuos entre ±2
Un 96,20% de los residuos conforma parte de este intervalo. El valor es cercano a 98,45%,
sin embargo, no se cumple el criterio, porque el porcentaje obtenido es menor al valor
establecido en la metodología
Residuos entre ±3
Un 97,89% conforma parte de este intervalo, y este porcentaje es similar a 99,73%, con
lo que se puede asumir que no se cumple este supuesto porque el porcentaje que se
consiguió con la metodología es menor que el establecido por la misma.

Por lo tanto, los residuos no tienen una distribución moderadamente normal.


iii. Gráfica Q-Q y P-P

Se observa que en su mayoría los residuos tienen una distribución normal, sin embargo,
en los extremos se presenta un sesgo positivo.

iv. Prueba de Kolmogórov-Smirnov


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑣𝑠.
𝐻1 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,005841
𝑆𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐸𝑠𝑡𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎 𝑞𝑢𝑒 𝑛𝑜 ℎ𝑎𝑦 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑝𝑎𝑟𝑎 𝑎𝑓𝑖𝑟𝑚𝑎𝑟 𝑞𝑢𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙.

II. Homocedasticidad
𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝐻𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝑣𝑠.
𝐻1 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝐻𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1
𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,005114
𝑆𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐸𝑠𝑡𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎 𝑞𝑢𝑒 𝑛𝑜 ℎ𝑎𝑦 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑝𝑎𝑟𝑎 𝑎𝑓𝑖𝑟𝑚𝑎𝑟 𝑞𝑢𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
𝑠𝑒 𝑐𝑜𝑚𝑝𝑜𝑟𝑡𝑎𝑛 𝑐𝑜𝑛 ℎ𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑, 𝑒𝑠 𝑑𝑒𝑐𝑖𝑟, 𝑞𝑢𝑒 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛 𝑐𝑜𝑚𝑝𝑜𝑟𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝑑𝑒
ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑.

III. Homogeneidad
𝐸(𝑒) = 0.000155446
𝐸𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠 𝑐𝑒𝑟𝑐𝑎𝑛𝑜 𝑎 0, 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑒𝑙 𝑠𝑢𝑝𝑢𝑒𝑠𝑡𝑜 𝑑𝑒 𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒
𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠 0.

IV. Supuesto de la independencia lineal en los residuos


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
𝑣𝑠.
𝐻1 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠𝑡á𝑛 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,333
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐸𝑠𝑡𝑜 𝑖𝑚𝑝𝑙𝑖𝑐𝑎 𝑞𝑢𝑒 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
MODELO 2: Datos género femenino
Diagrama de dispersión

Se presenta un comportamiento creciente moderadamente lineal por la relación entre la


altura y el peso del género femenino, por lo que, se procede a realizar un modelo de
regresión lineal simple para verificar si se puede explicar la relación lineal entre estas
variables con la misma.

Mínimos cuadrados
̂0 = −153,1289
𝐵
̂1 = 4,1636
𝐵

Modelo de Regresión Lineal Simple


𝑦̂𝑖 = −153,1289 + 4,1636𝑥𝑖

Coeficiente de determinación
𝑅2 = 0,5642
Este coeficiente de determinación es más cercano a 1 en comparación al 0, esto puede
indicar, que no se captó en su totalidad la variabilidad de Y (variable respuesta) a través
de las variables de explicación. Mientras más cercano a 1, mayor será el ajuste del modelo
a la variable que se pretende aplicar, por lo que, resultará dicho modelo más fiable.
Correlación
𝑟𝑥𝑦 = 0,7511079

Los datos del peso y la altura de la muestra del género femenino tienen una correlación
positiva, por lo tanto, los datos están relacionados linealmente en cierta medida.
Relación entre el coeficiente de determinación y el coeficiente de
correlación
𝑟𝑥𝑦 = √𝑅2

𝑟𝑥𝑦 = √0,5642

𝑟𝑥𝑦 ≈ 0,7511324

→ 0,7511079 ≈ 0,7511324
Se cumple la relación entre el coeficiente de determinación y el coeficiente de correlación
en un modelo de regresión lineal simple.

Prueba individual del modelo para B0

𝑷𝒓𝒖𝒆𝒃𝒂 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖𝒂𝒍 𝒅𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐


𝐻0 : 𝐵0 = 0
𝑣𝑠.
𝐻1 : 𝐵0 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 7,89 ∙ 10−11


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵0 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.

Prueba individual del modelo para B1

𝑷𝒓𝒖𝒆𝒃𝒂 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖𝒂𝒍 𝒅𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐


𝐻0 : 𝐵1 = 0
𝑣𝑠.
𝐻1 : 𝐵1 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 2 ∙ 10−16
𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵1 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.
Prueba global del modelo de regresión
𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔 𝒑𝒂𝒓𝒂 𝑩𝟏
𝐻0 : 𝐵1 = 0
𝑣𝑠.
𝐻1 : 𝐵1 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = < 2,2 ∙ 10−16


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵1 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.

Verificación de los supuestos del modelo


I. Distribución Normal de los residuos
i. Histograma de los residuos estandarizados

Se puede observar un pequeño sesgo hacia la derecha, pero en general se puede asociar
la gráfica a la de una normal.
ii. Metodología de Tendencia a la Simetría
Residuos entre ±1
Un 69,37% de los residuos cae en este intervalo. Este valor se aproxima a 68,27%, lo que
conlleva a decir que se cumple con este supuesto, al ser el porcentaje mayor al establecido.
Residuos entre ±2
Un 95,50% de los residuos conforma parte de este intervalo. El valor es similar a 98,45%,
pero no cumple el criterio, porque el porcentaje obtenido es menor al valor establecido en
la metodología.
Residuos entre ±3
Un 98,20% constituye este intervalo, pero este porcentaje a pesar de ser similar a 99,73%,
no se cumple el criterio porque es menor al establecido por la metodología.

Por lo tanto, al no cumplirse la totalidad de las condiciones establecidas por la


metodología se puede decir que los residuos no tienen una distribución normal.

iii. Gráfica Q-Q y P-P

En su mayoría los residuos poseen una distribución normal.

iv. Prueba de Kolmogórov-Smirnov


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑣𝑠.
𝐻1 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,2662
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐻𝑎𝑦 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑝𝑎𝑟𝑎 𝑎𝑓𝑖𝑟𝑚𝑎𝑟 𝑞𝑢𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙.

II. Homocedasticidad

𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝐻𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝑣𝑠.
𝐻1 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝐻𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,01284

𝑆𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 menor 𝑞𝑢𝑒 0,05.


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, ℎ𝑎𝑦 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑝𝑎𝑟𝑎 𝑎𝑓𝑖𝑟𝑚𝑎𝑟 𝑞𝑢𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑡𝑖𝑒𝑛𝑒𝑛 𝑢𝑛 𝑐𝑜𝑚𝑝𝑜𝑟𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 ℎ𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑á𝑠𝑡𝑖𝑐𝑜.

III. Homogeneidad
𝐸(𝑒) = −9.239254 ∙ 10−5
𝐸𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠 𝑐𝑒𝑟𝑐𝑎𝑛𝑜 𝑎 0, 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑒𝑙 𝑠𝑢𝑝𝑢𝑒𝑠𝑡𝑜 𝑑𝑒 𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒
𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠 0.

IV. Supuesto de la independencia lineal en los residuos


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
𝑣𝑠.
𝐻1 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠𝑡á𝑛 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,5316
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐿𝑜 𝑐𝑢𝑎𝑙 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎 𝑞𝑢𝑒 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠.
MODELO 3: Datos género masculino
Diagrama de dispersión

El comportamiento creciente que representa la relación entre la altura y el peso del género
masculino es moderadamente lineal. Se procede a realizar un modelo de regresión lineal
simple para verificar si se puede explicar la relación lineal entre estas variables con la
misma.
Mínimos cuadrados
̂0 = −125,6981
𝐵
̂1 = 3,6898
𝐵

Modelo de Regresión Lineal Simple


𝑦̂𝑖 = −125,6981 + 3,6898𝑥𝑖

Coeficiente de determinación
𝑅2 = 0,6245
Este coeficiente de determinación es más cercano a 1 en comparación al 0, esto puede
indicar, que no se capta en su totalidad la variabilidad de Y (variable respuesta) a través
de las variables de explicación.
Correlación
𝑟𝑥𝑦 = 0,7902623

Los datos del peso y la altura de la muestra del género masculino tienen una correlación
positiva, que los datos están relacionados linealmente.
Relación entre el coeficiente de determinación y el coeficiente de
correlación
𝑟𝑥𝑦 = √𝑅2

𝑟𝑥𝑦 = √0,6245

𝑟𝑥𝑦 ≈ 0,7902531

→ 0,7902623 ≈ 0,7902531
Se cumple la relación entre el coeficiente de determinación y el coeficiente de correlación
en un modelo de regresión lineal simple.

Prueba individual del modelo para B0

𝑷𝒓𝒖𝒆𝒃𝒂 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖𝒂𝒍 𝒅𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐


𝐻0 : 𝐵0 = 0
𝑣𝑠.
𝐻1 : 𝐵0 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 1,59 ∙ 10−12


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵0 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.

Prueba individual del modelo para B1

𝑷𝒓𝒖𝒆𝒃𝒂 𝒊𝒏𝒅𝒊𝒗𝒊𝒅𝒖𝒂𝒍 𝒅𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐


𝐻0 : 𝐵1 = 0
𝑣𝑠.
𝐻1 : 𝐵1 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 2 ∙ 10−16
𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵1 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.
Prueba global del modelo de regresión
𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔 𝒑𝒂𝒓𝒂 𝑩𝟏
𝐻0 : 𝐵1 = 0
𝑣𝑠.
𝐻1 : 𝐵1 ≠ 0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = < 2,2 ∙ 10−16


𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐵1 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜.

Verificación de los supuestos del modelo


I. Distribución Normal de los residuos
i. Histograma de los residuos estandarizados

Se puede observar un sesgo hacia la derecha por lo que podría decirse que los datos no
poseen una distribución normal.

ii. Metodología de Tendencia a la Simetría


Residuos entre ±1
Un 74,60% de los residuos cae en este intervalo. Este valor se aproxima a 68,27%, por lo
que, se puede decir que se cumple con este criterio, porque el porcentaje es mayor al
establecido por la metodología.
Residuos entre ±2
Un 96,03% de los residuos conforma parte de este intervalo. El valor es cercano a 98,45%,
pero no cumple el criterio, porque el porcentaje obtenido es menor al valor establecido en
la metodología.
Residuos entre ±3
Un 97,62% conforma parte de este intervalo. Este porcentaje es similar a 99,73%, pero
es menor que el establecido por la metodología, por lo que no cumple con este criterio.

Por lo tanto, al cumplirse solo 1 de las 3 condiciones establecidas por la metodología se


puede afirmar que los residuos no tienen una distribución normal.

iii. Gráfica Q-Q y P-P

Se observa que en su mayoría los residuos tienen una distribución normal, sin embargo,
en los extremos se presentan sesgos.

iv. Prueba de Kolmogórov-Smirnov


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑣𝑠.
𝐻1 : 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1
𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,01057
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐻𝑎𝑦 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑝𝑎𝑟𝑎 𝑎𝑓𝑖𝑟𝑚𝑎𝑟 𝑞𝑢𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎
𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙.

II. Homocedasticidad
𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝐻𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝑣𝑠.
𝐻1 : 𝐿𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑒𝑠 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 (𝐻𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑)
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,06684
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 0,05.
𝑃𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, ℎ𝑎𝑦 𝑠𝑢𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑡𝑎𝑑í𝑠𝑡𝑖𝑐𝑎 𝑝𝑎𝑟𝑎 𝑎𝑓𝑖𝑟𝑚𝑎𝑟 𝑞𝑢𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑑𝑒 𝑙𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑡𝑖𝑒𝑛𝑒𝑛 𝑢𝑛 𝑐𝑜𝑚𝑝𝑜𝑟𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 ℎ𝑜𝑚𝑜𝑐𝑒𝑑á𝑠𝑡𝑖𝑠𝑐𝑜.

III. Homogeneidad
𝐸(𝑒) = 0,0008743427
𝐸𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠 𝑐𝑒𝑟𝑐𝑎𝑛𝑜 𝑎 0, 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜, 𝑠𝑒 𝑐𝑢𝑚𝑝𝑙𝑒 𝑒𝑙 𝑠𝑢𝑝𝑢𝑒𝑠𝑡𝑜 𝑑𝑒 𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒
𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠 0.

IV. Supuesto de la independencia lineal en los residuos


𝑷𝒓𝒖𝒆𝒃𝒂 𝒅𝒆 𝒉𝒊𝒑ó𝒕𝒆𝒔𝒊𝒔
𝐻0 : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠
𝑣𝑠.
𝐻1 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠 𝑒𝑠𝑡á𝑛 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑑𝑜𝑠
𝑆 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 < 0,05, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1

𝑉𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 = 0,6112
𝑁𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 𝑒𝑛 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1 , 𝑝𝑜𝑟𝑞𝑢𝑒 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑝 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 0,05.
𝐿𝑜 𝑐𝑢𝑎𝑙 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎 𝑞𝑢𝑒 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑜𝑠.
Compare los 3 Modelos, ¿Existe una mejora en los modelos al
estratificar los datos por el Genero?
MODELO 1: Datos totales
El coeficiente de determinación no es un valor tan cercano a uno, por lo que desde un
principio se visualiza que el modelo de regresión lineal para estos datos no es tan fiable
para explicar su relación lineal. Es verdad, que dentro del modelo establecido con estos
datos, sus mínimos cuadrados son significativos. Sin embargo, al momento de verificar
los supuestos del modelo, se manifiestan anomalías.
Con respecto a la normalidad se obtuvieron los siguientes resultados, que negaron su
normalidad:
1. A través del histograma de residuos se observa un sesgo, que limita concluir que los
residuos no se comportan normalmente.
2. La metodología de la simetría en base a la desviación estándar con respecto a la media
no cae en los rangos establecidos por la misma, es decir, no hay normalidad.
3. El gráfico Q-Q muestra que los residuos no son completamente normales.
4. En la prueba de Kolmogórov-Smirnov, se observa que no se puede confirmar la
existencia de la normalidad.
Asimismo, a través de una prueba de hipótesis se concluyó que los residuos no se
comportaban con homocedasticidad. No obstante, se afirmó su homogeneidad y su
independencia. Es por esto, que al no cumplirse dos de sus los cuatro criterios evaluados,
y tener un coeficiente de determinación relativamente bajo, que este modelo es poco
fiable para explicar los datos de ambos géneros.

MODELO 2: Datos género femenino


El coeficiente de determinación obtenido del modelo de regresión lineal simple
establecido para los datos del género femenino, y con sus mínimos cuadrados
significativos, no es tan representativo. Esto conlleva a pensar que el modelo no es capaz
de explicar la relación lineal entre el peso y altura de esta muestra de forma fidedigna.
Sin embargo, al verificar los supuestos del modelo, se obtuvieron los siguientes resultados
de la normalidad:
1. El histograma de los residuos tiene un comportamiento similar al de una distribución
normal.
2. En la metodología de tendencia a la simetría, solo se cumple un criterio, por lo que
no se asimila a ser normal.
3. En el gráfico Q-Q, se observa normalidad en los residuos, pero no en su totalidad.
4. La prueba de Kolmogórov-Smirnov afirma que los residuos siguen una distribución
normal.
Es decir, se puede sustentar que estos residuos cumplen con la normalidad. De la misma
forma, los residuos verifican homogeneidad, e independencia. Pero no cumplen con la
prueba de homocedasticidad. Lo que implica, que, no se concretan todos los supuestos
del modelo, y, por lo tanto, no es un modelo fiable capaz de explicar la relación lineal
entre peso y altura. Esto se puede afirmar en conjunto a su coeficiente de determinación,
que es bajo, por lo que, se deben buscar otro modelo más eficiente que pueda explicar la
relación entre ambas variables.
MODELO 3: Datos género masculino
El coeficiente de determinación resultante de los datos del género masculino no se
encuentra muy cercano a 1, lo que significa que no va a ser un modelo completamente
fiable, a pesar de que se puede observar que los mínimos cuadrados son significativos.
Luego de analizar los supuestos del modelo se obtuvo lo siguiente:
La prueba de Kolmogórov-Smirnov afirma que los datos siguen una distribución normal,
pese a que las demás afirman que la distribución no es normal, pero se eligió esta
respuesta debido a que la prueba de Kolmogórov-Smirnov es más concluyente.
Se concluye que la varianza de los errores tiene un comportamiento homocedástico, se
cumple el supuesto de homogeneidad, así como el supuesto de la independencia lineal
entre los residuos. Es así, que se podría concluir, que esta estratificación de género fue
favorable para cumplir los supuestos del modelo de regresión lineal simple. Sin embargo,
se debe tener en cuenta su coeficiente de determinación que no es representativa para el
modelo.

Conclusión
Los modelos cumplen con la mayoría de los supuestos al ser estratificados por géneros,
pero, se podría cuestionar el uso del modelo de regresión lineal simple para explicar la
relación entre el peso y estatura de dichas muestras, porque sus coeficientes de
determinación no son significativos. Es decir, que se debería hacer uso de otro modelo
que pueda explicar mejor esta relación.
Anexos
Estratificación de datos
Datos totales
Femenino
Masculino

También podría gustarte