Está en la página 1de 13

Actividad 2.

Ejercicios

Jesica Monserrat Celaya Tejeda

Universidad del Valle de México

FECHA DE ENTREGA: 1/AGOSTO/22

REYNOSA, TAMAULIPAS.

26/JULIO/22

ANÁLISIS DE DATOS

Notas de autor

Jesica Celaya Tejeda, Ingeniería Industrial y de Sistemas, Universidad del Valle de México

La correspondencia relacionada con esta investigación debe ser dirigida a Jesica Celaya

Tejeda

Universidad del Valle de México, Av Conductores 503-A, Peña Guerra, 66490 San
Nicolás de los Garza, N.L.

Contacto: A870204227@my.uvm.edu.mx
Desarrollo

1.-Planteamiento general
Como se sabe, le modelo de regresión múltiple se utiliza para predecir el
comportamiento de una determinada variable –variable dependiente o criterio- en
función de otras variables – independientes o explicativas (también regresores o
predictors.

Las variables consideradas son:


Inteligencia, horas, nivel social y calificacion

Supongamos que deseamos conocer la incidencia del conjunto de variables


(Inteligencia, Horas de estudio y Nivel Social) sobre las calificaciones obtenidas.
Nos ofrece el siguiente conjunto de resultado que iremos desmenuzando.
Comencemos por el resumen del modelo:
El modelo explica un 86.47%, que una vez corregido por el efecto de la muestra y
de las variables independientes resulta ser 79.70%. Por otro lado, el error típico de
la estimación (raíz cuadrada de la varianza no explicada) resulta ser de 0.584.
La prueba de análisis de la varianza, que nos muestra si la varianza explicada por
la regresión es significativamente distinta (y superior) a la varianza no explicada
es:

Por otro lado, el modelo de regresión será:


La ecuación de la regresión en directas es:

2.- Métodos para la selección de variables

En los resultados anteriores se ha seguido un determinado procedimiento de


inclusión de variables. Si se observa el cuadro de diálogo correspondiente
aparecerá en Método, Introducir. Se quiere decir con ello que se consideren
simultáneamente todas la variables especificadas. Este procedimiento no es el
más aconsejable, a menos que haya razones teóricas suficientes. Con frecuencia
nos encontramos con variables redundantes o bien irrelevantes, que no aportan
nada al modelo. Las primeras, porque ya se tiene en otras variables la información
que necesitamos, y las segundas, porque adolecen precisamente de falta de
información alguna.
Probemos en lo que sigue el procedimiento Por pasos. En el cuadro de diálogo de
Regresión lineal marcamos lo siguiente:
En la siguiente tabla aparecen las variables que configuran los diferentes modelos:

Los coeficientes de regresión de los distintos modelos:


Además, se nos proporciona un análisis de la varianza para cada uno de los modelos:

3.- Correlaciones parciales y semiparciales


Las correlaciones parciales y semiparciales tienen especial interés por permitir
conocer las contribuciones específicas de las distintas variables al margen al
margen de lo que comparten con otras variables. Frecuentemente las predictores
están correlacionados entre sí y es importante saber deslindar lo que aportan unos
y otros. No es fácil saber a dónde atribuir la parte compartida, y frecuentemente
son criterios teóricos –sustantivos del tema en cuestión- y no criterios estadísticos
los que nos permiten asignar las contribuciones de los diferentes regresores a la
explicación de la variable dependiente. Vamos a ver en primer lugar el conjunto de
correlaciones existentes en estos datos. Vamos al comando
Correlacionar/bivariadas
Cuyos resultados son:
La correlación parcial no puede ejecutarse en minitab.

4.- Regresión por bloques


Obsérvese que en las correlaciones semiparciales observamos el incremento en
términos de R cuadrado cuando incrementamos variables en un determinado
modelo. Si tenemos una serie de variables independientes y establecemos una
jerarquía entre ellas, podremos calcular la contribución de cada una de ellas según
la importancia (por razones teóricas) que hemos asignado. La primera variable
contribuirá en todo su valor, ya que consideramos que es la más importantes, las
segunda contribuirá en lo que le deja la primera (eliminando de ella lo que aporta
la primera), la tercera, su valor eliminado el aporte de las dos primeras y así
sucesivamente. Esto lo podemos resolver recurriendo a la regresión por bloques.
Vamos colocando las variables independientes por orden y vemos su contribución
en los diferentes bloques. Si en cada bloque indicamos al modelo de regresión
que nos calcule el cambio en R cuadrado veremos las distintas contribuciones de
las variables en tales bloques. Supongamos que nuestra jerarquía es: 1º.- Nivel
social, 2º.- Horas de estudio y 3º.- Inteligencia:
El resultado:
Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante -11213 6020 -1.86 0.100

Inteligencia 0.1468 0.0540 2.72 0.026 1.00

Selección de términos escalonada


α a entrar = 0.15, α a retirar = 0.15
Ningún término puede entrar al modelo.

Coeficientes
Término Coef EE del coef. Valor T Valor p FIV
Constante 2094 1557 1.34 0.216

Niv. Social 1.074 0.513 2.09 0.070 1.00

Resumen del modelo


R-cuadrado
S R-cuadrado R-cuadrado(ajustado) (pred)
1697.07 48.06% 41.57% 15.84%

Resumen del modelo


R-cuadrado
S R-cuadrado R-cuadrado(ajustado) (pred)
1893.62 35.33% 27.25% 0.00%
Observamos que todas las variables contribuyen de manera significativa.
5.- Multicolinealidad en las variables explicativas
En el ejemplo que estamos tratando, para conocer la posible colinealidad
marcaremos en Regresión lineal/estadísticos, Diagnósticos de colinealidad:

Término Coef EE del coef. Valor T Valor p FIV


Constante 2094 1557 1.34 0.216

Niv. Social 1.074 0.513 2.09 0.070 1.00


Inteligencia 0.1468 0.0540 2.72 0.026 1.00

Se observa que se ha añadido a lo que ya conocemos otros indicadores tales


como la Tolerancia y el FIV. Las dos variales muestran colinealidad, sin embargo
la variable horas de estudio no aparece en el estudio.

Correlaciones en parejas de Pearson


Muestra 1 Muestra 2 N Correlación IC de 95% para ρ Valor p
Horas Inteligencia 10 -0.132 (-0.703, 0.543) 0.717
Niv. Social Inteligencia 10 0.821 (0.396, 0.956) 0.004
Calif Inteligencia 10 0.693 (0.113, 0.921) 0.026
Niv. Social Horas 10 -0.027 (-0.646, 0.613) 0.940
Calif Horas 10 0.230 (-0.467, 0.751) 0.523
Calif Niv. Social 10 0.594 (-0.056, 0.891) 0.070

Se observa que el mayor indice de correlación entre las variables es .594 el cual
no llega a 1, por lo tanto no hay colinealidad, al menos en un sentido importante,
que altere la estimación mínimo cuadrática de nuestro modelo.
Conclusión

Como conclusion puedo decir que estos métodos estadísticos nos ayudan a lograr
un análisis exhaustivo sobre cualquien planteamiento que se quiera estudiar.
Son de gran importancia debido a que realziando estas operaciones podemos
demostrar que nuestro estudio es veraz y que grado de error se pueden tener en
los resultados.
Se puede desarrollar cualquier tema a partir de una matriz de datos la cual nos de
la información clave para obtener resultados específicos y detallados.
Con la ayuda del programa MINITAB se pueden obtener facilmente los resultados
para cualquier studio estadístico, sin embargo los resultados que se obtuvieron no
fueron los mismos que los del ejemplo, con esto se puede deducir que puede
haber ciertdo grado de error en los datos.
Bibliografía

Spiegel, M. y Stephens, L. (2004). Estadística (4ta Edic.) [Archivo PDF].


Recuperado de
https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnx1
bGlzZXNtZXJjYWRvdmFsZW56dWVsYXxneDo2YWZjYTIwOTVhYzRlMDY0

Matefacil (Productor). (16 de octubre de 2015). Ecuación de Correlación Lineal y


Coeficiente de Correlación (Ejercicio 1) [Archivo video]. Recuperado de
https://www.youtube.com/watch?v=fNeXC8d5En8

También podría gustarte