Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Ejercicios
Estadística Ejercicios
MODELO DE REGRESION
DIAGRAMA DE DISPERSIÓN Y RECTA DE REGRESIÓN
PASOS
-Gráficos
- Cuadro de diálogos antiguos.
-Dispersión /Puntos
OTRA OPCION
-Analizar
- Regresión
- Estimación curvilínea
- Escoger la recta de regresión
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON (r)
Con el diagrama de dispersión o de puntos se observa cuan relacionados están las dos
variables. R varía entre -1 y 1, mientras más se acerca a 0, la relación de ambas variables es
más débil.
COVARIANZA (Sxy)
Esta nos informa si la nube de puntos es creciente (directa) o decreciente(inversa), pero no nos
muestra el grado de correlación como lo hace el coeficiente de correlación.
- Sxy > 0
- Sxy < 0
- Sxy = 0
HIPÓTESIS
1. Plantear Ho y H1
2. Establecer el nivel de significancia
3. Escoger el estadístico de prueba = Cálculo del estadístico de contraste
4. Regla de decisión (Toma la decisión)
5. Conclusiones
EJERCICIO 1: HIPÓTESIS PARA LA MEDIA (VARIABLES INDEPENDIENTES)
Se tiene los montos de miles de dólares de la compra de bonos del exterior de 20 empresas del
sector minero, en las cuales 10 de dichas empresas utilizaron la bolsa de valores y las 10 no la
utilizaron.
SUPUESTOS:
MONTO BV
237 SI
289 SI
257 SI
228 SI
303 SI
275 SI
262 SI
304 SI
244 SI
233 SI
194 NO
240 NO
230 NO
186 NO
265 NO
222 NO
242 NO
281 NO
240 NO
212 NO
1. Planteamos hipótesis.
Ho: U1=U2: Las medias de ambos grupos son iguales
Ho: U1≠U2: Las medias de ambos grupos son diferentes.
2. Escogemos significancia
1-α=95%
Α=5% = 0.05
3. Prueba estadística (Prueba T para muestras independientes. )
Estadísticas de grupo
BOLSADE Desv. Desv. Error
VALORES N Media Desviación promedio
MONTOS EN SI 10 263,20 28,479 9,006
DÓLARES NO 10 231,20 29,393 9,295
4. Toma de decisión
No importa si asumimos que las varianzas son iguales o desiguales ya que tienen el
mismo valor en ambos casos, sin embargo, si prestamos atención. P-value = 0.862 lo
que significa aceptar la Ho: σ 2 1=σ 2 2
H1: σ 2 ≠ 4
Hallamos s2=10.57
Los empleados de una compañía eligen uno de tres posibles planes de pensión. La
gerencia desea saber con α= 0.05 si la preferencia en la elección es independiente de
la clasificación del contrato (asalariados y por horas) De una muestra aleatoria de 500
empleados se obtiene la siguiente tabla de contingencia.
1. Planteamos hipótesis.
Ho: Hay independencia de variables. La preferencia de la elección de planes es
independiente de la clasificación del contrato.
H1: Hay dependencia de variables.
2. Escogemos significancia
1-α=95%
Α=5% = 0.05
3. Prueba estadística (Prueba de ji-cuadrado- Tablas cruzadas)
4. Toma de decisión
Si CHI-cuadrado empírico es mayor que el chi cuadrado teórico entonces rechazamos
la Ho. Por otro lado, p-value = 0.000 lo cual indica que es menos a 0.05. Entonces de
esta manera rechazamos H0: Independencia de variables.
5: Conclusión:
Las preferencias de los planes dependen de la clasificación salarial de los trabajadores
en la empresa.
¿Qué tipo de inversión se necesita en las regiones tipificadas como pobres? Determinar el tipo
de inversión necesaria por regiones. (Tomamos en cuenta
1. Planteamos hipótesis.
Ho: El tipo de inversión necesaria para salir de la pobreza de las regiones estipuladas
es diferente y de acuerdo a su realidad.
H1: El tipo de inversión necesaria para salir de la pobreza de las regiones estipuladas
es semejante y de acuerdo a su realidad.
2. Escogemos significancia
1-α=95%
Α=5% = 0.05
3. Prueba estadística (Análisis de correspondencia)
Generamos una ecuación modelo para encontrar valores en los puntos de una función lineal.
Calculo de ANOVA
CORRELACIONES
Expresa hasta que punto dos variables están relacionadas linealmente, también indica la
dirección de la relación.
Por lo tanto, afirmamos que hay una relación inversa entre la variable X y Y.
P-value = 0.00, indica que rechazamos Ho. Por lo tanto, Los datos analizados no tienen una
distribución normal. Y la variable endógena (salarios ) presenta un sesgo positivo.
La prueba de Shapiro – Wilk es viable cuando usemos muestras con más de 50 datos.
Como seguimos rechazando la normalidad, finalmente, escogemos los datos que más se
asemejan a una normalidad y este el es logaritmo neperiano del salario.
Aceptamos Ho: La varianza de los grupos son iguales. Por lo tanto elegimos Lsalario como
variable endógena.
REGRESIÓN DE LA EDAD CON EL GÉNERO
Edad =f(género)
LSALARIO =f(género)
DISCRIMINACIÓN SALARIAL
Mediante el cuadro de coeficientes podemos establecer la función del salario con respecto al
género.
H0: µ=0
H1: µ≠0
COMPARAR MEDIAS
Analizar Comparar medias prueba t para una muestra Abrimos la caja de dialogo y
pasamos la variable click en opciones ingresamos el nivel de confianza continuar y
Ok
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Y ,212 15 ,068 ,881 15 ,049
a. Corrección de significación de Lilliefors
p-value ˃alfa
Datos apareados
1. Visualiar la data:
L
SALARIO=F(EDAD, NIVEL EDUCATIVO, GENERO, TTP)
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
SALARIOS ,118 500 ,000 ,898 500 ,000
a. Corrección de significación de Lilliefors
ANOVAa
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 1,418 1 1,418 ,012 ,913b
Residuo 58571,532 498 117,614
Total 58572,950 499
a. Variable dependiente: EDAD
b. Predictores: (Constante), GENERO
Regresión*lineal y pasas
ANOVAa
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 28,285 1 28,285 26,594 ,000b
Residuo 529,673 498 1,064
Total 557,958 499
a. Variable dependiente: NIVEL EDUCATIVO
b. Predictores: (Constante), GENERO
ANOVAa
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 7,305 1 7,305 39,010 ,000b
Residuo 93,260 498 ,187
Total 100,566 499
a. Variable dependiente: LSALARIO
b. Predictores: (Constante), GENERO
REGRESION MULTIPLE
Coeficientesa
Coeficientes no Coeficientes 95.0% intervalo de
estandarizados estandarizados confianza para B
Límite Límite
Modelo B Desv. Error Beta t Sig. inferior superior
1 (Constante) 3,053 ,055 55,168 ,000 2,944 3,161
GENERO -,041 ,025 -,044 -1,663 ,097 -,090 ,007
EDAD ,031 ,001 ,739 24,041 ,000 ,028 ,033
NIVEL ,233 ,011 ,549 21,874 ,000 ,212 ,254
EDUCATIVO
TRABAJO A -,365 ,032 -,369 - ,000 -,427 -,303
TIEMPO PARCIAL 11,576
a. Variable dependiente: LSALARIO
Que es una variable dammy? O ficticia: le vamos generar damis para ver que ocurrió en
los puntas de la imagen
Coeficientesa
Coeficientes no Coeficientes 95.0% intervalo de
estandarizados estandarizados confianza para B
Límite Límite
Modelo B Desv. Error Beta t Sig. inferior superior
1 (Constante) 3,609 ,051 70,680 ,000 3,508 3,709
GENERO -,125 ,026 -,134 -4,797 ,000 -,176 -,074
EDAD ,021 ,001 ,517 19,001 ,000 ,019 ,024
DE2 ,166 ,031 ,164 5,416 ,000 ,106 ,226
DE3 ,375 ,033 ,340 11,316 ,000 ,310 ,440
DE4 ,754 ,040 ,565 18,806 ,000 ,675 ,832
a. Variable dependiente: LSALARIO
Descriptivos
Error
Edadrec Estadístico estándar
Salarios menos de Media 83,17 2,909
30 95% de intervalo de confianza para la Límite inferior 77,40
media Límite 88,93
superior
Media recortada al 5% 81,08
Mediana 77,00
Varianza 871,531
Desviación estándar 29,522
Mínimo 38
Máximo 182
Rango 144
Rango intercuartil 33
Asimetría 1,233 ,238
Curtosis 1,680 ,472
30-50 Media 113,63 2,971
95% de intervalo de confianza para la Límite inferior 107,78
media Límite 119,48
superior
Media recortada al 5% 109,51
Mediana 99,00
Varianza 2798,911
Desviación estándar 52,905
Mínimo 32
Máximo 384
Rango 352
Rango intercuartil 66
Asimetría 1,400 ,137
Curtosis 2,885 ,273
más de 50 Media 160,79 6,560
95% de intervalo de confianza para la Límite inferior 147,73
media Límite 173,85
superior
Media recortada al 5% 157,13
Mediana 155,00
Varianza 3443,106
Desviación estándar 58,678
Mínimo 68
Máximo 364
Rango 296
Rango intercuartil 77
Asimetría ,950 ,269
Curtosis 1,276 ,532
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Edadrec Estadístico gl Sig. Estadístico gl Sig.
Salarios menos de 30 ,114 103 ,002 ,908 103 ,000
30-50 ,113 317 ,000 ,900 317 ,000
más de 50 ,080 80 ,200* ,944 80 ,002
*. Esto es un límite inferior de la significación verdadera.
a. Corrección de significación de Lilliefors
Comparaciones múltiples
Variable dependiente: Salarios
Intervalo de confianza al
95%
(J) Diferencia de Desv. Límite Límite
(I) Edadrec Edadrec medias (I-J) Error Sig. inferior superior
HSD menos de 30-50 -30,466 *
5,677 ,000 -43,81 -17,12
Tukey 30 más de 50 -77,622* 7,460 ,000 -95,16 -60,09
30-50 menos de 30,466* 5,677 ,000 17,12 43,81
30
más de 50 -47,157* 6,263 ,000 -61,88 -32,43
más de 50 menos de 77,622*
7,460 ,000 60,09 95,16
30
30-50 47,157* 6,263 ,000 32,43 61,88
Bonferroni menos de 30-50 -30,466* 5,677 ,000 -44,10 -16,83
30 más de 50 -77,622 *
7,460 ,000 -95,54 -59,70
30-50 menos de 30,466*
5,677 ,000 16,83 44,10
30
más de 50 -47,157* 6,263 ,000 -62,20 -32,11
más de 50 menos de 77,622* 7,460 ,000 59,70 95,54
30
30-50 47,157* 6,263 ,000 32,11 62,20
*. La diferencia de medias es significativa en el nivel 0.05.