Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEMA
AUTOR:
Lima, 2021
PERÚ
1
CAPITULO 1: REGRESIÓN LINEAL
Caso:
Estadísticos descriptivos
Desv.
Media Desviación N
VISCOSIDA 1,2378 ,21213 41
D
CARIES 4,9024 2,36437 41
Y observamos que la media de la viscosidad es de 1,2378 y de la caries es de 4,9024.
MODELO DE REGRESIÓN
Coeficientesa
Coeficient
es Estadísticas
Coeficientes no estandariz de
estandarizados ados Correlaciones colinealidad
Orde
Desv. n Parci Part Tolera
Modelo B Error Beta t Sig. cero al e ncia VIF
1 (Constant 1,023 ,068 15,026 ,000
e)
CARIES ,044 ,013 ,488 3,492 ,001 ,488 ,488 ,488 1,000 1,000
a. Variable dependiente: VISCOSIDAD
b.
2
FÓRMULA
Y=1,023+,044X
Debido a que el Sig. Es igual a 0.001 y este es menor al 0.05 se rechaza la hipotesis nula
3
Debido a que el Sig. Es igual a 0.001 y este es menor al 0.05 se rechaza la hipotesis nula
y validamos el modelo de regresión lineal
Correlaciones
VISCOSID
AD CARIES
Correlación de VISCOSIDA 1,000 ,488
Pearson D
CARIES ,488 1,000
Sig. (unilateral) VISCOSIDA . ,001
D
CARIES ,001 .
N VISCOSIDA 41 41
D
CARIES 41 41
Con los datos de correlaciones apreciamos que si hay correlación entre dichas variables
Diagnósticos de colinealidada
Proporciones de
Autovalo Índice de varianza
Modelo Dimensión r condición (Constante) CARIES
1 1 1,903 1,000 ,05 ,05
2 ,097 4,424 ,95 ,95
a. Variable dependiente: VISCOSIDAD
Estadísticas de residuosa
Desv.
Mínimo Máximo Media Desviación N
Valor pronosticado 1,0669 1,5486 1,2378 ,10353 41
Residuo -,32965 ,75792 ,00000 ,18515 41
4
Desv. Valor -1,651 3,002 ,000 1,000 41
pronosticado
Desv. Residuo -1,758 4,042 ,000 ,987 41
a. Variable dependiente: VISCOSIDAD
5
Con la gráfica evaluamos la distancia de los puntos representados con respecto a la
diagonal y observamos que la tendencia va según la diagonal, y no hay valores
dispersados
CONCLUCIONES
Con todos los datos recabados podemos concluir que debido a que el Sig. Es igual a 0.001
y este es menor al 0.05 se rechaza la hipotesis nula y validamos el modelo de regresión
lineal; lo cual nos quiere decir que ha mayor numero de caries dental hay un aumento en
la viscosidad salival
6
CAPITULO 2: MODELO DE REGRESIÓN MÚLTIPLE
Los siguientes datos muestran las medidas de hemoglobina (gramos por 100 ml) en la
sangre de 40 ejemplares de una especie de truchas marrones. Las truchas se habían
dividido al azar en cuatro grupos de 10 y cada grupo se había asignado, también al azar,
a una de cuatro diferentes dependencias de una piscifactoría. En cada criadero se añadía
a la dieta de los peces una cantidad distinta de sulfamerazina por cada cien libras de
comida. En concreto: 0, 5, 10 y 15 gramos (codificados del 1 al 4). Las mediciones de
hemoglobina se tomaron dependencia después de 35 días.
INTERPRETACIÒN
Cada factor tratamiento (y análogamente cada factor de bloqueo) tendrá su propia
columna en la que se registrarán sus niveles o tratamientos, preferiblemente codificados.
De este modo cada fila de la hoja de datos representará los valores para una unidad
experimental: en una columna figurará la respuesta y en cada una de las otras los niveles
de los factores en los que se obtuvo esa respuesta
7
ANOVA
ESTADÍSTICOS DESCRIPTIVOS
INTERPRETACIÓN
Resulta por tanto un contraste significativo a niveles de significación habituales (0,01,
0,05 o 0,10) y se rechaza la hipótesis de igualdad en los niveles medios de hemoglobina
en sangre con las cuatro cantidades de sulfamerazina estudiadas, por lo tanto el intervalo
de confianza que se utilizó el 95% del nivel de confianza.
8
CONCLUSIÓN
Según los estadísticos descriptivos en este caso, la varianza del modelo es la suma de dos
componentes: la varianza residual y la varianza de la población estadística formada por
los niveles del factor. El SPSS proporciona, igual que para efectos fijos, el error estándar
de la respuesta y un intervalo de confianza para la media del modelo construido con este
error estándar y, además, una estimación de la varianza de la población de niveles del
factor tratamiento. La Tabla 1.2 muestra la salida del SPSS cuando se han marcado estos
dos campos.
9
Mediante es uso del SPSS obtendremos
Correlaciones
Calificació
Variables de control Inteligencia n
Nivel Inteligencia Correlación 1,000 ,623
Social Significación . ,004
(bilateral)
gl 0 17
Calificació Correlación ,623 1,000
n Significación ,004 .
(bilateral)
gl 17 0
10
Ahora buscaremos algo parecido estudiar el efecto que tiene sobre la Calificación de una
determinada asignatura (Y) las siguientes variables: Inteligencia (𝑋1) Horas de estudio
(𝑋2) y Nivel social (X3) con la base de datos usada en el problema anterior.
En este caso calcularemos mediante las puntuaciones residuales, la correlación de
Inteligencia y Calificación, eliminando toda influencia del Nivel social.
Así que lo primero que se hace es calcular la ecuación de regresión que liga la variable
X1 (Inteligencia) con X3 (Nivel social). Resulta ser:
11
Coeficientes
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Desv. Error Beta t Sig.
1 (Constante) 87,840 6,121 14,351 ,000
Nivel Social 7,872 1,876 ,703 4,197 ,001
a. Variable dependiente: Inteligencia
En términos de SPSS simplemente son los residuales de esta ecuación (lo que queda de
la inteligencia que no logra explicar el nivel social. Marcamos “Guardar” en el anterior
modelo de regresión.
12
Y haciendo lo propio con la variable Y (Calificación). Calculamos la ecuación de
regresión que liga Calificación con Nivel Social. Tenemos:
En términos de SPSS:
Coeficientes
13
Coeficientes
Coeficientes no estandarizado
estandarizados s
Modelo B Desv. Error Beta t Sig.
1 (Constante) 3,355 ,926 3,624 ,002
Nivel Social ,808 ,284 ,557 2,848 ,011
a. Variable dependiente: Calificación
14
Marcamos “Guardar” en el anterior modelo de regresión y luego residuos no
estandarizados. Así con ello obtuvimos los siguientes datos transformados en los que se
observa los datos residuales 1 y 2.
Calculando la correlación entre ambas variables:
Mediante SPSS
Correlaciones
Unstandardiz Unstandardiz
ed Residual ed Residual
Unstandardized Correlación de 1 ,623**
Residual Pearson
15
Sig. (bilateral) ,003
N 20 20
Unstandardized Correlación de ,623** 1
Residual Pearson
Sig. (bilateral) ,003
N 20 20
**. La correlación es significativa en el nivel 0,01 (bilateral).
CONCLUSIÓN:
Para entender la correlaciòn parcial se debe calcular sus coeficientes ya que ellos
describen la relación existente entre la variables mientras se controlan los efectos de una
o mas variables en este caso vimos la relacion que tienen ciertas variables controlando
mediante la la variable de nivel social para ello nos ayudamos del programa SPSS que
no ayuda de forma practica para evitar hacer calculos engorrosos y entender como se
relacionan mediante Pearson y residuos estandarizados.
Base de datos:
https://docs.google.com/spreadsheets/d/1_2cGPw1C5xij8Wl7MeU3zjUyW8GALY0D/
edit#gid=220154961
INTERPRETACIÓN
Con estos datos el primer cálculo mediante un programa de tratamiento estadístico
consistiría en obtener la matriz de correlación lineal entre las tres variables (la endógena
y las dos exógenas). Dicha matriz se muestra en el siguiente cuadro
Matriz Correlaciones
Y X1 X2
Y 1 0.99223021 0.99223239
X1 0.99223021 1 0.99999997
X2 0.99223239 0.99999997 1
16
Como se puede observar ambas variables explicativas están muy correlacionadas con la
endógena, pero también lo están entre ellas, con una correlación que es casi igual a 1.
Aparte de la correlación, podemos calcular el factor de inflación de la varianza. Para ello
realizamos una regresión de la variable X 2 en función de X3. Los resultados de la
estimación realizada se muestran en el siguiente cuadro
Dependent Variable: X2
Method: Least Squares
Sample: 1 35
lncluded observations: 35
Variable Coefficient Std. Error t-Statistic Prob.
C - 9.01E-05 0.000250 -0.360171 0.7210
X3 0.249998 1.1 3E- 05 222085.49 0.0000
R-squared 1.000000 Mean dependent var 5.515941
Adjusted R- 1.000000 S.D. dependent var 0.280455
squared
S.E. of 7.40E- 05 Akaike info criterion - 16.128350
regression
Sum squared 1.81E- 07 Schwarz criterion - 16.039480
resid
Log likelihood 284.246200 F-statistic 4.88E+08
Durbin-Watson 1.711263 Prob (F -statistic) 0.000000
stat
CONCLUSIÓN
A partir de estos resultados podemos ver que la correlación entre ambas variables es igual
a 1. Por lo tanto, y dado que el factor de inflación de la varianza se calcula como y dicho
valor tiende al infinito
1
𝐹𝐼𝑉(𝑋𝑗) =
1 − 𝑅2
De esta forma hemos comprobado por dos métodos diferentes que la estimación del
modelo propuesto está sujeta a la presencia de multicolinealidad aproximada muy alta,
casi exacta.
Base de datos:
https://docs.google.com/spreadsheets/d/1p86G5bPh0G9M7Lnf5Vv2ho9Qdtove_sR/edit
#gid=2052537254
17
CAPITULO 3: PRUEBAS NO PARAMETRICAS
Para hallar la frecuencia esperada en cada recuadro aplicaremos el numero total de la fila
multiplicado por el numero total de la columna, todo dividido entre la suma total que en
este caso seria 150.
18
Ahora necesitamos hallar las contribuciones par poder determinar el estadístico, con la
formula valor observado menos el valor esperado , toto elevado al cuadrado y dividido
entre el valor esperado.
19
PASO 4 : REGLA DE DECISIÓN
La zona de rechazo representa un 3% y la zona de no rechazo el complemento un 97%.
El grado d libertad se determina por fila menos uno por columna menos uno, con 4 grados
de libertad. En base a eso hallamos el valor critico usando el comando
=inv.chicuad.cd(probabilidad ; grados de libertad) en Excel , obteniendo 10.7119.
El estadístico es 47.86 se encuentra en la zona de rechazo en la zona roja.
PASO 5 : DESICIÓN
Se rechaza la hipótesis nula.
PASO 6 : CONCLUSIÓN
Con un nivel de significancia del 3%, se afirma que existe asociación entre la calidad del
producto y el nuevo empaque.
Backus reporta que actualmente el Perú es el país con mayor demanda de cerveza en la
región y va en tendencia creciente. Por tal motivo están considerando realizar una feria
de cerveza llamada October Fest, donde los asistentes disfrutarán de una variedad de
cervezas y platos típicos de la gastronomía peruana.
a) La probabilidad de que más de 7 clientes de cierto supermercado consume cerveza, de
una muestra de 20 clientes, sea superior al 70%. Teniendo en cuenta que la probabilidad
de que un cliente consuma cerveza es del 40%.
Distribución Binomial
1. Se define la variable X
X: número de clientes que consumen cerveza
2. Parámetros
n = 20 (muestra de clientes)
p = 0.40 (porcentaje de consumo de cerveza)
20
3. Probabilidad
En este paso usaremos el comando en Excel:
=DISTR.BINOM.N(núm_éxito;ensayos;prob_éxito;acumulado)
=DISTR.BINOM.N(7;20;0.4;VERDADERO)=0.4159= 41.59%
21
supermercado consuman cerveza, de una muestra de 20 clientes, sea mayor al 70%, ya
que se obtuvo 58.41 %.
Solo se cumplió la segunda condición de que la probabilidad de que en un día se vendan
más de 8 cajas de cervezas en cierto supermercado sea más del 60%, (66.72%).
DISTRIBUCIÓN NORMAL
Cada año Chevrolet contrata cerca de 400 empleados nuevos para sus cuatro fábricas en
EEUU. El director de personal se pregunta si la población de las puntuaciones en los
exámenes de los solicitantes tendrá una distribución normal.
Se muestra la puntuación obtenida por los integrantes de una muestra aleatoria de 50
solicitantes de empleo en la prueba de aptitudes de Chevrolet.
71 66 61 65 54 93 60 86 70 70
73 73 55 63 56 62 76 54 82 79
64 61 61 56 80 85 58 53 68 76
65 62 90 69 76 79 77 54 64 74
65 65 61 56 63 80 56 71 79 84
Desviación = 10.41406
media= 68.42
22
Calcular el número esperado de ocurrencias en cada uno de los intervalos de valores
definidos. Multiplicar el tamaño de la muestra por la probabilidad de que una variable
aleatoria normal pertenezca al intervalo.
La frecuencia observada lo contamos de acuerdo a los intervalos de notas en la tabla
principal, y la frecuencia esperada es en cada caso el 10% * 50 que es el numero de la
muestra.
Todos estos datos nos ayudaran a hallar el chi cuadrado.
23
Probabilidad
La regla del rechazo nos indica si esto es menor a 0.05 o el valor especificado se rechaza
la hipotesis nula
CONCLUSIÓN
No es posible rechazar la hipótesis de que las puntuaciones obtenidas por los empleados
siguen una distribución normal con media de 68.42 y desviación estándar de 10.41.
24
CAPITULO 4: PRUEBA DE RANGOS CON SIGNO DE WILCOXON
Se tienen 153 sillas que se compraron hace 1 año atrás a un proveedor nuevo, las cuales
se midieron sus alturas cuando estaban nuevas, ahora se decidio volverlas a medir para
saber si en 1año de uso debido al uso han disminuido su altura o siguen de la misma
altura, esto con el fin de volver comprarle sillas al mismo proveedor o comprarle a otro.
Hipótesis:
H0: No hay diferencias entre las medidas de las alturas sillas compradas hace 1 año
atrás antes y las tomadas ahora.
H1: Hay diferencias entre las medidas de las alturas sillas compradas hace 1 año
atrás antes y las tomadas ahora.
Estadísticos descriptivos
Percentiles
Desv. Mínim Máxim 50
N Media Desviación o o 25 (Mediana) 75
SILLAS 1 año 153 44,202 17,35366 14,00 89,00 39,500 46,0000 51,000
atras 6 0 0
SILLAS 153 52,630 5,60919 35,00 66,00 48,500 53,0000 56,500
ahora 7 0 0
Rangos
Rango Suma de
N promedio rangos
SILLAS ahora – Rangos negativos 38a 65,16 2476,00
SILLAS 1 año atrás Rangos positivos 110b 77,73 8550,00
Empates 5c
Total 153
a. SILLAS ahora < SILLAS 1 año atrás
b. SILLAS ahora > SILLAS 1 año atrás
c. SILLAS ahora = SILLAS 1 año atrás
25
Estadísticos de pruebaa
SILLAS
ahora –
SILLAS 1año
atrás
Z -5,815b
Sig. ,000
asintótica(bilateral)
a. Prueba de rangos con signo de
Wilcoxon
b. Se basa en rangos negativos.
Frecuencias
N
SILLAS ahora – Diferencias 38
SILLAS 1 año atrás negativasa
Diferencias positivasb 110
Empatesc 5
Total 153
a. SILLAS ahora < SILLAS 1 año atrás
b. SILLAS ahora > SILLAS 1 año atrás
c. SILLAS ahora = SILLAS 1 año atrás
Estadísticos de pruebaa
SILLAS ahora-
SILLAS 1 año
atrás
Z -5,836
Sig. asintótica(bilateral) ,000
a. Prueba de los signos
INTERPRETACIÓN:
En la tabla titulada “Rangos” vemos que se analizaron 153 pares (las 153 sillas que se
estudiaron). Hubo 38 rangos negativos, 110 positivos y 5 empates.
26
En la tabla titulada “Estadísticos de contrastes” se observa la fila Sig. asintót.
(biateral) y su valor de 0,000.
Podemos decir que, como el valor de p (Sig. asintót. (biateral)) es menor que 0,05,
entonces se rechaza la hipótesis nula y se concluye que hay evidencias suficientes
para plantear que las alturas de la silla han variado en 1 año con un nivel de
significación del 5%.
PRUEBA DE U DE MANN-WHITNEY
Se desea conocer si el tamaño de la atura de las sillas varían en relación al tipo de silla,
para lo cual seleccionaron dos muestras aleatorias, una constituida por 153 sillas de
madera y la otra por153 sillas de plástico. Pruebe la hipótesis de que las sillas de madera
y de plástico difieren en ambos grupos. Use α = 0.05.
Hipótesis:
H0: Med sillas = Medsillasplastico
H1: Medsillas ≠ Medsillasplastico
donde:
Medsillas: mediana de sillas
Medsillasplastico: mediana de sillas de plastico
Rangos
Rango Suma de
GRUPO N promedio rangos
SILLAS 1,00 75 77,79 5834,50
2,00 78 76,24 5946,50
Total 153
Estadísticos de pruebaa
SILLAS
U de Mann-Whitney 2865,500
W de Wilcoxon 5946,500
Z -,218
Sig. ,828
asintótica(bilateral)
a. Variable de agrupación: GRUPO
INTERPRETACIÓN:
Como puede apreciarse el estadígrafo de U de Mann-Whitney fue de 2865,500 y el valor
de p (Sig. asintót. (bilateral)) es ,828 por lo que se acepta la hipótesis nula y se concluye
que la altura de las sillas de madera y las de plastico no difieren, con un nivel de
significación del 5%.
27
PRUEBA DE H DE KRUSKAL-WALLIS
Se desea determinar si las medidas de las alturas de las sillas de 3 tipos de sillas de
madera difieren entre sí, para lo cual se hicieron las determinaciones que se
expresan a continuación:
Hipótesis:
H0: Med1= Med2=Med3
H1: Medi ≠ Medj al menos para un par (i,j)
Hipótesis:
H0: Las muestras provienen de poblaciones idénticas
H1: Las muestras provienen de poblaciones diferentes
Rangos
Rango
GRUPOS N promedio
SILLA 1,00 51 98,33
S 2,00 51 71,85
3,00 51 60,81
Total 153
Estadísticos de pruebaa,b
SILLAS
H de Kruskal- 19,347
Wallis
gl 2
Sig. asintótica ,000
a. Prueba de Kruskal Wallis
b. Variable de agrupación:
GRUPOS
INTERPRETACIÓN:
En la tabla titulada “Rangos” vemos que se analizaron 153 alturas de sillas , 51en cada
grupo. El rango promedio mayor fue para el Grupo 1, en tanto el menor fue para el Grupo
3.
28
En la tabla titulada “Estadístico de contraste” se observa el valor del estadístico H, que
para 2 grados de libertad fue de 19,347. Se observa en la fila Sig. asintót. y su valor de
0,000.
Podemos decir que, como el valor de p (Sig. asintót.) es menor que 0,05, entonces se
rechaza la hipótesis nula y se concluye que con un nivel de significación del 5%, la altura
de las sillas difiere entre los 3 cuatro tipos de sillas
.
Ahora deberá realizarse la prueba Kruskal-Wallis a posteriori para ver dónde están las
verdaderas diferencias
PRUEBAS NO PARAMÉTRICAS PRUEBA DE KRUSKAL-WALLIS A POST
HOC
29
Comparaciones por parejas de GRUPOS
Desv.
Estadístico de Desv. Estadístico de
Sample 1-Sample 2 prueba Error prueba Sig. Sig. ajustadaa
3,00-2,00 11,039 8,767 1,259 ,208 ,624
3,00-1,00 37,520 8,767 4,279 ,000 ,000
2,00-1,00 26,480 8,767 3,020 ,003 ,008
Cada fila prueba la hipótesis nula que las distribuciones de la Muestra 1 y la Muestra 2 son
iguales.
Se visualizan las significaciones asintóticas (pruebas bilaterales). El nivel de significación
es de ,05.
a. Los valores de significación se han ajustado mediante la corrección Bonferroni para
varias pruebas.
30
31
INTERPRETACION
En la Prueba Post Hoc de Bonferroni de Kruskal-Wallis,se aprecian diferencias
estadísticamente significativas al 5% de nivel de significación entre los tratamientos 3
-1 y 2-1 (p-valor<0,05 ).
32