Está en la página 1de 13

UNIVERSIDAD AUTÓNOMA

CHAPINGO

DEPARTAMENTO DE ENSEÑANZA,
INVESTIGACIÓN Y SERVICIO EN SUELOS

MAESTRÍA EN CIENCIAS EN AGROFORESTERÍA PARA EL


DESARROLLO SOSTENIBLE

DISEÑOS EXPERIMENTALES

Tarea 3

Ejercicio 7 de regresión

Presenta

Neidy Pérez Álvarez

Profesor

Dr. Julio César Buendía Espinoza

Chapingo, México a 19 de octubre de 2017


I. Desarrollo del problema siete manualmente

En cierta compañía se desea establecer una relación de causalidad entre el resultado de la


evaluación de la destreza manual de los trabajadores, para cierta operación de ensamble, y la tasa
de producción de la operación. Los datos se muestran a continuación:

Evaluación Tasa de producción Evaluación Tasa de producción


53 45 39 43
36 43 67 76
88 89 54 59
84 79 73 77
86 84 65 56
64 66 29 28
45 49 52 51
48 48 22 27
51 60 76 76
37 32 32 34

1. Proponga el modelo adecuado y estime los parámetros de la


regresión ( 0 1)

Las fórmulas que se ocuparán tanto , , para


empezar, se tienen que estimar SPXY y SPXX.

68740
=6973.9

=7394.95

=7049.8

=7049.8-
=472.9764637

=7049.8

Sustituyendo los valores en =0.943062495 y usando los y

(55.05) en , queda como en

= 4.184409631, por lo que el modelo a

partir de el modelo establecido es Y = 4.184409631 + 0.943062495 X.

2. Realice un análisis de varianza para el modelo


Para realizar el anova se sustituyen los datos de cuadro, de acuerdo a los valores
obtenidos anteriormente. Cabe decir, que k, representa el número de parámetros,
que en nuestro caso son dos (Evaluación y Tasa de producción), por lo tanto, K=2 y
n=20 , por el número de datos.
Fuente de Grados de Suma de Cuadrado medio F calculada (Fcal) F de tablas
variación (F.V.) libertad (G.L.) cuadrados (S:C) (C.M.) (Ftab)/ P

Modelo/regresión K S.C. Regresión P-value ó

Fα (v1, v2)

Error n-k-1 S. C. Error

Total n-1 S. C. Total


Fuente de Grados de Suma de Cuadrado medio (C.M.) F calculada (Fcal) F de tablas
variación (F.V.) libertad cuadrados (S:C) (Ftab)/ P
(G.L.)
Modelo/regresión K =2 6576.823536 P-value ó
=3288.411768 =118.194
Fα (2, 17)=3.59

Error n-k-1 =20-2- 472.9764637


1=17 27.82214492

Total n-1=20-1=19 7049.8

Para hacer la búsqueda de F de tablas, se toma la coordenada de v1, v2, donde V1,
son los grados de libertad de la regresión y V2 los grados de libertad de la regresión del
error, por lo que la coordenada de búsqueda es (2,17), a un alfa del 0.05, lo que da un
valor de 3.59; concluyendo que se rechaza Ho si Fcal> Fα (v1, v2), entonces se dice que el
modelo de regresión es adecuado para describir el comportamiento de los datos.

3. Pruebe la significancia estadística de los parámetros estimados (0,


1) a un nivel de significancia del 5% (Ho: 1=0 vs H1 y Ho: 0 = 0 vs H1 )

15.82065946

Como tc es ≥ tα/2,n-k (2.1), entonces se rechaza Ho.

1. Obtenga un intervalo de confianza del 95% para 0 y  1.

Para obtener la varianza, se tiene que sustituir los datos de X en la ecuación


propuesta de la regresión que permite sacar el predicho, después al dato
observado de Yi se le resta el predicho y se eleva al cuadrado, para
finalmente sumarlo todo.

Evaluación Tasa de Y estimada Yi- (Yi-


producción Yestimada Yestimada)^2 Xi-X promedio (Xi-promedio)^2
X Y

53 45 54.1667219 -9.16672188 84.0287901 -2.05 4.2025

36 43 38.1346595 4.86534054 23.6715385 -19.05 362.9025


88 89 87.1739092 1.82609078 3.33460753 32.95 1085.7025

84 79 83.4016592 -4.40165924 19.3746041 28.95 838.1025

86 84 85.2877842 -1.28778423 1.65838823 30.95 957.9025

64 66 64.5404093 1.45959067 2.13040491 8.95 80.1025

45 49 46.6222219 2.37777808 5.65382859 -10.05 101.0025

48 48 49.4514094 -1.45140941 2.10658927 -7.05 49.7025

39 43 40.9638469 2.03615305 4.14591924 -16.05 257.6025

67 76 67.3695968 8.63040318 74.4838591 11.95 142.8025

54 59 55.1097844 3.89021562 15.1337776 -1.05 1.1025

73 77 73.0279718 3.97202821 15.7770081 17.95 322.2025

65 56 65.4834718 -9.48347183 89.9362379 9.95 99.0025

29 28 31.533222 -3.533222 12.4836577 -26.05 678.6025

52 51 53.2236594 -2.22365939 4.94466108 -3.05 9.3025

22 27 24.9317845 2.06821547 4.27751524 -33.05 1092.3025

76 76 75.8571593 0.14284072 0.02040347 20.95 438.9025

32 34 34.3624095 -0.36240948 0.13134063 -23.05 531.3025

51 60 52.2805969 7.71940311 59.5891843 -4.05 16.4025

37 32 39.077722 -7.07772196 50.0941481 -18.05 325.8025

1101 1122 1122 -5.6843E-14 472.976464 5.68434E-14 7394.95

55.05 56.1 56.1 -2.8422E-15 23.6488232 2.84217E-15 369.7475

Ecuación a sustituir: Y = 4.184409631 + 0.943062495 X

Sustituyendo los valores se tiene:

26.2764702

0.059609557
3.475932355

Después se sustituyen para tener que:

3.475932355) = 8.2511; -6.3649

Como intervalos de confianza, donde el valor de se obtiene dividiendo los cuantiles

a la mitad (0.05/2= 0.025) y como coordenadas n-k, es decir 20-2= 18, por lo que el cuantil
es 2.1.

2. Realice una gráfica de los errores vs la estimación para Y

3. ¿Se cumplen los supuestos para los errores? (=0, 2 , normalidad)?

 Prueba de Q-Q plot


El Q-Q Normal presenta simultáneamente para cada elemento el valor observado y el valor
esperado bajo el supuesto de normalidad. Si los datos proceden de una distribución normal
los puntos aparecen agrupados en torno a la línea recta esperada. El Q-Q Normal sin
tendencia se basa en las diferencias entre los valores observados y los valores esperados bajo
la hipótesis de normalidad. Si estas diferencias se distribuyen aleatoriamente alrededor del
eje de abscisas puede suponerse que la hipótesis de normalidad es sostenible.
Además, el gráfico Q-Q permite comparar la función de distribución acumulativa (CDF,
cumulative distribution function) de la muestra (eje de abscisas) con la función de distribución
acumulativa de una distribución normal con la misma media y desviación estándar (eje de
ordenadas). En el caso de una muestra que siga una distribución normal, se debe observar una
alineación con la primera línea bisectriz. En los demás casos se deben observar algunas
desviaciones de la línea bisectriz.
Una recomendación, es hacer una tabla de 6 hileras y n +1 filas, que permita ordenar y
observar más fácilmente los datos necesarios.
Después, en la primera columna (Xi) se ponen los valores correspondientes de las
observaciones para x, y la segunda(fi), corresponde a la frecuencia absoluta de cada Xi.
Mientras la columna tres (Fi) representa a la frecuencia absoluta acumulada.
Para la columna cuatro (Hi) se ubican los valores de la frecuencia relativa acumulada de las
Xi, es decir cada valor de (fi) dividido entre n (número de observaciones).

En el caso de la columna cinco (Z obs) se necesita estandarizar cada dato, es decir, la


diferencia entre cada Xi y la media; el resultado obtenido, se divide entre la desviación
estándar de X.
Y la última columna (Z esp) es generada a partir de los valores de la columna (Z obs) en la
operación inversa normal estándar.

Tabla de datos para gráfico Q-Q plot


Xi fi Fi Hi Z (obs) Z (pred)
53 1 1 0.05 -0.103911363 -1.644853627
36 1 2 0.1 -0.965615347 -1.281551566
88 1 3 0.15 1.670185075 -1.036433389
84 1 4 0.2 1.467431196 -0.841621234
86 1 5 0.25 1.568808136 -0.67448975
64 1 6 0.3 0.453661803 -0.524400513
45 1 7 0.35 -0.50941912 -0.385320466
48 1 8 0.4 -0.357353711 -0.253347103
Para hacer la gráfica, se
39 1 9 0.45 -0.813549938 -0.125661347
toma como X los valores de
(Z obs) y Y a (Z 67 1 10 0.5 0.605727212 0 esp).
54 1 11 0.55 -0.053222893 0.125661347
73 1 12 0.6 0.90985803 0.253347103
65 1 13 0.65 0.504350273 0.385320466
29 1 14 0.7 -1.320434634 0.524400513
 52 1 15 0.75 -0.154599832 0.67448975 Prueba de
22 1 16 0.8 -1.675253922 0.841621234 Leverange
76 1 17 0.85 1.061923439 1.036433389
El valor predicho de
32 1 18 0.9 -1.168369225 1.281551566
un dato puede
51 1 19 0.95 -0.205288302 1.644853627
escribirse como
37 1 20 1 -0.914926877 #¡NUM!
combinación lineal de las observaciones
Donde en este caso se tiene que

Se tiene que recordad que SXX es

Por lo que ;

Donde “s” es la cantidad de observaciones con predictor igual a Xi en la muestra. La


cantidad hii se denomina Leverange del dado i-ésimo. Es la medida que resuma cuán lejos
está el valor de Xi de la media muestral de X. Mide de alguna manera, cuanto aporta la
observación I-ésima a la varianza muestral de las X.
Leverange quiere decir palanca, o influencia, concepto que no depende del valor de Yi
observado.

Por lo que se tiene que es (verificar problema de

intervalos de confianza) y 5

Por tanto, para sacar el valor de Leverange de cada i´esimo se necesita conocer los valores
correspondientes a la columna (Xi - )2 de cada dato, que se sustituye cada uno de estos
valores en la fórmula general del modelo:

Entonces, para el problema siete se tienen los siguientes valores:


hii (Leverange)
0.00556829
0.05407437
0.15181675
0.11833444
0.13453468
0.01583205
0.01865831
0.01172114
0.03983492
0.02431081
0.00514909
0.04857061
0.01838785
0.09676566
0.00625795
0.15270925
0.06435165
0.07684667
0.00721807
0.04905743
1.005
0.005

 Prueba de Shapiro-Wills

Dada una muestra aleatoria simple de tamaño n, (x1,x2,…,xn), se quiere saber si procede


de una población con distribución normal. Este problema es muy frecuente, ya que son
muchas las pruebas de inferencia estadística que exigen como condición imprescindible
que la población de procedencia de la muestra sea normal.

El contraste que se desarrolla en esta sección recibe el nombre de Shapiro-Wilks. El


método consiste en comenzar ordenando la muestra de menor a mayor, obteniendo el
nuevo vector muestral (x(1),x(2),…,x(n))(x(1),x(2),…,x(n)), siendo x(j)x(j) el jj-ésimo valor
muestral tras la ordenación; a continuación se calcula el estadístico de contraste
siendo S2 la varianza muestral,

y los coeficientes ain suelen aparecer tabulados en los manuales. Obtenido el valor


de WW, su distribución permite calcular el valor crítico del test que permite tomar una
decisión sobre la normalidad de la muestra.

Para aceptar o rechazar la hipótesis nula de normalidad, que representamos por H0.


Si pc<0.05pc<0.05, se rechazará la hipótesis con un nivel de significación del 5%;
si pc<0.01pc<0.01, se rechazará con un nivel del 1%.

Para hacer esta prueba es conveniente elaborar una tabla con 7 columnas y n+1 filas
(facilita la resolución de la prueba). En la primera columna (Xi) se ponen los valores de Y
(variable independiente).
En la segunda columna (X ,1,2,3) se ponen los valores de X,
es decir, Xi, pero de menor a mayor. En la columna
tres (X 3,2,1) se ubican los valores de las Xi, pero ahora de
mayor a menor.

En la columna cuatro (X 1,2,3) - (X 3,2,1) se hace una resta entre los valores de la columna tres
(X 3,2,1) menos cada uno de los valores de la fila dos (X ,1,2,3).

En la columna cinco (Ձi) se escriben los coeficientes de las tablas de Shapiro Wilk, que se
buscan en las tablas los valores correspondientes para un n (número de datos) determinado;
estos valores se ubican en la columna respetando el orden de tablas y en caso de ser
necesario, se completa la columna con ceros.
La columna seis (Ձi * X 3,2,1) es el cociente de multiplicar cada valor de ( Ձi) por cada valor de la
columna tres (X 3,2,1). Y la última fila (Xi - )2 sale a partir de elevar al cuadrado la resta de cada
valor de Xi menos su media.

Después se hacen la sumatoria de las columnas seis y siete (Ձi * X 3,2,1) y (Xi - )2.
Para la estimación se toma el valor de la sumatoria de la columna ( Ձi * X 3,2,1) y se eleva al
cuadrado, posteriormente se divide entre el valor de la sumatoria de la columna (Xi - )2.

El test nos devuelve una probabilidad crítica muy grande, 0.9617, lo que no nos da
evidencias suficientes para rechazar la hipótesis de normalidad.
Tabla para generar los datos de la prueba de Shapiro WILK
Xi (X ,1,2,3) (X 3,2,1) (X ,1,2,3) - (X (Ձi) (Ձi) * (X ,1,2,3) - (X 3,2,1) (Xi - media)2.
3,2,1)
53 22 88 66 0.4734 31.2444 4.2025
36 29 86 57 0.3211 18.3027 362.9025
88 32 84 52 0.2565 13.338 1085.7025
84 36 76 40 0.2085 8.34 838.1025
86 37 73 36 0.1686 6.0696 957.9025
64 39 67 28 0.1334 3.7352 80.1025
45 45 65 20 0.1013 2.026 101.0025
48 48 64 16 0.0711 1.1376 49.7025
39 51 54 3 0.0422 0.1266 257.6025
67 52 53 1 0.014 0.014 142.8025
54 53 52 -1 0 0 1.1025
73 54 51 -3 0 0 322.2025
65 64 48 -16 0 0 99.0025
29 65 45 -20 0 0 678.6025
52 67 39 -28 0 0 9.3025
22 73 37 -36 0 0 1092.3025
76 76 36 -40 0 0 438.9025
32 84 32 -52 0 0 531.3025
51 86 29 -57 0 0 16.4025
37 88 22 -66 0 0 325.8025
SUMA 84.3341 7394.95
II. Bibliografía
Castillo, M. L. (2015). Regresión lineal simple. En M. L. Castillo, Introducción a la estadística
experimental (págs. 195-209). Chapingo, Méx. : Universidad Autónoma Chapingo.

Valdez y Alfaro, I. P. (19 de Septiembre de 2017). PROBABILIDAD Y ESTADÍSTICA E INFERENCIA


ESTADÍSTICA. Obtenido de PROBABILIDAD Y ESTADÍSTICA E INFERENCIA ESTADÍSTICA:
http://dcb.fi-c.unam.mx/profesores/irene/

BIBLIOGRAPHY TecnoStats. (2015). TecnoStats.net. Obtenido de Prueba de Shapiro-Wilks:


http://riotorto.users.sourceforge.net/R/noparam_shapiro/

XLSTAT. (2015). Centro de soporte XLSTAT. Obtenido de Muestreo de distribuciones y pruebas de


normalidad: https://help.xlstat.com/customer/es/portal/articles/2062038-muestreo-de-
distribuciones-y-pruebas-de-normalidad-en-excel?b_id=9283

También podría gustarte