Está en la página 1de 14

SOLUCIÓN TALLER ESTADÍSTICA APLICADA

Usar las salidas del software R para dar solución a las siguientes situaciones

1. Se cree que la pureza del oxígeno producido con un proceso de fraccionamiento está
relacionada con el porcentaje de hidrocarburos en el condensador principal de la unidad
de procesamiento. A continuación los datos de veinte muestras :

Pureza (%) Hidrocarburos (%)


86.91 1.02
89.85 1.11
90.28 1.43
86.34 1.11
92.58 1.01
87.33 0.95
86.29 1.11
91.86 0.87
95.61 1.43
89.86 1.02
96.73 1.46
99.42 1.55
98.66 1.55
96.07 1.55
93.65 1.40
87.31 1.15
95.00 1.01
96.85 0.99
85.20 0.95
90.56 0.98

a. Ajustar un modelo de regresión lineal simple a los datos.

pureza=77.86+11.8 (hidro)

b. Probar la significancia del modelo, usando la prueba T y F.


Prueba de F

H 0 : β i= βi +1=β i+n=0

H 1 : β i+ n ≠ 0

Para esto miramos el valor del F-stadistic y lo comparamos con el valor crítico al nivel
de confianza de 0.05, observamos que el valor calculado 11.47 que es mayor que el
valor tabulado (4.1). Así rechazamos Ho. Decimos que el modelo es significativo en sus
variables.

Prueba de T
Parámetro estimado del porcentaje de hidrocarburos. Se desea probar
H 0 : β 1=0 vs H 1 : β1 ≠ 0

El estadístico de interés en este caso es:

βˇ1
T=
S √ c ii

11.8
T= =3.38
3.485

Si se escoge nivel de significancia 0.05, el valor critico de t es = 2.1. Así se rechazaría


la hipótesis nula, y se llega a la conclusión que hay una relación lineal entre el
porcentaje de hidrocarburos y el porcentaje de pureza del oxígeno.

c. Determinar un intervalo de confianza de 95% para la pendiente.


Así un I.C al 95% para la pendiente es (4.4%; 19.1%)

d. Calcular el coeficiente de correlación y el coeficiente de determinación, e intérprete.

Coeficiente de Determinación:

SSr 148.31
R 2= = =0.38
SST 232.83

Por tanto el 38% de la variabilidad de pureza del oxígeno es explicada por el


porcentaje de hidrocarburos. Es decir una proporción de variabilidad relativamente alta.

Coeficiente de Correlación

r= √ R2=0.62

Podemos notar que el grado de asociación positiva entre el porcentaje de pureza del
oxígeno y el porcentaje de hidrocarburo es muy cercano a 1.

e. Verifique si el valor del coeficiente de correlación de la muestra tiene una magnitud


suficiente para indicar que en la población las dos variables de interés están
correlacionadas.

Como el coeficiente de correlación es positivo, es decir, de 0.62 cercano a 1, no es perfecta


la asociación entre el porcentaje de pureza del oxígeno y el porcentaje de hidrocarburos.

2. Myers y Montgomery (Response Surface Methodology, 1995,pp. 267-268) describe un


experimento para determinar la influencia de:
X1 - Temperatura del baño ácido
X2 - Concentración del ácido de cascada
X3 - Temperatura del agua
X4 - Concentración de sulfuro
X5 - Cantidad de blanqueador de cloro
Sobre una medida adecuada de la blancura del rayón (y). Los ingenieros que hicieron
este experimento desean minimizar la medida. Los resultados experimentales se
muestran a continuación

Temperatura Concentración Temperatura Concentración Cantidad de γ


del ácido del ácido del agua de sulfuro blanqueador
35 0.3 82 0.2 0.3 76.5
35 0.3 82 0.3 0.5 76.0
35 0.3 88 0.2 0.5 79.9
35 0.3 88 0.3 0.3 83.5
35 0.7 82 0.2 0.5 89.5
35 0.7 82 0.3 0.3 84.2
35 0.7 88 0.2 0.3 85.7
35 0.7 88 0.3 0.5 99.5
55 0.3 82 0.2 0.5 89.4
55 0.3 82 0.3 0.3 97.5
55 0.3 88 0.2 0.3 103.2
55 0.3 88 0.3 0.5 108.7
55 0.7 82 0.2 0.3 115.2
55 0.7 82 0.3 0.5 111.5
55 0.7 88 0.2 0.5 102.3
55 0.7 88 0.3 0.3 108.1
25 0.5 85 0.25 0.4 80.2
65 0.5 85 0.25 0.4 89.1
45 0.1 85 0.25 0.4 77.2
45 0.9 85 0.25 0.4 85.1
45 0.5 79 0.25 0.4 71.5
45 0.5 91 0.25 0.4 84.5
45 0.5 85 0.15 0.4 77.5
45 0.5 85 0.35 0.4 79.2
45 0.5 85 0.25 0.2 71.0
45 0.5 85 0.25 0.6 90.2

Hacer un análisis detallado de los resultados.

Miremos análisis por regresión estimando el siguiente modelo:

blancura ( y )=β+ β1 Ta+ β 2 Ca+ β 3 Tea+ β 4 Cs+ β 5 Cb

Así:
De lo anterior podemos notar el porcentaje de variabilidad explicado por el modelo, es decir de
un 48.2%. Haciendo prueba de significancia del modelo o prueba F podemos ver que el F
calculado de 3.72 es mayor al valor critico tabulado de 2.54, por tal se rechaza la hipótesis nula
de que todos los parámetros estimados son iguales a cero. Obteniendo el siguiente modelo
específico:

blancura ( y )=−35.2+ 0.7Ta +20.2 Ca+ 0.79Tea+25.5 Cs+17.2Cb

Y obtenemos intervalos de confianza al 95% para los parámetros:

3. Davidson (“Update on Ozone Trends in California´s South Coast Air Basin”, Air Waste,
43, 226, 1993) estudió las concentraciones de ozono en la Cuenca aérea de la costa sur
de California, durante los años 1976 a 1992. Cree que la cantidad de días en las que las
concentraciones de ozono fueron mayores que 0.20 ppm (la respuesta) depende del
índice metereológico estacional, que es el promedio estacional de la temperatura con
850 milibars (el regresor). La siguiente tabla muestra los datos

Año Días Índice


1976 91 16.7
1977 105 17.1
1978 106 18.2
1979 108 18.1
1980 88 17.2
1981 91 18.2
1982 58 16.0
1983 82 17.2
1984 81 18.0
1985 65 17.2
1986 61 16.9
1987 48 17.1
1988 61 18.2
1989 43 17.3
1990 33 17.5
1991 36 16.6

a. Trazar un diagrama de dispersión con los datos.

b. Estimar la ecuación de predicción.


Número de dias=−192.894+ 15.296(indice)

c. Probar la significancia de la regresión.


Prueba de F

H 0 : β i= βi +1=β i+n=0

H 1 : β i+ n ≠ 0

Así miramos el valor del F-stadistic y lo comparamos con el valor crítico al nivel de
confianza de 0.05, observamos que el valor calculado 2.36 que es menor que el valor
tabulado (4.5). Así no rechazamos Ho. Decimos que el modelo no es significativo en
sus variables. El índice meteorológico estacional no es significativo para explicar el
número de días en que la concentración de ozono fue mayor a 0.20 ppm

β 1 , e interprete.
d. Construya el intervalo de confianza para

Así con un nivel de confianza del 95% podemos decir que el parámetro B1 se encuentra
entre (-4.9; 35.5)

e. Verifique si el valor del coeficiente de correlación de la muestra tiene una magnitud


suficiente para indicar que en la población las dos variables de interés están
correlacionadas.
Veamos el gráfico de dispersion entre los dias y el indice meteorologico

Nos lo ratifica el anterior gráfico, no hay grado de asociación entre las variables en
cuestión, el índice meteorológico no es significativo para explicar el número de días en
que la concentración de ozono fue mayor a 0.20ppm

4. Un embotellador de bebidas gaseosas analiza las rutas de servicio de las máquinas


expendedoras de su sistema de distribución. Le interesa predecir el tiempo necesario
para que el representante de ruta atienda las máquinas expendedoras en una tienda.
Esta actividad de servicio consiste en abastecer la máquina con productos
embotellados, y algo de mantenimiento o limpieza. El ingeniero industrial responsable
del estudio ha sugerido que las dos variables más importantes que afectan el tiempo de
entrega Y son la cantidad de cajas de producto abastecido, X 1, y la distancia caminada
por el representante, X2. El ingeniero ha reunido 25 observaciones de tiempo de entrega
que se ven en la siguiente tabla. Se ajustará el modelo de regresión lineal múltiple.
Observación Tipo de entrega Cantidad Distancia
numero (minutos) de cajas (pies)
γ ×1 ×2

1 16.68 7 560
2 11.50 3 220
3 12.03 3 340
4 14.88 4 80
5 13.75 6 150
6 18.11 7 330
7 8.00 2 110
8 17.83 7 210
9 79.24 30 1460
10 21.50 5 605
11 40.33 16 688
12 21.00 10 215
13 13.50 4 255
14 19.75 6 462
15 24.00 9 448
16 29.00 10 776
17 15.35 6 200
18 19.00 7 132
19 9.50 3 36
20 35.10 17 770
21 17.90 10 140
22 52.32 26 810
23 18.75 9 450
24 19.83 8 635
25 10.75 4 150

a. Obtenga la ecuación de Regresión Múltiple estimada.


Así:
time=2.34 +1.61 ( ¿ cajas )+ 0.014(Distancia)

b. Interprete los coeficientes de regresión.

β 1 pendiente para el número de cajas, podemos interpretarlo, por cada


Del parámetro
unidad adicional de cajas transportada el tiempo de atención de las máquinas
expendedoras aumenta 1.61 minutos, hay una relación positiva entre estas dos
variables.
β2
Del parámetro pendiente para la distancia recorrida, podemos interpretarlo, por
cada pie adicional recorrido el tiempo de atención de las máquinas expendedoras
aumenta 0.014 minutos, hay una relación positiva entre estas dos variables.

c. Realice una prueba de hipótesis para verificar la relación lineal entre las tres variables,
use α =0.01 .

Realicemos prueba F, con el nivel de significancia del 99%

H 0 : β i= βi +1=β i+n=0

H 1 : β i+ n ≠ 0

Así miramos el valor del F-stadistic y lo comparamos con el valor crítico al nivel de
confianza de 0.01, observamos que el valor calculado 261.2 que es mayor que el
valor tabulado (5.71). Así rechazamos Ho. Decimos que el modelo es significativo en
sus variables. La distancia en pies recorrida y el número de cajas son variables
significativo para explicar el tiempo de atención de las máquinas expendedoras.

d. Evalúe la fuerza de la relación lineal entre “Y” y las variables independientes de manera
individual, use α =0.01 .

Parámetro estimado del número de cajas. Se desea probar


H 0 : β 1=0 vs H 1 : β1 ≠ 0

El estadístico de interés en este caso es:

βˇ1
T=
S √ c ii

1.61
T= =9.4
0.17

Si se escoge nivel de significancia 0.01, el valor critico de t es = 2.83. Así se rechazaría


la hipótesis nula, y se llega a la conclusión que hay una relación lineal entre el número
de cajas abastecidas y el tiempo de atención a las máquinas expendedoras.

Parámetro estimado de la distancia caminada. Se desea probar

H 0 : β 1=0 vs H 1 : β1 ≠ 0

El estadístico de interés en este caso es:

βˇ1
T=
S √ c ii

0.014
T= =3.9
0.003
Si se escoge nivel de significancia 0.01, el valor critico de t es = 2.83. Así se rechazaría
la hipótesis nula, y se llega a la conclusión que hay una relación lineal entre la
distancia caminada y el tiempo de atención a las máquinas expendedoras.

β i , e interprete.
e. Construya los intervalos de confianza de 95% para los

Así con un nivel de confianza del 95% podemos decir que los parámetros para el número
de cajas abastecidas y la distancia caminada (pies) se encuentran en los siguientes
intervalos de confianza.

Cajas (1.2; 1.96)


Distancia (0.006; 0.02)

5. La siguiente tabla representa los resultados de un experimento para comparar cuatro


técnicas de mezclado diferentes (1, 2, 3, 4) sobre la resistencia de tensión de cuatro
clases de cemento (A, B, C, D) ¿Existe algún indicio de qué técnica de mezclado afecta la
resistencia?

MEZCLADO A B C D
1 3129 3000 2865 2890
2 3200 3000 2975 3150
3 2800 2900 2985 3050
4 2600 2700 2600 2765

Miremos análisis de varianza

Realizando la interacción podemos evidenciar el indicio de que la técnica de mezclado número


dos afecta positivamente la resistencia de tensión del cemento A. Podemos verlo en el
siguiente gráfico.
6. Se pueden emplear dos tipos diferentes de puntas en un probador de dureza Rockwell.
Se seleccionan ocho lingotes de una aleación de níquel y cada uno se prueba dos veces
con cada punta. En la siguiente tabla se encuentran las lecturas de dureza en la escala C
de Rockwell utilice α =0.05 para determinar si las dos puntas producen o no las
mismas lecturas de pureza.

LINGOTE PUNTA I PUNTA II


1 63 60
2 52 51
3 58 56
4 60 59
5 55 58
6 57 54
7 53 52 Bajo esto
8 59 61 podemos
determinar que las das puntas producen en promedio distintas lecturas de pureza.

7. Una empresa reparadora de lavadoras desea estudiar desea estudiar el efecto el efecto de la
marca y el centro de servicio de reparación en minutos. Se eligieron tres marcas de lavadoras y
tres centros de servicio. Cada centro fue asignado para efectuar una reparación de dos
lavadoras de cada marca. Los resultados se muestran en la siguiente tabla.

Marca A Marca B Marca C


Centro 1 52 36 48 56 59 50
Centro 2 51 40 61 50 58 55
Centro 3 37 40 44 40 65 60

a. ¿Existe algún efecto debido a las marcas?


b. Si los centros son homogéneos entre sí, responda de nuevo el literal a).
c. ¿Existe algún efecto debido a los centros de servicios?
d. ¿Existe algún efecto debido a la interacción?
Nota: para el ítem a) y b), considere una sola observación, resultado de hallar el promedio entre
los dos registros, por ejemplo: (52+36)/2 = 44

8. En un estudio de 2989 fallecimientos por cáncer, se registró el lugar de cada uno (casa,
cuidado intensivo en hospitales, hospital de atención permanente) y la edad al fallecimiento,
resultando en la tabla dada de frecuencia en dos sentidos. Mediante el uso de un nivel de
significancia de .01, pruebe la hipótesis nula que de la edad y el lugar del fallecimiento son
independientes.

Lugar

Casa Cuidado Atención


E Intensivo permanente
d 15 - 54 94 418 23
a 55 - 64 116 524 34
d 65 - 74 156 581 109
Más de 74 138 558 238

9. Se clasificaron 445 estudiantes según su frecuencia de consumo de mariguana, y consumo de


alcohol y de drogas sicotrópicas por parte de los padres. ¿Sugiere la información que los
consumos de padres t estudiante son independientes en la población de la que se sacó la
muestra? Utilice el método del valor ρ para llegar a una conclusión.

Nivel de consumo de mariguana del estudiante

Consumo Nunca Ocasional Regular


de alcohol Ninguno 141 54 40
y drogas Uno 68 44 51
Ambos 17 11 19
de padres

También podría gustarte