Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Procesos de fabricacin I
Prof. Mayra Rodrguez.
PROYECTO 2
Integrantes:
Ramn Mrquez 11-10682
Gabriela De Jess 11-10252
Arianna Llanos 11-10530
INTRODUCCION
Este proyecto est comprendido por tres partes. En la primera se tiene como objetivo
principal determinar si la temporada del ao incide en la formacin de diversos tipos de
algas, siendo algunas bastante perjudiciales. Para esto se tienen unas muestras de
agua que fueron tomadas en un ro a lo largo de las distintas temporadas en el ao,
teniendo como variables la velocidad y tamao del mismo, as como tambin los
distintos tipos de algas.
En la segunda parte se continua con la muestra anterior, pero ahora el objetivo principal
es estudia cmo y en que magnitud afectan la velocidad y el tamao del ro en la
aparicin de los distintos tipos de algas.
Finalmente, en la tercera parte, se busca ajustar un modelo de regresin mltiple de
una muestra de precios de distintas viviendas en una localidad especfica, el cual debe
relacionar dichos precios con cada una de las variables dadas. Buscando as la mejor
combinacin de variables que sean suficientes para describir el precio de las viviendas.
Pregunta 1
MxPh
MnO2
NO3
NH4
oPO4
PO4
Chla
n.a1.
n.a2.
n..a3.
n.a4.
n.a5
n.a6
n.a7.
1,5
0,8
0,05
5,8
1,25
2,5
0,2
-33,3
-23,2
-15,7
-14,6
18,3
29,9
-16,1
1er Cuartil
7,8
7,7
11,9
1,4
49,4
18,6
50,3
2,1
-0,7
-0,6
-0,7
-0,6
0,6
-1,6
-1,1
Mediana
8,1
9,8
35,1
2,8
115,7
46,3
115,6
5,5
11,5
7,2
4,9
1,5
5,01
4,5
1,97
Media
8,1
9,1
44,9
3,4
537,7
78,3
146,6
13,1
12,6
6,6
4,3
1,7
5,7
5,9
1,98
3er Cuartil
8,4
10,7
58,5
4,5
235,3
102,8
220,3
18,3
25,1
13,8
8,6
3,5
10,3
12,1
4,8
Maximo
9,5
13,4
391,2
45,7
24064
564,6
771,6
110,5
84,8
34,5
22,8
17,6
29,5
47,2
16,7
Varianza
0,472
2,41
47,1
3,875
2031,6
92,62
129,11
20,26
22,37
10,91
17,16
4,53
7,72
12,4
5,35
Min
C1
Otoo
36
Primavera
48
Verano
43
Invierno
57
Largo
42
Mediano
83
Pequeo
59
Baja
31
Mediana
77
Alta
76
b) Realice una comparacin de varianzas para las temporadas de las algas n.a6.n y
n.a2.n, por medio de pruebas de hiptesis. (Use un nivel de confianza de 99%.
Obtenga el estadstico y p-valor)(1pts.)
Usamos el comando var.test para comparar las varianzas entre cada conjunto de
algas de tipo n.a6 y n.a2 para las diferentes pocas del ao. De este obtenemos el pvalor, el estadstico, y el intervalo de confianza para un 99% de confiabilidad.
Verano:
p-valor=0.5534
F=1.2021
Intervalo: [0.5346258 ; 2.7030874]
En nuestra hiptesis nula asumimos
alternativa que son diferentes.
que
Ho: var(ver6)=var(ver2.)
Ha: var(ver6.)var(ver2.)
= 0.01
/2 =0.005
n=43
Usando una tabla para la distribucin Fisher se obtiene F /2;42;422,30
Regin de Rechazo { F> F/2;42;42} 1.2021>2,30 Falso.
Los datos muestran evidencia para afirmar que las varianzas poblacionales no son
distintas. Ya que entramos en la regin de aceptacin para nuestra hiptesis nula.
Invierno:
p-valor=0.1236
F=1.5141
Intervalo: [0.753093 ; 3.0440418]
Ho: var(inv6)=var(inv2.)
Ha: var(inv6.)var(inv2.)
= 0.01
/2 =0.005
n=57
Usando una tabla para la distribucin Fisher se obtiene F /2;56;561,96
Regin de Rechazo { F> F/2;56;56} 1.5141>1,96 Falso.
Los datos muestran evidencia para afirmar que las varianzas poblacionales no son
distintas. Ya que entramos en la regin de aceptacin para nuestra hiptesis nula.
Otoo:
p-valor= 0.3634
F= 1.3635,
Intervalo: [0.5593607 ; 3.3238570]
Ho: var(oto6)=var(oto2.)
Ha: var(oto6.)var(oto2.)
= 0.01
/2 =0.005
n=36
Usando una tabla para la distribucin Fisher se obtiene F /2;35;352,30
Regin de Rechazo { F> F/2;35;35} 1.5141>2,30 Falso.
Los datos muestran evidencia para afirmar que las varianzas poblacionales no son
distintas. Ya que entramos en la regin de aceptacin para nuestra hiptesis nula.
Primavera:
p-valor= 0.6159
F= 1.1586
Intervalo: [0.5394417 ; 2.4883363]
Ho: var(pri6)=var(pri2.)
Ha: var(pri6.)var(pri2.)
= 0.01
/2 =0.005
n=48
Usando una tabla para la distribucin Fisher se obtiene F /2;47;471,96
Regin de Rechazo { F> F/2;47;47} 1.1586>1,96 Falso.
Los datos muestran evidencia para afirmar que las varianzas poblacionales no son
distintas. Ya que entramos en la regin de aceptacin para nuestra hiptesis nula.
p-valor= 0.1836
t=-1.3447
Intervalo: [-7.688775 ; 1.890191]
En nuestra hiptesis nula asumimos que la media de n.a6. en verano y n.a6 global
son iguales. Como alternativa que son diferentes.
Ho: (ver6)= (n.a6.)
Ha: (ver6) (n.a6.)
= 0.03
/2 =0.015
n1=43 n2=184
Usando una tabla para la distribucin T-de Student se obtiene T2,17
Regin de Rechazo { |T|> T/2;n1+n2-2} 1.3447>2,17 Falso.
Se acepta Ho.
Invierno:
p-valor= 0.3726
t= 0.8964,
Intervalo: [-2.687836; 6.365046]
En nuestra hiptesis nula asumimos que la media de n.a6. en invierno y n.a6 global
son iguales. Como alternativa que son distintas.
Ho: (inv6)= (n.a6.)
Ha: (inv6) (n.a6.)
= 0.03
/2 =0.015
n1=57 n2=184
/2 =0.015
n1=36 n2=184
Usando una tabla para la distribucin T-de Student se obtiene T /22,17
Regin de Rechazo { |T|> T/2;n1+n2-2} 0.2964>2,17 Falso.
Se acepta Ho.
Primavera:
p-valor= 0.98
t= -0.0251,
Intervalo: [-4.104337 ; 4.012004]
En nuestra hiptesis nula asumimos que la media de n.a6. en primavera y n.a6 global
son iguales. Como alternativa que son distintas.
Ho: (pri6)= (n.a6.)
Ha: (pri6) (n.a6.)
= 0.03
/2 =0.015
n1=48 n2=184
Usando una tabla para la distribucin T-de Student se obtiene T /22,17
Regin de Rechazo { |T|> T/2;n1+n2-2} 0.0251>2,17 Falso. Se acepta Ho.
A partir de los resultados obtenidos de las cuatro pruebas de hiptesis realizadas se
observa que no hay evidencia, para decir que la temporada del ao influye en las
medias poblaciones del conjunto de algas tipo n.a6. Ya que en estas pruebas de
hiptesis se aceptaron Ho: (epocai= global), y los intervalos de confianza arrojados por
cada prueba contienen el cero, adems de incluir el valor del estadstico de cada
prueba. Con lo que podemos confirmar que no existen diferencias.
Para n.a2.
Verano:
p-valor= 0.7022
t= 0.3842
Intervalo: [-3.591128 ;5.092126]
En nuestra hiptesis nula asumimos que la media de n.a2. en verano y n.a2 global
son iguales. Como alternativa que son diferentes.
Ho: (ver2)= (n.a2.)
Ha: (ver2) (n.a2.)
= 0.03
/2 =0.015
n1=43 n2=184
Usando una tabla para la distribucin T-de Student se obtiene T /22,17
Regin de Rechazo { |T|> T/2;n1+n2-2} 0,3842>2,17 Falso. Se acepta Ho.
Invierno:
p-valor= 0.2962
t= -1.0507,
Intervalo: [-5.515754 ;1.955265]
En nuestra hiptesis nula asumimos que la media de n.a2. en invierno y n.a2. global
son iguales. Como alternativa que son distintas.
/2 =0.015
n1=57 n2=184
Usando una tabla para la distribucin T-de Student se obtiene T /2;2,17
Regin de Rechazo { |T|> T/2;n1+n2-2} 1.0507>2,17 Falso.
Se acepta Ho.
Otoo:
p-valor= 0.2304
t= -1.213,
Intervalo: [-6.130666;1.808807]
En nuestra hiptesis nula asumimos que la media de n.a2. en otoo y n.a2. global son
iguales. Como alternativa que son distintas.
Ho: (oto2)= (n.a2.)
Ha: (oto2) (n.a2.)
= 0.03
/2 =0.015
n1=36 n2=184
Usando una tabla para la distribucin T-de Student se obtiene T /2;2,17
Regin de Rechazo { |T|> T/2;n1+n2-2} 1.213>2,17 Falso. Se acepta Ho.
Primavera:
p-valor= 0.07283
t= 1.8188
Intervalo: [-0.6603596 ;6.7851894]
En nuestra hiptesis nula asumimos que la media de n.a2 en primavera y n.a2 global
son iguales. Como alternativa que son distintas.
Ho: (pri2)= (n.a2.)
Ha: (pri2) (n.a2.)
= 0.03
/2 =0.015
n1=48 n2=183
Hay evidencia para afirmar que la media poblacional del conjunto de algas de tipo n.a6.
en verano no pasa de cero, con un nivel de confiabilidad de 92%.
Pregunta 2
a) Los investigadores creen que la formacin de algas n.a2. es mayor a n.a6. para cada
tamao del ro. Realizar pruebas de hiptesis para concluir al respecto. Sabiendo que,
los cientficos afirman que la formacin de las algas depende muy poco de otras
zonas(use 95%, obtenga el estadstico y el p-valor) (1pts.)
Usando el comando t.test, comparamos los conjuntos de algas de tipo n.a2 y n.a6. para
los diferentes tamaos de rio, y a travs de una prueba de hiptesis se verifica si la
afirmacin de los investigadores es correcta.
Pequeo:
p-valor= 0.3557
t= 0.9287
Intervalo: [-1.787445 ;4.919461]
Ho: (peq2)- (peq6.)=0
Ha: (peq2)- (peq6.)>0
= 0.05
n=59
Usando una tabla para la distribucin T-de Student se obtiene T ;1141,66
Regin de Rechazo { T> T;114} 0,9287>1,66 Falso. Se acepta Ho.
Mediano:
p-valor= 0.2083
t= -1.2637
Intervalo: [-6.826487 ;1.500706]
Ho: (med2)- (med6.)=0
Ha: (med2)- (med6.)>0
= 0.05
n=83
Usando una tabla para la distribucin T-de Student se obtiene T ;1641,64
Regin de Rechazo { T> T;164} -1.2637>1,64 Falso. Se acepta Ho.
Grande:
p-valor= 0.007794
t= 2.7374
Intervalo: [1.601664 10.;84185]
Ho: (lar2)- (lar6)=0
Ha: (lar2)- (lar6.)>0
= 0.05
n=42
Usando una tabla para la distribucin T-de Student se obtiene T ;1641,66
Regin de Rechazo { T> T;82} 2.7374>1,66 Verdadero. Se rechaza Ho.
Solo hay evidencia para afirmar que la formacin de algas del tipo n.a2 es mayor en
promedio que la media de formacin de algas del tipo n.a6 en ros de gran tamao
(large). Por lo que la afirmacin inicial de los investigadores no es del todo correcta. No
hay pruebas suficientes que demuestren mayor formacin en promedio de n.a2 en los
tamaos pequeos y medianos.
Mediana:
p-valor= 0.6897
t= -0.4001
Intervalo: [-3.916622 ;2.597769]
Ho: (lmed6)- (n.a6)=0
Ha: (lmed6)- (n.a6)>0
= 0.05
n1=77 n2=184
< p-valor 0.05<0.6897 Aceptamos la Hiptesis Nula
Alta:
p-valor= 0.6093
t= - 0.5122
Intervalo: [-4.029626 ;2.370724]
Ho: (high6)- (n.a6)=0
Ha: (high6)- (n.a6)>0
= 0.05
n1=76 n2=184
< p-valor 0.05<0.6093 Aceptamos la Hiptesis Nula
Hay evidencia a un nivel de 95% de confiabilidad, que la velocidad del rio no incide en
la formacin promedio para el conjunto de algas de tipo n.a6. Ya que en las tres
pruebas de hiptesis, se acept la hiptesis nula de que ambos valores medios no
tenan diferencias significativas.
Para n.a2
Baja:
p-valor= 0.2065
t= 1.2811
Intervalo: [-1.304395 ;5.876940]
Ho: (low2)- (n.a2)=0
Ha: (low2)- (n.a2)0
= 0.05
n1=31 n2=184
< p-valor 0.05<0.2065 Aceptamos la Hiptesis Nula
Mediana:
p-valor= 0.03823
t= 2.0894,
Intervalo: [0.1549716 ;5.4893774]
Ho: (lmed2)- (n.a2)=0
Ha: (lmed2)- (n.a2)>0
= 0.05
n1=77 n2=184
>p-valor 0.05>0.03823 Rechazamos la Hiptesis Nula
Alta:
p-valor= 0.01823
t= -2.3913
Intervalo: [-6.9290367;-0.6546974]
Ho: (high2)- (n.a2)=0
Ha: (high2)- (n.a2)>0
= 0.05
n1=76 n2=184
>p-valor 0.05>0.01823 Rechazamos la Hiptesis Nula
Hay evidencia a un nivel de 95% de confiabilidad, para afirmar que la velocidad del rio
incide en la formacin promedio para el conjunto de algas de tipo n.a2. Ya que a partir
de la prueba de hiptesis para la velocidad media y alta, aceptamos la hiptesis
alternativa, de que ambos valores promedios poseen diferencias significativas.
Pregunta 3
La tercera variable que se elimino fue age, siendo su valor de Signif. Codes 0.01, ya
que esta variable no aportaba mucho al modelo. Al eliminarla y obtener la nueva grafica
de nuestro nuevo modelo ajustado observamos que los puntos varan con respecto a
la grfica del modelo anterior y que los residuos siguen teniendo una distribucin
normal, pero optamos por eliminar una ltima variable, para as obtener un modelo con
solo dos variables, lo cual se acerca a lo ideal.
La ltima variable que se elimino fue bedrooms, cuyo valor de Signif. Codes 0.05, ya
que esta variable no posee gran aporte al modelo. Despus de eliminarla y obtener la
nueva grafica observamos que los puntos varan con respecto a la grfica del modelo
anterior, los residuos siguen una distribucin normal y finalmente tenemos un modelo
con dos variables, siendo este nuestro modelo ideal.
c) Con el modelo obtenido Considera que las variables elegidas son suficiente
para explicar toda la variabilidad de los datos? (1pts.)
Con el modelo ajustado que obtuvimos podemos decir que las variables sqft y
vacant_lot si son suficientes para explicar toda la variabilidad de los datos, ya que
obtuvimos un R2 cuyo valor es 0.8102, siendo este un valor bastante bueno ya que
mnimo debamos obtener un R 2 de 0.75. Por lo que finalmente se puede concluir
que tenemos un modelo ajustado ideal, con distribucin normal de los residuos,
con dos variables y un R2 alto.
CONCLUSION
Este proyecto consta de tres partes donde las dos primeras van relacionas a las
muestras de ros tomadas en distintas pocas del ao donde se encontraron diversas
algas nocivas, especialmente el conjunto de algas tipo n.a6.n y n.a2. En principio se
pide demostrar si las varianzas poblacionales de estos dos tipos de algas son distintas,
si la poca del ao es factor en la aparicin promedio de los conjuntos de algas ms
perjudiciales para un ro, y determinar si la formacin promedio de las algas n.a6.n
pasa de cero en el verano. En la segunda parte se relacionan el tamao y velocidad del
ro con la formacin media de los dos tipos de algas. Por ultimo en la parte 3 se busca
la mejor combinacin de variables que representen los precios de las viviendas en una
localidad especfica.
Con respecto a la primera parte del proyecto se pudo concluir que las varianzas del
crecimiento de los tipos de algas n.a6.n y n.a2.n no posee cambios significativos entre
las distintas pocas del ao, ya que por los resultados obtenidos no hay evidencia para
decir que las varianzas entre estos dos tipos sea distinta, para los especmenes n.a6.n
y n.a2.n se pudo evidenciar que las pocas del ao no influyen en el crecimiento medio
de las algas, es decir, cada tipo se producir una cantidad especfica, con muy pocas
diferencias, independientemente la poca del ao en la que nos encontremos. Por
ultimo si existe evidencia para decir que el crecimiento medio del alga tipo n.a6.n no
pasara de cero, es decir no ser muy alto.
En la segunda parte se observ que el crecimiento del tipo de alga n.a2.n es mayor que
el de n.a6.n solo en ros de gran tamao, por ende los investigadores se equivocan al
decir que esto sucede en todos los tamaos de ros, ya que no se encontraron pruebas
para verificar una mayor formacin de algas n.a2, en el conjunto de ros de tamaos
medianos y pequeos. Para el conjunto de algas tipo n.a2.n se dedujo que la velocidad
del ro no incide en su crecimiento pero en el conjunto de algas de tipo n.a6.n si se
encontr evidencia que la velocidad del rio mediana y alta afecta en su crecimiento, ya
que para estos dos casos se encontraron diferencias entre la media local y su media
global.
Por ultimo en la tercera parte del proyecto se logr encontrar un modelo regresivo que
relacione los precios de las viviendas con las variables, al dejar las variables sqft y
vacant_lot se obtuvo un modelo ajustado ideal, con distribucin normal de los residuos,
con dos variables y un R 2 alto como se mencion anteriormente esto nos permitir
ajustar un precio ideal y coherente con las variables y localidad de las viviendas.
Cabe destacar la efectividad del programa utilizado, como es ERRE ya que a pesar de
la cantidad de variables, y tener un tamao de muestra muy grande, para cada uno de
los ejercicios, se determin el comportamiento de las variables ms importantes de
estos conjuntos de datos. Adems usando los conocimientos tericos, tablas de
distribuciones y otras herramientas. Se pudieron hacer verificaciones en nuestros
anlisis obtenidos para estar seguros de que se ha hecho un trabajo confiable.
ANEXOS:
Ejercicio1:
Datos=read.table("C:/Users/Ramon/Downloads/algasfin.norm",header=T)
attach(Datos)
summary(Datos)
temporada=factor(season)
summary(temporada)
tamano=factor(size)
summary(size)
velocidad=factor(speed)
summary(speed)
sqrt(var(mxPH))
sqrt(var(mnO2))
sqrt(var(C1))
sqrt(var(NO3))
sqrt(var(NH4))
sqrt(var(oPO4))
sqrt(var(Chla))
sqrt(var(n.a1.))
sqrt(var(n.a2.))
sqrt(var(n.a3.))
sqrt(var(n.a4.))
sqrt(var(n.a5.))
sqrt(var(n.a6.))
sqrt(var(n.a7.))
inv6=n.a6.[season=="winter"]
ver6=n.a6.[season=="summer"]
pri6=n.a6.[season=="spring"]
oto6=n.a6.[season=="autumn"]
inv2=n.a2.[season=="winter"]
ver2=n.a2.[season=="summer"]
pri2=n.a2.[season=="spring"]
oto2=n.a2.[season=="autumn"]
var.test(inv6,inv2,conf.level=0.99)
var.test(ver6,ver2,conf.level=0.99)
var.test(pri6,pri2,conf.level=0.99)
var.test(oto6,oto2,conf.level=0.99)
t.test(ver6,n.a6.,conf.level=0.97)
t.test(inv6,n.a6.,conf.level=0.97)
t.test(pri6,n.a6.,conf.level=0.97)
t.test(oto6,n.a6.,conf.level=0.97)
t.test(ver2,n.a2.,conf.level=0.97)
t.test(inv2,n.a2.,conf.level=0.97)
t.test(pri2,n.a2.,conf.level=0.97)
t.test(oto2,n.a2.,conf.level=0.97)
t.test(ver6,conf.level=0.92)
Ejercicio 2:
lar6=n.a6.[size=="large"]
med6=n.a6.[size=="medium"]
peq6=n.a6.[size=="small"]
lar2=n.a2.[size=="large"]
med2=n.a2.[size=="medium"]
peq2=n.a2.[size=="small"]
t.test(peq2,peq6,conf.level=0.95)
t.test(med2,med6,conf.level=0.95)
t.test(lar2,lar6,conf.level=0.95)
low6=n.a6.[speed=="low"]
med6=n.a6.[speed=="medium"]
high6=n.a6.[speed=="high"]
t.test(low6,n.a6.,conf.level=0.95)
t.test(med6,n.a6.,conf.level=0.95)
t.test(high6,n.a6.,conf.level=0.95)
low2=n.a2.[speed=="low"]
med2=n.a2.[speed=="medium"]
high2=n.a2.[speed=="high"]
t.test(low2,n.a2.,conf.level=0.95)
t.test(med2,n.a2.,conf.level=0.95)
t.test(high2,n.a2.,conf.level=0.95)
Ejercicio 3:
names(house)
attach(house)
house
pairs(house)
cor(house)
ajuste=lm(price~sqft+age+bedrooms+vacant_lot+large_lot+dist_freeway)
summary(ajuste)
%Borramos large_lot%
ajuste1=lm(price~sqft+age+bedrooms+vacant_lot+dist_freeway)
summary(ajuste1)
%Borramos dist_freeway%
ajuste2=lm(price~sqft+age+bedrooms+vacant_lot)
summary(ajuste2)
%Borramos age%
ajuste3=lm(price~sqft+bedrooms+vacant_lot)
summary(ajuste3)
qqnorm(resid(ajuste3))
qqnorm
qqline(resid(ajuste3))
plot(resid(ajuste3))
abline(h=0)
%Borramos bedrooms%
ajuste4=lm(price~sqft+vacant_lot)
summary(ajuste4)
qqnorm(resid(ajuste4))
qqnorm
qqline(resid(ajuste4))
plot(resid(ajuste4))
abline(h=0)