Está en la página 1de 21

kc

Probabilidad y estadística
Taller de Resolución de Problemas
Elaborado por:
Gibran David Bañuelos Vega
22400735
Jorge Luis Méndez Reyes
22400794
Yaremi Adalid López Llanos
22400786
Cano Rodríguez Dahana Jamilete
22400738
Bryan Javier Ruiz Carillo 22400873
Equipo:
H
Maestro:
Albino Rodríguez Díaz
Grupo:
2A

24 de febrero del 2023


11.14. Contenido de O2 disuelto. Se tomaron muestras de agua de un río en cuatro lugares diferentes para
determinar si la cantidad de oxígeno disuelto, una medida de la contaminación del agua, variaba de un lugar a
otro. Los lugares 1 y 2 se seleccionaron arriba de una planta industrial, una cerca de la orilla y la otra a mitad
del río; el lugar 3 estaba adyacente a la descarga del agua industrial para la planta; y el lugar 4 estaba
ligeramente aguas abajo a mitad del río. Cinco especímenes de agua se seleccionaron al azar en cada lugar,
pero un espécimen, correspondiente al lugar 4, se perdió en el laboratorio. Los datos una salida impresa de
computadora de MS EXCEL del análisis de varianza se dan a continuación (a mayor contaminación, lecturas más
bajas de oxígeno disuelto)

Lugar Contenido medio de oxigeno disuelto


1 5.9 6.1 6.3 6.1 6.0
2 6.3 6.6 6.4 6.4 6.5
3 4.8 4.3 5.0 4.7 5.1
44M 6.0 6.2 6.1 5.8

a. ¿Los datos dan suficiente evidencia para indicar una diferencia en el contenido medio de oxigeno disuelto
para los cuatro lugares?
b. Compare el contenido medio de oxígeno disuelto a mitad del rio arriba de la planta, con el contenido medio
adyacente a la planta (lugar 2 contra lugar 3).
Elaborado: Gibran David Bañuelos Vega

1. Comprensión del enunciado del problema.


En este caso se quiere contrastar si existe diferencia en el contenido medio de oxígeno
disuelto en los 4 lugares. Por tanto, y dado que se dispone de datos para diferentes
lugares (en este caso 2 o más), es factible utilizar un análisis de la varianza, contraste para
la media de una variable continua normal en dos o más grupos, donde el factor es el lugar,
que contiene cuatro lugares, y la variable numérica a analizar es el contenido medio de
oxígeno disuelto.
2. Elaboración del plan.
1- Realizar una investigación y lectura para entender el ejercicio y saber que
formulas se necesitan.
2- De la investigación anterior se deduce que las hipótesis a contrastar para
analizar si existen diferencias entre los k grupos son:
H0 : Todas las medias poblaciones de los k grupos son iguales
H1 : Al menos una media poblacional difiere
→β
→ α = 0.05
H0 : µ0 = µ1 = µ2 = µ3 = µ4 = µ5
H1 : Al menos una igualdad no es cierta
→β
→ α = 0.05
3- Luego El estadístico experimental se basará e una F de de Snedecor con k − 1 y
n − k grados de libertad para el numerador y denominador respectivamente.
Por tanto, se debe comparar dicho estadístico Fexpt con el correspondiente
punto crítico Fteo. Estos se definen como:

4- Por ultimo realizaremos diferentes pruebas pertinentes con su respectiva


grafica para comparar resultados.

3. Ejecución del plan de resolución

METODO Análisis de Varianza

Hipótesis nula Todas las medias son iguales

Hipótesis alterna No todas las medias son iguales

Nivel de significancia α = 0.05

 Como podemos ver en el análisis de varianza el valor de p es de 0.000 y el valor de Alpha es de 0.05
por lo tanto, el factor oxígeno de los diferentes lugares es significativo y se puede asumir que la
hipótesis nula se rechaza y se concluye que las medias del oxígeno en cada lugar son diferentes.
a. ¿Los datos dan suficiente evidencia para indicar una diferencia en el contenido
medio de oxígeno disuelto para los cuatro lugares?
Hay una diferencia importante en el nivel de oxígeno de cada ubicación, lo cual es un indicador de
que, los desechos industriales disminuyen el nivel de oxígeno, dado que existe una media
significativamente diferente a la de las demás, la de la ubicación 3.

Como se puede observar existe un intervalo en las medias de entre 4.58-6.63 por lo que hay
mucha diferencia respecto a las ubicaciones estudiadas en cuanto a oxígeno se refiere, la media
que presenta menor nivel de oxígeno es la de la ubicación 3, es significativa la diferencia con un
95% de confianza.
b. Compare el contenido medio de oxígeno disuelto a mitad del rio arriba de la planta,
con el contenido medio adyacente a la planta (lugar 2 contra lugar 3).

Fischer

La grafica nos indica que el único intervalo similar es el 4 junto al 1, en cuanto al nivel de oxígeno se refiere,
todos los demás son significativamente distintos, en especial los que se comparan con la ubicación 3.

Tukey

La grafica de Tukey afirma la idea de que la ubicación 3 realmente difiere en cuanto a oxígeno se refiere
respecto a las otras ubicaciones, notamos también que las otras ubicaciones no varían tanto como
podríamos imaginar.

Dunnett

Por el mismo lado Dunnett nos indica que, con respecto a la media de control (ubicación 1), las medias 2 y 4
no son tan significativamente distintas como si lo llega a ser respecto de la media 3.

Hsu

En la gráfica nos indica que, las medias realmente son distintas entre sí comparándola con la que más
oxígeno cuenta que es la ubicación 2, por lo que esta es la ubicación menos contaminada del estudio.
4. Conclusión y análisis.
Se rechaza H0 y por lo tanto al menos algunas de las clases son diferentes entre sí (existen
diferencias en los resultados para las muestras). Es decir, existe al menos un lugar que
tiene resultados diferentes a los demás. Como lo interesante una vez comprobado H0 es
averiguar cuál o cuáles son diferentes y en qué sentido para detectar si alguno de los
lugares tiene mayores niveles de oxígeno se debe desarrollar un contraste a posteriori con
objeto de identificar las diferencias ya detectas (pero no identificadas) en el análisis de
ANOVA.
Estrategia de poyla
Ejercicio 11.15 Elaborado por: CANO RODRIGUEZ DAHANA JAMILETE
El contenido de calcio de una sustancia mineral pulverizada fue analizado cinco
veces por cada uno desviaciones estándar similares
Use una prueba adecuada para comparar los tres métodos de medición. Comente
sobre las validas suposiciones que sea necesario hacer.
METODO PORCENTAJE DE CALCIO yi yi*2
1 0.0279 0.0276 0.027 0.1381 0.01907161
0.0275 0.0281
2 0.0268 0.0274 0.0267 0.1339 0.01792921
0.0263 0.0267
3 0.028 0.0279 0.0282 0.1402 0.01965604
0.0278 0.0283
SOLUCION:
Para sacar yi se va haciendo la suma de cada uno de los porcentajes:
0.0279 + 0.0276+ 0.027+ 0.0275+ 0.0281=0.1381
0.0268 + 0.0274+ 0.0267+ 0.0263+ 0.0267=0.1339
0.028 + 0.0279+ 0.0282+0.0278 + 0.0283=0.1402
Se tiene que hacer la suma de los tres métodos:
Suma yi*2=0.05665686
Ya que se tiene la suma se hace la división entre 5, que vienen siendo las
desviaciones:
yi*2/5=0.01133137
Se hace la suma de todos los porcentajes de calcio que vienen siendo 15
y=0.4122
0.16990884
0.01132726

FUENTE GRADOS DE SUMA DE CUADRADOS Fo


VARIACION LIBERTAD CUADRADOS MEDIOS
FACTOR 2 4.116E-06 2.058E-06 16.3766578
ERROR 12 1.508E-06 1.2566673E-07
TOTAL 14 5.624E-06 3.3146673E-06
Se hace la suma de grados de libertad que son:
2 de factor +12 de error
=que da un total de 14 grados de libertad.
Después se hace la suma de cuadrados que son:
4.116E-06 de factor + 1.508E-06 de error
= que da un total de 5.624E-06 suma de cuadrados
Después se hace la suma de cuadrados medios
2.058E-06 de factor + 1.2566673E-07
=que da un total de 3.3146673E-06

1.Parametro: Varianza Variable: porcentaje, método.


2: H0: Var1= Var2=0
3. Ha: Var1 < Var2 <> 0
4. Alfa = 0.05
5. Estadístico
F = Var1 / Var2
6. Regla de decisión
Se rechaza HO si F(calc) > F (tabla)
7. Cálculos
F calc 16.3766578 16.37 tiene que se mayor a 3.89 SI
F tabla 3.89
0.05.4.20
8. Conclusión
En conclusión, se rechaza HO por lo que el método está afectando a un
porcentaje de calcio esto dado con una alfa del 0.05
Problema 11.1

YAREMI ADALID LOPEZ LLANOS

Suponga que se desea comparar las medias de seis poblaciones basadas en

muestras aleatorias independientes, cada una de las cuales contiene 10

observaciones. Inserte, en una tabla ANOVA, las fuentes de variación y sus

respectivos grados de libertad.

Población 1 2 3 4 5 6
Observaciones 10 10 10 10 10 10

Hipótesis nula

H0: μ1 = μ2 = μ3 = μ4 = μ5 = μ6

Las seis medias de las observaciones son iguales

Hipótesis alternativa

H0: μi ≠ μj

Al menos en dos paralelos son diferentes

Nivel de significancia es del 5 % y estadístico de prueba

𝐶𝑀 = (Σ𝑥𝑖𝑗) ^2/𝑛 = (10 + 10 + 10 + 10 + 10 + 10) ^2/60 = 3600/60 = 60

𝑇𝑜𝑡𝑎𝑙 𝑆𝑆 = (Σ𝑥𝑖𝑗) ^2 − 𝐶𝑀 = (10 + 10 + 10 + 10 + 10 + 10) ^2 − 60 = 600 − 60 =

540

𝑆𝑆𝑇 = Σni (xi − x) ^2 = ΣTi2ni − CM = 60^2/10 − 600 =360 − 60 = 300

𝑆𝑆𝐸 = 𝑇𝑜𝑡𝑎𝑙 𝑆𝑆 − 𝑆𝑆𝑇 = 540 − 300 = 240

Grados de libertad
k-1 = 6-1 = 5 n-k = 60 – 6 = 54 n-1 = 60

-1 = 59

𝑀𝑆𝑇 = 𝑆𝑆𝑇/𝑘 − 1 = 300 /5 = 60

𝑀𝑆𝐸 = 𝑆𝑆𝐸/𝑛 − 𝑘 = 240/54 = 4.44

𝐹 = 𝑀𝑆𝑇/ 𝑀𝑆𝐸 = 60 /4.44 = 13.5

𝐹𝑎, 𝑑𝑓1/ 𝑑𝑓 = 𝑑𝑓1 /𝑑𝑓2 = 𝑣1/ 𝑣2 = 5 /54 = 0.092

TABLA ANOVA
Fuente DF SS MS F SIG
Tratamiento 5 300 60 13.5
Error 54 240 4.44 13.5>2.28
Totalidad 59 540
Nombre del lo realizo Jorge Luis Mendez Reyes.

Problema:

La convección es una forma de transferencia de calor por los fluidos debido a sus variaciones de
densidad por la temperatura; las partes calientes ascienden y las frías descienden formando las
corrientes de convección que hacen uniforme la temperatura del fluido. Se ha realizado un
experimento para determinar las modificaciones de la densidad de fluido al elevar la temperatura
en una determinada zona. Los resultados obtenidos han sido los siguientes:

Interpretación:

En este ejercicio se deberá calcular lo que es la temperatura de cualquier fluido sea (Líquidos o
viscosos) teniendo en cuenta las densidades de estos mismos, para esto se tomara en cuenta un
rango de temperatura de 100 a 175 grados con un total de 4 muestra y cada una de estas 4-5
pruebas de densidad cada una.

Responder a las siguientes cuestiones:

A) ¿Afecta la temperatura a la densidad del fluido?

B) Determinar qué temperaturas producen modificaciones significativas en la densidad media del


fluido.

C) Estudiar las hipótesis del modelo: Homocedasticidad, independencia y normalidad.

D) ¿Se puede afirmar que las temperaturas de 100 y 125 producen menos densidades de fluido en
promedio que las temperaturas de 150 y 175?

Solución:

El problema planteado se modeliza a través de un diseño unifactorial totalmente aleatorizado de


efectos fijos no-equilibrado.

Variable respuesta: Densidad del fluido.

Factor: Temperatura. Es un factor de Efectos fijos.

Modelo no-equilibrado: Los niveles de los factores tienen distinto número de elementos.

A) ¿Afecta la temperatura a la densidad del fluído?


Para responder a este apartado, se plantea el siguiente contraste de igualdad de medias:

Se selecciona Analizar/Modelo lineal general/Univariante. En la salida correspondiente, se introduce


en el campo Variable dependiente: La variable respuesta Densidad del fluido y en el campo Factores
fijos: el factor Temperatura. Pulsando Aceptar se obtiene la Tabla ANOVA

En la tabla ANOVA el valor del estadístico de contrates de igualdad de medias F = 6.983, deja a su
derecha un p-valor = 0.004 inferior a 0.05, por lo que se rechaza la hipótesis nula de igualdad de
medias. Concluyendo que existen diferencias significativas en la densidad del fluido en función de
la modificación de la temperatura.

B) Determinar qué temperaturas producen modificaciones significativas en la densidad


media del fluido.

Se plantea la pregunta de si la densidad media del fluido es significativamente diferente para las 4
temperaturas analizadas o sólo para alguna de ellas. Esta cuestión se resuelve mediante los
contrastes de comparaciones múltiples. Utilizando la prueba de Tukey,se obtienen los siguientes
resultados:
La tabla de comparaciones múltiples muestra los intervalos simultáneos construidos por el método
de Tukey para cada posible combinación de temperaturas. Como se puede observar todos los
intervalos de confianza construidos para las diferencias entre las densidades medias contienen al 0,
excepto el correspondiente a la pareja de temperatura125 y 175. Lo que significa que todas las
densidades medias no pueden considerarse distintas estadísticamente excepto las densidades
medias correspondientes a las temperaturas de 125 y 175. Así mismo se observa que la significación
asociada al contraste de las densidades medias correspondientes a estas temperaturas es inferior a
0.05, lo que se traduce en que existe evidencia empírica de que ambas densidades medias son
diferentes significativamente.

Para poder analizar esta tabla más fácilmente la ponemos de la siguiente forma:
En esta tabla es más cómodo comparar cualquier pareja de temperaturas para saber si hay
diferencias significativas. Se deduce que sólo se observan diferencias significativas entre las
densidades de los fluidos cuando se ha modificado la temperatura a 125 y 175 grados (significación
inferior a 0.05).

En la tabla Subconjuntos homogéneos asociada al contraste de Tukey se muestra por columnas los
subgrupos de medias iguales. En nuestro estudio sobre las densidades de los fluidos se observan
que las densidades medias del fluido analizado pueden considerarse similares cuando las
temperaturas son 100, 125 y 150 y cuando son 100, 150 y 175 grados.

Tal y como se observa en la tabla, el p-valor asociado al primer grupo de temperaturas (100, 125 y
150) es 0.081, mayor que 0.05 lo que significa que no se puede rechazar la hipótesis de igualdad en
las densidades medias para este subgrupo. Análogamente ocurre con el otro subgrupo formado,
con un p-valor igual a 0.124. También se deduce qué subconjuntos difieren entre si, las densidades
medias del primer grupo difieren de las del segundo. Y se observa que la densidad media mayor
(21.9375) se obtiene para la temperatura de 175 y la menor (21.5) para la tremperatura de 125.

C) Estudiar las hipótesis del modelo: Homocedasticidad, independencia y normalidad.

Validar el modelo propuesto consiste en estudiar si las hipótesis básicas del modelo están o no en
contradicción con los datos observados. Es decir, si se satisfacen los supuestos del modelo:
Normalidad, Independencia y Homocedasticidad.

Hipótesis de Homocedasticidad:

El primer aspecto que vamos a considerar es el de la homocedasticidad, la igualdad de varianzas.


Para ello, a través del botón Opciones del menú Analizar/Modelo lineal general/Univariante,
pulsando en Pruebas de homogeneidad se obtiene:

De donde se deduce a partir del valor de la significación, 0.585, que se puede asumir la igualdad de
varianzas entre las densidades registradas para las diferentes temperaturas.

Gráficamente, representamos las barras de error para la desviación típica seleccionando en el menú
principal Gráficos/Cuadros de diálogo antiguos/Barras de error

Se obtiene para cada grupo de temperaturas una representación gráfica de la densidad media
(círculo de cada una de las barras) y dos desviaciones típicas a izquierda y derecha del promedio. Se
observa una mayor dispersión en la densidad para las temperaturas 125 y 150. Este gráfico no aporta
evidencias sobre la homogeneidad de las varianzas, por lo que siempre habrá que recurrir al
contraste de Levene para dicha comparación.
Hipótesis de Independencia

Para comprobar que se satisface el supuesto de independencia entre los residuos, representamos
gráficamente los residuos frente a los valores pronosticados. La presencia de alguna tendencia en
el gráfico puede indicar la alteración de dicha hipótesis. Seleccionando Opciones en el cuadro de
diálogo de Análisis Univariante, se selecciona la casilla Gráfico de los residuos y se obtienen los
gráficos de residuos asociados al análisis.

En el gráfico de la tercera fila y la segunda columna (residuos frente a valores pronosticados) no se


observa ninguna tendencia concreta lo que muestra la no existencia de relación de dependencia.

Hipótesis de Normalidad

En primer lugar analizamos la normalidad de las densidades y continuaremos con el análisis de la


normalidad de los residuos. Se selecciona en SPSS Analizar/Estadísticos descriptivos/Explorar y se
obtienen los ajustes de normalidad.
El contraste de Shapiro-Wilk (apropiado dado que el número total de datos es inferior a 50), muestra
p-valores siempre superiores a 0.05, por lo que podemos concluir que las densidades se distribuyen
según una normal para cada temperatura considerada en el estudio.

Para contrastar la hipótesis de Normalidad de los residuos recurriremos a procedimientos gráficos


y analíticos. Para ello, en primer lugar se calculan los residuos tipificados asociados al ajuste
univariante.

Para obtener el histograma de los residuos se selecciona en el menú principal de SPSS,


Gráficos/Cuadros de diálogo antiguos/Histograma. Aunque podemos observar algunas desviaciones
de la normalidad en el histograma, estas no implican la ausencia de normalidad de los residuos como
se comprueba con el gráfico probabilístico normal (Analizar/Estadísticos Descriptivos/Gráficos QQ
).
El análisis numérico se llevará a cabo a través del contraste de Kolmogorov-Smirnov,
Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/K-S de 1 muestra.

El valor del p- valor (significación = 0.637) es mayor que el nivel de significación, 0.05, por lo que se
puede confirmar la normalidad de los residuos.

D) ¿Se puede afirmar que las temperaturas de 100 y 125 producen menos densidades de
fluido en promedio que las temperaturas de 150 y 175?

El contraste de hipótesis que se debe resolver para contestar este apartado es:

Para realizarlo con SPSS, en Analizar/Comparar medias/Anova de un factor... pulsamos Contrastes.


Introduciendo los correspondientes coeficientes se obtiene la siguiente salida.

Para interpretar la tabla, asumimos en todos los contrastes la homocedasticidad, observamos que
el p-valor vale 0.006 menor que el nivel de significación 0.05. Por lo tanto, se rechaza la hipótesis
nula y se deduce que las temperaturas de 100 y 125 conjuntamente producen menos densidades
de fluido en promedio que las temperaturas de 150 y 175 conjuntamente.
Bryan Javier Ruiz Carrillo

Resolución de problemas de ANOVA

11.71 Cerámica en el Reino Unido Un artículo en Archaeometry contenía un análisis de 26


muestras de cerámica romano-británica, halladas en los hornos de cuatro lugares diferentes en
el Reino Unido. Como un sitio dio sólo dos muestras, considere

las muestras halladas en los otros tres sitios. Las muestras se analizaron para determinar su
composición química y a continuación se indica el porcentaje de óxido de hierro.

Comprensión del enunciado del problema.


Lo primero que tuve que hacer fue un análisis completo de lo que se requiere, para realizar el
problema en cuestión, y captar las ideas principales del mismo y así lograr tener una idea más
precisa de cómo abordarlo correctamente. Para ello usamos cálculos de analisis en los
procedimientos para realizar el analisis de varianza.

Elaboración del plan


Primero Introduje los datos en las columnas A, B y C de una hoja de cálculo de Excel con una
muestra por columna. después calcule rangos para sacar desviaciones estándar y asi pude realizar
mi analisis de varianza

Ejecución del plan de resolución.


a. ¿Qué tipo de diseño experimental es éste?

Este es el diseño experimental propiamente dicho, el cual consiste en realizar un análisis


estadístico para validar o refutar una hipótesis. Así, se pretende conocer y analizar las causas y
efectos tres variables.

Calcule el rango.

Rango = 2.39-1.28

Rango = 1.11

Calcule la varianza muestral y la desviación estándar

usando la fórmula computacional.

Primero se calcula la Media Muestral

R= 1.28+2.39+1.50+1.88+1.51/5

Media Muestral =8.56/5

Media Muestral= 1.712

Desviación Estandar con formula Computacional

R=(1.28- 1.712)

+=(2.39- 1.712)

+=(1.50- 1.712)

+=(1.88- 1.712)

+(1.51- 1.712)
2

/5-1

R=0.186+0.459+0.044+0.028+0.40/4

R=1.117/4

R=0.279

R=

√0.279

R=0.528

c)

Compare el rango y la desviación estándar. ¿El rango es

aproximadamente cuántas desviaciones estándar?

R= 1.11/0.279

R=3.974

R= aproximadamente 4 veces
c. ¿Le parece que algunas de las suposiciones del análisis de

varianza han sido violadas? Explique.

El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K muestras son
iguales, frente a la hipótesis alternativa de que por lo menos una de las muestras de las demás en
cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados
experimentales.

Conclusión y análisis.

Lo que pude entender del tema fue que el análisis de la varianza o Anova, es un método para
comparar dos o más medias. Es necesario porque cuando se quiere comparar más de dos medias
es incorrecto utilizar repetidamente el contraste basado en la t de Student. El análisis de varianza
sirve para comparar si los valores de un conjunto de datos numéricos son significativamente
distintos a los valores de otro o más conjuntos de datos. El método para comparar estos valores
está basado en la varianza global observada en los grupos de datos numéricos a comparar.
Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que
la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

También podría gustarte