Está en la página 1de 80

Taipe Mateo

Primer Parcial
Diseño Experimental para Biotecnología Vegetal
Código: BTU36 NRC: 7092 𝟐𝟎𝟐𝟎 − 𝟎𝟓 − 𝟏𝟗𝟑
Horario de clase: Martes y Jueves 7h15- 9h15
Docente: Pedro Romero Saker # celular: 0987294056
Correo institucional: pjromero@espe.edu.ec
Tarea: Lectura informativa del silabo de la asignatura.
 Evaluación de la asignatura
EVALUACIÓN POR UNIDAD
Examen 7 35%
(prueba
conjunta)
Pruebas 7 35%
3 Unidades
parciales
Cuaderno 6 30%
(PdA)
Total 20 100%

Tarea: Lectura connotativa del capítulo l (Introducción al diseño de experimentos) del


libro: Gutiérrez H. & de la Vara R., Análisis y diseño de experimentos.3°ed.
Tarea 01: Resolver los 5 ejercicios ubicados al final del capítulo l del libro de Gutiérrez.
1. Explique las ventajas que tiene el diseño de experimentos sobre una estrategia de
prueba y error.
El método de diseño de experimentos es el más conveniente y eficaz para poder realizar
la metodología de prueba y error, ya que este nos ayuda a resolver cualquier problema
que se presente al momento de realizar una prueba para que en la etapa final este tenga el
resultado más óptimo.
2. ¿Qué es un experimento y que es diseñar un experimento?
Experimento es el proceso por el cual se manipula de manera intencional una o más
variables independientes, definidas como causas, para el posterior análisis de las
consecuencias que tienen sobre otras variables identificadas como efectos, mientras que
diseñar un experimento se define como un conjunto de técnicas activas que manipulan un
proceso para inducirlo a proporcionar la información que se requiere para mejorarlo
mediante los cambios en sus variables y su interacción o secuencia de ejecución.
3. En el contexto de un diseño de experimentos, ¿Qué es una variable de respuesta?,
¿Qué es un factor estudiado?, y ¿Qué relación se esperaría que haya entre la
variable y los factores?
La variable de respuesta son las diferentes características que reflejan las condiciones en
las que está un producto y a su vez logran evaluar la eficiencia de los procesos que realiza
dicho producto para poder saber el resultado que se obtuvo de la prueba experimental. (es
una variable que cambia su valor a medida que se alteran las variables de manipulación.
En un experimento pueden observarse diversas condiciones de la variable de respuesta,
tal como cantidad, calidad, tiempo, distancia y altura.)
El factor estudiado Son las variables que se investigan en el experimento para observar
cómo afectan o influyen en la variable de respuesta. Confusión: Dos o más efectos se
confunden en un experimento si es posible separar sus efectos, cuando se lleva a cabo el
subsecuente análisis estadístico.
La relación que existe entre los 2 es que las variables de respuesta son los diferentes
cambios que puede experimentar el factor estudiado ya que las variables son
características y el factor es un objeto.
4. ¿En un experimento solo es posible estudiar los factores que actualmente se
controlan en la operación normal del proceso?
Si ya que al realizar un experimento uno prepara las herramientas necesarias para estudiar
factores específicos
5. ¿Es posible estudiar cómo influye un factor sobre la variable de respuesta, si el
factor se mantiene fijo en todas las corridas o pruebas experimentales? Explique.
Si ya que al tener un factor fijo uno puede determinar cómo este responde a las
diferentes pruebas para obtener esa variable de respuesta

𝟐𝟎𝟐𝟎 − 𝟎𝟓 − 𝟐𝟏𝟔
Tarea 02: Lectura connotativa del capítulo 01 (Introducción al diseño de
experimentos) del libro: Gutiérrez H. & de la Vara R., Análisis y diseño de
experimentos.3°ed.
 Poner como título esta tarea el nombre de este capítulo y a continuación los
siguientes subtítulos que vayan apareciendo; inmediatamente a cada
subtitulo realizar un resumen (a mano) de su contenido. Este resumen debe
incluir los conceptos clave, tablas, figuras y demás.
 Resolver las preguntas y ejercicios de este capítulo.
Capítulo 01. Introducción al diseño de experimentos
El diseño de experimentos hoy
El diseño estadístico de experimentos es precisamente la forma más eficaz de hacer
pruebas. El diseño de experimentos consiste en determinar cuáles pruebas se deben
realizar y de qué manera, para obtener datos que, al ser analizados estadísticamente,
proporcionen evidencias objetivas que permitan responder las interrogantes planteadas, y
de esa manera clarificar los aspectos inciertos de un proceso, resolver un problema o
lograr mejoras. El diseño de experimentos (DDE) es un conjunto de técnicas activas, en
el sentido de que no esperan que el proceso mande las señales útiles, sino que éste se
“manipula” para que proporcione la información que se requiere para su mejora.
Diseño de experimentos en la investigación
El objetivo de los métodos estadísticos es lograr que el proceso de generar conocimiento
y aprendizaje sea lo más eficiente posible. En este proceso, que ha demostrado ser
secuencial, interactúan dos polos: por un lado, están la teoría, los modelos, las hipótesis,
las conjeturas y los supuestos; por el otro están la realidad, los hechos, los fenómenos, la
evidencia y los datos. Así, como se comenta en Box et al. (1978), una hipótesis inicial
lleva a un proceso de deducción en el que las consecuencias derivadas de la hipótesis
pueden compararse con los datos. Cuando las consecuencias y los datos no corresponden,
entonces la discrepancia puede llevar a un proceso de inducción, en el cual se modifica
la hipótesis original.
Breve historia del diseño de experimentos
El diseño estadístico de experimentos, desde su introducción por Ronald A. Fisher en la
primera mitad del siglo XX en Inglaterra, se ha utilizado para conseguir un aprendizaje
acelerado. El trabajo de Fisher, a través de su libro The Design of Experiments (1935),
influyó de manera decisiva en la investigación agrícola, ya que aportó métodos para
evaluar los resultados de experimentos con muestras pequeñas.

Definiciones básicas en el diseño de experimentos


Experimento: Un experimento es un cambio en las condiciones de operación de un
sistema o proceso, que se hace con el objetivo de medir el efecto del cambio sobre una o
varias propiedades del producto o resultado.
Unidad experimental: La unidad experimental es la pieza(s) o muestra(s) que se utiliza
para generar un valor que sea representativo del resultado del experimento o prueba.
Variable de respuesta: A través de esta(s) variable(s) se conoce el efecto o los resultados
de cada prueba experimental.
Factores controlables: Son variables de proceso y/o características de los materiales que
se pueden fijar en un nivel dado.
Factores no controlables: Son variables que no se pueden controlar durante el
experimento o la operación normal del proceso.
Factores estudiados: Son las variables que se investigan en el experimento para observar
cómo afectan o influyen en la variable de respuesta.
Niveles y tratamientos: Los diferentes valores que se asignan a cada factor estudiado en
un diseño experimental se llaman niveles. Una combinación de niveles de todos los
factores estudiados se llama tratamiento o punto de diseño.
Error aleatorio: Es la variabilidad observada que no se puede explicar por los factores
estudiados; resulta del pequeño efecto de los factores no estudiados y del error
experimental.
Error experimental: Componente del error aleatorio que refleja los errores del
experimentador en la planeación y ejecución del experimento.
Matriz de diseño: Es el arreglo formado por los tratamientos que serán corridos,
incluyendo las repeticiones.
Etapas en el diseño de experimentos
Para que un estudio experimental sea exitoso es necesario realizar, por etapas, diferentes
actividades. En este sentido, la etapa más importante y a la que se le debe dedicar mayor
tiempo es la planeación.
1) Planeación y realización
a. Entender y delimitar el problema
b. Elegir las variables de repuesta
c. Determinar factores de estudio
d. Seleccionar niveles dé cada factor
e. Planear y organizar el trabajo experimental
f. Realizar el experimento
2) Análisis
3) Interpretación
4) Control y conclusiones finales
Consideraciones practicas sobre el uso de métodos estadísticos
1. El conocimiento no estadístico es vital.
2. Reconocer la diferencia entre significancia estadística e importancia práctica.
3. Apostarle más a la experimentación secuencial que a un experimento único y
definitivo
Principios básicos
Aleatorización: Consiste en hacer corridas experimentales en orden aleatorio (al azar);
este principio aumenta la posibilidad de que el supuesto de independencia de los errores
se cumpla.
Repetición: Es correr más de una vez un tratamiento o combinación de factores.
Bloqueo: Es nulificar o tomar en cuenta en forma adecuada todos los factores que
pueden afectar la respuesta observada.
Clasificación y selección de los diseños experimentales
Existen muchos diseños experimentales para estudiar la gran diversidad de problemas o
situaciones que ocurren en la práctica. Esta cantidad de diseños hace necesario saber
cómo elegir el más adecuado para una situación dada y, por ende, es preciso conocer
cómo es que se clasifican los diseños de acuerdo con su objetivo y su alcance. Los cinco
aspectos que más influyen en la selección de un diseño experimental, en el sentido de que
cuando cambian por lo general nos llevan a cambiar de diseño, son:
1. El objetivo del experimento.
2. El número de factores a estudiar.
3. El número de niveles que se prueban en cada factor.
4. Los efectos que interesa investigar (relación factores-respuesta).
5. El costo del experimento, tiempo y precisión deseada.
Preguntas y ejercicios
6. Se tiene un experimento en el que los factores a estudiar y sus niveles son los
siguientes: temperatura (10, 20 y 30°C), tiempo (60 y 90 minutos). Elabore una lista
de todos los posibles tratamientos de este diseño.

Nivel de Temperatura en °C Nivel de tiempo en minutos Número de tratamiento

10 60 1

20 60 2

30 60 3

10 90 4

20 90 5

30 90 6

7. ¿Qué es el error aleatorio y qué es el error experimental?

Error aleatorio: El error aleatorio es la variabilidad observada que no se puede explicar


por los factores estudiados; resulta del pequeño efecto de los factores no estudiados y del
error.
Error experimental: El error experimental es el componente del error aleatorio que refleja
los errores del experimentador en la planeación y ejecución del experimento.

8. ¿Por qué es importante aleatorizar el orden en el que se corren los diferentes


tratamientos en un diseño de experimentos?

Es importante aleatorizar el orden en el que se corren los diferentes tratamientos en un


diseño de experimentos para validar las pruebas que se hacen y aseguramos que las
pequeñas diferencias provocadas por materiales, equipo y todos los factores no
controlados se repartan de manera homogénea en todos los tratamientos.

9. Señale las etapas en el diseño de un experimento, así como algunos aspectos clave
de cada una de ellas.

1. Planeación y realización.
 Entender y delimitar el problema u objeto de estudio.
 Elegir las variables de respuesta que será medida en cada punto del diseño y
verificar que se mide de manera confiable.
 Determinar cuáles factores deben estudiarse o investigarse, de acuerdo a la
supuesta influencia que tienen sobre la respuesta.
 Seleccionar los niveles de cada factor, así como el diseño experimental adecuado
a los factores que se tienen y al objetivo del experimento.
 Planear y organizar el trabajo experimental.
 Realizar el experimento.

2. Análisis

La técnica estadística central en el análisis de los experimentos es el llamado análisis de


varianza ANOVA (acrónimo en inglés).

3. Interpretación

Contrastar las conjeturas iniciales con los resultados del experimento

4. Control y conclusiones finales

Se recomienda decidir qué medidas implementar para generalizar el resultado del estudio
y para garantizar que las mejoras se mantengan.

10. ¿Por qué se considera la planeación del experimento como la etapa más
importante? Describa cinco actividades que se realizan en esta etapa.

La planeación del experimento se considera la fase más importante del diseño


experimental porque en esta etapa se define el fenómeno que se va a estudiar, las variables
de proceso que influyen en el experimento, estableciendo cuales son los factores más
importantes que pueden cambiar en el transcurso del experimento y cuales reflejan los
resultados del problema. Las actividades que se realizan en la planeación es delimitar el
problema de estudio, conocer las variables que influyen en el experimento (estableciendo
conjeturas que factores aumenta o no el rendimiento del proceso), se debe elegir los
instrumentos de medición a utilizar verificando que estén en buen estado para obtener un
resultado de calidad, establecer las repeticiones para cada tratamiento tomando en cuenta
el costo, materiales y mano de obra y por último planear el trabajo experimental.

11. Describa de manera breve los tres principios básicos del diseño de experimentos.

· Aleatorización: Consiste en hacer las corridas experimentales en orden aleatorio (al azar)
y con material también seleccionado aleatoriamente. Este principio aumenta la
probabilidad de que el supuesto de independencia de los errores se cumpla, lo cual es un
requisito para la validez de las pruebas de estadísticas que se realizan.

· Recepción: Es correr más de una vez un tratamiento o una combinación de factores. Es


preciso no confundir este principio con medir varias veces el mismo resultado
experimental

· Bloqueo: Consiste en nulificar o tomar en cuenta, en forma adecuada, todos los factores
que puedan afectar la respuesta observada.
12. Explique la diferencia entre significancia práctica y significancia estadística.
Proponga un ejemplo donde se tenga la segunda pero no la primera.
En ciertos casos, el experimentador puede encontrar que dos tratamientos son diferentes
a nivel estadístico. Esas diferencias pueden ser significativas pero no necesariamente
representan una diferencia práctica. La significancia estadística indica que la diferencia
entre hipótesis Ho y H1 es ajena al azar. Es la probabilidad de tomar la decisión de
rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo
I, o falso positivo). Mientras que la significancia práctica indica la relevancia del estudio,
puesto que podría ser insignificante en ciertas situaciones. Se requiere de conocimiento
especializado para determinar si la diferencia es significativa desde el punto de vista
práctico. Se puede emplear intervalos de confianza junto con el valor p para su
determinación. Por ejemplo, una muestra de pacientes con una enfermedad determinada,
existe la posibilidad de que un efecto observado se deba a las diferencias entre la muestra
y la población total (error de muestreo) en lugar del medicamento en investigación. Puede
ser que el medicamento no sea efectivo, sin embargo no se le rechaza como tratamiento
contra la enfermedad. En la práctica, si se medica a los pacientes con este químico, no se
curan y pueden presentar efectos secundarios o morir.

13. Describa los cinco aspectos que son relevantes al momento de seleccionar el
diseño experimental.

Los cinco aspectos que más influyen en la selección de un diseño experimental, en el


sentido de que cuando cambian por lo general nos llevan a cambiar de diseño, son:

1. El objetivo del experimento.

2. El número de factores a estudiar.

3. El número de niveles que se prueban en cada factor.

4. Los efectos que interesa investigar (relación factores-respuesta).

5. El costo del experimento, tiempo y precisión deseada.

14. Mencione dos problemas en su área de trabajo que pudieran abordarse con el
diseño de experimentos. Para cada problema enlista algunos factores de control y al
menos una variable de respuesta.

Deshidratador solar. Factor Temperatura, tiempo y humedad. Variable de respuesta,


producir muchos chiles en menor tiempo.

Invernadero. Factores humedad, forma de riego y temperatura. Variable de repuesta,


producir verduras o frutas.

15. Suponga que se quiere estudiar el desempeño de un automóvil, y lo que se desea


es encontrar los factores que más influyen en su rendimiento. ¿Cuáles podrían ser
las variables de respuesta?, ¿cuáles los factores a estudiar?, ¿cuáles los factores no
controlables o de ruido?

Los factores influyentes son los caballos de fuerza del motor, la gasolina, el tipo de aceite,
las llantas, entre otros. La variable de respuesta a evaluar son: La cantidad de galones de
combustible consumidos por días, y la velocidad máxima alcanzada.
16. Se quiere comparar el desgaste de dos marcas de llantas A y B, para lo cual se
eligen al azar 10 conductores particulares de cierta ciudad. A cinco de ellos,
seleccionados al azar, se les instalan gratis las llantas marca A y a los cinco restantes
la marca B, con el compromiso por escrito de permitir la verificación del desgaste
cada seis meses.

a) ¿Cree que este experimento permita una comparación justa del desgaste de las
dos marcas de llantas?

En parte sí y en parte no, pues hay que tomar en cuenta factores como los siguientes:

 No todos los conductores en la ciudad van a tener el mismo kilometraje.


 No todos los conductores andarán por el mismo tipo de camino o superficie,
algunos pueden ir en pavimentos irregulares, tierra, etc.

b) ¿Qué consideraciones se podrían hacer para lograr una comparación más justa?

Deberían tomarse en cuenta el tipo de coches que posee cada conductor.

c) Proponga al menos un cambio al experimento que usted considera que mejoraría


la comparación.

 El número de frenadas de golpe que realicen los autos.


 Superficies por donde irán los autos.
 La distancia y tiempo que recorrerán.

17. Una compañía farmacéutica realizó un experimento para comprobar los tiempos
promedio (en días) que son necesarios para que una persona se recupere de los
efectos y las complicaciones que siguen a un resfriado común. En este experimento
se compararon a personas que tomaron distintas dosis diarias de vitamina C. Para
hacer el experimento se contactó a un número determinado de personas, que en
cuanto les daba el resfriado empezaban a recibir algún tipo de dosis. Si la edad de
las personas es una posible fuente de variabilidad, explique con detalle cómo
aplicaría la idea de bloqueo para controlar tal fuente de variabilidad.

Con el bloqueo de edad de las personas en el diseño de experimentos implicaría que los
tratamientos contendrán a todas las edades, por ende el efecto de estos en la variable de
respuesta se verá anulado y podremos saber el efecto de las demás variables.

18. En el caso anterior, ¿qué podría pasar si no se controla la posible fuente de


variación que es la edad?

Si la edad no es controlada se generaría una fuente de error, con un tipo de variable no


controlable. El cual sería adictivo y los resultados serían imprecisos.

19. Un grupo de investigadores trabaja para industrializar la mermelada de tuna;


para ello, realizan mermeladas considerando los siguientes factores: a) variedad de
tuna: tres tipos, b) con cáscara o sin cáscara, c) completa o la pura pulpa. Por lo
tanto, se tienen 12 posibles formas (tratamientos) de producir mermelada. La
pregunta central que se plantean es si influyen en el sabor los factores considerados,
y quisieran encontrar cuál es la mejor combinación de mermelada (tratamiento
ganador). Para responder hicieron las 12 combinaciones y pusieron cada una en un
recipiente numerado. En seguida se trasladaban a lugares concurridos donde
acomodaban los recipientes ordenados del 1 al 12, y a personas del público les
entregaban una hoja de registro y la invitaban a que en el orden dado probaran en
pequeñas porciones las mermeladas y anotaran qué tan buena les parecía la
mermelada (en una calificación de 0 a 10). Al final se tuvo la respuesta de 420
personas, cada una de las cuales daba 12 calificaciones (una para cada mermelada).
¿Hay algo que desde su punto de vista invalide los resultados obtenidos? Utilice el
sentido común y argumente su respuesta.

Al ser distintos tratamientos, lo más probable es que el sabor del producto final sea
distinto en cada uno. El diseño experimental, a mi parecer, falla en escoger la pregunta a
responderse y debería centrarse en cómo las variaciones influyen en el sabor de la
mermelada. En este contexto, el método de calificación no refleja el resultado directo de
cómo influyen lo factores en el sabor y tan solo compara, con una escala numérica, que
mermelada sabe mejor.
Adicionalmente, la muestra escogida para las encuestas puede no ser representativa del
mercado real de consumidores de mermelada. La variable de respuesta es subjetiva y
sesgada a los gustos de las personas encuestadas. A nivel de un proyecto inicial el diseño
puede resultar favorable, pero no se ha aplicado una prueba de sabor rigurosa que permita
dar luz verde a la industrialización y posterior comercialización de mermelada de tuna.

20. Investigar quien fue Ronald A. Fisher y algunas de sus contribuciones al diseño
de experimentos.

Ronald A. Fisher fue un cientifico, matematico, estadistico, biólogo evolutivo y


genetista inglés graduado en la universidad de Cambridge con el título de matemático,
se interesó por la biología y con la ayuda de la matemática predecir los posibles
resultados de sus experimentos, fue el primero en introducir la llamada biología
biometría e introdujo la metodología del análisis de varianza, considerablemente
superior a la de la correlación.

21. Indagar en forma breve cuál ha sido el papel del diseño de experimentos en el
éxito de la industria de Japón.
En Japón se empezó a desarrollar el uso de diseño de experimentos de manera sistemática
desde 1960 en las industrias. Lo que ha dado como resultado un crecimiento industrial
acelerado en este país. Como nos dice Llui Saderra en su libro “El secreto de la calidad
Japonesa” de 1993
”El diseño estadístico de experimentos constituye el corazón de la ingeniería de calidad
y es, sin duda, la verdadera arma secreta que está detrás del éxito industrial de los
japoneses”
Lo que nos quiere decir que implementar el diseño de experimentos en las industrias,
aumenta la calidad de los productos, se disminuyen los gastos de producción y se mejora
la competencia con otros países.
22. Buscar por medio de internet, por ejemplo en scholar.google.com, artículos de
revistas científicas o tecnológicas donde se reporten los resultados de una
investigación experimental que sea de su interés. Para cada artículo anotar la
referencia completa, es decir: autor(es), año, título del trabajo y nombre de la
revista; además hacer una síntesis de lo que trata el artículo y el tipo de diseño o
pruebas que se realizaron.

ARTÍCULO: In vitro propagation of Agave grijalvensis B.Ullrich, an endemic species


from Chiapas under special protection

Referencia:

 Santiz, J., Rincón, R., & Gutierrez, F. (2012). In vitro propagation of Agave
grijalvensis B.Ullrich, an endemic species from Chiapas. Guyana - Botánica(69),
23-30. Obtenido de
http://www2.udec.cl/~gvalencia/pdf/GB2012_69_ne_Santiz_etal.pdf

 Síntesis del artículo:

 El objetivo de la investigación es establecer un protocolo para la inducción de


embriogénesis somática y posterior diferenciación para la preservación de Agave
grijalvensis. Después de 8 semanas de incubación se evidenció que BA y 2,4-D
tuvieron un efecto significativo (p<0,05) sobre la capacidad de formación de
embriones. En cuanto a la diferenciación de concentraciones en cada regulador,
no se observó diferencias significativas.

 Diseño Experimental utilizado y Pruebas realizadas:

 Inducción de la embriogénesis: En la inducción de embriogénesis se utilizó un


diseño experimental multifactorial categórico 3x 4 x 4,para evaluar el efecto de
tres reguladores de crecimiento: BA (0, 22 y 44 μM), ANA (0; 1,3; 2,6 y 5,2 μM)
y 2,4-D (0; 0,55; 1,1 y 2.2 μM); con un total de 48 tratamientos con 3 repeticiones
cada uno de ellos.

 Enraizamiento: Para la obtención de raíces en las plántulas se utilizó un diseño


experimental multinivel factorial 5x2 evaluando dos factores: el AIB a 0, 10, 20,
30 y 40 μM, y el medio MS al 50% y 100% de sus sales. En total se obtuvieron
10 tratamientos con 5 repeticiones cada uno.
Capítulo 02
Elementos de inferencia estadística: experimentos con uno y dos tratamientos.
Población: N unidades experimentales.
En diseño experimental, N→∝
Y= VAdRE (variable aleatoria de respuesta experimental).
µ=E(Y), σ2 = 𝑉(𝑌)
Y ~ N (µ, σ2 )
Muestreo aleatorio
Simple (MAS)
Muestra de tamaño “n”
n<<N
La muestra puede ser vista de dos formas:
𝑦1 , 𝑦2 , … . , 𝑦𝑛 Datos o valores
𝑌1 , 𝑌2 , … . , 𝑌𝑛 VA (Variables Aleatorias)
𝑌𝑖 ~ NID (µ, σ2 )
Propiedad 1
Sean 𝑌𝑖 ~ NID (µ, σ2 ) entonces la combinación lineal:
𝑛 𝑛 𝑛

∑ 𝑐𝑖 𝑌𝑖 ~ 𝑁 (∑ 𝑐𝑖 𝜇𝑖 , ∑ 𝑐𝑖 2 𝜎𝑖 2 ) ; 𝑐𝑖 ∈ ℝ
𝑖=1 𝑖=1 𝑖=1

 Caso particular 1:
Si 𝑌𝑖 ~ NID (µ, σ2 ) entonces:
𝑛 𝑛 𝑛

∑ 𝑐𝑖 𝑌𝑖 ~ 𝑁 (𝜇 ∑ 𝑐𝑖 , 𝜎 2 ∑ 𝑐𝑖 2 )
𝑖=1 𝑖=1 𝑖=1

 Caso particular 2 (Distribución de muestreo para la suma):


Si 𝑌𝑖 ~ NID (µ, σ2 ) y 𝑐𝑖 = 1 entonces:
𝑛

∑ 𝑌𝑖 ~ 𝑁 (𝑛𝜇, 𝑛𝜎 2 )
𝑖=1

NOTA: Aplicando la PdE (propiedad de estandarización):


𝑛
2)
∑𝑛𝑖=1 𝑌𝑖 − 𝑛𝜇
∑ 𝑌𝑖 ~ 𝑁 (𝑛𝜇, 𝑛𝜎 ⟹ = 𝑍 ∼ 𝑁(0, 12 )
√𝑛𝜎
𝑖=1 PdE
 Caso particular 3 (Distribución de muestreo para el promedio):
1
Si 𝑌𝑖 ~ NID (µ, σ2 ) y 𝑐𝑖 = 𝑛 entonces:
𝑛 𝑛 𝑛
1 1 𝜎2
∑ 𝑐𝑖 𝑌𝑖 = ∑ 𝑌𝑖 = ∑ 𝑌𝑖 = 𝑌̅~ 𝑁 (𝜇, )
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1

𝜎2 𝑌̅ − 𝜇
𝑌̅~ 𝑁 (𝜇, ) ⟹ 2
𝜎 = 𝑍 ~ 𝑁(0, 1 )
𝑛
PdE √𝑛

Propiedad 2
Si 𝑌𝑖 ~ 𝐵𝑒𝑟 𝐼𝐷 (𝜋) Ber: Bernoulli; Bin: Binomial; TdLC: Teorema de limite central
entonces:
𝑛 𝑛
TdLC
∑ 𝑌𝑖 ~ 𝐵𝑖𝑛 (𝑛, 𝜋) ⟹ ∑ 𝑌𝑖 ~ 𝑁(𝑛𝜋, 𝑛𝜋(1 − 𝜋))
𝑖=1 nπ>5 𝑖=1

n(1-π)>5

𝐵𝑖𝑛 (𝑛, 𝜋) ≈ 𝑁 (𝑛𝜋, 𝑛𝜋(1 − 𝜋))


nπ>5

n(1-π)>5

Ejercicio N°1: Se tiene una VAdRE entonces Y sigue una distribución normal (µ, σ2 );
supongamos que σ2 es conocida. Se realiza el diseño experimental respectivo y se obtiene
una muestra de tamaño “n” donde se ha calculado 𝑦̅. Calcular dos números L(de low) y
U(de upper) cuya distancia sea mínima y tales que el intervalo abierto ]L, U[ contenga a
µ con una alta probabilidad de 1-α fijada “a priori” y conocida como NdC (nivel de
confianza).
Pr(μ ∈ ]L, U[) = 1 − α ⟺ Pr (L < μ < U) = 1 − α
Pr (−U < −μ < −L) = 1 − α

𝑦̅ − 𝑈 𝑌̅ − 𝜇 𝑦̅ − 𝐿
𝑃𝑟 ( 𝜎 <𝜎 <𝜎 )=1−𝛼
⁄ 𝑛 ⁄ 𝑛 ⁄ 𝑛
√ √ √

𝑦̅ − 𝑈 𝑦̅ − 𝐿
𝑃𝑟 ( 𝜎 <𝑍<𝜎 )= 1−𝛼
⁄ 𝑛 ⁄ 𝑛
√ √
𝑦̅ − 𝑈 𝑦̅ − 𝐿
= −𝑍1−𝛼 (𝟏) 𝜎 = 𝑍1−𝛼2 (𝟐)
𝜎/√𝑛 2
√𝑛
𝜎
De (1): 𝐿 = 𝑦̅ − 𝑍1−𝛼
2 √𝑛
𝜎
De (2): 𝑈 = 𝑦̅ + 𝑍1−𝛼 𝐸 = |𝑦̅ − 𝜇|
2 √𝑛

𝜎
̅𝑍 𝛼
⟹ 𝐼𝑑𝐶𝜇 (1 − 𝛼) = 𝑦̅ + 1−
2 √𝑛

2
𝑍1−𝛼 𝜎
2
𝑛=( )
𝐸

𝟐𝟎𝟐𝟎 − 𝟎𝟓 − 𝟐𝟔𝟑
 TdLC (Teorema del Limite Central)
Sean 𝑌𝑖 VAI tales que:
𝐸(𝑌𝑖 ) = 𝜇𝑖 𝑉(𝑌𝑖 ) = 𝜎 2 𝑖 ; 𝑖 = 1, 2, … , 𝑛
Sean 𝑐𝑖 ∈ ℝ. Sea la CL (Combinación Lineal) ∑𝑛𝑖=1 𝑐𝑖 𝑌𝑖
Tarea 03: Se puede demostrar que:
1. ∑𝑛𝑖=1 𝑐𝑖 𝑌𝑖 = ∑𝑛𝑖=1 𝑐𝑖 𝜇𝑖
2. 𝑉(∑𝑛𝑖=1 𝑐𝑖 𝑌𝑖 ) = ∑𝑛𝑖=1 𝑐𝑖 2 𝜎𝑖 2

1) 𝑬(∑𝒏𝒊=𝟏 𝑪𝒊 𝒀𝒊 ) = ∑𝒏𝒊=𝟏 𝑪𝒊𝝁𝒊


∑𝑛𝑖=1 𝐸(𝐶𝑖 𝑌𝑖 )
∑𝑛𝑖=1 𝐶𝑖 𝐸(𝑌𝑖 )
Como: 𝐸(𝑌𝑖 )= 𝜇𝑖
Entonces: ∑𝑛𝑖=1 𝐶𝑖 𝜇𝑖

2) Comprobación de que: 𝑽(∑𝒏𝒊=𝟏 𝑪𝒊 𝒀𝒊 ) = ∑𝒏𝒊=𝟏 𝑪𝒊 𝟐 𝝈𝒊 𝟐


𝑉(∑𝑛𝑖=1 𝐶𝑖 𝑌𝑖 ) = (∑𝑛𝑖=1 𝑉𝐶𝑖 ∗ 𝑉𝑌𝑖 )
=(∑𝒏𝒊=𝟏 𝑪𝒊 ∗ 𝑽𝒀𝒊 ) 1
Como: 𝑉(𝑦) = 𝐸(𝑦 − 𝜇)2 = 𝐸(𝑦 2 ) − 𝐸 2 (𝑦)
Y como: 𝐸 2 (𝑦) = 𝑢2
Entonces:
𝑽(𝒚) = 𝑬(𝒚𝟐 ) − 𝒖𝟐
Y como:
𝑬(𝒚𝟐 ) = 𝑢2 + 𝜎 2
Entonces: 𝑽(𝒚) = 𝑢2 + 𝜎 2 − 𝑢2
𝑽(𝒚) = 𝜎 2 2
Finalmente: reemplazando 2 en 1:
: 𝑽(∑𝒏𝒊=𝟏 𝑪𝒊 𝒀𝒊 ) = ∑𝒏𝒊=𝟏 𝑪𝒊 𝟐 𝝈𝒊 𝟐

Entonces para un “n” lo suficientemente grande:


𝑛 𝑛 𝑛

∑ 𝑐𝑖 𝑌𝑖 ~ 𝑁 (∑ 𝑐𝑖 𝜇𝑖 , ∑ 𝑐𝑖 2 𝜎𝑖 2 )
𝑖=1 𝑖=1 𝑖=1

NOTA: De manera similar a la propiedad 1 estudiada (la CL de VANI es también


una VAN), el TdLC tiene muchas aplicaciones casos particulares.
Principales distribuciones de muestreo
Consideremos a una muestra de tamaño n como un conjunto de VAI provenientes de una
población en la que se desea estudiar una VA Y con 𝐸(𝑌) = 𝜇 y 𝑉(𝑌) = 𝜎 2 i.e. sea una
muestra de tamaño “n” (𝑌𝑖 ; 𝑖 = 1,2, … , 𝑛) obtenida de una población con VAdRE “Y” tal
que E(Y)=μ y V(Y)=𝜎 2 . Puesto que las 𝑌𝑖 son VAIID, entonces E(𝑌𝑖 )=μ y V(𝑌𝑖 )=𝜎 2 . Se
puede demostrar que:
1. Distribución de muestreo para la suma con sigma conocida
𝑛
∑ 𝑌𝑖 ~ 𝑁(𝑛𝜇, 𝑛𝜎 2 )
𝑖=1

NOTA: El error estándar de esta distribución de muestreo es más que si desviación


estándar

𝜎∑𝑛𝑖=1 𝑌𝑖 = √𝑛𝜎
Aplicando la PdE (propiedad de estandarización) esta distribución de muestreo queda
así:
∑𝑛𝑖=1 𝑌𝑖 − 𝑛𝜇
≈ 𝑍 ~ 𝑁(0, 12 )
√𝑛𝜎
Para un “n” lo suficientemente grande

2. Distribución de muestreo para el promedio con σ conocido


Promedio:
1 𝑛
𝑌̅ = ∑ 𝑌𝑖
𝑛 𝑖=1

NOTA: El error estándar de esta distribución de muestras no es más que su desviación


estándar
𝜎
𝜎𝑌̅ =
PdE √𝑛
𝑌̅ − 𝜇
⇔ 𝜎 ≈ 𝑍 ~ 𝑁(0, 12 )
⁄ 𝑛

Para un “n” lo suficientemente grande

̅ con σ desconocido
3. Distribución de muestreo para el promedio 𝒀
𝑌̅ − 𝜇
~ 𝑡𝑛−1
𝑆⁄
√𝑛
NOTAS:
1.
1 𝑛
𝑆2 = ∑ (𝑌𝑖 − 𝑌̅)2 ; 𝑆 = √𝑆 2
𝑛 − 1 𝑖=1
Varianza muestral como VA Desviación estándar muestral como VA

2. Esta distribución de muestreo exige que la VAdRE (variable aleatoria de respuesta


experimental) Y~N(μ, 𝜎 2 ).

4. Distribución de muestreo para 𝑺𝟐


(𝑛 − 1)𝑆 2
2
~𝑋𝑛−1 2
𝜎
NOTAS:
1.
𝑛
(𝑛 − 1)𝑆 2 = ∑ (𝑌𝑖 − 𝑌̅)2 = 𝑆𝑆𝑇 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙 𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑎
𝑖=1

𝑆𝑆𝑇
⸫ 2
~ 𝑋𝑛−1 2 (𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖𝑜𝑛 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜 𝑝𝑎𝑟𝑎 𝑆𝑆𝑇 )
𝜎
2.
2
𝑆𝑆𝑇 ∑𝑛𝑖=1(𝑌1 − 𝑌̅)2 𝑛 𝑌1 − 𝑌̅ 𝑛
2
= 2
= ∑ ( ) = ∑ (𝑍𝑖 )2 ~𝑋𝑛−1 2
𝜎 𝜎 𝑖=1 𝜎 𝑖=1

Pues si la VAdRE 𝑌~𝑁(𝜇, 𝜎 2 ) entonces 𝑌𝑖 ~𝑁𝐼𝐷(𝜇, 𝜎 2 ). Además, recordemos que si


𝑍𝑖 ~ 𝑁𝐼𝐷(0, 12 ), entonces:
𝑘
∑ 𝑍𝑖 2 ~𝑋𝑘 2
𝑖=1

3. Esta distribución de muestreo exige que la VAdRE 𝑌 = 𝑁(𝜇, 𝜎 2 )

5. Distribución de muestreo para la proporción muestral p


𝜋(1 − 𝜋)
𝑝 ~ 𝑁 (𝜋, )
𝑛

PdE
𝑝−𝜋
⇔ ≈ 𝑍 ~ 𝑁(0, 12 )
√𝜋(1 − 𝜋)
𝑛

NOTAS:
1. Esta distribución de muestreo exige que la VAdRE
𝑌~𝐵𝑒𝑟(𝜋)
2. En este caso, 𝑌𝑖 ~𝐵𝑒𝑟𝐼𝐷(𝜋)
3.
𝑛
∑ 𝑌𝑖 ~𝐵𝑖𝑛 (𝑛, 𝜋)
𝑖=1

Donde: 𝐧𝛑 > 𝟓

𝑛 𝐧(𝟏 − 𝛑) > 𝟓

∑ 𝑌𝑖 = 𝑁𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 é𝑥𝑖𝑡𝑜
𝑖=1

𝜋: Probabilidad de éxito
6. Distribución de muestreo para la razón de varianzas bajo el supuesto de
homocedasticidad i,e, 𝝈𝟐 𝟏 = 𝝈𝟐 𝟐 = 𝝈𝟐

(𝒏𝟏 − 𝟏)𝑺𝟏 𝟐
~ 𝑭𝒏𝟏 −𝟏,𝒏𝟐 −𝟏
(𝒏𝟐 − 𝟏)𝑺𝟐 𝟐
NOTAS:
1. En este caso se tiene dos VAdRE 𝑌1 y 𝑌1 tales que:
𝑌𝑖 ~𝑁𝐼𝐷(𝜇𝑖 , 𝜎𝑖 2 )
2.
1 𝑛𝑖
𝑆𝑖 2 = ̅𝑖 )2
∑ (𝑌𝑖𝑗 − 𝑌
𝑛𝑖 − 1 𝑗=1

Con:
1 𝑛𝑖
̅𝑖 =
𝑌 ∑ 𝑌𝑖𝑗
𝑛𝑖 𝑗=1

3.

(𝑛1 − 1)𝑆1 2 /𝝈𝟐 𝟏 𝑋𝑛1 −1 2


~ = 𝐹𝑛1 −1,𝑛2 −1
(𝑛2 − 1)𝑆2 2 /𝝈𝟐 𝟐 𝑋𝑛2 −1 2

Con:

𝑋𝑛1 −1 2 𝑦 𝑋𝑛2−1 2 (𝑉𝐴𝐼)

4. Bajo el supuesto de homocedasticidad (varianzas iguales 𝜎1 2 = 𝜎2 2 )


𝑆𝑆𝑇1
~ 𝐹𝑛1 −1,𝑛2 −1
𝑆𝑆2
Donde:

𝑆𝑆𝑇1 = (𝑛𝑖 − 1)𝑆𝑖 2

𝟐𝟎𝟐𝟎 − 𝟎𝟓 − 𝟐𝟖𝟓
7. Distribución de muestreo para la CL con 𝝈𝟐 conocida
𝑛 𝑛
𝑛
∑ 𝑌𝑖 𝑐𝑖 ~ 𝑁 (𝜇 ∑ 𝑐𝑖 , 𝜎𝑖 2 ∑ 𝑐 2 𝑖 ) ; 𝑐𝑖 𝜖 ℝ
𝑖=1
𝑖=1 𝑖=1

PdE
∑𝑛𝑖=1 𝑌𝑖 𝑐𝑖 − 𝜇 ∑𝑛𝑖=1 𝑐𝑖
⟺ ≈ 𝑍 ~ 𝑁(0. 12 )
𝜎√∑𝑛𝑖=1 𝑐 2 𝑖
8. Distribución de muestro para ̅𝒀̅̅𝟏̅ − ̅𝒀̅̅𝟐̅ con 𝜎1 2 y 𝜎2 2 conocidas
𝜎1 2 𝜎2 2
𝑌̅1 − 𝑌̅2 ~ 𝑁 (𝜇1 − 𝜇2 , + )
𝑛1 𝑛2
PdE
𝑌̅1 − 𝑌̅2 − (𝜇1 − 𝜇2 )
⟺ ≈ 𝑍 ~ 𝑁 (0. 12 )
𝜎1 2𝜎2 2

𝑛1 + 𝑛2
NOTAS
1. Bajo el supuesto de homocedasticidad (𝜎1 2 = 𝜎2 2 = 𝜎 2 ) se tiene que:
1 1
𝑌̅1 − 𝑌̅2 ~ 𝑁 (𝜇1 − 𝜇2 , ( + ))
𝑛1 𝑛2
𝑌̅1 − 𝑌̅2 − (𝜇1 − 𝜇2 )
⟺ ≈ 𝑍 ~ 𝑁(0. 12 )
1 1
𝜎√𝑛 + 𝑛
1 2

2. Bajo el supuesto de homocedasticidad y tamaños muestrales iguales (𝑛1 = 𝑛2 =


𝑛) se tiene que:
2𝜎 2 𝑌̅1 − 𝑌̅2 − (𝜇1 − 𝜇2 )
𝑌̅1 − 𝑌̅2 ~ 𝑁 (𝜇1 − 𝜇2 , ) ⟺ 𝜎 ≈ 𝑍 ~𝑁(0. 12 )
𝑛 √2
√𝑛
3. En este caso se tienen dos VAdRE (VA de respuesta experimental) i.e. es un
experimento comparativo simple. Estas variables 𝑌1 𝑌2 son VAI y tales que
𝐸(𝑌𝑖 ) = 𝜇𝑖 , 𝑉(𝑌𝑖 ) = 𝜎 2 𝑖

9. Distribución de muestreo para 𝑌̅1 − 𝑌̅2 con 𝜎1 2 𝑦 𝜎2 2 desconocidos


𝑌̅1 − 𝑌̅2 − (𝜇1 − 𝜇2 )
~ 𝑡𝑛1 +𝑛2 −2
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2
𝜋1 (1−𝜋1 ) 𝜋2 (1−𝜋2 )
10. 𝜌1 − 𝜌2 ~ 𝑁 (𝜋1 − 𝜋2 , + )
𝑛1 𝑛2
𝜌1 − 𝜌2 − (𝜋1 − 𝜋2 )
⟺ ≈ 𝑍 ~𝑁(0, 12 )
𝜋1 (1 − 𝜋1 ) 𝜋2 (1 − 𝜋2 )
PdE √ +
𝑛1 𝑛2
Ejercicio N°2: Se tiene una VAdRE 𝑌~𝑁(𝜇, 𝜎2 ) y se ha extraído una muestra de
tamaño “n” lo suficientemente grande donde se ha calculado 𝑠 2 , su varianza.
Calcular dos números L (de low) y U (de upper), L<U, cuya distancia entre
ellos sea mínima y tales que el intervalo abierto que definen contenga a 𝜎 2
con una alta probabilidad 1−∝ fijada “a priori” y conocida como NdC (nivel
de confianza). NOTA: El NdC por defecto es 1−∝= 0,95
Pr(𝜎 2 𝜖 ] 𝐿, 𝑈) = 1 − 𝛼 ⟺ Pr(𝐿 < 𝜎 2 < 𝑈) = 1 − 𝛼
1 1 1
⟺ 𝑃𝑟 ( > 2 > ) = 1 − 𝛼
𝐿 𝜎 𝑈
1 1 1
⟺ 𝑃𝑟 ( < 2 < ) = 1 − 𝛼
𝑈 𝜎 𝐿
(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
⟺ 𝑃𝑟 ( < < )=1−𝛼
𝑈 𝜎2 𝑈
(𝑛 − 1)𝑠 2 2
(𝑛 − 1)𝑠 2
⟺ 𝑃𝑟 ( < 𝑋 𝑛−1 < )=1−𝛼
𝑈 𝐿
NOTA: Para que la distancia entre L y U sea minima es necesario que las áreas a cola
𝛼
izquierda y a cola derecha dibujada en verde, sean iguales a .
2

(𝑛−1)𝑠2 (𝑛−1)𝑠2
De (1): 𝐿 = De (2): 𝑈 =
𝑋2 𝛼 𝑋2𝛼
1− ,𝑛−1 ,𝑛−1
2 2

(𝑛−1)𝑠2 2
Por lo tanto, se puede poner que: 𝐼𝑑𝐶𝜎2 (1 − 𝛼) = ] , (𝑛−1)𝑠
[
𝑋2 1−𝛼,𝑛−1 𝑋 𝛼,𝑛−1
2
2 2

(𝑛−1)𝑠2 (𝑛−1)𝑠2
NOTA: 𝐼𝑑𝐶𝜎 (1 − 𝛼) = ]√ 2 ,√ 2 [
𝑋 1−𝛼,𝑛−1 𝑋 𝛼,𝑛−1
2 2

𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟎𝟐𝟑

Ejercicio N°3: #12, Cap. 2 del libro de Gutiérrez y De la Vara


Y= contenido de nicotina por cigarrillo, en mg
n=40, 𝑦̅ = 18,1, s=1,7

a) 1−∝= 0,95 , 𝐼𝑑𝐶𝜇 (1 − 𝛼) =? ? 𝑑𝑜𝑛𝑑𝑒 𝜇 = 𝐸(𝑌)


Puesto que “n” es lo suficiente grande en este caso (n≥25): 𝜎 ≈ 𝑠
𝜎
𝐼𝑑𝐶𝜇 (1 − 𝛼) = 𝑦̅ ∓ 𝑍1−𝛼
2 √𝑛
En este caso:
1,7
𝐼𝑑𝐶𝜇 (95%) = 18,1 ∓ 𝑍0,975
√40
𝑍= 1,96 𝑇𝑎𝑏𝑙𝑎
1,959964 𝐸𝑥𝑐𝑒𝑙
𝛼 1−𝑁𝑑𝐶 𝛼 1−𝑁𝑑𝐶
NOTAS: NdC=1-α ⟹ 𝛼 = 1 − 𝑁𝑑𝐶 ⟹ − 2 = − ⟹ 1−2 =1−
2 2

𝛼 1 + 𝑁𝑑𝐶
⟹ 1− =
2 2
2) En PdH (pruebas de hipótesis) se tiene el NdS (nivel de significancia) = α; en ese caso:
𝛼
𝑁𝑑𝑆 = 𝛼 ⟹ 1 − = 1 − 𝑁𝑑𝑆/2
2
𝛼 1−𝑁𝑑𝐶 𝛼 1−𝑁𝑑𝐶 1−(1−𝛼) 𝛼
3) Simultáneamente, = En efecto: = = =
2 2 2 2 2 2
1,7
Por lo tanto: 𝐼𝑑𝐶𝜇 (95%) = 18,1 ∓ 1,96 = 0,53 =]17,57; 18,63[
√45

Respuesta: Sobre la base de la evidencia muestral, el contenido de nicotina promedio por


cigarrillo está entre 17,57 mg y 18,63 mg (1 − 𝛼=0,95)
b) 𝜇𝑜 = 17,5; 𝜇𝑜 = (𝑠𝑢𝑝𝑢𝑒𝑠𝑡𝑜) contenido promedio de nicotina por cigarrillo
Puesto que 𝜇 ∉∶ 𝐼𝑑𝐶𝜇 (95%), se rechaza que 𝜇 = 𝜇𝑜 ; 𝜇𝑜 = 17,5

c) 𝐼𝑑𝐶𝜎 (1 − 𝛼) =? , 1 − 𝛼 = 95%

(𝑛 − 1)𝑠 2 (𝑛 − 1)𝑠 2
𝐼𝑑𝐶𝜎 (1 − 𝛼) = ]√ 2 ,√ [
𝑋1−𝛼,𝑛−1 𝑋𝛼,𝑛−1 2
2 2

En este caso: 𝑋1−𝛼,𝑛−1 2 = 𝑋0,975 ; 39 2 (𝑅) = 58,12006


2

𝑋𝛼,𝑛−1 2 = 𝑋0,025 ; 39 2 (𝑅) = 23,65432


2

(40 − 1)1,72 (40 − 1)1,72


∴ 𝐼𝑑𝐶𝜎 (95%) = ]√ ,√ [ = ]1,39 ; 2,18[
58,12006 23,65432

Respuesta: la desviación estándar del contenido de nicotina promedio por cigarrillo está
entre 1,39mg y 2,18mg.
¿Qué se puede decir sobre las cantidades mínima y máxima de nicotina por cigarrillo?
Supongamos que 𝑌 ~ 𝑁(𝜇, 𝜎2 )
Por lo tanto, la cantidad mínima estimada de nicotina por cigarrillo es:

𝜇̂
− 3𝜎 = 𝜇̂ − 3̂
𝜎 = 𝑦̅ − 3𝑠 = 18,1 − 3 ∗ 1,7 = 13𝑚𝑔
Simultáneamente, la cantidad máxima estimada de nicotina por cigarrillo es:

𝜇̂
+ 3𝜎 = 𝜇̂ + 3̂
𝜎 = 𝑦̅ + 3𝑠 = 18,1 + 3 ∗ 1,7 = 23,2𝑚𝑔
¿Es posible garantizar con suficiente confianza que los cigarrillos tienen menos de 20mg
de nicotina?
Entonces, se sabe que:
Tarea 04: Demostrar
1) 𝐏𝐫(𝝁 − 𝝈 ≤ 𝒀 ≤ 𝝁 + 𝝈) = 𝟔𝟖, 𝟐𝟔%
PdE 𝜇 − 𝑘𝜎 − 𝜇 𝑌 − 𝜇 𝜇 + 𝑘𝜎 − 𝜇
Pr(𝜇 − 𝑘𝜎 ≤ 𝑌 ≤ 𝜇 + 𝑘𝜎) = Pr ( ≤ ≤ )
𝜎 𝜎 𝜎

= Pr(−𝑘 ≤ 𝑍 ≤ 𝑘) = Φ(𝑘) − Φ(−𝑘)


Si k=1:
Pr(𝜇 − 𝜎 ≤ 𝑌 ≤ 𝜇 + 𝜎) = Φ(1) − Φ(−1) = 0,6826 = 68,26%
2) 𝐏𝐫(𝝁 − 𝟐𝝈 ≤ 𝒀 ≤ 𝝁 + 𝟐𝝈) = 𝟗𝟓, 𝟒𝟒%
PdE
𝜇 − 2𝑘𝜎 − 𝜇 𝑌 − 𝜇 𝜇 + 2𝑘𝜎 − 𝜇
Pr(𝜇 − 2𝑘𝜎 ≤ 𝑌 ≤ 𝜇 + 2𝑘𝜎) = Pr ( ≤ ≤ )
𝜎 𝜎 𝜎

= Pr(−2𝑘 ≤ 𝑍 ≤ 2𝑘) = Φ(2𝑘) − Φ(−2𝑘)


Si k=2
Pr(𝜇 − 2𝜎 ≤ 𝑌 ≤ 𝜇 + 2𝜎) = Φ(2) − Φ(−2) = 0,9544 = 95,44%
3) 𝐏𝐫(𝝁 − 𝟑𝝈 ≤ 𝒀 ≤ 𝝁 + 𝟑𝝈) = 𝟗𝟗, 𝟕𝟒%
PdE
𝜇 − 3𝑘𝜎 − 𝜇 𝑌 − 𝜇 𝜇 + 3𝑘𝜎 − 𝜇
Pr(𝜇 − 3𝑘𝜎 ≤ 𝑌 ≤ 𝜇 + 3𝑘𝜎) = Pr ( ≤ ≤ )
𝜎 𝜎 𝜎

= Pr(−3𝑘 ≤ 𝑍 ≤ 3𝑘) = Φ(3𝑘) − Φ(−3𝑘)


Si k=3
Pr(𝜇 − 3𝜎 ≤ 𝑌 ≤ 𝜇 + 3𝜎) = Φ(3) − Φ(−3) = 0,9974 = 99,74%

Prueba de la unidad 1 para el 2020-06-16


𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟎𝟒𝟒
PdH (Pruebas de Hipótesis)
Propiedades de la esperanza de una VAdRE “y”.
Sea y una VAdRE (variable aleatoria de respuesta experimental)
Entonces

𝐸(𝑦) = ∑ 𝑦 𝑝(𝑦) 𝑠𝑖 𝑦 𝑒𝑠 𝑉𝐴𝐷




∫ 𝑦 𝑓(𝑦) 𝑠𝑖 𝑦 𝑒𝑠 𝑉𝐴𝐶

Donde 𝑝(𝑦) es la función de masa de la VAdRE y


𝑓(𝑦) es la función de densidad de la VAdRE y.
𝐸(𝑦)es la esperanza matemática de y que también se denomina valor esperado, valor
promedio o, simplemente esperanza de y.
Entre las propiedades de y tenemos las siguientes:
1) E(c)=c donde 𝑐 ∈ ℝ
2) 𝐸 ∑𝑛𝑖=1 𝑐𝑖 𝑦𝑖 = ∑𝑛𝑖=1 𝑐𝑖 𝐸(𝑦𝑖 ). Además, si 𝐸(𝑦𝑖 ) = 𝜇𝑖 entonces
𝑛 𝑛 𝑛

𝐸 (∑ 𝑐𝑖 𝑦𝑖 ) = ∑ 𝑐𝑖 𝐸(𝑦𝑖 ) = ∑ 𝑐𝑖 𝜇𝑖
𝑖=1 𝑖=1 𝑖=1

3) 𝐸[𝑝(𝑦)] = ∑ℝ 𝑔(𝑦)𝑝(𝑦) 𝑠𝑖 𝑦 𝑒𝑠 𝑉𝐴𝐷

∫ 𝑔(𝑦)𝑓(𝑦)𝑑𝑦 𝑠𝑖 𝑦 𝑒𝑠 𝑉𝐴𝐶

Casos particulares de 3):


3.1) Si g(y)=y se tiene la definición de E(y)
3.2) si 𝑔(𝑦) = 𝑦 2 entonces 𝐸(𝑦 2 ) = ∑ℝ 𝑦 2 𝑝(𝑦) 𝑠𝑖 𝑦 𝑉𝐴𝐷

∫ 𝑦 2 𝑓(𝑦)𝑑𝑦 𝑠𝑖 𝑉𝐴𝐶

3.3) si 𝑔(𝑦) = (𝑦 − 𝜇)2, con 𝜇 = 𝐸(𝑦), entonces

𝐸((𝑦 − 𝜇)2 ) = 𝑉(𝑦) = ∑(𝑦 − 𝜇)2 𝑝(𝑦) 𝑠𝑖 𝑦 𝑉𝐴𝐷


∫ (𝑦 − 𝜇)2 𝑓(𝑦)𝑑𝑦 𝑠𝑖 𝑦 𝑉𝐴𝐶



NOTA: Para calcular V(y) es mejor emplear la propiedad 𝑉(𝑦) = 𝐸(𝑦)2 − 𝐸 2 (𝑦).
Además
Se puede introducir la notación 𝑉(𝑦) = 𝜎 2 con lo cual 𝜎 2 = 𝐸(𝑦 2 ) − 𝜇 2

4) 𝐸((𝑦1 , 𝑦2 )) = ∑ℝ ∑ℝ 𝑝(𝑦1 , 𝑦2 ) 𝑠𝑖 𝑦1 𝑦 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐷

∬ 𝑓(𝑦1 , 𝑦2 ) 𝑑𝑦1 𝑑𝑦2 𝑠𝑖 𝑦1 𝑦 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐶


Donde (𝑦1 , 𝑦2 ) es un vector aleatorio de respuesta experimental bidimensional con


función de más conjunta 𝑝(𝑦1 , 𝑦2 ) si (𝑦1 ) 𝑦 (𝑦2 ) son VAD o con función de densidad
conjunta 𝑓(𝑦1 , 𝑦2 ) si 𝑦1 y 𝑦2 son VAC.

5)

𝐸(𝑔(𝑦1 , 𝑦2 )) = ∑ ∑ 𝑔(𝑦1 , 𝑦2 )𝑝(𝑦1 , 𝑦2 ) 𝑠𝑖 𝑦1 𝑦 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐷


ℝ ℝ

∫ ∫ 𝑔(𝑦1 , 𝑦2 )𝑓( 𝑦1 , 𝑦2 )𝑑𝑦1 𝑑𝑦2 𝑠𝑖 𝑦1 𝑦 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐶


ℝ ℝ

a. Si 𝑔(𝑦1 , 𝑦2 ) = (𝑦1 , 𝑦2 ) entonces, se tiene la propiedad 4 que es la


definición de 𝐸(𝑦1 , 𝑦2 ).

b. Si 𝑔(𝑦1 , 𝑦2 ) = 𝑦1 , 𝑦2 entonces:

𝐸(𝑦1 , 𝑦2 ) = ∑ ∑ 𝑦1 𝑦2 𝑝(𝑦1 , 𝑦2 ) 𝑠𝑖 𝑦1 , 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐷


ℝ ℝ

∫ ∫ 𝑦1 𝑦2 𝑓( 𝑦1 , 𝑦2 )𝑑𝑦1 𝑑𝑦2 𝑠𝑖 𝑦1 , 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐶


ℝ ℝ
Not. Not.

c. Si 𝑔(𝑦1 , 𝑦2 ) = (𝑦1 − 𝜇1 )(𝑦2 − 𝜇2 ), con 𝜇1 = 𝐸(𝑦1 ) y 𝜇2 = 𝐸(𝑦2 ),


entonces: Def.

𝐸((𝑦1 − 𝜇1 )(𝑦2 − 𝜇2 )) = 𝐶(𝑦1 , 𝑦2 )

= ∑ ∑ (𝑦1 − 𝜇1 )(𝑦2 − 𝜇2 ) 𝑝(𝑦1 , 𝑦2 )𝑠𝑖 𝑦1 𝑦 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐷


ℝ ℝ

∫ ∫ (𝑦1 − 𝜇1 ) (𝑦2 − 𝜇2 )𝑓( 𝑦1 , 𝑦2 ) 𝑠𝑖 𝑦1 𝑦 𝑦2 𝑠𝑜𝑛 𝑉𝐴𝐶


ℝ ℝ
Donde 𝐶(𝑦1 , 𝑦2 ) es la covarianza entre 𝑦1 y 𝑦2 .
Para calcular 𝐶(𝑦1 , 𝑦2 ) es mejor emplear la siguiente propiedad:
𝐶(𝑦1 , 𝑦2 ) = 𝐸(𝑦1 , 𝑦2 ) − 𝐸(𝑦1 )𝐸(𝑦2 )

Not. Not.
Observación: 𝐸(𝑦1 , 𝑦2 ) = 𝜇𝑦1 ,𝑦2 ; 𝑉(𝑦1 , 𝑦2 ) = 𝜎 2 𝑦1 ,𝑦2

Consideremos la definición:
Dos VAdRE 𝑦1 y 𝑦2 son independientes si:
𝑝(𝑦1 , 𝑦2 ) = 𝑝1 (𝑦1 )𝑝1 (𝑦2 ) cuando 𝑦1 y 𝑦2 VAD.
𝑓(𝑦1 , 𝑦2 ) = 𝑝1 (𝑦1 )𝑝2 (𝑦2 ) cuando 𝑦1 y 𝑦2 VAC.
Donde:
𝑝𝑖 es la función de masa de la VAD 𝑦𝑖
𝑓𝑖 es la función de densidad de la VAL 𝑦𝑖
Entonces se puede demostrar que:
NOTAS:
3.

𝐸(𝑦1 , 𝑦2 ) = ∑ 𝑦1 𝑝1 (𝑦1 ) ∑ 𝑦2 𝑝2 (𝑦2 )


ℝ ℝ

∫ 𝑦1 𝑓1 (𝑦1 ) 𝑑𝑦1 ∫ 𝑦2 𝑓2 (𝑦2 ) 𝑑𝑦2


ℝ ℝ

4. 𝐸(𝑦1 , 𝑦2 ) = 𝐸(𝑦1 )𝐸(𝑦2 )


5. 𝐶(𝑦1 , 𝑦2 ) = 𝐸(𝑦1 , 𝑦2 ) − 𝐸(𝑦1 )𝐸(𝑦2 )
𝐶(𝑦1 , 𝑦2 ) = 0

Tarea 05: Lectura connotativa del capítulo 02 (Elementos de inferencia estadística:


experimentos con uno y dos tratamientos) del libro: Gutiérrez H. El resumen debe incluir
los conceptos clave, tablas y figuras. En los ejercicios los números pares de la lista
realizan las preguntas y problemas pares y los números impares de la lista del curso
realizan las preguntas y problemas impares para el 2020-06-11
Elementos de inferencia estadística: experimentos con uno y dos tratamientos
 Población y muestra, parámetros y estadísticos
Una población o universo es una colección o totalidad de posibles individuos,
especímenes, objetos o medidas de interés sobre los que se hace un estudio, si la población
es infinita o grande es imposible medir a todos los individuos, en este caso se tendrá que
sacar una muestra representativa de dicha población, y con base en las características
medidas en la muestra se podrán hacer afirmaciones acerca de los parámetros de la
población (figura 2.1).

Figura 2.1: Relación entre población y muestra, parámetros y estadísticos.

Existen varios métodos de muestreo aleatorio, por ejemplo: el simple, el estratificado, el


muestreo sistemático y por conglomerados; cada uno de ellos logra muestras
representativas en función de los objetivos del estudio y de ciertas circunstancias y
características particulares de la población.
 Población finita
Es aquella que posee o incluye un número pequeño de elementos, de tal forma que al
estudiar estadísticamente esta población es necesario considerar explícitamente su
tamaño.
 Parámetros
Características que, mediante su valor numérico, describen a un conjunto de elementos o
individuos.
 Población infinita
Es aquella que posee o incluye un número grande de elementos, de tal forma que al
estudiar estadísticamente esta población es necesario recurrir a muestras, que en la
práctica son pequeñas respecto al tamaño de la población.
 Muestra representativa
Es una parte de una población, seleccionada adecuadamente, que conserva los aspectos
clave de la población.

 Inferencia estadística
Un aspecto clave en la interpretación y utilización de cualquier estadístico es que se trata
de una variable aleatoria, ya que su valor depende de los elementos que son seleccionados
para integrar la muestra, y, por lo tanto, varía de una muestra a otra. La forma de tomar
en cuenta este hecho es conocer la distribución de probabilidad de cada estadístico.
 Inferencia estadística
Son afirmaciones estadísticas acerca de la población o proceso basadas en la información
contenida en la muestra.
 Estadístico
Cantidad que se obtiene a partir de los datos de una muestra y que ayuda a resumir las
características de esta.

 Distribuciones de probabilidad e inferencia


La distribución de probabilidad de la media muestral 𝑋̅ señala qué valores se espera que
tome 𝑋̅, de acuerdo con los supuestos asumidos. De esta forma, la distribución de
probabilidad hace que lo aleatorio no sea un capricho, y modela (describe, acota) los
posibles valores de un estadístico muestral, con lo que al observar una realización
específica de un estadístico se pueden corroborar o rechazar supuestos (prueba de
hipótesis), o bien, hacer estimaciones poblacionales.
Las distribuciones de probabilidad que más se usan en intervalos de confianza y pruebas
de hipótesis son las distribuciones: normal, T de Student, ji-cuadrada y F. En la figura 2.2
se representan las formas típicas de estas cuatro distribuciones.

Figura 2.2 Muestra de las distribuciones de probabilidad de mayor uso en inferencia.

 Distribución de probabilidad de X
Relaciona el conjunto de valores de X con la probabilidad asociada con cada uno de estos
valores.
 Grados de libertad
Son parámetros que definen las distribuciones t, ji-cuadrada y F, y se determinan a partir
de los tamaños muestrales involucrados.

 Uso de Excel

Si X tiene una distribución normal con media m y desviación estándar s con frecuencia
es de interés calcular probabilidades como P(X < x). Se puede utilizar la hoja de cálculo
de Excel para calcular este tipo de probabilidades. Para ello se utiliza la siguiente función:

DISTR.NORM(x, media, desv_estándar, acum)


Donde en la celda x se da el valor de referencia para el cálculo de probabilidades, en
media se da el valor de la media, m, y en desv_estándar se declara el valor de la desviación
estándar, s. Por último, acum es un valor lógico que determina la forma de la función: si
el argumento acum es VERDADERO (se da un 1), la función DISTR.NORM devuelve
la función de distribución acumulada (P(X ≤ x)); si es FALSO (se da un 0), devuelve la
función de densidad de probabilidad, es decir, da f (x).

 Estimación puntual y por intervalo


Una distribución de probabilidad de una variable que representa cierta característica de
una población se define completamente cuando se conocen sus parámetros, pero cuando
éstos no se conocen, será necesario estimarlos con base en los datos muestrales para hacer
inferencias sobre la población.

 Estimación puntual
Un estimador puntual de un parámetro desconocido es un estadístico que genera un valor
numérico simple, que se utiliza para hacer una estimación del valor del parámetro
desconocido; por ejemplo, tres parámetros sobre los que con frecuencia se desea hacer
inferencia son:

 La media 𝜇 del proceso (población).


 La varianza 𝜎 2 o la desviación estándar 𝜎 del proceso.
 La proporción p de elementos que tienen cierta característica.
Los estimadores puntuales (estadísticos) más recomendados para estimar estos
parámetros son, respectivamente:
 La media muestral 𝜇̂ = 𝑋̅
 La varianza muestral 𝜎̂ 2 = 𝑆 2

 La proporción muestral, 𝑝̂ = x/n, donde x es el número de elementos en la


muestra de tamaño n, que tienen la característica.

 Estimación por intervalo

Una forma de saber qué tan variable es el estimador, consiste en calcular la desviación o
error estándar del estadístico, visto como una variable aleatoria. Por ejemplo, sea la
desviación estándar S y la media 𝑋̅ de una muestra de tamaño n, puesto que 𝑋̅ es una
variable aleatoria, ésta tiene su propia desviación o error estándar, que se puede estimar
mediante 𝜎̂𝑋 = 𝑆⁄ . Construir un intervalo al 100(1 – 𝛼) % de confianza para un
√𝑛
parámetro desconocido 𝜃, consiste en estimar dos números (estadísticos) L y U, de
manera que la probabilidad de que 𝜃 se encuentre entre ellos sea 1 – 𝛼, es decir,
P (L ≤ 𝜃 ≤ U) = 1 – 𝛼
 Intervalo de confianza
Valores entre los que se estima está el valor de un parámetro poblacional.

 Intervalo de confianza para una media


Por definición de intervalo de confianza se trata de encontrar dos números L y U, tales
que el parámetro m se encuentre entre ellos con una probabilidad de 1 – 𝛼. Esto es:
P (L ≤ 𝜇 ≤ U) = 1 – 𝛼
Sea 𝑋1, 𝑋2 , … , 𝑋𝑛 una muestra aleatoria de tamaño n de una población, con una
distribución normal con media 𝜇 y varianza 𝜎 2 , ambas desconocidas. El procedimiento
general para deducir el intervalo consiste en partir de un estadístico que involucra al
parámetro de interés y que tiene una distribución conocida. En el caso de la media tal
estadístico es:
𝑋̅ − 𝜇
𝑡=
𝑆⁄
√𝑛
El cual sigue una distribución T de Student con n – 1 grados de libertad. Por lo tanto, en
la tabla de esta distribución o en su gráfica se pueden ubicar dos valores críticos 𝑡𝛼⁄2 y –
𝑡𝛼⁄2 , tales que:

𝑋̅ − 𝜇
𝑃 (– 𝑡𝛼⁄2 ≤ ≤ 𝑡𝛼⁄2 ) = 1 − 𝛼
𝑆⁄
√𝑛

De aquí, despejando hasta dejar sólo en medio de las desigualdades el parámetro de


interés, se llega a que:
𝑆 𝑆
𝑃 (𝑋̅ − 𝑡𝛼⁄2 ≤ μ ≤ 𝑋̅ + 𝑡𝛼⁄2 )= 1−𝛼
√𝑛 √𝑛

𝑆 𝑆
En este sentido, 𝐿 = 𝑋̅ − 𝑡𝛼⁄2 y 𝑈 = 𝑋̅ + 𝑡𝛼⁄2 son los números buscados que
√𝑛 √𝑛
definen un intervalo al 100(1 – 𝛼 ) % para la media desconocida 𝜇. En la tabla de la
distribución T de Student se observa que para una muestra mayor o igual a 30, el intervalo
𝑆
al 100(1 – 𝛼) % para la media 𝜇 es aproximadamente 𝑋̅ ± 2 y, o sea, la media más
√𝑛
menos 2 veces su error estándar.

 Tamaño de la muestra
En ocasiones es necesario calcular el tamaño de muestra n para lograr que la estimación
de una media poblacional m tenga como error máximo un valor E. En este caso, como el
error de estimación está dado por 𝐸 = 𝑡(𝛼⁄ ,𝑛−1) 𝑆⁄ , entonces despejando n obtenemos
2 √𝑛
que:
𝑡 2 (𝛼⁄ 𝑆 2
2,𝑛−1)
𝑛=
𝐸2
Como 𝑡(𝛼⁄ depende de n y ésta es la incógnita, entonces para propósitos prácticos y
2,𝑛−1)
con tamaños de muestra mayores que 30, el valor de 𝑡(𝛼⁄ puede tomarse como 2. De
2,𝑛−1)
esta manera:
4𝑆 2
𝑛=
𝐸2
Donde 𝑆 2 es un estimador de la varianza. Por ejemplo, si en el caso del grosor medio de
los discos se quisiera un error máximo de 0.004 = E, entonces se requiere:
4(0.00071)
𝑛= = 177.5
(0.004)2
 Intervalo para la varianza
Con un poco de álgebra, se llega a que el intervalo de confianza para la varianza está dado
por:
(𝑛 − 1)𝑆 2 2
(𝑛 − 1)𝑆 2
≤ 𝜎 ≤
𝑋 2 𝛼⁄2,𝑛−1 𝑋 21−𝛼⁄2,𝑛−1

Donde 𝑋 2 𝛼⁄2,𝑛−1 y 𝑋 2 1−𝛼⁄2,𝑛−1y son puntos críticos de la distribución ji-cuadrada con n


– 1 grados de libertad y se leen en la tabla de esta distribución para el valor de a dado. Es
decir, P(X>𝑋 2 𝛼⁄2,𝑛−1 )=𝛼⁄2. Los valores críticos de la distribución ji-cuadrada se pueden
obtener con Excel, mediante las funciones:

PRUEBA.CHI.INV (𝛼/2, n – 1)
PRUEBA.CHI.INV (1 – 𝛼/2, n – 1).
 Intervalo para la proporción
Se puede afirmar que de manera aproximada la proporción muestral 𝑝̂ sigue una
distribución normal con media p y varianza p (1 – p)/n. Con el uso de la misma
argumentación que en el intervalo para la media, se deduce que el intervalo de confianza
para la proporción es de la forma:
𝑝̂ (1 − 𝑝̂ ) 𝑝̂ (1 − 𝑝̂ )
𝑝̂ − 𝑍𝛼⁄2 √ ≤ 𝑝 ≤ 𝑝̂ + 𝑍𝛼⁄2 √
𝑛 𝑛

Donde 𝑍𝛼⁄2 es un percentil de tabla de la distribución normal estándar que está en el


apéndice, o bien, se puede obtener con Excel con la función
DISTR.NORM.ESTAND.IND (1 – 𝛼/2).
 Tamaño de muestra
Si se quiere estimar el tamaño de la muestra n, que es necesario para estimar p con un
𝑝̂(1−𝑝̂)
error máximo de E, entonces dado que 𝐸 = 𝑍𝛼⁄2 √ ≤, si despejamos de aquí a n
𝑛
obtenemos que:
𝑍 2 𝛼⁄2 𝑝̂ (1 − 𝑝̂ )
𝑛=
𝐸2
Donde 𝑝̂ es una estimación del valor de p. Por ejemplo, si en el problema anterior se
quisiera un error máximo de E = 0.03, con una confianza de 95%, entonces se requiere
que 𝑛 = (1.96)2 (0.05)(1 − 0.05)/(0.03)2 ≈ 203. Cuando no se sabe nada de p, en la
fórmula anterior se supone 𝑝̂ = 0.5.
 Resumen de fórmulas para intervalos de confianza
En la tabla 2.1 se muestran las fórmulas para calcular los intervalos de confianza más
usuales. Además de los intervalos para un parámetro ya presentados, en la tabla se
incluyen las fórmulas correspondientes para intervalos de confianza que involucran a dos
parámetros.
NOTA: En las tablas observadas a continuación se reemplazará 𝛼⁄2 por 1- 𝛼⁄2 ; de igual
maneta en la distribución de t-Student se reemplazará 𝑡𝑛 por 𝑡𝑛−1
 Conceptos básicos de prueba de hipótesis
Un estudio experimental o una investigación por lo general tienen como último objetivo
responder en forma segura a ciertas preguntas y/o tomar decisiones. En este contexto, el
experimentador tiene ciertas creencias o hipótesis que desea comprobar. Por ejemplo:
 Los tres proveedores del material x tienen el mismo nivel de calidad.
 Los dos tratamientos o procedimientos dan en promedio los mismos
resultados.
En este contexto, cuando en la investigación se recolectan datos, es posible formular
hipótesis un tanto más operativas sobre las características estadísticas de tales datos. De
tal forma que al verificar estas hipótesis estadísticas se abone evidencia a favor o en contra
de la hipótesis de investigación.
 Planteamiento de una hipótesis estadística
La afirmación “este proceso produce menos de 8% de defectuosos” se puede plantear
estadísticamente, en términos de la proporción p desconocida de artículos defectuosos
que genera el proceso, como se hace a continuación.
𝐻0 : p = 0.08 (la proporción de defectuosos es 0.08)
𝐻𝐴 : p < 0.08 (la proporción es menor que 0.08)
A la expresión 𝐻0 : p = 0.08 se le conoce como hipótesis nula y a 𝐻𝐴 : p < 0.08 se le llama
hipótesis alternativa. El nombre de hipótesis nula se deriva del hecho de que comúnmente
se plantea como una igualdad, lo cual facilita el tener una distribución de probabilidad de
referencia específica.
 Hipótesis estadística
Es una afirmación sobre los valores de los parámetros de una población o proceso, que
puede probarse a partir de la información contenida en una muestra.

 Estadístico de prueba
Probar una hipótesis consiste en investigar si lo afirmado por la hipótesis nula es verdad
o no. La estrategia de prueba parte del supuesto de que 𝐻0 es verdadera, y si los resultados
de la investigación contradicen en forma suficiente dicho supuesto, entonces se rechaza
𝐻0 y se acepta la hipótesis alternativa.
Una vez planteada la hipótesis, se toma una muestra aleatoria de la población de estudio
o se obtienen datos mediante un experimento planeado de acuerdo con la hipótesis. El
estadístico de prueba es un número calculado a partir de los datos y la hipótesis nula, cuya
magnitud permite discernir si se rechaza o no la hipótesis nula 𝐻0 .
Al conjunto de posibles valores del estadístico de prueba que llevan a rechazar 𝐻0 se le
llama región o intervalo de rechazo para la prueba, y a los posibles valores donde no se
rechaza 𝐻0 se les llama región o intervalo de aceptación.
 Estadístico de prueba
Formula con la que a partir de los datos y de 𝐻0 , se calcula un número cuya magnitud
permite discernir si se rechaza o no la hipótesis nula.

 Criterio de rechazo
El estadístico de prueba, construido bajo el supuesto de que 𝐻0 es verdad, es una variable
aleatoria con distribución conocida. Si efectivamente 𝐻0 es verdad, el valor del estadístico
de prueba debería caer dentro del rango de valores más probables de su distribución
asociada, el cual se conoce como región de aceptación. Si cae en una de las colas de su
distribución asociada, fuera del rango de valores más probables (en la región de rechazo),
es evidencia en contra de que este valor pertenece a dicha distribución (véase figura 2.3).
De aquí se deduce que debe estar mal el supuesto bajo el cual se construyó, es decir, 𝐻0
debe ser falsa.
Figura 2.3 Hipótesis unilateral y bilateral, regiones de aceptación y rechazo.

 Región de aceptación
Son los posibles valores del estadístico de prueba donde no se rechaza la hipótesis nula.
 Región de rechazo
Es el conjunto de posibles valores del estadístico de prueba que llevan a rechazar la
hipótesis nula.

 Pruebas de una y dos colas (unilaterales y bilaterales)

La ubicación de la región o intervalo de rechazo depende de si la hipótesis es bilateral o


unilateral. Como se vio en el caso de las proporciones, una hipótesis es bilateral cuando
la hipótesis alternativa (𝐻𝐴 ) es del tipo “no es igual” (≠); y es unilateral cuando la
alternativa es del tipo “mayor que” (>) o “menor que” (<). Para probar la hipótesis sobre
la proporción se calcula el estadístico de prueba 𝑧0 y se verifica si cae en la región de
rechazo o aceptación.

 El riesgo de una decisión equivocada: errores tipo I y tipo II

En toda prueba de hipótesis cada tipo de error tiene una probabilidad de ocurrir. Con 𝛼 y
𝛽 se denotan las probabilidades de los errores tipo I y II, respectivamente. Así,

𝛼 = P{error tipo I} = probabilidad de rechazar 𝐻0 siendo verdadera


𝛽 = P{error tipo II} = probabilidad de aceptar 𝐻0 siendo falsa

A 1 – 𝛽 se le llama potencia de la prueba, y es la probabilidad de rechazar 𝐻0 cuando es


falsa. A 𝛼 también se le conoce como la significancia dada de la prueba y es la
probabilidad de la región o intervalo de rechazo; su valor se especifica por parte del
investigador desde que planea el estudio.

Por lo general, en las pruebas de hipótesis se especifica el valor de 𝛼 y se diseña la prueba


de tal forma que el valor de 𝛽 sea pequeño. Esto es, la probabilidad del error tipo I se
controla directamente, mientras que la probabilidad del error tipo II se controla de manera
indirecta con el tamaño de la muestra, ya que, a más datos, 𝛽 será menor. En otras
palabras, con una muestra grande es mayor la potencia de la prueba.
 Error tipo I
Es cuando se rechaza una 𝐻0 que es verdadera.

 Error tipo II
Es cuando se acepta una 𝐻0 que es falsa.

 Potencia de la prueba
Es la probabilidad de rechazar 𝐻0 cuando es falsa.

 Prueba para la media con varianza desconocida


Sea X una variable aleatoria con distribución normal con media 𝜇 y varianza 𝜎 2 , ambas
desconocidas. Se quiere probar la hipótesis de que la media es igual a cierto valor 𝜇0 . Es
decir, la hipótesis a probar es:
𝐻0 : 𝜇 =𝜇0
𝐻𝐴 : 𝜇 ≠ 𝜇0
Para probar esta hipótesis se toma una muestra aleatoria de tamaño n de los posibles
valores de la variable X y se calcula el estadístico de prueba:
𝑋̅ − 𝜇0
𝑡0 =
𝑆⁄
√𝑛
Si la muestra produce un valor de 𝑡0 fuera de estos límites, entonces tal valor de 𝑡0 es
evidencia de que 𝐻0 es falsa. Por el contrario, si 𝑡0 cae entre −𝑡𝛼⁄2 y 𝑡𝛼⁄2 , es evidencia a
favor de la veracidad de 𝐻0 ya que no existe ninguna contradicción. Obsérvese que la
región de rechazo dada por la unión de intervalos (−∞, −𝑡𝛼⁄2 )∪(+𝑡𝛼⁄2 , ∞,) está
determinada por la probabilidad a del error tipo I (véase figura 2.4).

Figura 2.4 Regiones de rechazo y de aceptación para hipótesis.

En aquellas situaciones en las que se desea rechazar 𝐻0 : 𝜇 =𝜇0 sólo cuando 𝜇 >𝜇0 , la
hipótesis alternativa es unilateral:
𝐻0 : 𝜇 =𝜇0
𝐻𝐴 : 𝜇 > 𝜇0
En este caso se rechaza 𝐻0 si 𝑡0 > 𝑡𝛼 . Por otra parte, si lo que interesa es rechazar 𝐻0 : 𝜇
=𝜇0 sólo cuando 𝜇 < 𝜇0 entonces ahora la hipótesis unilateral se plantea de la forma:
𝐻0 : 𝜇 =𝜇0
𝐻𝐴 : 𝜇 < 𝜇0
Y se rechaza 𝐻0 si 𝑡0 < −𝑡𝛼

 Prueba para la varianza


El hecho de que los dos números sean distintos no significa que sean estadísticamente
diferentes, de aquí la necesidad de contrastar o probar las hipótesis:
𝐻0 : 𝜎 2 = 0.5
𝐻𝐴 : 𝜎 2 < 0.5
Y de esta manera comprobar si esa diferencia es estadísticamente significativa. Esta
hipótesis es un caso particular de la siguiente:
𝐻0 : 𝜎 2 = 𝜎02
𝐻𝐴 : 𝜎 2 < 𝜎02
Donde 𝜎02 es un valor conocido (0.5 en el ejemplo). Para probar esta hipótesis y bajo el
supuesto de distribución normal, se utiliza el siguiente estadístico de prueba:
(𝑛 − 1)𝑆 2
𝑋02 =
𝜎02
Donde n es el tamaño de la muestra. Si 𝐻0 es verdadera, 𝑋02 sigue una distribución ji-
cuadrada con n – 1 grados de libertad. Por ello, se rechaza 𝐻0 𝑋02 > 𝑋𝛼2 , donde 𝑋𝛼2 es un
punto crítico que se obtiene de la tabla de distribución ji-cuadrada. Si aplicamos lo
anterior al caso de la varianza del peso de los costales, obtenemos que:
(𝑛 − 1)𝑆 2 14𝑥1.2
𝑋02 = = = 33.6
𝜎02 0.5

Tanto el estadístico 𝑡0 de la hipótesis sobre la media, como el estadístico 𝑋02 de la


hipótesis sobre la varianza, cayeron en las respectivas regiones de rechazo, lo cual se
representa en la figura 2.5.

Figura 2.5 Resultados de las hipótesis para la media y para la varianza del peso de costales con α = 0.05.

 Prueba para una proporción


Como se señaló al inicio de la presente sección, cuando se hace un análisis o investigación
donde se involucran variables cualitativas o de atributos, es frecuente que se quiera
verificar si el valor de una proporción poblacional p es igual a un cierto valor 𝑝0 . En estos
casos resulta de interés probar la siguiente hipótesis:
𝐻0 : 𝑝 = 𝑝0
𝐻𝐴 : 𝑝 ≠ 𝑝0
Si se supone que X tiene una distribución binomial y n tiene un valor relativamente
grande, entonces el estadístico de prueba se obtiene apoyándose en la aproximación de la
distribución binomial por la normal. En específico el estadístico de prueba de referencia
está dado por:
𝑥 − 𝑛𝑝0
𝑍0 =
√𝑛𝑝0 (1 − 𝑝0 )
Suponga que mediante un método adecuado de muestreo se selecciona a 300 jóvenes de
las edades de interés, se les mide su talla y peso, y con base en esto se determina que 90
de ellos tienen exceso de peso. De aquí que el estadístico de prueba sea igual a:
90 − 300𝑥0.35
𝑍0 = = −1.812
√300𝑥0.35(1 − 0.35)

 Tres criterios de rechazo o aceptación equivalentes


Al menos en las hipótesis más usuales, existen tres criterios equivalentes para decidir
cuándo rechazar la hipótesis nula y, en consecuencia, aceptar la hipótesis alternativa.

 Estadístico de prueba frente a valor crítico


Este método consiste en rechazar 𝐻0 si el estadístico de prueba cae en la región de rechazo
que está delimitada por el valor crítico. Debe tenerse cuidado de comparar los valores
adecuados, dependiendo de la hipótesis alternativa de que se trata.

 Significancia observada frente a significancia predefinida


La significancia predefinida, que se denota con 𝛼, es el riesgo máximo que el
experimentador está dispuesto a correr por rechazar 𝐻0 indebidamente (error tipo I).
Mientras que la significancia observada o calculada, también conocida como p-value o
valor-p, es el área bajo la distribución de referencia más allá del valor del estadístico de
prueba. La expresión “más allá del estadístico de prueba” significa, por ejemplo en la
prueba T bilateral, el área bajo la curva fuera del intervalo [–𝑡0 , 𝑡0 ], es decir:
𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 𝑃(𝑇 < −𝑡0 ) + 𝑃(𝑇 > +𝑡0 )
En la figura 2.6 se muestra, utilizando una hipótesis bilateral, que cuando ocurre el evento
|𝑡0 | < 𝑡𝛼⁄ necesariamente sucede que valor-p > 𝛼, y viceversa. En el caso representado
2
en la fi gura no se rechaza 𝐻0 con cualquiera de los dos criterios.
Figura 2.6 Comparación de significancias, valor-p > α.

 Intervalo de confianza
En este método se rechaza 𝐻0 si el valor del parámetro declarado en la hipótesis nula se
encuentra fuera del intervalo de confianza para el mismo parámetro. Cuando la hipó tesis
planteada es de tipo bilateral, se utiliza directamente el intervalo al 100 (1 – 𝛼) % de
confianza. Si la hipótesis es unilateral, se requiere el intervalo al 100 (1 – 2𝛼) % para que
el área bajo la curva, fuera de cada extremo del intervalo, sea igual a 𝛼.
Este criterio es útil cuando el software proporciona el intervalo de confianza para el
parámetro de interés, pero no provee la prueba de hipótesis correspondiente. También
puede ser que el experimentador quiera, además de la conclusión de la hipótesis, el
intervalo de confianza para el parámetro que le interesa; en ese aspecto, este criterio tiene
ventajas sobre los anteriores.
 Comparación de dos tratamientos
La comparación se puede hacer respecto a las correspondientes medias poblacionales,
varianzas, proporciones o algún otro parámetro. En seguida se explica cómo plantear y
probar las hipótesis correspondientes.
 Hipótesis para dos medias
Supongamos que interesa comparar las máquinas A y B, que realizan la misma operación.
Para ello se obtendrá una muestra aleatoria de productos procesados por cada máquina, a
los cuales se les medirá o evaluará alguna característica a través de una variable continua
Y. De tal forma que los datos a observar en la máquina A son 𝑌𝐴1 , 𝑌𝐴2 , … , 𝑌𝐴𝑁 y los datos
de la máquina B son 𝑌𝐵1 , 𝑌𝐵2 , … , 𝑌𝐵𝑁 , que se pueden escribir como en la tabla 2.2:

Para que la comparación sea justa, la materia prima que utilizan las máquinas se asigna
de forma aleatoria a las máquinas, y las 2n pruebas o corridas se hacen en orden aleatorio.
No es adecuado realizar primero todas las pruebas de la máquina A y posteriormente las
de la máquina B, porque eso puede favorecer a una de las máquinas y afecta (sesga) la
comparación.
 Suposición de varianzas desconocidas pero iguales
Sean dos procesos o tratamientos con medias 𝜇𝑥 y 𝜇𝑦 y varianzas 𝜇𝑥2 y 𝜇𝑥2 ,
respectivamente. Interesa investigar si las medias de dichos tratamientos pueden
considerarse estadísticamente iguales. Para ello se plantean las siguientes hipótesis:
𝐻0 : 𝜇𝑥 = 𝜇𝑦

𝐻𝐴 : 𝜇𝑥 ≠ 𝜇𝑦

Que se puede reescribir como:


𝐻0 : 𝜇𝑥 − 𝜇𝑦 = 0

𝐻𝐴 : 𝜇𝑥 − 𝜇𝑦 ≠ 0

Si la variable de cada tratamiento sigue una distribución normal y son independientes


entre sí, y si se supone que las varianzas de los procesos son desconocidas pero iguales,
entonces el estadístico de prueba adecuado para probar la hipótesis de igualdad de medias
está dado por:
𝑋̅ − 𝑌̅
𝑡0 =
1 1
𝑆𝑝 √𝑛 + 𝑛
𝑥 𝑦

El cual sigue una distribución T de Student con 𝑛𝑥 + 𝑛𝑦 − 2 grados de libertad, donde


𝑆𝑝2 es un estimador de la varianza común, y se calcula como:

(𝑛𝑥 − 1)𝑆𝑥2 + (𝑛𝑦 − 1)𝑆𝑦2


𝑆𝑝2 =
𝑛𝑥 + 𝑛𝑦 − 2

Con 𝑆𝑥2 y 𝑆𝑦2 las varianzas muestrales de los datos de cada tratamiento.

 Sin suponer varianzas iguales


Si no se supone igualdad de varianzas, el estadístico de prueba para 𝐻0 : 𝜇𝑥 = 𝜇𝑦 está
dado por:
𝑋̅ − 𝑌̅
𝑡0 =
𝑆 2 𝑆𝑦2
𝑆𝑝 √𝑛𝑥 + 𝑛
𝑥 𝑦

Que sigue aproximadamente una distribución T de Student, cuyos grados de libertad v


(nu) se calculan mediante la relación:
2
𝑆𝑥2 𝑆𝑦2
(𝑛 + 𝑛 )
𝑥 𝑦
𝑣= 2 −2
𝑆2
2 𝑆𝑦2
(𝑛𝑥 ) (𝑛 )
𝑥 𝑦
𝑛𝑥 + 1 + 𝑛𝑦 + 1

 Prueba para la igualdad de varianzas


En lugar de suponer, en la prueba de medias, que las varianzas son iguales o diferentes,
se puede verificar de manera estadística mediante las hipótesis:
𝐻0 : 𝜎𝑥2 = 𝜎𝑦2

𝐻𝐴 : 𝜎𝑥2 ≠ 𝜎𝑦2

Por ejemplo, en el caso de las centrifugadoras interesa ver si alguna de ellas tiene mayor
error (variabilidad) en sus mediciones. El planteamiento de la hipótesis se puede reescribir
como:
𝜎𝑥2
𝐻0 : =1
𝜎𝑦2

𝜎2
𝐻𝐴 : 𝜎2𝑥 ≠ 1
𝑦

Para enfatizar que la prueba se basa en la distribución del estadístico:


𝑆𝑥2
𝐹0 =
𝑆𝑦2

 Comparación de proporciones
Una situación de frecuente interés es investigar la igualdad de las proporciones de dos
poblaciones o tratamientos, es decir, se requiere probar la siguiente hipótesis:
𝐻0 : 𝑝1 = 𝑝2
𝐻𝐴 : 𝑝1 ≠ 𝑝2
Para ver si estas diferencias son significativas a favor del fármaco 2, se necesita probar la
hipótesis de igualdad de proporciones. Para ello, bajo el supuesto de distribución
binomial, el estadístico de prueba 𝑧0 está dado por:
𝑝̂1 − 𝑝̂2
𝑧0 =
1 1
√𝑝̂ (1 − 𝑝̂ ) (
𝑛1 + 𝑛2 )
𝑥 +𝑥
Donde 𝑝̂ = 𝑛1 +𝑛2 . Se rechaza 𝐻0 si |𝑧0 | = 𝑧𝛼⁄2 . Cuando la hipótesis alternativa es
1 2
unilateral, entonces 𝑧0 se compara con 𝑧𝛼 . En el caso de los fármacos, como 𝑝̂ =
65+75
= 0.70, entonces:
100+100

65/100 − 75/100
𝑧0 = = −1.543
√0.7(1 − 0.7) ( 1 + 1 )
100 100
Como |𝑧0 | = 1.543 no es mayor que 𝑧0.02 = 1.96, entonces no se rechaza 𝐻0 , por lo que
no hay evidencia suficiente para afirmar que un fármaco es mejor que otro.
 Poblaciones pareadas (comparación de dos medias con muestras dependientes)
En muchas situaciones experimentales no conviene o no es posible tomar muestras
independientes, sino que la mejor estrategia es tomar muestras pareadas. Esto significa
que los datos de ambos tratamientos se obtienen por pares, de forma que cada par son
datos que tienen algo en común; por ejemplo, que a la misma unidad experimental o
espécimen de prueba se le apliquen los tratamientos a comparar. Un par de ejemplos son:
 A los mismos pacientes se les aplican dos medicamentos (tratamientos) para
el dolor en distintas ocasiones; los tratamientos a comparar son los dos
medicamentos.
 A las mismas piezas se les hace una prueba de dureza con distintos
instrumentos; aquí se quieren comparar los instrumentos.
EJEMPLO 2.7: Comparación de dos básculas
Se desea ver si dos básculas están sincronizadas. Para ello se toma una muestra aleatoria
de 10 especímenes y cada uno se pesa en ambas básculas, cuidando que el orden en el
que se utilizan sea elegido al azar. El trabajo lo realiza el mismo operador y los datos
obtenidos se muestran en la tabla 2.3.

La comparación de las básculas se puede evaluar probando la siguiente hipótesis:


𝐻0 : 𝜇1 = 𝜇2
𝐻𝐴 : 𝜇1 ≠ 𝜇2
Entonces, estas hipótesis, en el caso pareado, se plantean de manera equivalente como:
𝐻0 : 𝜇𝐷 = 0
𝐻𝐴 : 𝜇𝐷 ≠ 0
El estadístico de prueba para la hipótesis (es el caso particular del estadístico (2.8) para
una media, cuando 𝜇0 = 0. Esto es, con la muestra de n diferencias 𝑑1 , 𝑑2 , … , 𝑑𝑛 se
obtiene el estadístico dado por:

𝑑̂
𝑡0 =
𝑆𝐷

√𝑛
Al hacer los cálculos resulta que:
−0.02
𝑡0 = = −2.20
0.0287⁄
√10
Como el valor-p = 0.055 es mayor que 𝛼 = 0.05 no se rechaza 𝐻0 a un nivel de
significancia de 𝛼 =0.05. Es decir, no hay suficiente evidencia en contra de la
sincronización de las básculas. Sin embargo, esta conclusión es bastante endeble dado
que el valor-p es muy similar al valor 𝛼.
 Orden completamente al azar
Es aquel en el que las unidades se asignan de manera aleatoria a los tratamientos, y las
pruebas experimentales se hacen en orden aleatorio.
 Muestras pareadas
Son aquellas en las que los datos de ambos tratamientos se obtienen por pares, de manera
que éstos tienen algo en común y no son independientes.

 Poblaciones pareadas: caso más general


La prueba pareada puede utilizarse en situaciones más complejas donde es necesario
comparar tratamientos ante la presencia de varias fuentes de variabilidad explícitas.
Por ejemplo, se quieren comparar dos máquinas por medio de los resultados que generan,
pero el material que utilizan tiene una historia larga en la que sufrió el efecto de varios
factores como son: proveedores, lotes, turnos, días, subprocesos, etc.
Al aceptar 𝐻0 : 𝜇𝐷 = 0 se estaría admitiendo que el número de impurezas promedio en
el cofre levantado y cerrado son iguales 𝐻0 : 𝜇𝐿 = 𝜇𝐵 . El valor del estadístico de prueba
es:

𝑑̂ 0.74
𝑡0 = = = 9.70
𝑆𝐷 0.2413⁄
⁄ √10
√𝑛
Nótese en la tabla 2.4 la gran variabilidad que existe entre los datos de un día a otro, y
también entre turnos. Eso causa que, si en lugar de analizar las diferencias se analizan los
datos de cada tratamiento (posición del cofre) por separado, las diferencias debido a
tratamientos quedan ocultas ante tanta variabilidad.
 Resumen de fórmulas para procedimientos de prueba de hipótesis
En la tabla 2.5 se resumen las fórmulas de los procedimientos de pruebas de hipótesis que
involucran un parámetro de una sola población, mientras que en la tabla 2.6 se listan los
procedimientos que involucran dos parámetros de dos poblaciones. En cada caso se
muestra el planteamiento de la hipótesis, el estadístico de prueba y el criterio de rechazo,
este último para cada una de las tres posibles alternativas.
Si se trabaja con un software estadístico es más directo y conveniente basarse en el criterio
del valor-p, el cual, para cualquier hipótesis, debe ser menor que a para que sea posible
rechazar 𝐻0 .
En la tabla 2.6 note que aparecen tres maneras de probar la igualdad de medias 𝐻0 : la
primera a) es para el caso de muestras independientes suponiendo varianzas iguales. La
segunda b) es para muestras independientes sin suponer varianzas iguales, y el caso e) es
para muestras pareadas.
 Uso de software
En particular, para hacer una estimación puntual y por intervalo, para la media y la
desviación estándar, la secuencia a elegir es la siguiente: Describir ⟶ Datos numéricos
⟶ Una variable; entonces, se declara la variable a analizar, la cual fue previamente
capturada en una columna de la hoja de datos y después se pide Intervalo de confianza en
las opciones tabulares y se especifica el nivel de confianza deseado (Opciones de panel).
 En Excel
Para hacer cálculos estadísticos en Excel se utilizan las funciones (𝑓𝑥 ) estadísticas y la
opción Análisis de datos dentro del menú de Datos. Si no estuviera activada la opción de
Análisis de datos, ésta se activa usando la opción Complementos que está en el botón de
Office en Opciones.
Para probar la hipótesis o encontrar intervalos de confianza para un parámetro, se usa la
secuencia: Datos ⟶ Análisis de datos ⟶ Estadística descriptiva. Ahí se activa el cuadro
u opción Nivel de confianza para la media. En todos los casos, después de señalar el
análisis que se desea hacer, se abrirá una ventana en la que se especifica el rango de celdas
en el que se encuentran los datos y las estadísticas deseadas.
Cuando se quiere comparar tratamientos, se elige la misma secuencia: Datos ⟶ Análisis
de datos y luego se selecciona la opción deseada, por ejemplo: Prueba t para dos muestras
suponiendo varianzas iguales, Prueba t para medias de dos muestras emparejadas, Prueba
F para varianzas de dos muestras.
 Preguntas y ejercicios (impares)
1. En un estudio estadístico, ¿Qué es una población y para que se toma una muestra?

La población se conoce como la totalidad de posibles individuos, especímenes,


objetos o medidas. Esta puede ser finita o infinita. Se toma una muestra para
poder analizar una población, la muestra debe ser adecuada y conservar los
aspectos clave de la población.
2. ¿Qué es hacer una estimación puntual y en que consiste hacer una estimación por
intervalo para la media, por ejemplo?

Una estimación puntual de un parámetro poblacional es cuando se utiliza un


único valor para estimar ese parámetro, es decir, se usa un punto en concreto
de la muestra para estimar el valor deseado. Mientras que una estimación por
intervalo se usa para saber qué tan precisa es la estimación puntual, utilizando
un intervalo de confianza en el que puede estar el parámetro con cierto nivel
de confianza o seguridad. El intervalo de confianza por una media es el
intervalo de confianza que trata de encontrar dos números L y U, tales que el
parámetro u se encuentre entre ellos con una probabilidad de 1- α.
3. Explique el papel que desempeñan las distribuciones de probabilidad en la
inferencia estadística

La distribución de probabilidad relaciona el conjunto de valores posibles de X


con la probabilidad asociada a cada uno de estos valores y la inferencia
estadística realiza afirmaciones válidas acerca de la población o procesos con
base a la información contenida en las muestras
4. Explique que es un estadístico de prueba y señale su relación con los intervalos
de aceptación y rechazo.

Estadístico de Prueba: es un número que tiene las dos propiedades siguientes:


a) contienen la información muestral respecto al parámetro de interés y b)
bajo el supuesto de que la hipótesis nula es verdadera y sigue una distribución
de probabilidad conocida, la relación que existe es que hay que calcular el
estadístico de prueba Zo para luego modificar si cae en la región de rechazo o
aceptación.
5. Señale y describa de manera breve los tres criterios equivalentes de rechazo de
una hipótesis.

A. Estadístico de prueba frente a valor crítico: Consiste en rechazar H0 si el


estadístico de prueba cae en la región de rechazo que está delimitada por el
valor crítico. B. Significancia observada frente a significancia predefinida: La
significancia predefinida es el riesgo máximo que se está dispuesto a correr
por rechazar H0 indebidamente (error tipo I). Mientras que la significancia
observada o calculada, es el área bajo la distribución de referencia que está
más allá del valor del estadístico de prueba. C. Intervalo de confianza: Es
cuando se rechaza H0 y si el valor del parámetro declarado en la hipótesis nula
se encuentra fuera del intervalo de confianza para el mismo parámetro.
Ejercicios de estimación
6. En la elaboración de envases de plástico es necesario garantizar que cierto tipo de
botella en posición vertical tiene una resistencia mínima de 50kg de fuerza. Para
garantizar esto, en el pasado se realizaba una prueba de tipo pasa-no-pasa, en la
que se aplicaba la fuerza de 50kg y se veía si la botella resistía o no. En la
actualidad se lleva a cabo una prueba exacta, en la que mediante un equipo se
aplica fuerza a la botella hasta que éste cede, y el equipo registra la resistencia que
alcanzó la botella.
a) ¿Qué ventajas y desventajas tiene cada método de prueba?
b) Para evaluar la resistencia media de los envases se toma una muestra aleatoria de
n=20 piezas. De los resultados se obtiene que 𝑥̅ = 55.2 𝑦 𝑆 = 3. Estime con una
confianza de 95%. ¿Cuál es la resistencia promedio de los envases?
c) Antes del estudio se suponía que 𝜇 = 52. Dada la evidencia de los datos ¿tal
supuesto es correcto?
d) Con los datos anteriores, estime, con una confianza de 95%, ¿cuál es la desviación
estándar poblacional (del proceso)?
a. R=Mientras que el método antiguo era más fácil de usar y se requería una
tecnología menor, el método moderno es más preciso ya que se obtiene la
resistencia exacta de cada botella, pero quizás sea un proceso más caro que
el antiguo.
b. n=20
X=55.2
S=3
NdC=0.95-> Alfa= 0.05
𝒔
Se usa la fórmula: Id𝑪𝝁 = 𝒙 ̅ ∓ 𝒕𝟏−𝜶,𝒏−𝟏
𝟐 𝒏 √
t=2.093 (en tabla, se busca t0.975,19)
3
Límite inferior: Id𝐶𝜇 = 55.2 − 2.093 ∗
√20
3
Límite superior: Id𝐶𝜇 = 55.2 + 2.093 ∗
√20
Id𝐶𝜇 = ]53.80; 56.6 [
R= El valor de la resistencia promedio se encuentra entre 53.8 y 56.6.
c. m=52.
R=Es incorrecto porque no se encuentra en el rango IdC= ]53.80; 56.6 [
(𝒏−𝟏)𝟏 𝒔𝟐 (𝒏−𝟏)𝒔𝟐
d. Se usa la fórmula: Id𝑪𝝈 (𝟏 − 𝜶) =]√𝑿𝟐 , √ 𝑿𝟐 [
𝜶 𝜶
𝟏− ; 𝒏−𝟏 ,𝒏−𝟏
𝟐 𝟐
𝛼
1 − = 00.975 ⇒ 𝑋 2 : 32.85
2
𝛼
= 0.025 ⇒ 𝑋 2 : 8.91
2
19∗9 19∗9
Id𝐶𝜎 (1 − 𝛼) =]√32.85, √ 8.91 [
]2.2815; 4.3809[
R= El intervalo en el que se encuentra la desviación estándar poblacional del
proceso está entre ]2.2815; 4.3809[
7. En un problema similar al del ejercicio 11, es necesario garantizar que la
resistencia mínima que tiene un envase de plástico en posición vertical sea de 20
kg. Para evaluar esto se han obtenido los siguientes datos mediante pruebas
destructivas:
28.3 26.8 26.6 26.5 28.1 24.8 27.4 26.2 29.4 28.6 24.9 25.2 30.4 27.7 27.0 26.1 28.1
26.9 28.0 27.6 25.6 29.5 27.6 27.3 26.2 27.7 27.2 25.9 26.5 28.3 26.5 29.1 23.7 29.7
26.8 29.5 28.4 26.3 28.1 28.7 27.0 25.5 26.9 27.2 27.6 25.5 28.3 27.4 28.8 25.0 25.3
27.7 25.2 28.6 27.9 28.7
a) Esta variable forzosamente tiene que evaluarse mediante muestreo y no al 100%, ¿por
qué?
b) Haga un análisis exploratorio de estos datos (obtenga un histograma y vea el
comportamiento de
los datos obtenidos).
c) Estime, con una confianza de 95%, ¿cuál es la resistencia promedio de los envases?
d) Antes del estudio se suponía que µ = 25. Dada la evidencia de los datos, ¿tal supuesto
es correcto?
e) Con los datos anteriores estime, con una confianza de 95%, ¿cuál es la desviación
estándar poblacional (del proceso)?

a) No se puede obtener al 100% porque no se sabe si todos los envases serán


resistentes, Se debe hacer mediante una prueba de muestreo para verificar
dicho dato, ya que así se puede observar de mejor manera el dato requerido. El
muestreo da una mejor visión del comportamiento de los envases a dicha Fuerza.
b)

Histograma
15
Frecuencia

10
5
Frecuencia
0
Como se puede observar en la gráfica, el comportamiento de los envases a la prueba de resistencia,
salió superior al límite establecido de 20 kg, por lo que se puede decir que los envases tienen la
resistencia adecuada a dicha fuerza
c)
X=27.246
VAR=2.046
S= 1.43
n=56
NdC=0.95-> Alfa= 0.05
𝒔
Se usa la fórmula: Id𝑪𝝁 = 𝒙̅ ∓ 𝒕𝟏−𝜶,𝒏−𝟏
𝟐 √𝒏

1−∝= 95% , 𝐼𝑑𝐶𝜇 (1−∝) =? ? Donde 𝜇 = 𝐸(𝑌)


Puesto que “n” es lo suficientemente grande es este caso (𝑛 ≥ 25):
𝜎
Id 𝐶𝑢 (1 − 𝛼) = 𝑦̅ ∓ 𝑍1−𝛼 𝑛 ; 𝜎 ≈ 𝑠
2 √
1.96 𝑡𝑎𝑏𝑙𝑎
1,43
En este caso: Id 𝐶𝑈 (95%) = 27.246 ± 𝑍0.975 ; 𝑍0,175 = {1.959964 𝐸𝑥𝑐𝑒𝑙
√56
1.959964 𝑅
1,43
Por lo tanto: Id𝐶𝜇(95%) = 27.246 ∓ 1.96 ∗ =]26.87; 27.62[
√56
Respuesta: sobre la base de la evidencia muestral, en promedio los valores de
resistencia promedio de las botellas son ]26.87; 2761[ con (𝟏 − 𝜶 = 𝟎. 𝟗𝟓)
d)
𝜇0 = 25
Respuesta: Puesto que 𝝁𝟎 ∉ 𝑰𝒅𝑪𝝁(𝟗𝟓%), 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒒𝒖𝒆 𝝁 = 𝝁𝟎 ; 𝝁𝟎 = 𝟐𝟓
e)
(𝑛−1)1 𝑠2 (𝑛−1)𝑠2
Id𝐶𝜎 (1 − 𝛼) =]√𝑋 2 , √ 𝑋2 [
𝛼 𝛼
1− ; 𝑛−1 ,𝑛−1
2 2
2 2
En ese caso: 𝑋1− 𝛼
,𝑛−1
= 𝑥0.975,55 = (𝐸𝑛 𝑟) =77.38
2
𝑋𝛼2,𝑛−1 = 𝑥0.025,55
2
=(En r)=36.39
2
(55)1.432 (55)1.432
Id𝐶𝜎 (95%) =]√ ,√ [ =] 1.20, 1.76 [
77.38 36.39
Respuesta: La desviación estándar poblacional esta entre los valores] 1.20, 1.76 [
8. Una característica importante en la calidad de la leche de vaca es la concentración
de grasa. En una industria en particular se fijó como estándar mínimo que el
producto que recibe directamente de los establos lecheros es de 3.0%. Por medio
de 40 muestreos y evaluaciones en cierta época del año se obtuvo que 𝑋̅= 3.2 y S
= 0.3.
a) Estime, con una confianza de 90%, el contenido promedio poblacional de grasa.
b) ¿Cuál es el error máximo de estimación para la media? ¿Por qué?
c) Estime, con una confianza de 95%, ¿cuál es la desviación estándar poblacional?
d) ¿Qué puede decir sobre la cantidad mínima y máxima de grasa en la leche? ¿Es posible
garantizar con suficiente confianza que la leche tiene más de 3,0% de grasa?
a) Estime, con una confianza de 90%, el contenido promedio poblacional de grasa.

Datos
n=40
𝑋̅ = 3.2
S = 0.3
NdC=90% -> Alfa= 0.1
𝑠
Id𝐶𝜇 = 𝑥̅ ∓ 𝑧1−𝛼,𝑛−1 𝑛
2 √

Desarrollo
0.3
Id𝐶𝜇 = 3.2 ∓ 1.64
√40
Id𝐶𝜇 =] 3.12; 3.28 [
El contenido promedio poblacional de grasa es de ] 3.12; 3.28 [

b) ¿Cuál es el error máximo de estimación para la media? ¿Por qué?

] 3.12; 3.28 [, este es también el máximo error de estimación para la media porque es la
cantidad máxima que considera el parametro z, según alfa establecido,el tamaño de
muestra y la desviación estándar.

c) Estime, con una confianza de 95%, ¿cuál es la desviación estándar poblacional?

Datos:
NdC=95% -> Alfa=5%
1- alfa/2 = 0,975
alfa/2 =0,025
grados de libertad (n-1)=39
s2=0,0900
Chi^2 1-alfa/2 = 58,1200597
Chi^2 alfa/2 = 23,6543246
(𝑛−1)1 𝑠2 (𝑛−1)𝑠2
Id𝐶𝜎 (1 − 𝛼) =]√𝑋 2 , √ 𝑋2 [
𝛼 𝛼
1− ; 𝑛−1 ,𝑛−1
2 2

Desarrollo:
(49)0.09 (55)0.09
Id𝐶𝜎 (95%) =]√ 58,120 , √23,6543246 [ =] 0.246; 0.385 [

d) ¿Qué puede decir sobre la cantidad mínima y máxima de grasa en la leche? ¿Es posible
garantizar con suficiente confianza que la leche tiene más de 3?0% de grasa?

Cantidad máxima = 𝑋̅ + s = 3.2 + 3(0.3) = 2.3


Cantidad mínimma = 𝑋̅ – s = 3.2 + 3(0.3) = 4.1

*Considera el 99,74% de los datos


No es posible garantizar que la leche tiene más de 3% de grasa, se necesita una PdH con
Ha>3.

9. En una auditoría se seleccionan de manera aleatoria 200 facturas de las compras


realizadas durante el año, y se encuentra que 10 de ellas tienen algún tipo de
anomalía.
a) Estime, con una confianza de 95%, el porcentaje de facturas con anomalías en todas
las compras del año.
b) ¿Cuál es el error de estimación? ¿Por qué?
c) ¿Qué tamaño de muestra se tiene que usar si se quiere estimar tal porcentaje con un
error máximo de 2%?
durante el año, y se encuentra que 10 de ellas tienen algún tipo de anomalía.
a) Estime, con una confianza de 95%, el porcentaje de facturas con anomalías en
todas las compras del año.

𝑥 = 100
𝑛 = 200

𝑥 100
𝑃̂ = = = 0.05
𝑛 200

𝑃̂(1 − 𝑃̂) 𝑃̂(1 − 𝑃̂)


𝐸 [𝑃̂ − 𝑍∝ √ ≤ 𝑃 ≤ 𝑃̂ + 𝑍∝ √ ] = 1−∝
2 𝑛 2 𝑛

1−∝= 0.95
1 − 0.95 =∝
∝= 0.05

∝ 1 − 0.05
𝜙 (𝑍∝ ) = 1 − = = 0.975
2 2 2

𝑍∝ = 1.95996
2

𝑃̂(1 − 𝑃̂) 0.05(1 − 0.05)


𝑃̂ − 𝑍∝ √ = 0.05 − 1.96√ = 0.080
2 𝑛 200

𝑃̂(1 − 𝑃̂) 0.05(1 − 0.05)


𝑃̂ + 𝑍∝ √ = 0.05 + 1.96√ = 0.019
2 𝑛 200

𝑃[0.01079 ≤ 𝑃 ≤ 0.0802] = 0.95

b) ¿Cuál es el error de estimación? ¿Por qué?


𝑃̂(1 − 𝑃̂)
𝐸 = 𝑍∝ √
2 𝑛

0.05(1 − 0.05)
𝐸 = 1.95996√ = 0.0302
200

c) ¿Qué tamaño de muestra se tiene que usar si se quiere estimar tal porcentaje con
un error máximo de 2%?

𝑍∝ 2 ∗ 𝑃̂ (1 − 𝑃̂)
2
𝑛=
𝐸2

1.959962 ∗ 0.05(1 − 0.05)


𝑛=
0.022

𝑛 = 456.17138
10. Para evaluar la efectividad de un fármaco contra cierta enfermedad se integra en
forma aleatoria un grupo de 100 personas. Se suministra el fármaco y, transcurrido
el tiempo de prueba, se observa x = 65 personas con un efecto favorable.
a) Estime, con una confianza de 90%, la proporción de efectividad que se logrará
con tal fármaco. Haga una interpretación de los resultados.
𝑥 = 65
𝑛 = 100

𝑥 65
𝑃̂ = = = 0.65
𝑛 100

𝑃̂(1 − 𝑃̂) 𝑃̂(1 − 𝑃̂)


𝐸 [𝑃̂ − 𝑍∝ √ ≤ 𝑃 ≤ 𝑃̂ + 𝑍∝ √ ] = 1−∝
2 𝑛 2 𝑛

1−∝= 0.90
1 − 0.90 =∝
∝= 0.1

∝ 1 − 0.1
𝜙 (𝑍∝ ) = 1 − = = 0.95
2 2 2

𝑍∝ = 1.64485
2

𝑃̂(1 − 𝑃̂) 0.65(1 − 0.65)


𝑃̂ − 𝑍∝ √ = 0.65 − 1.64√ = 0.7282
2 𝑛 100
𝑃̂(1 − 𝑃̂) 0.65(1 − 0.65)
𝑃̂ + 𝑍∝ √ = 0.65 + 1.64√ = 0.5717
2 𝑛 100

𝑃[0.7282 ≤ 𝑃 ≤ 0.5717] = 0.90

La efectividad del fármaco se encuentra entre el 72.82% y 177.17%

Prueba de hipótesis para un parámetro


11. Un inspector de la Procuraduría Federal del Consumidor acude a una planta que
elabora alimentos para verificar el cumplimiento de lo estipulado en los envases
de los productos en cuanto a peso y volumen. Uno de los productos que decide
analizar es el peso de las cajas de cereal, en las cuales, para una de sus
presentaciones, se establece que el contenido neto es de 300 gramos. El inspector
toma una muestra de 25 cajas y pesa su contenido. La media y desviación estándar
de la muestra son 𝑋̅ = 298.3 y S = 4.5.
a) Suponiendo una distribución normal, pruebe la hipótesis de que 𝜇 = 300 contra la
alternativa de que es diferente, con un nivel de significancia del 5%. Formule claramente
las hipótesis, cálculos y conclusión.
 𝐻0 : 𝜇 = 300
 𝐻𝐴 : 𝜇 ≠ 300
 𝛼 = 0.05
𝑥̅ − 𝜇0
𝑍0 = 𝜎
√𝑛
298.3 − 300
𝑍0 =
4.5
√25
𝑍0 = −1.889
|𝑍0 | < 𝑍0.975 = 1.96

R: Se acepta 𝐻0 , el peso promedio del contenido neto de las cajas es igual a 300 g.
b) Repita el inciso anterior pero ahora con un nivel de significancia del 10%.
𝑍0 = −1.889
𝑍1−0.10 = 1.64
2

|𝑍0 | < 𝑍0.95


R: Se rechaza 𝐻0 , el peso promedio del contenido neto de las cajas es distinto a 300 g.
c) Desde la perspectiva del consumidor del producto, ¿cuál debe ser la hipótesis
alternativa que tiene que plantear el inspector en este problema? Argumente.
El precio promedio del contenido neto de las cajas de cereal es distinto a 300 g. Por lo
tanto, no cumple con lo esperado en el envase, se busca comprobar que el vendedor
realmente vende lo que la etiqueta promete.
d) Repita el inciso a) pero ahora planteando como hipótesis alternativa 𝜇 < 300.
 𝐻0 : 𝜇 ≥ 3.0
 𝐻𝐴 : 𝜇 < 3.0
 𝛼 = 0.05
𝑍0 = −1.889
𝑍𝛼 = −1.65
𝑍0 < 0 ; 𝑍0 < 𝑍𝛼 → 𝑆𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
R: El peso promedio del contenido neto de las cajas es menor a 300 g.
12. Las especificaciones técnicas de un compresor establecen que el aumento
promedio de temperatura en el agua usada como enfriador en la cámara del
compresor es menor que 5°C. Para verificar esto se mide el aumento de
temperatura en el agua en 10 periodos de funcionamiento del compresor, y se
obtiene que son 𝑋̅ = 6.6 y S = 2.0.
a) Plantee las hipótesis para la media que son adecuadas al problema. Argumente.
b) Pruebe las hipótesis planteadas con un nivel de significancia del 5%.
c) Si en lugar de trabajar con una significancia del 5%, lo hace con una del 1%, ¿se
mantiene la conclusión del inciso anterior? Explique.
a)
𝐻𝑜 → 𝜇 ≤ 5°𝑐
𝐻𝐴 → 𝜇 > 5°𝑐
Esta prueba es la más adecuada ya que las especificaciones del compresor dicen que es
menor que 5°C y la otra opción sería que fuese igual o mayor a 5°C
b)
𝑥̅ = 6.6 𝑠 = 2.0 𝑛 = 10

√𝑛 ∗ (𝑥̅ − 𝜇𝑜 )
𝑡𝑜 =
𝑠
√10 ∗ (6.6 − 5)
𝑡𝑜 = = 2.53
2
Para 𝛼 = 0.05 con 𝑛 − 1 = 9
𝑡0.05,9 = 1.83

𝑡0 > 𝑡1−𝛼,𝑛−1

2.53 > 1.83 (𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜)


R: Recazo mi hipótesis nula y me quedo con la alternativa, lo que quiere decir que el
compresor si llega o supera los 5°c al momento de realizar el enfriamiento.
c)
Para 𝛼 = 0.01 con 𝑛 − 1 = 9
𝑡0.01,9 = 1.83

𝑡0 > 𝑡1−𝛼,𝑛−1

2.53 > 2.82 (𝐹𝑎𝑙𝑠𝑜)


R: Rechazo mi hipótesis alternativa y me quedo con la nula. Esto puede ser debido que al
aumentar el nivel de confianza, la cantidad de datos de la muestra, no son los suficientes
para poder argumentar de que el compresor si supera los 5°c
13. En relación con el ejercicio 16 de este capítulo, con una significancia α = 0.05
pruebe la hipótesis de que la media de la densidad mínima de la capa de metal de
los discos es igual a 2.0 micras, contra la alternativa de que es menor.
𝐻𝑜 → 𝜇 ≥ 2.0 𝑚𝑖𝑐𝑟𝑎𝑠
𝐻𝐴 → 𝜇 < 2.0 𝑚𝑖𝑐𝑟𝑎𝑠
𝑥̅ = 1.94 𝑠 = 0.065 𝑛 = 18

√18 ∗ (1.94 − 2)
𝑡𝑜 = = −3.916
0.065
Para 𝛼 = 0.05 con 𝑛 − 1 = 17

𝑡0.05,17 = 1.740

𝑡0 < 𝑡𝛼,𝑛−1

−3.916 < 1.74 (𝑉𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜)


R: Acepto mi hipótesis alternativa y rechazo la nula, por lo que las medidas de grosor son
menores a 2.0 micras.

14. En el problema anterior, pruebe la hipótesis para la desviación estándar de µ = 5.0


contra la alternativa de que es mayor.

𝐻0: 𝜇 < 200


𝐻1: 𝜇 > 200
𝑆 = 5.0
𝑋̅−𝜇 202,5−200
𝑡0 = = = 1,936
𝑆/√𝑛 5/√15

𝑡0.95,14 = 1,761

𝑡0 > 𝑡∝,𝑔.𝑙.

1,936 > 1,761 (Verdad)


Ho se rechaza

Rpta: con una confianza del 95% se rechaza la hipótesis nula, es decir con una desviación
estándar de 5 la presión promedio de las botellas que se usan es igual a 200psi.

15. ¿Es correcto afirmar que, en el ejercicio 17 de este capítulo, más del 8% de las
facturas tienen alguna anomalía? Para responder formule y pruebe la hipótesis
pertinente con una significancia del 5%.
𝐻 = 𝑝 ≥ 0.08
16. 𝐻𝑑𝐼 = { 𝑜
𝐻𝐼 = 𝑝 < 0.08
17.
𝜇 − 𝑛𝑝 (0.08) − 200(0.05)
𝐸𝑑𝑃 → 𝑍0 = = = −3.218
√𝑛𝑝(1 − 𝑃) √200(0.05)(0.95)
18.
19. 𝐶𝑑𝑅 → 𝑍0 > 1.96 (𝐹𝑎𝑙𝑠𝑜) 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑚𝑜𝑠 𝐻𝑜

Prueba de hipótesis (comparación de tratamientos)


20. Dos máquinas, cada una operada por una persona, son utilizadas para cortar tiras
de hule. De las inspecciones de una semana (25 piezas) se observa que la longitud
media de las 25 piezas para una máquina es de 200.1 y para la otra es de 201.2.
a) Formule la hipótesis pertinente para verificar si hay diferencia significativa en los
resultados promedio de ambas máquinas.
b) ¿Tiene la información suficiente para probar la hipótesis? Explique.
a)
𝐻𝑜 : µ1 − µ2 = 0
𝐻𝑜 : µ1 − µ2 ≠ 0
b) No, debido a que necesito verificar la homocedasticidad y no tengo valores de varianza

21. En un laboratorio bajo condiciones controladas se evaluó, para 10 hombres y 10


mujeres, la temperatura que cada persona encontró más confortable. Los
resultados en grados Fahrenheit fueron los siguientes:

a) ¿Cuáles son los tratamientos que se comparan en este estudio?


b) ¿Las muestras son dependientes o independientes? Explique.
c) ¿La temperatura promedio más confortable es igual para hombres que para mujeres?
Pruebe la hipótesis adecuada.
a) La temperatura más confortable entre ambos sexos
b) Las muestras son independientes, no existe relación de otros factores que influyan en
el dato. Ningún dato un depende de alguna relación a otra variable
c)

𝐻𝑜 = 𝜇1 − 𝜇2 = 0 𝜇1 = 77,4 𝜇2 = 74,5
𝐻𝑜 = 𝜇1 − 𝜇2 ≠ 0 𝑠1 = 77,4 𝑠2 = 74,5

(𝑦̅1 −𝑦̅2 ) 77.4−74.5


𝑡𝑜 = = = 3.5254
2 2 √0.42667+0.25
𝑠 𝑠
√ 1+ 2
𝑛1 𝑛2

𝑠2 𝑠2
(𝑛1 + 𝑛2 ) (0.42667 + 0.25)2
1 2
𝑦= 2 2 = = 16.8
𝑠2 𝑠2 0.0202 + 0.006444
(𝑛1 ) (𝑛2 )
1 2
+
(𝑛1 − 1) (𝑛2 − 1)
𝑦 = 17
𝑡1−∝ ,𝑔 = 𝑡0.975 , 17 = 2.11
2

[𝑡𝑜 ] > 𝑡1−∝ ,𝑔 => 𝐻𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎


2

La temperatura promedio el más confortable no es igual para a hombres y mujeres, a un nivel


de confianza del 95%.

22. Una compañía de transporte de carga desea escoger la mejor ruta para llevar la
mercancía de un depósito a otro. La mayor preocupación es el tiempo de viaje. En
el estudio se seleccionaron al azar cinco choferes de un grupo de 10 y se asignaron
a la ruta A; los cinco restantes se asignaron a la ruta B. Los datos obtenidos fueron:

a) ¿Existen diferencias significativas entre las rutas? Plantee y pruebe las hipótesis
estadísticas correspondientes.
𝛼 = 5%
Prueba de Hipótesis:
𝐻𝑜 : µ1 − µ2 = 0
𝐻𝑜 : µ1 − µ2 ≠ 0
𝑛𝑎 = 5 𝑠𝑎 = 9.49
𝑛𝑏 = 5 𝑠𝑏 = 5.61

(𝑛𝑎 − 1)𝑠𝑎2 + (𝑛𝑏 − 1)𝑠𝑏2


𝑆𝑝 = √
𝑛𝑎 + 𝑛𝑏 − 2

(5 − 1)9.492 + (5 − 1)5.612
𝑆𝑝 = √ = 7.79
5+5−2

1 1
𝑆(𝑦𝑎−𝑦𝑏) = √ + ∗ 𝑆𝑝
𝑛 𝑛

1 1
𝑆(𝑦𝑎−𝑦𝑏) = √ + ∗ 7.79 = 4.93
5 5

(𝑦𝑎 − 𝑦𝑏 ) − (µ𝑎 − µ𝑏 )
𝑡𝑜 =
𝑠(𝑦𝑎−𝑦𝑏)
(23 − 29) − 0
𝑡𝑜 = = −1.22
4.93
𝑡𝛼 = 2.306
2

Se rechaza Ho sí |𝑡0 | > 𝑡𝛼


2

Conclusión: No se rechaza Ho con un 95% de confianza, es decir, no existen


diferencias significativas entre las rutas.
b) En caso de rechazar la hipótesis del inciso a), dibuje los diagramas de cajas
simultáneos para determinar cuál ruta es mejor.
No se puede determinar una comparación más efectiva entre las rutas
c) Sugiera otra manera de obtener los datos (diseño alternativo), de modo que se
pueda lograr una comparación más efectiva de las rutas.
Se podría utilizar una muestra más significativa para cada ruta, con ello y luego de
realizar el análisis estadístico se obtendría una ruta con un menor coeficiente de
variación, pues sus datos serían más homogéneos.
23. En Kocaoz, Samaranayake y Nanni (2005) se presenta un estudio en el que se
analizan dos tipos de barras de polímero, cuya tensión se refuerza con fibra de
vidrio (FRP). Estas barras, en sustitución de las vigas de acero, se utilizan para
reforzar concreto, por lo que su caracterización es importante para fines de diseño,
control y optimización para los ingenieros estructurales. Las barras se sometieron
a tensión hasta registrarse su ruptura (en Mpa). Los datos para dos tipos de barras
se muestran a continuación:
a) Formule la hipótesis para probar la igualdad de medias de los tratamientos.

𝐻0 = 𝜇1 = 𝜇2
𝐻𝐴 = 𝜇1 ≠ 𝜇2

𝑥1 = 980.125
𝑆1 = 73.753

𝑥2 = 974.125
𝑆2 = 64.942

𝑛=8 𝜎11 = 𝜎22


b) Anote la fórmula del estadístico de prueba para demostrar la hipótesis.

𝑝̂ − 0.08
𝑧0 =
√0.08(1 − 0.08)/𝑛

c) Pruebe la hipótesis a un nivel de significancia de 5%. Para rechazar o no la


hipótesis, apóyese tanto en el criterio del valor-p como en el del valor crítico de
tablas.

980.125 − 979.125
𝑡0 =
0.5 √5165.694

𝑡0 = 0.028

𝑉𝑎𝑙𝑜𝑟 𝑝 < 𝛼 → 𝐻𝑜

𝑉𝑎𝑙𝑜𝑟 𝑝 > 𝛼 → 𝐻𝑜

𝑉𝑎𝑙𝑜𝑟 𝑝 = 1 − 𝑝(𝑇 < 0.028)

𝑉𝑎𝑙𝑜𝑟 𝑝 = 0.4 ∴ 𝐻𝑜

Con Tabla:
𝑇0.975,14 = 2.145

|𝑇𝑜 | > 𝑇𝑎𝑖𝑡


0.028 > 2.145 → (𝐹) ∴ 𝐻𝑜
d) Explique cómo se obtiene el valor-p del inciso anterior.

Calculando la probabilidad de que 𝑇0 > 𝑇𝑎𝑖𝑡

e) Pruebe la hipótesis de igualdad de varianzas entre tratamientos.

Muestra 8
Varianza 1 5439.554
Varianza 2 4891.839
Significancia 0.05

5439.55
𝐹0 = = 1.11
4891.83

Se puede aceptar la hipótesis nula ya que con un 95% de confianza podemos decir que
la desviación los tratamientos son iguales.
f) ¿Existe algún tratamiento mejor?
Entre ellos no se encuentra una diferencia significativa.
24. Se comparan dos métodos para inocular o contagiar una cepa del hongo del maíz
conocido como huitlacoche. En una primera etapa del estudio, el experimentador
quiere determinar cuál de los métodos genera mayor porcentaje de infección. El
método A consiste en cortar la punta de la mazorca para aplicar la cepa, y en el
método B se inyecta la cepa de forma transversal. De 41 mazorcas inoculadas con
el método A, 20 se infectaron, es decir, generaron huitlacoche; en tanto, de 38
mazorcas inoculadas con el método B se infectaron 27.
H0 : p1 = p2 𝛼 = 0.05 𝑍𝛼 = 1.96
2

HA : p1 ≠ p2

20 27
𝑍0 =
𝑝
̂1 − 𝑝
̂2
= 41 − 38 = −2.014
1 1
√𝑝̂ (1 − 𝑝̂ ) ( + ) √0.5949(1 − 0.5949) ( 1 + 1 )
𝑛1 𝑛2 41 38
|𝑍0 | > 𝑍𝛼
2

R. No hay evidencia suficiente para afirmar que el método B genera una mayor
infección de huitlacoche.
25. Con respecto al problema del ejercicio 18, se desea comparar dos tratamientos
para hacer que germine cierta semilla. Los datos del tratamiento A son los del
ejercicio 18, es decir, de 60 semillas puestas a germinar se observó que 37 de ellas
germinaron. Mientras que para el tratamiento B, de 70 semillas se observó que 30
germinaron.
a) ¿Hay una diferencia significativa entre los dos tratamientos? Pruebe la hipótesis
correspondiente a 95% de confianza.
60 semillas,37 germinaron
70 semillas,30 germinaron
H0: p1=p2
H1: p1≠ p2

P=(37+30)70+60

p=0.5153

Z0=3760−30700.5153(1−0.5153)60+0.5153(1−0.5153)70−−−−−−−−−−−−−−−−−−−−−
−−√

Z0=2.1392

Z1−∝2/=1.96

Z0>Z1−∝2/

R: a favor de la hipótesis alternativa p1≠ p2.


b) Estime, con una confianza de 95%, la proporción de germinación que se logrará con
cada tratamiento
Tratamiento A

IDCπ=3760±1.963760(1−3760)60−−−−−−−−−−√

IDCπ=3760±0.123

]0.49367;0.73967[

R: se logrará entre un intervalo de ]0.49367;0.73967[ la germinación en el tratamiento


A
Tratamiento B
IDCπ=3070±1.963070(1−3070)70−−−−−−−−−−√

IDCπ=3070±0.1159

]0.31267;0.54447[

Se logrará entre un intervalo de ]0.31267;0.54447[la germinación en el tratamiento B


Pruebas pareadas
26. Se propone un nuevo método de prueba que, si resulta igual de efectivo que el
método actual, se podrá reducir en 60% el tiempo de prueba. Se plantea un
experimento en el que se mide la densidad mínima de metal en 18 discos usando
tanto el método actual como el método nuevo. Los resultados están ordenados
horizontalmente por disco. Así 1.88 y 1.87 es el resultado para el primer disco con
ambos métodos.
a) Pruebe la igualdad de las medias usando la prueba pareada. ¿Cuál es el criterio de
apareamiento?
b) Encuentre un intervalo para la diferencia de medias usando la desviación estándar de
las diferencias. Interprete.
c) Haga el análisis de los datos ignorando el apareamiento. Compare con los resultados
del inciso a).
d) Determine un intervalo de confianza para la diferencia de medias suponiendo mues
tras independientes. Compare con el inciso b).
e) ¿Qué se gana con el apareamiento de los datos en este caso?
f) ¿Recomendaría usted la adopción del método nuevo? Argumente su respuesta
a) Métodos aplicados a los mismos discos de metal.

Datos:
n1=n2 = 18 piezas
d1= 1.9744 piezas
s1= 0.1450
d2= 1.9489 piezas
s2= 0.0669
1-𝛼= 0.950
1-𝛼/2=0.975
t1-𝛼/2; n-1= 2.110
Sea µ1 la densidad mínima promedio de metal medida por el método 1 y µ2 la densidad
mínima promedio de metal medida por el método 2.
𝐻0 : 𝜇1 = 𝜇2
𝐻𝐴 : 𝜇1 ≠ 𝜇2
De forma equivalente:
𝐻0 : 𝜇𝐷 = 0.6
𝐻𝐴 : 𝜇𝐷 ≠ 0.6
Donde µD es la media de la población de diferencias.
Estadístico de prueba:
𝑑̅
𝑡0 =
𝑆𝐷

√𝑛
Donde 𝑑̅ es el promedio muestral de diferencias, 𝑆𝐷 es la desviación estándar muestral de
tales diferencias y n es el tamaño de la muestra.
̅̅̅1 − ̅̅̅
(𝑑 𝑑2 ) − 𝐷0
𝑡0 =
𝑠12 𝑠22

𝑛1 + 𝑛2
(1.9744 − 1.9489) − 0.6
𝑡0 = = −15.2634
2 2
√0.1450 + 0.0669
18 18

Criterio de rechazo:
|𝑡0 | > 𝑡1−𝛼⁄
2, 𝑛−1
|𝑡0 | = 15.2634
𝑡1−𝛼⁄2, 𝑛−1 = 2.110
15.2634 > 2.110
Decisión y respuesta: No rechazo la hipótesis alternativa, es decir, el nuevo método no
puede proveer una reducción del 60% el tiempo de prueba.

b)
𝑆𝐷
𝐼𝑑𝐶𝜇𝐷 (1 − 𝛼) = 𝑑̅ ∓ 𝑡1−𝛼⁄2, 𝑛−1
√𝑛
𝐼𝑑𝐶𝜇𝐷 (0.95) = 0.0255 ∓ 2.110(0.0376)

𝐼𝑑𝐶𝜇𝐷 (0.95) = ]−0.05392, 0.10492[

c) Ignorando el apareamiento:
Datos:

n1=n2 = 18 piezas
d1= 1.9744 piezas
s1= 0.1450
d2= 1.9489 piezas
s2= 0.0669
1-𝛼= 0.950
1-𝛼/2=0.975
t1-𝛼/2; g=
Sea µ1 la densidad mínima promedio de metal medida por el método 1 y µ2 la densidad
mínima promedio de metal medida por el método 2.
𝐻0 : 𝜇1 = 𝜇2
𝐻𝐴 : 𝜇1 ≠ 𝜇2
De forma equivalente:
𝐻0 : 𝜇𝐷 = 0.6
𝐻𝐴 : 𝜇𝐷 ≠ 0.6
Donde µD es la media de la población de diferencias.
Estadístico de prueba:
𝑑̅
𝑡0 =
𝑆𝐷

√𝑛
̅
Donde 𝑑 es el promedio muestral de diferencias, 𝑆𝐷 es la desviación estándar muestral de
tales diferencias y n es el tamaño de la muestra.
̅̅̅1 − ̅̅̅
(𝑑 𝑑2 ) − 𝐷0
𝑡0 =
𝑠2 𝑠2
√ 1+ 2
𝑛1 𝑛2
(1.9744 − 1.9489) − 0.6
𝑡0 = = −15.2634
0.1450 2 0.0669 2

18 + 18
2
𝑠12 𝑠22
(𝑛 + 𝑛 )
1 2
𝑔= 2
2 2
𝑠1 𝑠22
(𝑛 ) (𝑛 )
1 2
+
(𝑛1 − 1) (𝑛2 − 1)
2
0.14502 0.06692
( 18 + 18 )
𝑔= 2 2 = 23.9239
0.14502 0.06692
( 18 ) ( 18 )
+
(18 − 1) (18 − 1)

Criterio de rechazo:
|𝑡0 | > 𝑡1−𝛼⁄
2, 𝑔
|𝑡0 | = 15.2634
𝑡1−𝛼⁄2, 𝑔 = 2.064
15.2634 > 2.064
Decisión y respuesta: No rechazo la hipótesis alternativa, es decir, el nuevo método no
puede proveer una reducción del 60% el tiempo de prueba.
En comparación con el resultado obtenido tomando en cuenta las muestras pareadas, no
tiene mucha diferencia. Se alcanza la misma conclusión.

d)
𝑆𝐷
𝐼𝑑𝐶𝜇1−𝜇2 (1 − 𝛼) = 𝑑̅ ∓ 𝑡1−𝛼⁄2,𝑔
√𝑛
𝐼𝑑𝐶𝜇𝐷 (0.95) = 0.0255 ∓ 2.064(0.0376)

𝐼𝑑𝐶𝜇𝐷 (0.95) = ]−0.05211, 0.10311[

En comparación con el resultado obtenido en b), se ha recorrido el intervalo 1 milésima


hacia la izquierda. No existe mucha variación entre intervalos de confianza. Se obtiene la
misma conclusión.
e) Al aparear estas muestras se logra eliminar fuentes de variabilidad que podrían no dejar
hacer la comparación de manera eficaz.

f) No se recomendaría el uso del nuevo método puesto que no presenta la reducción


significativa del 60% en el tiempo de prueba.

27. Se conduce un experimento para determinar si el uso de un aditivo químico y un


fertilizante estándar aceleran el crecimiento de las plantas. En cada una de 10
localidades se estudiaron dos plantas sembradas en condiciones similares. A una
planta de cada localidad se le aplicó el fertilizante puro y a la otra el fertilizante
más el aditivo. Después de cuatro semanas el crecimiento en centímetros fue el
siguiente:

a) ¿Los datos obtenidos apoyan la afirmación de que el aditivo químico acelera el


crecimiento de las plantas? Plantee las hipótesis apropiadas y pruébelas usando
a = 0.05.

con aditivo sin aditivo diferencia


23 20 3
34 31 3
15 16 -1
21 22 -1
22 19 3
31 32 -1
29 25 4
20 18 2
24 20 4
23 19 4
24,2 22,2 2 Media
Desviación
5,34415569 5,17300686 2,04939015 Estándar

𝜇1 = 𝑚𝑒𝑑𝑖𝑎 𝑐𝑜𝑛 𝑎𝑑𝑖𝑡𝑖𝑣𝑜


𝜇2 = 𝑚𝑒𝑑𝑖𝑎 𝑠𝑖𝑛 𝑎𝑑𝑖𝑡𝑖𝑣𝑜

𝐻0 : 𝜇1 = 𝜇2
𝐻𝐴 : 𝜇1 > 𝜇2

Para PdH se aplica, con a=0,05 y n=10


𝑡𝛼;𝑛−1 = 𝑡0,05;9 = 1,83 (𝑝𝑜𝑟 𝑡𝑎𝑏𝑙𝑎 𝑑𝑒 𝑇 − 𝑠𝑡𝑢𝑑𝑒𝑛𝑡)
2
Usando:

24,2−22,2
Calculando: 𝑡0 = 1 1
= 1,95
(2,29)∗√ +
10 10
R: Se rechaza la hipótesis nula porque 1,95>1,86, entonces se confirma que el aditivo
acelera el crecimiento de las plantas

b) Obtenga un intervalo al 95% de confianza para la diferencia promedio

Se utiliza el IdC para una media:

Datos (ver tabla)


2,05
𝐼𝑑𝐶𝑢 = 2 ∓ (2,26) ∗
√10

𝐼𝑑𝐶𝑢 = [0,5349 − 3,4651]


R. Con un nivel de significancia del 95% y n=10 se tiene que el intervalo para la diferencia
promedio está entre 0,5349 y 3,4651

28. Se realizó un experimento para ver si dos técnicos tienen alguna tendencia a
obtener diferentes resultados cuando determinan la pureza de cierto producto.
Cada muestra fue dividida en dos porciones y cada técnico determinó la pureza de
una de las porciones. Los resultados se muestran a continuación:

a) Estos datos deben analizarse en forma pareada, explique por qué.


b) Formule la hipótesis correcta al problema.
c) Pruebe la hipótesis y obtenga conclusiones.
d) Si los técnicos son diferentes, ¿hay alguna evidencia sobre cuál de ellos hace mal el
trabajo?
e) ¿Qué recomendaría para lograr mayor uniformidad en las determinaciones de los dos
técnicos?
a. Los datos deben analizarse de forma pareada, puesto que se quiere evaluar el
efecto del operador (técnico) en el análisis de la pureza de una muestra. Se desea
determinar si la forma de operar del técnico influye de forma significativa en la pureza de
la muestra. No se toman muestras independientes, puesto que si se tomará muestras
distintas del producto que han sido sometidas a diferentes procesos y operaciones para
obtener dicho producto podría influir en el análisis de la pureza y esto puede anular las
diferencias debido a tratamientos ante tanta variabilidad.
b. La hipótesis que se desea comprobar es: Existe diferencias entre operadores en el
análisis de la pureza de la muestra. Para ello se realiza una prueba de hipótesis de que la
media de las diferencias es cero.
Ho: µd=0

Ho:
µd ≠0

c. Se asumen un nivel de confianza del 95%, el tamaño muestra es 8, el promedio


muestral entre las diferencias es de 1,16 y la desviación estándar muestral de tales
diferencias es 0,9956. Aplicando una distribución T student, el estadístico de prueba para
dos parámetros es es el siguiente
to=dSd/n√=1,160,9956∙8√=3,2955

Al observar el valor de t(1-alfa/2) con n-1 grados de libertad igual a 7, el valor es de


2,365. Se rechaza la hipótesis nula si
|to|>t(1−α2),n−1

Como 3,2955 > 2,365, entonces se rechaza la Ho.


En conclusión, se rechaza la Ho de que los tratamientos son iguales, es decir que no
existen diferencias entre el trabajo de los dos técnicos al analizar la pureza del
producto. La pureza de la muestra si depende del procedimiento analítico que siga
cada operador.
d. Si existe evidencia del nivel de pureza de la muestra obtenida por ambos técnicos.
El primer técnico logra un mayor porcentaje de pureza de la muestra, lo que se verifica
en las medias y en la desviación estándar. En cambio, el segundo técnico en su
procedimiento analítico comete más errores, por lo que el porcentaje de pureza es menor
y se puede concluir que está haciendo mal el trabajo.
e. Recomendaría que ambos técnicos utilicen instrumentos y equipos similares,
también similares reactivos y solventes con máxima pureza para disminuir la
heterogeneidad de los resultados, además evitar la contaminación en lo posible de la
muestra trabajando en condiciones de asepsia.
𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟎𝟗𝟑
Estimador insesgado: Sea “y” una VAdRE (variable aleatoria de respuesta
experimental); sea θ un parámetro de “y”; sea 𝑦1 , 𝑦2 , … . . , 𝑦𝑛 una muestra; sea 𝜃̂ un
estadístico 𝜃̂ = 𝑓(𝑦1 , 𝑦2 , … . . , 𝑦𝑛 ). Se dice que 𝜃̂ es un estimador lineal de θ si 𝜃̂ =
∑𝑛𝑖=1 𝑐𝑖 𝑦𝑖 con 𝑐𝑖 ∈ ℝ. Se dice que 𝜃̂ es un estimador insesgado de θ si 𝐸(𝜃̂) = θ.

NOTAS
1. Un estimador lineal que es una CL (combinación lineal) de la muestra.
2. Un estimador insesgado 𝜃̂ tiene una esperanza igual al parámetro θ que estima.
̅ es un estimador lineal insesgado de µ
Ejercicio N°1: Demostrar que 𝒚
Resolución
 ¿Es 𝑦̅ un estadístico?
1
Puesto que 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑐𝑖 = 𝑓(𝑦1 , 𝑦2 , … . . , 𝑦𝑛 ) entonces, por definición, 𝑦̅ sí es un
estadístico.
 ¿Es 𝑦̅ estimador lineal?
1 1 1
Si lo es. En efecto, 𝑦̅ = 𝑛 ∑𝑛𝑖=1 𝑦𝑖 = ∑𝑛𝑖=1 𝑛 𝑦𝑖 = ∑𝑛𝑖=1 𝑐𝑖 𝑦𝑖 𝑐𝑜𝑛 𝑐𝑖 = 𝑛

 ¿Es 𝑦̅ estimador insesgado de µ?


P.D. 𝐸(𝑦̅) = 𝜇
1 1 1
En efecto, 𝐸(𝑦̅) = 𝐸 (𝑛 ∑𝑛𝑖=1 𝑦𝑖 ) = 𝑛 𝐸(∑𝑛𝑖=1 𝑦𝑖 ) = 𝑛 ∑𝑛𝑖=1 𝐸(𝑦𝑖 )
1
= 𝑛 ∑𝑛𝑖=1 𝜇 pues como E(y)=µ entonces E(𝑦𝑖 ) = 𝜇

1
= 𝑛𝜇 = 𝜇
𝑛
Ejercicio N°2: Demostrar que 𝒔𝟐 es un estimador insesgado de 𝝈𝟐
P.D. 𝐸(𝑠 2 ) = 𝜎 2
En efecto:
1 1
. 𝐸(𝑠 2 ) = 𝐸 (𝑛−1 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 ) = 𝑛−1 𝐸( ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 )

NOTA
𝑆𝑆
SS=∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 es la suma de cuadrados corregida. En tal sentido, 𝑠 2 = 𝑛−1
𝑛 𝑛 𝑛
1 1
= 𝐸 (∑(𝑦 2 𝑖 − 2𝑦̅𝑦𝑖 − 𝑦̅ 2 )) = 𝐸 (∑ 𝑦 2 𝑖 − 2 𝑦̅ ∑ 𝑦𝑖 + 𝑛𝑦̅ 2 )
𝑛−1 𝑛−1
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛
1 1
= 𝐸 (∑ 𝑦 2 𝑖 − 2𝑛𝑦̅ 2 + 𝑛𝑦̅ 2 ) 𝑝𝑢𝑒𝑠 𝑦̅ = ∑ 𝑦𝑖 ⟺ ∑ 𝑦𝑖 = 𝑛𝑦̅
𝑛−1 𝑛
𝑖=1 𝑖=1 𝑖=1
𝑛
1
= 𝐸 (∑ 𝑦 2 𝑖 − 𝑛𝑦̅ 2 )
𝑛−1
𝑖=1

NOTA
1. 𝐸(𝑦𝑖 ) = 𝜇 , 𝑉(𝑦𝑖 ) = 𝜎 2 ,

𝑉(𝑦𝑖 ) = 𝐸(𝑦 2 𝑖 ) − 𝐸 2 (𝑦𝑖 ) ⟺ 𝜎 2 = 𝐸(𝑦 2 𝑖 ) − 𝜇 2 ⟺ 𝐸(𝑦 2 𝑖 ) = 𝜇 2 + 𝜎 2


𝜎2
2. 𝐸(𝑦̅) = 𝜇, 𝑉(𝑦̅) = 𝑛

𝜎2 𝜎2
𝑉(𝑦̅) = 𝐸(𝑦̅ 2 ) − 𝐸 2 (𝑦̅) ⟺ = 𝐸(𝑦̅ 2 ) − 𝜇 2 ⟺ 𝐸(𝑦̅) = 𝜇 2 +
𝑛 𝑛
Continuando:
𝑛 𝑛
1 1
= ((∑ 𝑦 2 𝑖 ) − 𝐸(𝑛𝑦̅ 2 )) = ( ∑ 𝐸 (𝑦 2 𝑖 ) − 𝑛𝐸(𝑦̅ 2 ))
𝑛−1 𝑛−1
𝑖=1 𝑖=1

𝑛
1 𝜎2
= (∑(𝜇 2 + 𝜎 2 ) − 𝑛 (𝜇 2 + ))
𝑛−1 𝑛
𝑖=1

1 1
= (𝑛𝜇 2 + 𝑛𝜎 2 − 𝑛𝜇 2 − 𝜎 2 ) = (𝑛 − 1)𝜎 2 = 𝜎 2 𝒍𝒒𝒒𝒅
𝑛−1 𝑛−1

PdH: Pruebas de hipótesis


Sea θ u parámetro ligado a “y”, la VAdRE. Recordemos que un IdC (Intervalo de
confianza) es un rango de valores (intervalo) dentro del cual esta θ con una alta
probabilidad 1-α denominada NdC (Nivel de confianza) i.e.
𝐼𝑑𝐶𝜃 (1 − 𝛼) = ]𝐿𝜃 , 𝑈𝜃 [ ⟺ Pr(𝐿𝜃 < 𝜃 < 𝑈𝜃 ) = 1 − 𝛼
A diferencia de lo anterior, en una PdH se desea rechazar o no una hipótesis estadística
i.e. una hipótesis sobre θ cuyo valor de verdad se determina sobre la base de la evidencia
muestral con una probabilidad a priori de error representado por α y denominado NdS
(Nivel de significancia). Existen tres PdH para θ:
𝑃𝑑𝐻𝐵 θ (𝛼): 𝑃𝑑𝐻 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑝𝑎𝑟𝑎 θ al NdS "𝛼"
𝐻𝑜 : θ = θ𝑜
𝐻1 : θ ≠ θ𝑜
𝑃𝑑𝐻𝑈𝐷 θ (𝛼): 𝑃𝑑𝐻 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑝𝑎𝑟𝑎 θ al NdS "𝛼"
𝐻𝑜 : θ ≤ θ𝑜
𝐻1 : θ > θ𝑜

𝑃𝑑𝐻𝑈𝐼 θ (𝛼): 𝑃𝑑𝐻 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 𝑝𝑎𝑟𝑎 θ al NdS "𝛼"


𝐻𝑜 : θ ≥ θ𝑜
𝐻1 : θ ≤ θ𝑜
𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟏𝟏𝟓
A la hipótesis alternativa 𝐻1 también se le puede representar por 𝐻𝑎 y es la HdI (hipótesis
de investigación). La hipótesis de investigación se corresponde con la PdI (pregunta de
investigación) siempre y cuando este bien formulada dicha pregunta.
Ejercicio N°1: Un estudio a 43 pacientes con una enfermedad dio un valor medio de
ácido úrico en sangre (cuando el paciente estaba en ayunas entre 06h00 y 08h00) de
0,28 mmoles/L con una desviación estándar de 0,12 mmoles/L ¿Se puede considerar
que el promedio de ácido úrico así medido en estos pacientes difiere
significativamente del respectivo en personas sanas que es 0,23 mmoles/L?
Sean:
𝑦0 = [á𝑐𝑖𝑑𝑜 ú𝑟𝑖𝑐𝑜] en personas sanas en ayunas, medida entre 06h00 y 08h00 en
mmoles/L.
𝜇0 = 𝐸(𝑦0 ) = 0,23 = [á𝑐𝑖𝑑𝑜 ú𝑟𝑖𝑐𝑜] en personas sanas en ayunas, etc.
𝑦 = [á𝑐𝑖𝑑𝑜 ú𝑟𝑖𝑐𝑜] en personas de dicha enfermedad, medida en ayunas entre 06h00 y
08hoo, en mmloes/L.
𝜇 = 𝐸(𝑦) = [á𝑐𝑖𝑑𝑜 ú𝑟𝑖𝑐𝑜] promedio en personas con dicha enfermedad, medida en
ayunas entre… etc.
La evidencia muestral es: 𝑛 = 43 , 𝑦̅ = 0,28 , 𝑠 = 0,12 n≥25↔ MG: muestra grande
Entonces: 𝑃𝑑𝐻𝐵 μ (𝛼) 𝑐𝑜𝑛 𝜎 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎. Se puede considerar que 𝜎 ≈ 𝑠

𝐻𝑜 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
𝑦̅ − 𝜇0
𝐸𝑑𝑃: 𝑍0 =
𝜎/√𝑛
NOTA:
Not Not
1. .𝑉(𝑦0 ) = 𝜎 2 0 ., 𝑉(𝑦) = 𝜎 2
Supuesto de homocedasticidad: 𝜎 2 0 = 𝜎 2
2. Toda PdH tiene un EdP (estadidtico de prueba) que se deduce bajo el supuesto
de 𝐻𝑜 (hipótesis nula) es verdad. Así, en este caso:
𝐻𝑜
TdLC TdLC
𝜎2 𝜎2
𝑦̅ ~ 𝑁 (𝜇, ) ⟺ 𝑦̅ ~ 𝑁 (𝜇0 , )
𝑛 𝑛
𝑦̅ − 𝜇0
⟺ 𝑍0 = 𝜎 𝑝𝑜𝑟 𝑒𝑙 𝑇𝑑𝐿𝐶 𝑐𝑜𝑛 𝑀𝐺
√𝑛
0,28 − 0,23
𝑍0 = = 2,73
0,12
√43
CdR: criterio de rechazo, en términos del valor p
𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜
𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≥ 𝛼 ⟹ 𝐻𝑜
En la realidad
𝐻𝑜 𝑒𝑠 𝑉 𝐻𝑜 𝑒𝑠 𝐹
Decisión 𝐻𝑜 Acierto Error tipo II
𝐻𝑜 Error tipo I Acierto

∝= Pr(𝐸𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑝 𝐼) = Pr(𝐻𝑜 𝕝 𝐻𝑜 𝑒𝑠 𝑉) = 𝑁𝑑𝑆 (𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑛𝑐𝑖𝑎)


El valor por defecto de 𝛼 es 0,05 i.e. el valor de 𝛼 se fija a priori (de antemano).
1 − 𝛼 = Pr(𝐻𝑜 𝕝 𝐻𝑜 𝑒𝑠 𝑉)
𝛽 = Pr(Error tipo II) = Pr(𝐻𝑜 𝕝 𝐻𝑜 𝑒𝑠 𝐹)
1 − 𝛽 = Pr(𝐻𝑜 𝕝 𝐻𝑜 𝑒𝑠 𝐹) = 𝑃𝑜𝑡 (𝑝𝑜𝑡𝑒𝑛𝑐𝑖𝑎)𝑑𝑒 𝑙𝑎 𝑃𝑑𝐻

RdR de 𝑯𝒐 RdnR de 𝑯𝒐 RdR de 𝑯𝒐

𝛼 𝛼
2 2

𝒁𝜶 = −𝒁𝟏− 𝜶 𝒁𝟏− 𝜶
𝟐 𝟐 𝟐

Zp: Cuantil de orden “p” de 𝑍0 i.e. es aquel valor de 𝑍0 tal que Pr( 𝑍0 ≤ 𝑍𝑝 ) = 𝑝

Φ𝑍𝑝 = 𝑝
𝛼 𝛼
RdR de 𝐻𝑜 = {𝑍𝑝 Ι 𝑝 < 𝜃 𝑝 > 1 − 2 } = {𝑍𝑝 Ι 𝑍𝑝 < −𝑍1−𝛼 𝜃 𝑍𝑝 > 𝑍1−𝛼 } =
2 2 2

{𝑍𝑝 Ι |𝑍𝑝 | > 𝑍1−𝛼 }


2

𝛼 𝛼
RdnR de 𝐻𝑜 = {𝑍𝑝 Ι ≤ 𝑝 ≤ 1 − 2 } = {𝑍𝑝 Ι − 𝑍1−𝛼 ≤ 𝑍𝑝 ≤ 𝑍1−𝛼 } = {𝑍𝑝 Ι |𝑍𝑝 | ≤
2 2 2

𝑍1−𝛼 }
2

Notación:
RdR= Región de rechazo
RdnR= Región de no rechazo
El valor-p es la verdadera probabilidad del error tipo I, obtenido con la evidencia muestral
y es igual al área a cola respectiva del EdP.

En este caso ½ valor-p=Pr( Z > |𝑍𝑝 | ) 𝑉𝑎𝑙𝑜𝑟 − 𝑝 = 2 Pr(Z > |𝑍𝑝 | ) = 2[1 −
Pr(Z ≤ |𝑍𝑝 | )] ⟹ 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2[1 − Φ(|𝑍0 |)] ⟹ 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2[1 −
Φ(2,73)] = 2(1 − 0,9968) ⟹ 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0,0064
Por lo tanto 𝐻𝑜
Decisión: La concentración promedio de ácido úrico en personas con dicha enfermedad
es significativamente distinta que la respectiva para personas sanas (valor-p=0,0064)

𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟏𝟔𝟑
NOTA: El CdR (criterio de rechazo) de una PdH se puede establecer de cuatro formas:
1. En términos del valor-p esta RdD se emplea para toda PdH
𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜 𝑎 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐻1
𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≥ 𝛼 ⟹ 𝐻𝑜
2. En términos de valores (cuantiles) críticos

La RdD (regla de decisión) depende en este caso no solo del parámetro o combinación de parámetros sujetos
a prueba sino también del tipo de PdH: PdHB, PdHUD o PdHUI.

Por ejemplo, en una 𝑃𝑑𝐻𝜇 (𝛼) 𝑐𝑜𝑛 𝜎 "𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎"

𝑃𝑑𝐻𝐵𝜇 (𝛼)

|𝑍𝑜 | > 𝑍1−𝛼 ⟹ 𝐻𝑜 a favor de 𝐻1


2

|𝑍𝑜 | ≤ 𝑍1−𝛼 ⟹ 𝐻𝑜
2
𝛼 𝛼
2 2

𝒁𝜶 = −𝒁𝟏− 𝜶 𝒁𝟏− 𝜶
𝟐 𝟐 𝟐

𝑍𝑜 < 𝑍1−𝛼 𝑍𝑜 > 𝑍1−𝛼


2 2

𝑃𝑑𝐻𝑈𝐷𝜇 (𝛼)

𝑍𝑜 > 𝑍1−𝛼 ⟹ 𝐻𝑜 a favor de 𝐻1


𝑍𝑜 ≤ 𝑍1−𝛼 ⟹ 𝐻𝑜

𝑃𝑑𝐻𝑈𝐼𝜇 (𝛼)

𝑍𝑜 < 𝑍𝛼 ⟹ 𝐻𝑜 a favor de 𝐻1
𝑍𝑜 ≥ 𝑍𝛼 ⟹ 𝐻𝑜

𝑃𝑑𝐻𝐵𝜎2 (𝛼) 𝐻𝑜 : 𝜎 2 = 𝜎 2 𝑜
𝐻1 : 𝜎 2 ≠ 𝜎 2 𝑜
(𝑛−1)𝑠2
EdP: 𝑋 2 𝑜 = 𝑠2 𝑜

CdR: En términos de valores o cuantiles críticos


𝑋 2 𝑜 < 𝑋 2 𝛼,𝑛−1 𝑉 𝑋 2 𝑜 > 𝑋 21−𝛼,𝑛−1 ⟹ 𝐻𝑜 a favor de 𝐻1
2 2
𝑋 2 𝛼,𝑛−1 < 𝑋 2 𝑜 𝑋 21−𝛼,𝑛−1
2 2

NOTA: ¿Cómo se calcula el valor-p para una 𝑃𝑑𝐻𝐵𝜎2 (𝛼)?

 Si 𝑋 2 𝑜 > 𝑋 21−𝛼,𝑛−1 entonces:


2

𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2Pr(𝑋 2 𝑛−1 > 𝑋 2 𝑜 )


 Si 𝑋 2 𝑜 < 𝑋 2 𝛼,𝑛−1 entonces:
2

𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2Pr(𝑋 2 𝑛−1 < 𝑋 2 𝑜 )


Esta forma no siempre se puede hacer

3. Graficando a la función de densidad del EdP


4. Mediante IdC: Intervalos De confianza. Esta forma no siempre se puede hacer.

En 𝑃𝑑𝐻𝐵𝜃 (𝛼):
Si 𝜃𝑜 𝜖 𝐼𝑑𝐶𝜃 (1 − 𝛼) entonces 𝐻𝑜
Si 𝜃𝑜 ∉ 𝐼𝑑𝐶𝜃 (1 − 𝛼) entonces 𝐻𝑜 a favor de 𝐻1

En 𝑃𝑑𝐻𝑈𝜃 (𝛼): 𝜃 ≤ 𝜃𝑜 𝑜 𝐻𝑜 : 𝜃 ≥ 𝜃𝑜
𝜃 > 𝜃𝑜 𝐻1 : 𝜃 < 𝜃𝑜
Si 𝜃𝑜 𝜖 𝐼𝑑𝐶𝜃 (1 − 2𝛼) entonces 𝐻𝑜
Si 𝜃𝑜 ∉ 𝐼𝑑𝐶𝜃 (1 − 2𝛼) entonces 𝐻𝑜 a favor de 𝐻1
Ejercicio N°2: Recapitular el ejercicio 1 estableciendo el criterio de rechazo (CdR)
de las cuatro formas indicadas
𝐻𝑜 : 𝜇 = 𝜇𝑜 ; 𝜇𝑜 = 0.23
𝐻1 : 𝜇 ≠ 𝜇𝑜
𝑦̅ − 𝜇0
𝑍𝑜 = 𝜎 ; 𝛼 ≈ 𝑠 , 𝑦̅ = 0.28, 𝑛 = 43, 𝑠 = 0.12, 𝑍𝑜 = 2.73
√𝑛
CdR: En términos del valor-p
𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜 a favor 𝐻1 , en este caso, 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 Pr(𝑍 > |𝑍𝑜 |) =
0.0064 ; 𝛼 = 0.05
𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜 ∴ 𝐻𝑜 a favor 𝐻1
NOTA: Estos cuantiles se calculan con NdS “α”
|𝑍𝑜 | > 𝑍1−𝛼 ⟹ 𝐻𝑜 a favor de 𝐻1 . En este caso, 𝑍1−𝛼 = 𝑍0.075 = 1.96 ; 𝑍𝑜 = 2.73
2 2

|𝑍𝑜 | > 𝑍1−𝛼 ⟹ 𝐻𝑜 ∴ 𝐻𝑜 a favor 𝐻1


2

CdR: En términos de IdC


𝜇𝑜 ∉ 𝐼𝑑𝐶𝜇 (1 − 𝛼) ⟹ 𝐻𝑜 a favor 𝐻1

𝜇𝑜 ∈ 𝐼𝑑𝐶𝜇 (1 − 𝛼) ⟹ 𝐻𝑜
𝛼
En este caso 𝐼𝑑𝐶𝜇 (1 − 𝛼 ) = 𝑦̅ ∓ 𝑍1−𝛼 ; 𝜎 ≈𝑠
2 √𝑛

0.12
⟹ 𝐼𝑑𝐶𝜇 (95%) = 0.28 ∓ 1.96 = 0.04
√43
⟹ 𝐼𝑑𝐶𝜇 (95%) =]0.24 ; 0.32[ ∉ 𝜇𝑜

𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟏𝟖𝟓

Ejercicio N°3: En una clínica para el control de peso se afirma que quienes siguen
sus tratamientos durante el primer mes, pierden al menos 5 kg. Para comprobar
aquello, el MdS (Ministerio de Salud) tomó al azar 36 personas que cumplieron las
indicaciones de la clínica durante el primer mes, encontrándose que habían perdido
4,6kg en promedio con una desviación estándar.
a) ¿es cierta la afirmación de la clínica?
y= pérdida de peso, en kg, de las personas que siguen los tratamientos de la clínica
durante el primer mes
MG
2
𝐸(𝑦) = 𝜇 ; 𝜇𝑜 = 5𝑘𝑔 , 𝑉 = 𝜎 ≈ 𝑠 2 = 1.22 , 𝑛 = 36 , 𝑦̅ = 4.6 , 𝛼 = 0.02
𝐻𝑜 : 𝜇 ≥ 𝜇𝑜
𝐻1 : 𝜇 < 𝜇𝑜
𝑦̅−𝜇0 4.6−5
EdP: 𝑍𝑜 = 𝜎 = 1.2/√36 = −2.00
√𝑛

CdR: 𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜 a favor 𝐻1


𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≥ 𝛼 ⟹ 𝐻𝑜
En este caso: 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑍 < 𝑍𝑜 ) = Φ(𝑍𝑜 ) = 0.0228 , 𝛼 = 0.02
Por lo tanto: 𝐻𝑜
Decisión: el peso promedio que pierden durante el primer mes las personas que siguen
los tratamientos de la clínica no es menor que 5kg (valor-p=0.0228).
Valor-p

𝑍𝑜

Para responder a la pregunta de investigación “¿pierden al menos 5kg durante el primer


mes las personas que siguen los tratamientos de la clínica para el control del peso?”
Se tiene que realizar, en este caso, la siguiente prueba de hipótesis
𝐻𝑜 : 𝜇 ≤ 𝜇𝑜
𝐻1 : 𝜇 > 𝜇𝑜
𝑦̅−𝜇0
EdP 𝑍𝑜 = 𝜎 = −2.00
√𝑛

CdR 𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜


𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≥ 𝛼 ⟹ 𝐻𝑜

Valor-p

𝑍𝑜

En este caso: 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑍 > 𝑍𝑜 ) = 1 − Pr(𝑍 ≤ 𝑍𝑜 ) = 1 − Φ(𝑍𝑜 )


𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 1 − 0.0228 = 0.9772
Por lo tanto: 𝐻𝑜
Decisión: No se puede afirmar que el peso promedio que pierden las personas que siguen
los tratamientos de la clínica durante el primer mes sea al menos 5kg (valor-p=0.9772).

𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟐𝟑𝟑
Clase de ejercicios: PdH
Gutiérrez: Ejer. 21, cap.2
Y= peso en g, de las cajas de cereal 𝜇 = 𝐸(𝑦)
𝜇0 = 300 , 𝑛 = 25 , 𝑦̅ = 278.3 , 𝑠 = 4.5
a) 𝑦 ~ 𝑁(𝜇, 𝜎 2 ) , 𝑃𝑑𝐻𝐵𝑢 (𝛼) =? ? , 𝛼 = 0.05
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻1 : 𝜇 ≠ 𝜇𝑜

𝑦̅−𝜇0 248.3−300
EdP: 𝑍𝑜 = 𝜎 ; 𝛼 ≈ 𝑠 ⟹ 𝑍𝑜 = 4.5 = −1.89
√𝑛 √25

CdR: En términos del valor-p


RdD: 𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜 a favor 𝐻1
𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≥ 𝛼 ⟹ 𝐻𝑜

½ Valor-p

𝛼 𝛼
2 2

𝑍𝛼 𝑍1−𝛼
2 2

En este caso: 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 Pr(𝑍 < 𝑍𝑜 ) = 2 Pr(𝑍 > |𝑍𝑜 |)


𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 Pr(𝑍 > 1.87)
= 2[1 − Pr(𝑍 ≤ 1.87)]
= 2[1 − Φ(1.89)] = 𝑣𝑒𝑟 𝑡𝑎𝑏𝑙𝑎𝑠

Cálculo del valor-p para ciertas PdH


 𝑃𝑑𝐻𝐵𝜇 (𝛼) con σ conocida : 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 Pr(𝑍 > |𝑍𝑜 |)
 𝑃𝑑𝑈𝐼𝜇 (𝛼) con σ conocida 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑍 < 𝑍𝑜 )
 𝑃𝑑𝑈𝐷𝜇 (𝛼) con σ conocida 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑍 > 𝑍𝑜 )
 𝑃𝑑𝐻𝐵𝜇 (𝛼) con σ desconocida 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 2 Pr(𝑡𝑛−1 > |𝑡𝑜 | )
 𝑃𝑑𝐻𝑈𝐼𝜇 (𝛼) con σ desconocida 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑡𝑛−1 < 𝑡𝑜 )
 𝑃𝑑𝐻𝑈𝐷𝜇 (𝛼) con σ desconocida 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑡𝑛−1 > 𝑡𝑜 )
 𝑃𝑑𝐻𝐵𝜎2 (𝛼)

2 Pr( 𝑋𝑛−1 2 > 𝑋 2 𝑜 ) 𝑠𝑖 𝑋 2 𝑜 ≥ 𝑋 2 0.5,𝑛−1

Valor-p 2 Pr( 𝑋𝑛−1 2 < 𝑋 2 𝑜 ) 𝑠𝑖 𝑋 2 𝑜 < 𝑋 2 0.5,𝑛−1

Donde 𝑋 2 0.5,𝑛−1 es la mediana de la distribución 𝑋 2 𝑛−1


 𝑃𝑑𝐻𝑈𝐼𝜎2 (𝛼) 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr( 𝑋𝑛−1 2 < 𝑋 2 𝑜 )
 𝑃𝑑𝐻𝑈𝐷𝜎2 (𝛼) 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr( 𝑋𝑛−1 2 > 𝑋 2 𝑜 )
 𝑃𝑑𝐻𝐵𝜎21 (𝛼)
𝜎2 2

2 Pr(𝐹𝑛1 −1; 𝑛2−1 > 𝐹𝑜 ) 𝑠𝑖 𝐹𝑜 ≥ 𝐹0.5; 𝑛1−1; 𝑛2 −1

Valor-p 2 Pr(𝐹𝑛1 −1; 𝑛2−1 < 𝐹𝑜 ) 𝑠𝑖 𝐹𝑜 < 𝐹0.5; 𝑛1−1; 𝑛2 −1

 𝑃𝑑𝐻𝑈𝐼𝜎21 (𝛼) 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝐹𝑛1 −1; 𝑛2−1 < 𝐹𝑜 )


𝜎2 2

 𝑃𝑑𝐻𝑈𝐷𝜎21 (𝛼) 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝐹𝑛1 −1; 𝑛2 −1 > 𝐹𝑜 )


𝜎2 2

Ilustración del cálculo de la potencia de una PdH


Retomemos del ejercicio 2 de la clase 2020-06-18:
𝐻𝑜 : 𝜇 ≥ 𝜇𝑜 ; 𝜇𝑜 = 5
𝐻1 : 𝜇 < 𝜇𝑜
𝑛 = 36 , 𝑦̅ = 4.6 ; 𝜎 = 1.2 , 𝛼 = 0.02
𝑦̅−𝜇0
EdP: 𝑍𝑜 = 𝜎 = −2.00
√𝑛

𝟐𝟎𝟐𝟎 − 𝟎𝟔 − 𝟐𝟓𝟓
PdH
𝐻𝑜 : 𝜋 ≥ 𝜋𝑜 , 𝜋𝑜 = 0.5
𝐻1 : 𝜋 < 𝜋𝑜
Para otros casos
𝑃𝑑𝐻𝐵𝜃 (𝛼) 𝐻𝑜 : 𝜃 = 𝜃𝑜
𝐻𝑜 : 𝜃 ≠ 𝜃𝑜

𝑃𝑑𝐻𝑈𝐷𝜃 (𝛼) 𝐻𝑜 : 𝜃 = 𝜃𝑜
𝐻𝑜 : 𝜃 > 𝜃𝑜

RdR de 𝐻𝑜 = {𝑍𝑃 𝑍𝑃 < 𝑍𝛼 𝑉 𝑍𝑃 > 𝑍1−𝛼 } ; 𝐻𝑜 = {𝑍𝑃 l |𝑍𝑃 | > 𝑍𝛼 }


2 2 2

𝑃𝑑𝐻𝑈𝐼𝜃 (𝛼) 𝐻𝑜 : 𝜃 = 𝜃𝑜
𝐻𝑜 : 𝜃 < 𝜃𝑜
𝑦̅−𝜇0
EdP: 𝑍𝑜 = 𝜎
√𝑛

𝑦̅ ~𝑁(𝜇, 𝜎 2 )
𝑦𝑝 − 𝜇0
̅̅̅ 𝜎
𝑍𝑃 = 𝜎 ⟺ 𝑦𝑝 = 𝜇0 + 𝑍𝑃
̅̅̅
√𝑛
√𝑛
𝜎 0.12
𝑦𝛼 = 𝜇 0 + 𝑍 𝛼
̅̅̅ = 0.23 + (−1.96) = 0.1941
2 2 √𝑛 √43
𝜎 0.12
𝑦1−𝛼 = 𝜇0 + 𝑍𝛼
̅̅̅̅̅̅ ; 𝑦0.975 = 0.23 + (1.96)
̅̅̅̅̅̅̅ = 0.2659
2 2 √𝑛 √43

Ejemplo 10.5, libro de Mendelhall


𝜇0 = 15 , 𝑛 = 36 , 𝑦̅ = 17 , 𝑠 2 = 9 , 𝑃𝑑𝐻𝑈𝐷𝜇 (𝛼) =? 𝛼 = 0.05

𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻1 : 𝜇 > 𝜇𝑜
𝑦̅−𝜇0 17−15
EdP: 𝑍𝑜 = 𝜎 = 3 =4
√𝑛 √36

CdR: En términos del valor-p


𝑣𝑎𝑙𝑜𝑟 − 𝑝 < 𝛼 ⟹ 𝐻𝑜 a favor 𝐻1
𝑣𝑎𝑙𝑜𝑟 − 𝑝 ≥ 𝛼 ⟹ 𝐻𝑜
En este caso, 𝑣𝑎𝑙𝑜𝑟 − 𝑝 = Pr(𝑍 > 𝑍𝑜 ) = 1 − Pr(𝑍 ≤ 𝑍𝑜 ) = 1 − Φ(𝑍𝑜 ) = 1 − Φ(4) =
0.00003167124 por tanto ⟹ 𝐻𝑜
Decisión: El numero de vendedores de la empresa si están promediando mas de 15
contactos de venta por semana (𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0.00003167124)
Ejemplo 10.8, libro de Mendelhall
Hallar beta y la potencia de la PdH del Ejemplo 5 si 𝜇1 = 16
𝐻𝑜 : 𝜇 = 𝜇𝑜 ; 𝜇𝑜 = 15
𝐻1 : 𝜇 > 𝜇𝑜

𝛽 = Pr(𝑒𝑟𝑟𝑜𝑟 𝑡𝑖𝑝𝑜 𝑙𝑙) = Pr(𝐻𝑜 l 𝐻𝑜 es F)


𝜎2
𝛽 = Pr(𝑍 < 𝑦
̅̅̅̅̅̅)
1−𝛼 ; 𝛽 = Pr(𝑦
̅̅̅1 < 𝑦
̅̅̅̅̅̅)
1−𝛼 𝑑𝑜𝑛𝑑𝑒 ̅̅̅
𝑦1 ~ 𝑁 (𝜇1 , )
𝑛
𝜎
𝛽 = Pr (𝑦
̅̅̅1 < 𝜇𝑜 + 𝑍1−𝛼 )
2 √𝑛
𝜎
𝜇𝑜 + 𝑍1−𝛼 − 𝜇1
2 √𝑛
𝛽 = Pr (𝑍1 < 𝜎 )
√𝑛
𝜎
𝛽 = Pr (𝑍1 < 𝑍1−𝛼 − (𝜇1 − 𝜇𝑜 ) ) ∴ 𝑃𝑜𝑡 = 1 − 𝛽
2 √𝑛

También podría gustarte