Está en la página 1de 25

Licenciatura en Seguridad y Salud Ocupacional

Departamento de Matemática
ESS - FBCB / UNL 1 de 25

NOTAS DE CLASE 2

UNA INTRODUCCIÓN A LA ESTIMACIÓN

El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o
para obtener conclusiones sobre una población a partir de la información contenida en una muestra.
La inferencia estadística puede dividirse en dos grandes áreas: Estimación y Prueba de hipótesis.

Algunas definiciones importantes para recordar:

Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.

Muestra

Unidad Experimental

Población

Muestra: subconjunto seleccionado de una población y “representativo” de la misma.

Individuo o unidad experimental: persona u objeto sobre el cual se va a observar o medir una
característica. A veces la unidad experimental no tiene forma física real. Por ejemplo si se observa el “tiempo
que tarda en ocurrir una reacción química” la unidad experimental sería la vez que se repite la reacción.

En muchas situaciones se está interesado en conocer valores o medidas que resuman el


comportamiento de alguna variable en la población. Por ejemplo: la proporción de personas hipertensas, el
tiempo medio de evacuación de una planta industrial, la proporción de personas que utilizan semanalmente el
servicio de enfermería disponible para empleados en una fábrica,...etc. A estos valores se los denomina
parámetros y si la intención es conocerlos, lamentablemente, en la mayoría de las situaciones es una tarea
casi imposible debido a que la población a la que pertenecen es muy grande.

A raíz de esto surge la Teoría de la Estimación, que es la rama de la Estadística Inferencial, que se
aboca a determinar cómo obtener el mejor valor de estos parámetros utilizando alguna medida obtenida con
los datos pertenecientes a una muestra seleccionada de esa población.

La estimación de los parámetros de una población puede hacerse de dos formas:


Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 2 de 25

• Puntual
• Por intervalo de confianza
Estas formas no son alternativas sino complementarias, es decir la primera es necesaria para
construir la segunda.

El estudio de las muestras permite, entonces, hallar valores particulares que estiman a los parámetros
poblacionales. A estos valores, calculados a partir de los datos muestrales, se los llama estadísticos.

Muestra Población
Estadístico Parámetros
x Estimación µ
s2 σ2
p̂ π (o p)

Estimación puntual

Le asigna al parámetro poblacional un valor único, que dependerá de la muestra seleccionada.


Para los parámetros más difundidos que son la media (µ) y la proporción (π) tenemos que:

Observación: Si µ es el parámetro que se desea estimar, X es su “mejor estimador”.


Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 3 de 25

El problema que se presenta cuando se usa la estimación puntual de un parámetro es que el valor
obtenido con el estimador depende de los datos muestrales. Es decir si se elige una muestra se encontrará
un valor del estimador ( θ̂1 ); si se selecciona otra muestra del mismo tamaño, de la misma población, donde
dos, tres o más individuos pueden ser distintos en la nueva muestra seleccionada, el valor del estadístico no
será el mismo (se tendrá un θ̂2 ). Si esto se repite n veces, se obtendrán n valores distintos del estimador

( θ̂i ), es decir, tantos como muestras del mismo tamaño y de la misma población se tomen.

Actividad
Para comprender mejor los distintos conceptos involucrados en la Teoría de Estimación: Parámetro,
Estimador y Estimación consideremos el siguiente ejemplo:
En una fábrica donde trabajan 50 empleados cuyas edades son:
37 33 37 57 26
27 23 36 24 32
42 22 53 45 25
53 30 39 49 36
52 32 38 59 40
57 19 35 39 40
18 34 60 35 37
38 36 49 47 62
51 41 64 36 23
29 36 33 48 33

En este ejemplo en particular la población está constituida por los 50 empleados de la fábrica estudiada. En
este caso la media µ de la edad de los 50 empleados es de 39 años (recordamos que la media se calcula
sumando los 50 valores y dividiendo entre 50).
Supongamos ahora (por cuestiones de tiempo por ejemplo) no podemos trabajar con los 50 empleados
entonces vamos a considerar trabajar con una muestra elegida al azar de tamaño n=7 empleados, por
ejemplo
Muestra 1 37 27 42 53 52 57 18

La media aritmética de estas edades es x = 41 años.


Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 4 de 25

Como se observa este valor no es igual al valor de la media poblacional ( µ = 39 años). Si se toma otra
muestra de la misma población y del mismo tamaño (n=7) y se calcula nuevamente la media de esa muestra,
el valor que se obtiene no será igual al de la población como tampoco al valor obtenido en la Muestra 1

Muestra 2 39 32 37 36 40 40 37

La media aritmética de estas edades es x = 37 años.


Ahora se les propone que tomen dos muestras aleatorias de tamaño 7 de esta población y calculen la media
en cada una de ellas. Para escoger una muestra aleatoria de una población se debe considerar alguna
metodología de muestreo. Se les sugiere, por ejemplo, recorrer la tabla de izquierda a derecha y de arriba
hacia abajo y elegir como primer dato el tercer valor y para la primera muestra seleccionar uno de cada dos
datos y para la segunda empezando con el octavo valor y seleccionar a partir de allí uno de cada cuatro
datos.
Muestra 3 37 27

La media aritmética de estas edades es x = …………. Años.


Muestra 4 36 53

La media aritmética de estas edades es x = …………. Años.


Resumiendo los valores obtenidos de las medias aritméticas en cada muestra se tiene
Muestra x
1 41
2 37
3
4
Como se observa, los cuatro valores de medias calculados son diferentes y están próximos al
verdadero valor de la media poblacional.
Dicho de otra manera:
Si se quiere observar una variable en una población muy grande y conocer de ella el valor de un
determinado parámetro; entonces, se toma una muestra de ella. Las unidades experimentales que
conformen esta muestra proporcionarán distintos valores de la variable en cuestión y a estos datos se los
utilizará para obtener un valor del estimador que se usará para estimar ese parámetro.
Si se elige otra muestra, es muy probable que el valor del estimador, construido con los datos de esta
segunda muestra, difiera numéricamente del de la otra. Como se ve en el cuadro resumen la estimación
puntual es cualquiera de los cuatro valores obtenidos.

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 5 de 25

Sabiendo que cuando se calcula el valor de un estimador, su valor depende de la muestra y que esta
estimación puntual puede no coincidir exactamente con el verdadero valor del parámetro, se recurre a otra
forma de estimar dicho parámetro llamada estimación por intervalos de confianza (IC).

Estimación por intervalos de confianza

Consiste en encontrar un conjunto de valores alrededor del estimador, que con cierta probabilidad
contendrá al verdadero valor del parámetro a estimar.

Parámetro θ θ̂ Estadístico

θˆ − k θˆ + k
Posibles valores de la variable

En la estimación de un parámetro poblacional, como por ejemplo: el verdadero promedio (µ), a través
de un Intervalo de Confianza, se requiere tomar una muestra de la población en la cual se está observando
una variable y con los datos obtenidos de ella, hacer algunos cálculos.

Existen fórmulas que permiten calcular estos intervalos de confianza. Se verán algunas de ellas.
Intervalo de confianza bilateral
1- Intervalo de Confianza para el verdadero promedio (µ) de una variable
Si la muestra tomada de una población (normal o aproximadamente normal) tiene
tamaño : n ≥ 30

media : x
desvío estándar : s

el intervalo de confianza para µ se calcula:

Para un 95% de confianza:


zα = 1,960
( )
2
s Para un 90% de confianza:
x ± z α zα = 1,645
(
2
) n ( )
2
Para un 99% de confianza:
zα = 2,575
( )
2

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 6 de 25

Donde Z α es un número obtenido de la tabla de la Distribución de Probabilidad Normal Estándar.


( )
2

(Para mayor información ver Bibliografía).


En el recuadro anterior podemos leer “para un 95% de confianza”, este valor se denomina nivel de
( )
confianza y es la probabilidad de que el intervalo θˆ − k, θˆ + k contenga al verdadero parámetro θ, y se

simboliza: 1-α, donde α es lo que se conoce como nivel de significancia. Esta probabilidad (nivel de
confianza) debería ser lo más grande posible (lo más próximo a 1 o 100 %). Los valores que más se utilizan
son 0,95 o 95 % , 0,99 o 99 %. Si se observa la expresión, nivel de confianza 1-α para que se obtenga 0,95,
el α debe ser igual a 0,05 y si 1-α es igual a 0,99 el α debe ser igual a 0,01. Estos valores, 0,05 y 0,01
llamados “significancia estadística”, se los utilizará luego en pruebas de hipótesis.

IMPORTANTE: el nivel de confianza lo fija el investigador o analista

De esta forma, si se construye un intervalo de confianza del 95 %, significa que si se repite 100 veces
la experiencia, y se calculan 100 intervalos de confianza para el mismo parámetro y con el mismo tamaño
muestral, 95 de ellos contendrán al verdadero valor del parámetro y 5 no.

Actividad
Se quiere estudiar el tiempo medio que tarda un empleado público en solicitar cambio de servicio
(generalmente asociado a razones de estrés, ansiedad o agotamiento de rutina). El análisis de 294 datos
registrados reveló un tiempo medio de 4,9 años y un desvío estándar de 1,2 años, de permanencia en un
determinado servicio hasta el momento del cambio por solicitud. Si se quiere estimar este tiempo medio a
través de un IC del 95%, se debería calcular:
S 1, 2
1) X − z α = 4 ,9 − 1,96 = ……………………………………………..
(
2
) n 294
S 1, 2
2) X + z α = 4 ,9 + 1,96 = ……………………………………………..
(
2
) n 294

El verdadero tiempo medio que tarda un empleado en solicitar cambio de servicio, con una confianza
del …………% es cualquier valor de tiempo comprendido entre: …………………………………………………

En símbolos: …………………………. < µ < ……………………………………...

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 7 de 25

Intervalos de confianza unilaterales


Aparte de los intervalos de confianza bilaterales, como el mostrado anteriormente para la media, es
posible determinar también Intervalos de confianza unilaterales.
Un intervalo de confianza unilateral inferior para µ, estimará que µ es mayor que algún límite
inferior de confianza (LIC).
Un intervalo de confianza unilateral superior para µ, estimará que µ es menor que algún límite
inferior de confianza (LSC).

Si x es la media de una muestra aleatoria de una población, de tamaño mayor a 30 unidades


experimentales, un intervalo de confianza unilateral para µ del (1-α)% está dado por:
S
a) unilateral inferior µ ≥ X − zα
n
S
b) unilateral superior µ ≤ X + zα
n

donde zα es un número obtenido de una tabla Normal Estándar.

A continuación se muestra un cuadro resumen con algunos intervalos de confianza unilaterales para
la media poblacional.

Coeficiente de Límite inferior de confianza Límite superior de confianza


α zα
confianza (1-α) (LIC) (LSC)
S S
0,90 0,10 1,28 X − 1,28 X + 1,28
n n
S S
0,95 0,05 1,645 X − 1,645 X + 1,645
n n
S S
0,99 0,01 2,33 X − 2,33 X + 2,33
n n

Si las muestras no tienen el tamaño indicado (n ≥ 30) esta técnica no es la adecuada.


(Para mayor información ver Bibliografía)

Ejemplo:

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 8 de 25

Se elige una muestra de 74 niños expuestos a niveles altos de plomo; estos niños tienen un nivel
medio de hemoglobina en sangre x = 10,6 g/100 ml y una desviación estándar s=0,85 g/100ml. Un intervalo
S
de confianza unilateral superior del 95% para µ es: X + 1,645 que con los datos del problema es
n
0,85
µ ≤ 10,6 + 1,645 = 10,8 que puede interpretarse : se cuenta con una confianza del 95 % de
74
que el verdadero nivel medio de hemoglobina de esta población de niños es de a lo sumo 10,8 g/100ml. Dicho
de otra forma, si se eligieran 100 muestras de tamaño 74 y se utilizara cada una de ellas para construir un
intervalo de confianza unilateral superior del 95 %, aproximadamente 95 de los intervalos cubrirían el
verdadero valor promedio (µ) de hemoglobina en sangre.

Actividad
Se quiere estimar el “Tiempo medio que tarda en quemarse un trozo de tela (en segundos)”. Para esto se
toma una muestra de tamaño 31. Obteniéndose:
91.00 - 80.00 - 98.00 - 80.00 - 109.00 - 116.00 - 69.00 - 92.00 - 82.00 - 82.00 - 87.00 - 75.00 - 73.00 - 83.00 -
86.00 - 70.00 - 88.00 - 90.00 - 97.00 - 91.00 - 91.00 - 91.00 - 84.00 - 94.00 - 93.00 - 89.00 - 119.00 - 105.00 -
124.00 - 115.00 – 95.00
Se sabe que la distribución de la variable “Tiempo medio que tarda en quemarse un trozo de tela (en
segundos)” es aproximadamente normal. Calcule un intervalo de confianza del 95% para el verdadero
“Tiempo medio que tarda en quemarse un trozo de tela (en segundos)”. Interprete en términos del problema el
intervalo obtenido.

2- Intervalo de Confianza para la verdadera proporción (π o p)

Si la muestra tomada de una población tiene


tamaño : n ≥ 30

número de individuos que cumplen con una característica : x
número de individuos que no cumplen con la característica : n − x

∧ x
La proporción de individuos que cumplen con la característica de interés es: p = ; por lo que
n
∧ n−x
q= es la proporción de individuos que no la cumplen.
n

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 9 de 25

Fijado un nivel de confianza, el intervalo de confianza para p o π se calcula:


∧ ∧
∧ pq
p± zα , donde z α son los valores indicados anteriormente para un Intervalo de
2
n 2

confianza para la media (bilateral)

Actividad
Se quiere estimar la proporción de trabajadores que sufren hipotermia, tras media hora de realizar trabajos
bajo el agua en una zona fría.
De 567 trabajadores 398 sufrieron hipotermia.
La variable observada es: …………………………………………………………………………………..
Los resultados posibles de la variable son: …………………………………………………………………
La estimación puntual de la verdadera proporción de trabajadores que sufren hipotermia es: …………

Si se estima esta proporción a través de IC del 95%, se deberían calcular los extremos del mismo:

∧ ∧
∧ pq ..... .....
1) p − z α = ........ − 1, 9 6. = ..........
2
n .....
∧ ∧
∧ pq . ... . .. ...
2) p + z α = . ... .... + 1, 9 6 . = . ... .... ..
2 n . ....
La verdadera proporción de trabajadores que sufren hipotermia, con una confianza del 95%, es un valor
comprendido entre: ……………………………………………………………………………………………

En símbolos: ……………………………. < π < ………………………………

Actividad
Se quiere alcanzar una conclusión de la población de una determinada localidad acerca de si están de
acuerdo o no con la radicación de una fábrica en la región. Como resulta poco práctico interrogar a todos los

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 10 de 25

habitantes de la localidad para determinar el verdadero valor de π, se toma una muestra aleatoria de tamaño
840 y en ella 629 están de acuerdo con la radicación de la fábrica en la región.
Estime por IC (95%) la verdadera proporción que está de acuerdo en que se instale la fábrica. Interprete el
intervalo obtenido en términos del problema.

Intervalos de tolerancia

Cuando se está interesado, por ejemplo, en el proceso de fabricación de un determinado producto y


lo que se quiere es que éste cumpla con ciertas especificaciones es decir, se quiere determinar “si la
mayoría de los productos elaborados las cumplen”, lo que se requiere es el cálculo de un intervalo que
incluya cierto porcentaje de mediciones con una probabilidad conocida. Este intervalo se denomina intervalo
de tolerancia y los extremos del mismo se denominan límites de tolerancia.

Más específicamente, lo que se busca es encontrar valores límites que aseguren con una
“confianza determinada” que un gran porcentaje de la producción caerá dentro de ese rango.

Este tipo de estimación requiere del conocimiento de una teoría estadística que va más allá del
alcance de este curso, pero, a los fines prácticos, si se supone que la distribución de las mediciones es
normal o aproximadamente normal, se calcula de la siguiente manera
X ±k S

donde X : es la media o promedio de la muestra


k: es un coeficiente que se saca de una tabla que depende del porcentaje de la producción que se
espera esté entre los valores de tolerancia a hallar con una confianza determinada
S: es el desvío o desviación estándar de la muestra.

Es de observar, que de igual modo que con los Intervalos de confianza, también en este caso se
pueden calcular intervalos de tolerancia bilaterales, como el que se indica, o unilaterales del tipo X + k S o

X −kS.

Actividad
El proceso de fabricación de ejes de motores eléctricos está en control. Al final de cada hora, durante un
período de 20 horas, el operario a cargo selecciona una muestra aleatoria de cuatro ejes y mide el diámetro
de cada uno.
Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 11 de 25

De las mediciones (en pulgadas) de los 80 diámetros se obtuvo una media x =1.50 y un desvío estándar
s=0.01.
Suponga que se quiere encontrar un intervalo que con una confianza del 95% contenga el 99% de las
mediciones realizadas; en otras palabras, se quiere encontrar un intervalo de tolerancia del 99% que tenga
una confianza del 95%.
Este problema se puede resolver usando directamente la planilla de cálculo que se les proporciona en el aula
virtual para este fin.
El intervalo que se obtiene es (1.47, 1.53).
También se puede utilizar una tabla para intervalos de tolerancia que pueden encontrar en los libros de
Estadística aplicada.
En estas notas de clase, se les proporciona una tabla para intervalos de tolerancia bilaterales.
En el problema planteado, se busca un intervalo de tolerancia para el 99% de los diámetros, (γγ = 0.99),
α = 0.95).
con una confianza del 95% (1-α
En la tabla se ingresa con γ = 0.99, 1-α
α = 0.95 y con n=80, el valor buscado es k = ……………..
Luego, los límites de tolerancia quedan determinados por
x ± k s = ……………. ± ……………..* ………………,

El intervalo de tolerancia buscado resulta: (…………………….., ……………………….).


Se puede asegurar que, con un …………… de confianza el ……..…...% de los diámetros de los ejes son
valores comprendidos entre ……………. y …………………… pulgadas.

Actividad
Una máquina produce varillas de metal usadas en el sistema de suspensión de un automóvil. El diámetro de
la varilla está distribuido de manera normal, con media y varianza desconocidas. Se toma una muestra
aleatoria de tamaño n = 40 piezas, y se encuentra que los diámetros, medidos en cm, son:
5.67 5.69 5.72 5.69 5.70 5.68 5.73 5.72 5.70 5.73
5.70 5.71 5.69 5.68 5.75 5.64 5.70 5.68 5.71 5.64
5.71 5.76 5.69 5.73 5.72 5.65 5.71 5.69 5.69 5.72
5.60 5.73 5.72 5.78 5.68 5.64 5.72 5.69 5.73 5.70

Encontrar un intervalo con una confianza del 99% que contenga al menos el 95% de los diámetros de
las varilla producidas por esta máquina.
A partir de los datos se tiene que
x = ………………………………… cm
s = ………………………………… cm
Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 12 de 25

De la tabla con
(1-α) = ……………………………… , γ = ……………………….. y n = ………………. se tiene que
k = …………………………..
El intervalo de tolerancia es:
………………….. ± ………………… * ………………. o (…………. cm ; …………. cm)
Esto es se tiene una confianza del 95% de que al menos el 99% de las varillas producidas por la
máquina tendrán un diámetro entre …………………….. y ……………………………cm.

Observación:
Notar que existe una diferencia fundamental entre los intervalos de confianza y los de tolerancia.
Los intervalos de confianza se emplean para estimar un parámetro de una población, mientras que
los intervalos de tolerancia se usan para definir límites entre los cuales se espera encontrar una proporción de
una población. A medida que el tamaño de la muestra, n, se aproxima a infinito, la longitud de un intervalo de
confianza tiende a cero, mientras que los límites de tolerancia tienden al valor que se obtendría si se
conocieran todos los parámetros de la población.

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 13 de 25

Valores K para límites bilaterales de tolerancia de distribuciones normales

1-α=0.95 1-α=0.99
N γ = 0.90 γ = 0.95 γ = 0.99 γ = 0.90 γ = 0.95 γ = 0.99
2 32.1261 38.2806 50.3093 160.7317 191.5237 251.7047
3 8.3862 9.9928 13.1328 18.9455 22.5750 29.6685
4 5.3699 6.3986 8.4092 9.3997 11.2004 14.7198
5 4.2746 5.0935 6.6940 6.6113 7.8779 10.3533
6 3.7119 4.4230 5.8128 5.3360 6.3582 8.3561
7 3.3681 4.0134 5.2745 4.6123 5.4959 7.2228
8 3.1354 3.7360 4.9100 4.1468 4.9412 6.4938
9 2.9666 3.5349 4.6457 3.8218 4.5540 5.9849
10 2.8382 3.3819 4.4446 3.5817 4.2679 5.6089
11 2.7369 3.2612 4.2859 3.3967 4.0474 5.3192
12 2.6547 3.1633 4.1573 3.2494 3.8719 5.0886
13 2.5866 3.0821 4.0506 3.1293 3.7287 4.9004
14 2.5290 3.0135 3.9604 3.0292 3.6095 4.7436
15 2.4797 2.9548 3.8832 2.9444 3.5084 4.6109
16 2.4369 2.9038 3.8162 2.8715 3.4216 4.4968
17 2.3994 2.8590 3.7574 2.8082 3.3462 4.3976
18 2.3661 2.8194 3.7053 2.7526 3.2799 4.3105
19 2.3365 2.7841 3.6589 2.7033 3.2212 4.2333
20 2.3098 2.7523 3.6171 2.6592 3.1687 4.1644
25 2.2083 2.6313 3.4581 2.4941 2.9719 3.9057
30 2.1397 2.5496 3.3508 2.3847 2.8416 3.7345
35 2.0898 2.4902 3.2727 2.3062 2.7481 3.6116
40 2.0516 2.4446 3.2128 2.2467 2.6771 3.5184
45 2.0212 2.4084 3.1652 2.1998 2.6212 3.4448
50 1.9963 2.3788 3.1262 2.1616 2.5757 3.3850
55 1.9755 2.3540 3.0937 2.1298 2.5378 3.3353
60 1.9578 2.3329 3.0659 2.1029 2.5058 3.2931
65 1.9425 2.3146 3.0420 2.0797 2.4782 3.2569
70 1.9291 2.2987 3.0210 2.0596 2.4541 3.2253
75 1.9173 2.2846 3.0025 2.0418 2.4329 3.1974
80 1.9068 2.2721 2.9860 2.0260 2.4141 3.1726
85 1.8973 2.2608 2.9712 2.0118 2.3972 3.1505
90 1.8887 2.2506 2.9578 1.9990 2.3820 3.1304
95 1.8810 2.2413 2.9456 1.9874 2.3681 3.1122
100 1.8738 2.2328 2.9344 1.9768 2.3555 3.0956
150 1.8254 2.1751 2.8586 1.9052 2.2702 2.9835
200 1.7981 2.1425 2.8158 1.8651 2.2224 2.9207
250 1.7800 2.1211 2.7875 1.8388 2.1911 2.8795
300 1.7670 2.1055 2.7672 1.8199 2.1685 2.8499
400 1.7492 2.0843 2.7392 1.7940 2.1377 2.8095
500 1.7373 2.0701 2.7206 1.7769 2.1173 2.7826
600 1.7287 2.0598 2.7071 1.7644 2.1024 2.7631
700 1.7220 2.0519 2.6967 1.7549 2.0911 2.7481
800 1.7167 2.0456 2.6884 1.7473 2.0820 2.7362
900 1.7124 2.0404 2.6816 1.7410 2.0746 2.7264
1000 1.7087 2.0361 2.6759 1.7358 2.0683 2.7182
∞ 1.6449 1.9600 2.5758 1.6449 1.9600 2.5758

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 14 de 25

Introducción a las Pruebas de hipótesis


Se estudió cómo puede estimarse un parámetro a partir de los datos contenidos en una muestra. Esto
puede hacerse mediante un solo número, estimación puntual, o mediante un conjunto de posibles valores,
intervalo de confianza. Sin embargo, muchos problemas de ciencias e ingeniería, por nombrar algunas,
requieren que se tome una decisión entre rechazar o no una proposición sobre algún parámetro. Esta
proposición recibe el nombre de hipótesis, y el procedimiento de toma de decisión sobre la hipótesis se
conoce como prueba de hipótesis.

Una hipótesis estadística es una proposición sobre los parámetros de una o más poblaciones.

La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta certeza, a menos que se
examine toda la población. Como esto es casi imposible, se toma una muestra aleatoria de la población de
interés y se usan los datos contenidos en la muestra para proporcionar evidencia que, si es inconsistente
con la hipótesis planteada, conducirá a su rechazo, o si por el contrario la apoya, conducirá a su no rechazo.
La estructura de la metodología consiste entonces, en tener que plantear claramente cuál es la hipótesis que
se quiere probar. Para ello, se plantean siempre las siguientes dos hipótesis:
Hipótesis nula (H0): se refiere a cualquier hipótesis que se quiera probar
Hipótesis alternativa (H1): es el complemento de la hipótesis nula
Para comprender mejor estos conceptos se considera el siguiente ejemplo:
Se tiene interés en la rapidez de combustión promedio de un agente propulsor sólido usado en los sistemas
de salida de emergencia para la tripulación de aeronaves. La rapidez de combustión es una variable que
puede describirse con una distribución de probabilidad. Se quiere decidir si la rapidez de combustión
promedio es o no 50 cm/seg. Esto, expresado en el “lenguaje de la prueba de hipótesis” es:
H0: µ = 50 cm/seg
H1: µ ≠ 50 cm/seg

La proposición H0: µ = 50 cm/seg es la hipótesis nula,


y
H1: µ ≠ 50 cm/seg, es la hipótesis alternativa.

Como la hipótesis alternativa específica valores de µ que pueden ser mayores o menores que 50 cm/seg,
también se conoce como hipótesis alternativa bilateral.

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 15 de 25

En algunas situaciones, lo que se desea es formular una hipótesis alternativa unilateral, como:

H0: µ = 50 cm/seg H0: µ = 50 cm/seg


H1: µ < 50 cm/seg H1: µ > 50 cm/seg

IMPORTANTE: las hipótesis siempre son proposiciones sobre la población o distribución bajo estudio, no
proposiciones sobre la muestra.

El valor del parámetro de la población que está especificado en la hipótesis nula (50 cm/seg, en este
caso), se determina en una de tres maneras diferentes.
Primero puede ser resultado de la experiencia pasada o del conocimiento del proceso, o incluso de
pruebas o experimentos previos. Entonces el objetivo de la prueba de hipótesis usualmente es determinar si
ha cambiado el valor del parámetro.
Segundo, este valor puede obtenerse a partir de alguna teoría o modelo que se relaciona con el proceso
bajo estudio. En este caso, el objetivo de la prueba de hipótesis es verificar la teoría o modelo.
Aparece una tercera situación cuando el valor del parámetro de la población proviene de consideraciones
externas, tales como las especificaciones de diseño de ingeniería, o de obligaciones contractuales. En esta
situación el objetivo usual de la prueba de hipótesis es probar el cumplimiento de las especificaciones.
La estructura de las pruebas de hipótesis es siempre la misma:
La hipótesis nula se plantea siempre especificando un valor determinado del parámetro (H0: µ = 50
cm/seg). La alternativa, permite que el parámetro tome varios valores como se muestra en el siguiente
cuadro.
Prueba de hipótesis
Bilateral Unilaterales
H0: µ = 50 cm/seg H0: µ = 50 cm/seg H0: µ = 50 cm/seg
H1: µ ≠ 50 cm/seg H1: µ < 50 cm/seg H1: µ > 50 cm/seg

Juntas en cada caso, la hipótesis nula y la alternativa deben cubrir todos los valores posibles del
parámetro de interés. En consecuencia debemos considerar que en las pruebas de hipótesis unilaterales
donde dice H1: µ < 50 cm/seg, la H0 en realidad implica µ ≥50 cm/seg y donde dice H1: µ > 50 cm/seg, la
H0 implica µ ≤50 cm/seg .
Este procedimiento involucra la toma de muestras, cálculos a partir de los datos muestrales, y luego el uso
de estos cálculos para tomar una decisión sobre la hipótesis nula.

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 16 de 25

Al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes que determinan si la
decisión final es correcta o errónea. Estas situaciones se presentan en la tabla siguiente.

H0 es verdadera H0 es falsa

No Rechazo H0 Decisión correcta Error de tipo II

Rechazo H0 Error de tipo I Decisión correcta

Si H0 es verdadera y se la rechaza se está cometiendo un error, error de tipo I. A la probabilidad de


cometer este error se llama nivel de significancia de la prueba, α. En esta metodología estadística este valor
de significancia α se fija de antemano. Y, como se mencionó en Estimación, los valores usuales son 0,05 y
0,01.
Si Ho es falsa y no se la rechaza se está cometiendo un error, Error de Tipo II. A la probabilidad de
cometer este error se la llama β.
Como es posible controlar de forma directa la probabilidad de rechazar H0 de manera errónea, siempre
puede considerarse el rechazo de la hipótesis nula H0 como una conclusión fuerte. Mientras que No Rechazar
H0 es una conclusión débil por eso esta incapacidad de NO rechazar H0 implica que no se ha encontrado
evidencia suficiente para rechazarla, no necesariamente significa que hay una probabilidad grande de que Ho
sea cierta. Simplemente significa que se requieren más datos, más información para poder alcanzar una
conclusión fuerte.
Por consiguiente, no se dice “se acepta H0” se dice “no es posible rechazar H0”.
Un concepto muy importante a considerar, pero que es de difícil cuantificación es la potencia de la
prueba. Se la define como la probabilidad de rechazar la hipótesis nula cuando ésta es falsa, (1 - β).

Procedimiento general para la prueba de hipótesis


Se presenta a continuación una secuencia de pasos que es recomendable seguir al aplicar la
metodología de prueba de hipótesis.
1. Del contexto del problema, identificar el parámetro de interés
2. Establecer la hipótesis nula, H0
3. Especificar una apropiada hipótesis alternativa, H1
4. Seleccionar el nivel de significancia, α
5. Establecer un estadístico de prueba apropiado
6. Establecer una región de rechazo para el estadístico
Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 17 de 25

7. Calcular todas las cantidades muestrales necesarias, sustituirlas en la ecuación del


estadístico de prueba, y calcular el valor correspondiente.
8. Decidir si debe o no rechazar H0 y notificar esto en el contexto del problema.

Prueba de hipótesis sobre la media, n ≥30.


Supongamos que se desea probar la hipótesis
H0: µ = µ0
H1: µ ≠ µ0
Donde µ0 es una constante específica.

X − µ0
El procedimiento de prueba para H0: µ = µ0 utiliza el estadístico de prueba zo = .
S n
Si la hipótesis nula es verdadera, la probabilidad de que la estadística Z0 caiga en la región crítica o
de rechazo es α y evidentemente se debe rechazar H0 cuando Z0 < - zα o Z0 > zα , en cambio no se debe
2 2

rechazar H0 cuando - zα < Z0 < zα , que es la región de no rechazo.


2 2

En la figura se muestra la distribución de Z0 cuando H0: µ = µ0 es verdadera, con región crítica para
H1: µ ≠ µ0

Rechazo H0 Rechazo H0
No Rechazo H0

En el caso de tener pruebas de hipótesis unilaterales, en los gráficos se presentan las regiones
críticas y de aceptación para las hipótesis alternativas
H1: µ < µ0 H1: µ > µ0

Rechazo H0 Rechazo H0
No Rechazo H0
No Rechazo H0

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 18 de 25

Si las muestras no tienen tamaño n ≥ 30, esta técnica no es la adecuada porque cambia la
distribución de probabilidad del estimador que se está usando para construir los estadísticos de
prueba. (Para mayor información ver Bibliografía)

Ejemplo 1
La concentración de sólidos suspendidos en agua de río es una característica ambiental importante.
Un artículo publicado en Water Resources Bull reportó que la concentración promedio de estos sólidos (en
ppm) para 50 ríos diferentes fue de x = 51.75 ppm con una varianza de s= 16,43 ppm.
La Agencia de Protección Ambiental informa que, si en promedio, la concentración de estos sólidos
es menor o igual a 52 ppm los cursos de agua no están contaminados. ¿Qué puede concluir, a partir de estos
datos acerca de la concentración media?
Las normas APA están poniendo una cota superior para la concentración promedio de sólidos en
suspensión en los ríos, para esto es útil una prueba de hipótesis unilateral para la concentración media
Siguiendo el itemizado dado para aplicar esta metodología estadística, se tiene:
1. Del contexto del problema, identificar el parámetro de interés
El parámetro de interés es ……………………………………………
2. Establecer la hipótesis nula, H0
H0: ………………………………………………………………………
3. Especificar una apropiada hipótesis alternativa, H1
H1: ……………………………………………………………………….
4. Seleccionar el nivel de significancia, α
α = 0.05 entonces z α = …………………………………… (de la tabla normal)

5. Establecer un estadístico de prueba apropiado


x − µ0
zo =
s n
6. Establecer una región de rechazo para el estadístico
Para la hipótesis alternativa planteada, la región de rechazo es: .................…………………………
………………………………………………………………………………………………………………….
7. Calcular todas las cantidades muestrales necesarias, sustituirlas en al ecuación del
estadístico de prueba, y calcular el valor correspondiente.
x − µ0 −
zo = = = =
s n

8. Decidir si debe o no rechazar H0 y notificar esto en el contexto del problema.


Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 19 de 25

Como Z0 ……… Zα , es decir …...... …. …..... , cae en zona de ……………………….,


…………………… evidencias ……………………… como para ………………………….. H0.
Se puede concluir que la concentración promedio de sólidos en suspensión en los ríos
………………………………….. a 52 ppm, razón por la cual, según la Norma APA que se está
α = 0.05).
utilizando, el curso de agua …………………………… contaminado (α

Actividad 1:
En la Guía de Ejercicios 2, problema 3) está planteado el siguiente enunciado:
El artículo “Meassuring and understanding the aging of kraft insulating paper in power transformers”
(IEEE Electrical Insul. Mag., 1996, pp. 28-34) contenía las siguientes observaciones sobre el grado de
polimerización en muestras de papel donde la viscosidad tipificada por la concentración caía entre
determinados límites intermedios.
418 421 421 422 425 427 431 454 463 443
434 437 439 446 447 448 453 465 438 429
441 425 438 437 426 448 417 439 432 419

En este problema, están la preguntas ¿440 es un valor factible del grado de polimerización promedio?
¿Y 450?
Resuelva, usando prueba de hipótesis estas mismas preguntas.
Para responder a la primera pregunta, que es con respecto al valor 440 y siguiendo el itemizado propuesto,
se tiene:
1) Del contexto del problema, identificar el parámetro de interés
En este caso el parámetro de interés es el grado de polimerización promedio
2) Establecer la hipótesis nula, H0
Ho: µ = ……………………..
3) Especificar una apropiada hipótesis alternativa, H1
H1: µ ≠ ……………………..
4) Seleccionar el nivel de significancia, α
Como en el problema de estimación la confianza pedida es del ........%, la significancia es ……..
5) Establecer un estadístico de prueba apropiado
x − µ0
El parámetro de interés es µ, el estadístico de prueba es: zo =
s n
6) Establecer una región de rechazo para el estadístico

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 20 de 25

La hipótesis alternativa planteada es bilateral, por lo tanto si zo es ……………………… o zo es


………………………... rechazo H0
7) Calcular todas las cantidades muestrales necesarias, sustituirlas en al ecuación del estadístico de
prueba, y calcular el valor correspondiente.
x =………………………., s=……………………….

X − µ0 −
zo = = = = …………………
S n

8) Decidir si debe o no rechazar H0 y notificar esto en el contexto del problema.


El estadístico calculado a partir de los datos de la muestra resultó zo = ……………………………
Como es un valor que cae en la zona de ………………………………., se ……………………………
H0 . Se puede concluir que el valor promedio de polimerización puede considerarse
estadísticamente …………………………………… al valor 440, es decir que “440 es un valor
……………………………..”.

Para contestar la otra pregunta, es decir si 450 es un valor posible para el grado de polimerización
posible, se repite el procedimiento, solamente hay que cambiar el valor de µ a 450 en el planteo de las
hipótesis y los cálculos.

Actividad 2
En la Guía de Ejercicios 2, problema 4) está planteado el siguiente enunciado:
Se sabe que la exposición prolongada al asbesto es un riesgo sanitario. El artículo “The acute effects
of chrysolite asbestos exposure on luna function” (Environ. Research, 1978, pp.360-372) reporta resultados
sobre un estudio hecho con base en una muestra de trabajadores de la construcción, que habían estado
expuestos al asbesto durante períodos prolongados. Entre la información dada en el artículo se encontraron
los siguientes valores de respuesta pulmonar (cm3/cm H2O) por cada uno de 32 sujetos, 8 meses después del
período de exposición (la respuesta pulmonar es una mediad de la elasticidad de los pulmones, es decir,
eficiencia al inhalar y exhalar):
Si un trabajo de investigación realizado reportó que la respuesta pulmonar media de la población no expuesta
es de 240 cm3/cm H2O. ¿Están los trabajadores expuestos con algún problema pulmonar?

180.8 184.8 189.8 194.8 196.8 197.4 197.9 198.9


199.3 200.2 201.3 201.9 202.4 206.8 207.2 208.4
217.4 217.6 222.3 226.3 227.7 228.5 231.4 232.4
239.8 240.1 244.3 248.4 249.9 250.4 250.7 281.3

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 21 de 25

De la misma forma que en la actividad anterior, resolver este problema usando prueba de hipótesis.
A modo de ayuda, para este conjunto de datos los valores del promedio y desvío estándar muestral son:

N Promedio Desvío estándar


Respuesta pulmonar
32 210,3 23,83

Prueba de hipótesis para una proporción (muestras grandes)


El procedimiento que se presenta sólo es válido cuando tamaño de la muestra es relativamente
grande.
Sea X el número de observaciones en una muestra aleatoria de tamaño n que pertenece a la clase
asociada con Ho.
Se plantean las hipótesis de acuerdo al problema
Se fija el nivel de significación y se establecen las regiones de rechazo y no rechazo.
X − nπ 0
Se calcula z o =
nπ 0 (1 − π 0 )

Y se rechaza H0 si:
Prueba de hipótesis
Bilateral Unilaterales
H0: π = π0 H0: π = π0 H0: π = π0
H1: π ≠ π0 H1: π < π0 H1: π > π0
Se rechaza H0 si Se rechaza H0 si Se rechaza H0 si
Z0 < - zα o Z0 > zα Z0 < - z α Z0 > z α
2 2

Se elaboran las conclusiones en términos del problema.

Los valores de zα o Z α usados en estas pruebas son los mismos que los propuestos para los
2

intervalos de confianza.

Ejemplo 2
Existe preocupación pública por el riesgo que suponen los campos electromagnéticos generados por
la telefonía celular para la salud. De estudios epidemiológicos en relación con el uso de teléfonos móviles y el
cáncer cerebral, Repacholi y cols. 1997, expusieron ratones transgénicos una hora diaria durante 18 meses a
una señal similar a la que se utiliza en la comunicación móvil digital. Al finalizar los experimentos, 43 de 101
animales expuestos presentaban linfomas, frente a 30 de 100 en el grupo de control que es la prevalencia de
Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 22 de 25

esta enfermedad en este tipo de ratones. ¿Es posible concluir que la proporción de cáncer cerebral en los
ratones expuestos es estadísticamente mayor que la del grupo control? Utilice α = 0.05.

Siguiendo el itemizado propuesto para resolver problemas usando prueba de hipótesis se tiene:
1. Del contexto del problema, identificar el parámetro de interés
…………………………………………………………………………………………………………………….
2. Establecer la hipótesis nula, H0
…………………………………………………………………………………………………………………….
3. Especificar una apropiada hipótesis alternativa, H1
El enunciado del problema solicita probar si la proporción de cáncer cerebral en los ratones
expuestos es estadísticamente mayor que la del grupo control, por tal motivo está sugerida la hipótesis
alternativa, que en este caso es H1: π > π0
………………………………………………………………………………………………………………………
4. Seleccionar el nivel de significancia, α
………………………………………………………………………………………………………………………
5. Establecer un estadístico de prueba apropiado
X − nπ 0
Por tratarse de una proporción el estadístico es z o =
nπ 0 (1 − π 0 )

6. Establecer una región de rechazo para el estadístico

Rechazo H0 si ………………………………… Rechazo H0


No Rechazo H0

7. Calcular todas las cantidades muestrales necesarias, sustituirlas en al ecuación del estadístico de
prueba, y calcular el valor correspondiente.
X − nπ 0 −
zo = = = ………………………………………………….
nπ 0 (1 − π 0 )

8. Decidir si debe o no rechazar H0 y notificar esto en el contexto del problema.


………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 23 de 25

Actualmente, los cálculos y análisis estadísticos se realizan con software. En el mercado hay una
gran variedad de software estadísticos comerciales y libres o gratuitos. Entre estos últimos, es posible bajar
fácilmente de Internet: InfoStat (disponible en: http://www.infostat.com.ar/index.php?mod=page&id=46 ),
EpiDat (disponible en: http://www.sergas.es/MostrarContidos_N3_T01.aspx?IdPaxina=62713&idioma=es ) y R
(disponible en: http://cran.r-project.org/ ).
En este curso no contamos con el tiempo suficiente como para enseñarles a utilizar alguno de los
software mencionados, pero sí podemos mostrarles las salidas de algunos de ellos y enseñarles a
interpretarlas. En ellos se calcula el estadístico de prueba (calculado a partir de los datos de muestra) y, en
lugar de compararlo con el valor crítico, que depende del nivel de significación α elegido, calculan el valor p.
Pero, ¿qué es el valor p?
En la página 16 de estas notas dijimos: “Si H0 es verdadera y se la rechaza se está cometiendo un
error, error de tipo I. A la probabilidad de cometer este error se llama nivel de significancia de la
prueba, α. En esta metodología estadística este valor de significancia α se fija de antemano. Y, como se
mencionó en Estimación, los valores usuales son 0,05 y 0,01”.
La decisión de rechazar o no la hipótesis nula la realizamos sobre la base de los resultados de una
muestra aplicando una prueba estadística, bajo el supuesto que la hipótesis nula es cierta.
¿Cómo trabajamos en la práctica? Seleccionamos la prueba estadística y calculamos, a partir de la
información que suministra la muestra, el estadístico de prueba. Con el valor numérico obtenido y la
distribución de probabilidad del estadístico, podemos calcular el valor p (p-value) o probabilidad asociada.
El valor p es, entonces, la probabilidad, cuando la hipótesis nula es cierta, de obtener un valor
de la prueba que es igual a (o más extremo) (en la dirección apropiada) que su valor observado.
A este valor lo calculan todos los software y a partir de él, se puede simplemente reportar el valor p
asociado al estadístico de prueba y concluir el análisis allí explicando que el valor p es la probabilidad de un
resultado muestral tan extremo como lo observado cuando Ho es verdadera o bien podemos tomar la
decisión estadística de rechazar o no la hipótesis nula. La decisión se basa en la magnitud del valor p del
siguiente modo:
Si el valor p es muy pequeño (menor que 0.05 o 0.01 o el valor de α elegido) podemos concluir que
los datos no sustentan la hipótesis nula y por lo tanto RECHAZAMOS H0.
En el mismo sentido si el valor p es grande (mayor que 0.05 o 0.01 o el valor de α elegido)
podemos concluir que los datos sustentan la hipótesis nula y por lo tanto NO RECHAZAMOS H0.
Veamos nuevamente las actividades propuestas.

Actividad 1:
En la Guía de Ejercicios 2, problema 3) está planteado el siguiente enunciado:
Notas de clase 2 - 2015
Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 24 de 25

El artículo “Meassuring and understanding the aging of kraft insulating paper in power transformers”
(IEEE Electrical Insul. Mag., 1996, pp. 28-34) contenía las siguientes observaciones sobre el grado de
polimerización en muestras de papel donde la viscosidad tipificada por la concentración caía entre
determinados límites intermedios.
418 421 421 422 425 427 431 454 463 443
434 437 439 446 447 448 453 465 438 429
441 425 438 437 426 448 417 439 432 419

En este problema, están la preguntas ¿440 es un valor factible del grado de polimerización promedio?
¿Y 450?
Si cargamos los datos en el R, Rcomander, por ejemplo, la salida es:
One Sample t-test
data: polimerización
t = -1.6382, df = 29, p-value = 0.1122
alternative hypothesis: true mean is not equal to 440
95 percent confidence interval:
431.231 - 440.969
sample estimates: mean of x: 436.1

Si lo hacemos en el InfoStat

¿Qué prueba de hipótesis estamos haciendo? Volvamos a la actividad ya realizada:


1) Del contexto del problema, identificar el parámetro de interés
En este caso el parámetro de interés es el grado de polimerización promedio
2) Establecer la hipótesis nula, H0
Ho: µ = 440
3) Especificar una apropiada hipótesis alternativa, H1
H1: µ ≠ 440
4) Seleccionar el nivel de significancia, α

Notas de clase 2 - 2015


Licenciatura en Seguridad y Salud Ocupacional
Departamento de Matemática
ESS - FBCB / UNL 25 de 25

Como en el problema de estimación la confianza pedida es del 95 %, la significancia es 5%


5) Decidir si debe o no rechazar H0 y notificar esto en el contexto del problema.
Mirando las salidas del software, como el valor p=0,1122, es más grande que el α = 0,05 prefijado, se
concluye que no hay evidencias, a partir de la muestra como para concluir que la media de polimerización
es estadísticamente diferente de 440.

Notas de clase 2 - 2015

También podría gustarte