Está en la página 1de 81

Estadística Aplicada

Mario A. Guevara
Departamento de Metalurgia
Universidad de Atacama

Enero 2000
Introducción

 Objetivos:

 Describir cuantitativamente alguna colección de


personas, lugares, etc.

 Obtener información a partir de la cual uno pueda


extraer (inferir) conclusiones acerca de una gran
colección de personas, lugares, cosas, etc., observando
solo una parte de esa gran colección.

 Determinar el error de la información.


Definiciones

 Se denominará entidad, sujeto o elemento a un


particular miembro de una colección de personas
cosas, lugares, de nuestro interés.

 Variable, es una característica de las entidades


que son de interés en un estudio estadístico.
Definiciones

 Una variable se llama cuantitativa o numérica si


los valores que pueden tomar son el resultado de
mediciones numéricas.

 La variables cualitativas o categóricas son


aquellos que pueden clasificarse de acuerdo a
algún criterio.
Definiciones

 Cualquier registro de información, sea éste


numérico o categórico se denominará
observación.

 Un experimento es cualquier proceso que genere


un conjunto de datos.
Definiciones

 El el conjunto de todos los resultados posibles de


un experimento estadístico se le llama espacio
muestreal y se le representa por el símbolo S.
También se le denomina población.
 A cada resultado en un espacio muestral se le llama
elemento o miembro del espacio muestreal, o
simplemente un punto muestral.
 Una variable aleatoria es una función que asocia
número real a cada elemento del espacio muestreal.
Definiciones

 Un evento es un subconjunto de un espacio


muestreal. También se le conoce en forma
puntual como muestra.

 La rama de la estadística que guarda relación con


las técnicas de selección de muestras se llama
muestreo.
Presentación de datos

 Distribución de frecuencias.

 Consiste en particionar el rango de valores de la variable de


interés en intervalos o clases indicando en cada una de
ellas el número de entidades cuyos valores pertenecen a
esa clase.

 Este número se denomina frecuencia de clase.

 Cada intervalo o clase se identifica por sus extremos


llamados límites inferior y superior de la clase.
Presentación de datos
 Ejemplo : Datos de potencia de automóviles.
48 139 110 69 110 76 88
66 140 130 90 84 116 75
52 68 129 115 58 120 70
70 95 138 115 64 110 67
60 97 135 90 60 105 67
110 75 155 76 67 88 67
140 95 142 60 65 85 110
139 105 125 70 62 88 85
105 85 150 65 68 88 92
95 97 71 90 63 88 112
85 103 65 67 65 85 96
88 125 80 62 65 84 84
100 115 80 132 74 90 90
90 133 77 100 92 86
105 71 125 88 75 52
85 68 71 75 74 84
110 115 90 72 100 68 79
120 85 70 84 74 68 82
145 88 70 84 80 63
165 90 65 92 110 70
Frequency Tabulation for horsepower

--------------------------------------------------------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
--------------------------------------------------------------------------------
at or below 0.0 0 0.0000 0 0.0000
1 0.0 20.0 10.0 0 0.0000 0 0.0000
2 20.0 40.0 30.0 0 0.0000 0 0.0000
3 40.0 60.0 50.0 9 0.0596 9 0.0596
4 60.0 80.0 70.0 55 0.3642 64 0.4238
5 80.0 100.0 90.0 48 0.3179 112 0.7417
6 100.0 120.0 110.0 21 0.1391 133 0.8808
7 120.0 140.0 130.0 13 0.0861 146 0.9669
8 140.0 160.0 150.0 4 0.0265 150 0.9934
9 160.0 180.0 170.0 1 0.0066 151 1.0000
above 180.0 0 0.0000 151 1.0000
--------------------------------------------------------------------------------
Mean = 89.0 Standard deviation = 24.424
Histograma
Es un tipo especial de gráfica de barras con las
siguientes características:
 En el eje horizontal se representan los posibles valores de la
variable de interés y en el eje vertical se presentan las
frecuencias.
 Cada clase o intervalo de la distribución de frecuencias está
representado por una barra (rectángulo) del histograma.
 Todas las barras tienen una amplitud o ancho, equivalente a
la amplitud de la clase que representan; sus extremos son los
límites reales de clase.
 La altura de las barras corresponde a la frecuencia de la clase
que representan.
HISTOGRAMAS

Frequency Frequency relative


60 40
50

percentage
frequency

30
40
30 20
20
10
10
0 0
0 30 60 90 120 150 180 0 30 60 90 120 150 180
horsepower horsepower
Frequency cumulative Frequency relative cumulative
160 100

80

percentage
frequency

120
60
80
40
40
20

0 0
0 30 60 90 120 150 180 0 30 60 90 120 150 180
horsepower horsepower
Polígono

 Corresponde a una poligonal que une los puntos cuyas


abscisas son los puntos medios de cada clase (marca de
clase).
 Para cerrar la poligonal, se antepone una clase imaginaria de
frecuencia cero a la primera clase, haciendo lo mismo con la
última clase.
POLIGONOS

Frequency Frequency relative


60 40
50

percentage
frequency

30
40
30 20
20
10
10
0 0
0 30 60 90 120 150 180 0 30 60 90 120 150 180
horsepower horsepower

Frequency cumulative Frequency relative cumulative


160 100

80

percentage
frequency

120
60
80
40
40
20
0 0
0 30 60 90 120 150 180 0 30 60 90 120 150 180
horsepower horsepower
Medidas descriptivas

 Para muchos propósitos del análisis estadístico


se requieren valores numéricos que describan la
información contenida en un conjunto de datos.

 Nos concentraremos en medidas que indiquen


tendencia central y variabilidad presente en los
datos.
Medidas descriptivas

 Se define inferencia estadística como el método


mediante el cual a partir del análisis de una
muestra podemos deducir conclusiones respecto
de una población.

 Una muestra aleatoria de tamaño n es la muestra


obtenida de una población de tal forma que cada
muestra que pueda ser extraída de la población
tiene la misma oportunidad de ser seleccionada.
Medidas de tendencia central

 Una medida de tendencia central es un único


número que en cierta medida designa el centro de
la colección de datos, también se conocen como
medidas de localización.
La media aritmética
También es conocida como promedio y se calcula
como: n

x i
X i 1
(media muestreal)
n
N

x i
μ  i 1
(media poblaciona l)
N
xi = mediciones
n = número de datos de la muestra
N = número de datos de la población.
La mediana

Es un conjunto de datos, ordenados según


magnitud y corresponde a aquél valor que separa
la frecuencia total en dos partes iguales.

 Si el número de datos es impar, entonces la mediana


coincide con el valor central

 Si el número de datos es par, entonces corresponde al


promedio aritmético de los dos valores.
La moda

Es aquél valor que se presenta con mayor


frecuencia en un conjunto de datos.

 Un conjunto de datos puede o no tener moda.

 También puede tener más de una moda.


Medidas de variabilidad

 Una medida de tendencia central no provee


información satisfactoria si no va acompañada de
una medida del grado de dispersión de los datos.

 Estas medidas se denominan “medidas de


variabilidad o dispersión”.
El rango

 Corresponde a la diferencia entre el máximo y el


mínimo de los valores del conjunto de datos.

 Por sí sola no es una buena medida de la


variabilidad ya que no entrega información de los
valores intermedios.
La varianza

 La varianza de un conjunto de datos es el


promedio de los cuadrados de sus desviaciones
con respecto a la media, matemáticamente:
n

 i
(x  x ) 2

S2  i 1
(varianza muestreal)
n -1
N

 i
(x  μ) 2

σ2  i 1
(varianza poblaciona l)
N
La desviación estándar

 Corresponde a la raíz cuadrada de la varianza.

 En algunos casos es más útil que la varianza ya


que tiene las mismas unidades que las
observaciones o datos originales.
Media aritmética (datos agrupados)
k k

m f
j1
j j m f
j1
j j

X  k

fj
n
j1

mj = marca de clase
fj = frecuencia
Varianza (datos agrupados)

 j fj
(m -
j1
x) 2

S2 
n 1

mj = marca de clase
fj = frecuencia
Conteo de puntos muestrales

 Si una operación puede realizarse en n1 formas, y


si por cada una de éstas una segunda operación
puede llevarse a cabo en n2 formas, entonces
entre las dos operaciones pueden realizarse
juntas n1n2 formas.
Conteo de puntos muestrales

 Ejemplo 1
 ¿Cuántos puntos muestrales hay en un espacio
muestral cuando se lanza un par de dados una sola
vez?.

 Ejemplo 2
 Se dispone de dos colectores y tres espumantes para
cierto experimento de flotación, ¿de cuántas maneras
diferentes se pueden combinar entre ellos si la mezcla
final debe contener un colector y un espumante?
Conteo de puntos muestrales

 Una permutación es un arreglo de todos, o parte


de, un conjunto de objetos.

 El número de permutaciones de n distintos objetos es n!.

 Ejemplo 3
Indique todas las permutaciones posibles entre las letras
a, b y c.
Conteo de puntos muestrales
 El número de permutaciones de n objetos distintos,
tomando r a la vez, es:
n!
n Pr 
(n  r )!
 Ejemplo 4
Indique todas las permutaciones posibles entre las letras
a, b y c, pero tomadas dos a la vez.

 Ejemplo 5
Se sacan dos boletos de la lotería, entre 20 posibles, para
el primero y segundo premios. Encuentre el número de
puntos muestrales en el espacio S.
Conteo de puntos muestrales
 El número de combinaciones (sin importar el orden), de
n objetos distintos, tomando r a la vez, es:

n n!
  
r r!(n  r )!
 Ejemplo 6
Indique todas las permutaciones posibles entre las letras
a, b y c, pero tomadas dos a la vez en cualquier orden.
Definiciones

 Si un espacio muestreal contiene un número finito


de posibilidades o una secuencia interminable
con tantos elementos como números naturales
existen, se le llama espacio muestreal discreto.
 Si un espacio muestreal contiene un número
infinito de posibilidades igual al número de puntos
en un segmento de línea, se le llama espacio
muestreal continuo.
Definiciones (cont...)

 El conjunto de pares ordenados (x, f(x)) es una


función de probabilidad, función masa de
probabilidad o distribución de probabilidad de la
variable aleatoria discreta X si, para cada
resultado posible x,

1. f(x)  0.
2.  f(x)
x
 1.

3. P(X  x)  f(x) .
Definiciones (cont...)

 La función f(x) es una función de densidad de


probabilidad para la variable aleatoria continua X,
definida en el conjunto de números reales, si

1. f(x)  0 para todo x  R.



2.  f(x) dx

 1.

b
3. P(a  X  b)   f(x) dx.
a
Definiciones (cont...)

 Sea X una variable aleatoria con distribución de


probabilidad f(x). La media o valor esperado de X
es:

μ  E(X)   x f(x)
x

si X es discreta, y

μ   x f(x) dx


si X es continua.
Definiciones (cont...)

 Sea X una variable aleatoria con distribución de


probabilidad f(x) y media µ. La variancia es:

σ 2  E[(X -μ) 2 ]   (x -μ) 2 f(x) .


x

si X es discreta, y

σ 2  E[(X -μ ) 2 ]   (x -μ ) 2 f(x) dx


si X es continua.
Distribución Normal

 La función de densidad de la variable aleatoria


normal X, con media  y variancia 2, es:

1 (1 / 2 )[( x μ)/σ] 2


n(x; μ,σ)  e ;    x  ,
2π σ

donde π  3.14159... y e  2.71828...


Distribución Normal

 El área bajo la curva, de cualquier función de


densidad, limitada por los puntos x=x1 y x=x2 es
igual a la probabilidad que de la variables
aleatoria X asume entre estos dos valores.

x2
P(x 1  X  x 2 )   n(x; μ,σ ) dx
x1

1 x2

 (1/2)[(xμ )/σ ]2
 e dx
2π σ x1
Distribución Normal Estándar

 La función de densidad de la variable aleatoria


normal X, con media 0 y variancia 1, es:

1 (1/ 2) x 2
n(x;0 ,1)  e ;    x  ,

donde π  3.14159... y e  2.71828...


Distribución Normal Estándar

Normal Distribution
0.4 Mean,Std. dev.
0,1

0.3
density

0.2

0.1

0
-5 -3 -1 1 3 5

x
Distribución Normal Estándar (Excel)

área=0.95

Z=1.645
Distribución Normal Estándar (Excel)

área=0.05

Z=-1.645
Teorema del Límite Central

 Si X es la media de una muestra aleatoria de


tamaño n que se toma de una población con
media  y variancia finita 2, entonces la forma
límite de la distribución de:

X μ
Z 
σ/ n

conforme n  , es la distribución normal estándar.


Teorema del Límite Central
 Si se sacan al azar muestras independientes de tamaño n1 y n2 de
dos poblaciones discretas o continuas, con medias 1 y 2 y
variancias 21 y 22, respectivamente, entonces la distribución
muestreal de la diferencia de medias, X1 y X2 está distribuida
aproximadamente en forma normal con media y variancia:

 21  2 2
 X1  X 2   X1   X 2  1   2 y  2
X1  X 2  
n1 n2
de aquí que ,

Z 
X 1 
 X 2  1   2 
(12 / n 1 )  ( 22 / n 2 )
es aproximada mente una normal estándar
Distribución t de Student
 Sea Z una variable aleatoria normal estándar y V un variable
aleatoria ji cuadrada con  grados de libertad. Si Z y V son
independientes, entonces la distribución de la variable aleatoria T,
donde:

Z
T ,
V/ ν
está dada por :
 (ν 1)/2
Γ [(ν  1)/2]  t2 
h(t)  1   ,   t  
Γ (ν /2) πν  ν 

y se conoce como distribuci ón t con ν grados de libertad


Distribución t de Student

Student's t Distribution Deg. of freedom


0.4
1
5
0.3 
density

0.2

0.1

0
-7 -4 -1 2 5 8
x
Distribución t de Student (Excel)

 t = DISTR.T(x,grados de libertad,colas)
(probabilidad/área).
 Ej.: DISTR.T(2.821,9,2) = 0.02
 x = DISTR.T.INV(probabilidad,grados de libertad)
(dos colas/punto).
 Ej.: DISTR.T.INV(0.02,9) = 2.821
Inferencia estadística

 La teoría de la inferencia estadística consiste en


aquellos métodos con los cuales se pueden
realizar inferencias o generalizaciones acerca de
una población.
 La inferencia puede dividirse en dos áreas
principales:
 estimación, y
 pruebas de hipótesis.
Estimación de la media

 Intervalo de confianza.
 Pregunta: para una probabilidad dada, cuáles son los límites
inferior y superior de un parámetro estadístico de modo que el
valor verdadero de la población se encuentre dentro de estos
límites?.
Estimación de la media

 Intervalo de confianza de ; conociendo .


Si x es la media de una muestra aleatoria de tamaño n
de una población con variancia conocida 2, el
intervalo de confianza de (1-a)100% para  es,

σ σ
x  zα /2  μ  x  zα /2 ,
n n

donde zα/2 es el valor de z a la derecha del cual se tiene un área de α/2,


Estimación de la media (ej.)
 Intervalo de confianza de ; conociendo .
Se calcula que la media de los promedios de los puntos de calidad de una
muestra aleatoria de 36 alumnos universitarios de último año es 2.6.
Encuentre los intervalos de confianza del 95% y del 99% para la media del
total de alumnos del último año. Asuma que la desviación estándar de la
población es 0.3.
σ σ
x  zα /2  μ  x  zα /2 ,
n n
int.confianza 95 99
alfa 0.05 0.01
n 36 36
media 2.6 2.6
sigma 0.3 0.3

delta 0.098 0.129


min 2.502 2.471
max 2.698 2.729
Estimación de la media

 Teorema, tamaño de muestra.


Si se utiliza x como una estimación de , se puede
tener una confianza del (1-)100% de que el error no
excederá una cantidad específica e cuando el tamaño
de la muestra es:

 z  / 2 
2

n   
 e 
Estimación de la media

 Teorema, tamaño de muestra.


¿Qué tan grande se requiere que sea la muestra del ejemplo anterior si se
desea una confianza del 95% de que la estimación de difiera de ésta por
menos de 0.05?

alfa 0.050

 z  / 2 
2 alfa/2 0.025

n   
error
sigma
0.050
0.300
 e 
z (alfa/2) -1.960

n 138.292
Estimación de la media

 Intervalo de confianza para ;  desconocida.


Si x y s son la media y la desviación estándar de una
muestra aleatoria de una población normal con
variancia desconocida 2, el intervalo de confianza de
(1-a)100% para  es,
s s
x  tα/2  μ  x  tα/2 ,
n n

donde tα/2 es el valor t con ν  n  1 grados de libertad,


lo que deja un área de α/2 a la derecha
Estimación de la media
 Intervalo de confianza para ;  desconocida.
Los contenidos de 7 recipientes similares de ácido sulfúrico son 9.8,
10.2, 10.4, 9.8, 10.0, 10.2 y 9.6 litros. Encuentre un intervalo de
confianza del 95% para la media de todos los recipientes, suponiendo
una distribución aproximadamente normal.
s s
x  t α /2  μ  x  t α /2
n n
datos int.confianza 95 %
9.80 alfa 0.050
10.20 media 10.000
10.40 desv.stand. 0.283
9.80 n 7.000
10.00
10.20 t (alfa/2) 2.447
9.60 min 9.738
max 10.262
Estimación de la diferencia de medias

 Intervalo de confianza para 1- 2; 12 y 22 conocidos.


Si x1 y x2 son las medias de una muestra aleatoria
independiente de poblaciones con variancias conocidas
12 y 12 respectivamente, el intervalo de confianza de (1-
a)100% para 1- 2 es,

σ 12 σ 22 σ 12 σ 22
(x 1  x 2 )  zα/2   μ 1  μ 2  (x 1  x 2 )  zα/2 
n1 n 2 n1 n 2

donde zα/2 es el valor de z que tiene un área de α/2 a la derecha


Estimación de la diferencia de medias
 Intervalo de confianza para 1- 2; 12 y 22 conocidos.
Se aplica una prueba estandarizada de química a 50 niñas y 75 niños. Las
niñas obtienen una calificación promedio de 76, y los niños de 82. Encuentre
un intervalo de confianza de 96% para la diferencia 1 - 2, donde 1 es la
calificación promedio de todos los niños y  2 es la calificación promedio de
todas las niñas que pudieron realizar este examen. Suponga que las
desviaciones estándar de las poblaciones para los niñas y las niños son 6 y
8, respectivamente
niñas niños u1-u2 6
n 50 75 int.confianza 96 %
media 76 82 alfa 0.04
sigma 6 8
z (alfa/2) -2.054
delta 2.576
lim inf 3.424
lim sup 8.576
Estimación de la diferencia de medias

 Intervalo de confianza para 1- 2; 12 = 22 pero desconocidos.


Si x1 y x2 son las medias de muestras aleatorias independiente de
tamaños n1 y n2 respectivamente, de poblaciones aproximadamente
normales con variancias iguales pero desconocidas, un intervalo de
confianza de (1-a)100% para 1- 2 es,

1 1 1 1
(x 1  x 2 )  t α /2s p   μ 1  μ 2  (x 1  x 2 )  t α /2s p 
n1 n 2 n1 n 2

donde s p es la estimación común de la desviación estándar poblaciona l y t α /2 es el


valor t con   n1  n 2  2 gra dos de libertad , con un área de α /2 a la derecha
 Intervalo de confianza para 1- 2; 12 = 22 pero desconocidos.
Se analizaron dos muestras en un río para determinar el riesgo de
contaminación del agua debido al trabajo de una mina. El parámetro
utilizado es el índice de diversidad (a mayor índice menor contaminación).
Para 12 muestras recogidas aguas abajo, el índice tuvo un valor promedio
de 3.11 y una desviación estándar de 0.771, mientras que en 10 muestras
recogidas ríos arriba tuvieron un valor promedio de 2.04 y una desviación
estándar de 0.448. Encuentre un intervalo de confianza del 90% para la
diferencia entra las medias poblacionales de las dos estaciones, asumiendo
que las poblaciones están distribuidas aproximadamente en forma normal
con variancias iguales.
estacion 1 estacion 2 u1-u2 1.07
n 12 10 int.confianza 90 %
media 3.11 2.04 alfa 0.1
sigma 0.771 0.448
grados libertad 20
sp 0.646
t (alfa/2) 1.725
delta 0.477
lim inf 0.593
lim sup 1.547
Estimación de la diferencia de medias
 Intervalo de confianza para 1- 2; 12  22 y desconocidos.
Si x1 y s12 y x2 y s22 son las medias y variancias de muestras
pequeñas independiente de tamaños n1 y n2, respectivamente, de
distribuciones aproximadamente normales con variancias diferentes
y desconocidas, un intervalo de confianza aproximado de (1-a)100%
para 1- 2 está dado por:

s12 s 22 s12 s 22
(x 1  x 2 )  t α /2   μ 1  μ 2  (x 1  x 2 )  t α /2 
n1 n 2 n1 n 2
donde t α /2 es el valor t con,
(s12 / n 1  s 22 / n 2 ) 2
 2
[(s1 / n 1 ) 2 /( n 1  1)  (s 22 / n 2 ) 2 /( n 2  1)]

gra dos de libertad , con un área de α /2 a la derecha.


 Intervalo de confianza para 1- 2; 12  22 y desconocidos.
Para estimar la diferencia en la cantidad de ortofósforo químico se midieron
en dos estaciones en un río. El ortofósforo se mide en mg/l. Se sacaron 15
muestras de la estación 1 y 12 de la estación 2. Las 15 primeras tuvieron un
contenido promedio de ortofósforo de 3.84 mg/l y una desviación estándar
de 3.07 mg/l, mientras que en las 12 segundas, los datos fueron de 1.49
mg/l y 0.80 mg/l, respectivamente. Encuentre un intervalo de confianza del
95% para la diferencia en el contenidos promedios reales de ortofósforo en
las dos estaciones, asumiendo que las observaciones surgen de
poblaciones normales con variancias distintas
estacion 1 estacion 2 u1-u2 2.35 2.35
n 15 12 int.confianza 95 99
media 3.84 1.49 alfa 0.05 0.01
sigma 3.07 0.8
si2/ni 0.6283 0.0533 grados libertad 16.00 16.00
t (alfa/2) 2.120 2.921
delta 1.750 2.411
lim inf 0.600 -0.061
lim sup 4.100 4.761

16.33 16.33
Observaciones pareadas

 Intervalo de confianza para D = 1 + 2 para observaciones


pareadas.
Si d y sd son la media y la desviación estándar de las diferencias
normalmente distribuidas de n pares aleatorios de mediciones, un
intervalo de confianza de (1-a)100% para D = 1 + 2 es,

sd sp
d  t α /2  μ D  d  t α /2 ,
n n

donde t α /2 es el valor t con ν  n  1 grados de libertad,


con un área de α /2 a la derecha
 Intervalo de confianza para D = 1 + 2 para observaciones pareadas.
En el artículo “Essencial Elements in Frensh and Canned Tomatoes”,
publicado en el Journal of Food Sciences (Vol. 46, 1981), los contenidos de
elementos esenciales en jitomates frescos y enlatados se determinaron
mediante el método de espectrofotometría de absorción atómica. El
contenido de cobre en jitomates frescos en comparación con el que los
mismos jitomates registraron después de ser enlatados se muestran más
abajo. Encuentre un intervalo de confianza del 98% para la diferencia real
en el contenido promedio de cobre en jitomates frescos y enlatados
suponiendo que la distribución de las diferencias es normal.
par frescos enlatados di
1 0.066 0.085 -0.019 grados libertad 9
2 0.079 0.088 -0.009 Int. Confianza 98
3 0.069 0.091 -0.022 alfa 0.02
4 0.076 0.096 -0.02 t (alfa/2) 2.821
5 0.071 0.093 -0.022 delta 0.0075
6 0.087 0.095 -0.008 minimo -0.0192
7 0.071 0.079 -0.008 maximo -0.0042
8 0.073 0.078 -0.005
9 0.067 0.065 0.002
10 0.062 0.068 -0.006
n 10 10 -0.117
media 0.072 0.084 -0.0117
si 0.007 0.011 0.0084
Pruebas de Hipótesis

 Una hipótesis estadística es una afirmación o


conjetura acerca de una o más poblaciones.
 Nunca habrá absoluta certeza de la verdad o
falsedad de una hipótesis estadística, a no ser
que se examine la población entera.
 Siempre hay que tener en cuenta una
“probabilidad de una conclusión equivocada”
Pruebas de Hipótesis

 La aceptación de una hipótesis implica tan sólo


que los datos no proporcionan evidencia
suficiente para refutarlo
 El rechazo implica que la evidencia de la muestra
lo refuta o el rechazo significa que hay una
pequeña probabilidad de obtener la información
muestreal observada cuando, de hecho, la
hipótesis es verdadera.
Pruebas de Hipótesis

 Se define la hipótesis nula como cualquier


hipótesis que se desee probar y se representa por
H0 (es un único valor)
 El rechazo de H0 da como resultado la aceptación
de una hipótesis alternativa H1 (admite la
posibilidad de varios valores).
Pruebas de Hipótesis

 Rechazar la hipótesis nula cuando es verdadera


se llama error tipo I. Se conoce también como
nivel de significancia ().
 La aceptación de la hipótesis nula cuando en
realidad es falsa se llama error tipo II ()

H0 es verdadera H0 es falsa
Se acepta H0 Decisión correcta Error tipo II
Se rechaza H0 Error tipo I Decisión correcta
Ejemplo
 Se sabe que un tipo de vacuna fría es sólo 25% eficaz después de un
período de 2 años. Para probar una vacuna nueva, se seleccionan 20
personas al azar y se les inyecta esta nueva vacuna. Si más de 8 de los que
recibieron la vacuna supera el período de dos años sin contraer el virus, se
considerará un éxito la nueva vacuna. Analice las probabilidades de cometer
error tipos I y II.

Solución (i)

  P(error tipo I)   P(error tipo II)


 1  1
 P X  8 cuando p    P X  8 cuando p  
 4  2
20 8 8
1 1 1
  b( x;20, )  1   b( x;20, )   b( x;20, )
x 9 4 x 0 4 x 0 2
 1  0.9591  0.0409 (pequeña )  0.2517 (alta )
Ejemplo
 Se sabe que un tipo de vacuna fría es sólo 25% eficaz después de un
período de 2 años. Para probar una vacuna nueva, se seleccionan 20
personas al azar y se les inyecta esta nueva vacuna. Si más de 8 de los que
recibieron la vacuna supera el período de dos años sin contraer el virus, se
considerará un éxito la nueva vacuna. Analice las probabilidades de cometer
error tipos I y II.

Solución (ii)

H0 : p=1/4
H1 : p>1/4

exitos 8 8 7 exitos 40.00


ensayos 20 20 20 ensayos 100.00
prob.éxito 0.25 0.25 0.25 prob.éxito 0.25
prob.alternativa 0.50 0.70 0.50 prob.alternativa 0.50
media 25.00 50.00
sigma 4.33 5.00
z 3.46 -2.00
alfa 0.0409 0.0409 0.1018 alfa 0.0003
beta 0.2517 0.0051 0.1316 beta 0.0228
Ejemplo
 Considérese la hipótesis nula de que el peso promedio de los estudiantes
hombres es de 68 kgs.. Analice las probabilidades de cometer error tipos I y
II contra la alternativa de que el peso promedio es diferente. Considere n=36
y =3.6

Solución:

H0 : u = 68
H1 : u <> 68

media 68 68 z1 -1.667 -2.222


sigma pobl. 3.6 3.6 z2 1.667 2.222
n 36 64 alfa 0.0956 0.0263 P(X<67 cuando u=68) + P(X>69 cuando u=68)
sigma muestreal 0.6 0.45
región crítica (inf) 67 67 media 70
región crítica (sup) 69 69 z1 -6.667
z2 -2.222
beta 0.0131 P(67 X69 cuando u=70)

media 68.5
z1 -3.333
z2 1.111
beta 0.8663 P(67 X69 cuando u=68.5)
Test de hipótesis

 Los errores tipo I y II se relacionan entre sí. Una disminución en la


probabilidad de uno, generalmente resulta en un incremento de la
probabilidad de otro.
 El tamaño de la región crítica y, por lo tanto, la probabilidad de
cometer un error tipo I, siempre puede reducirse ajustando el valor
o los valores críticos.
 Un incremento en el tamaño n de la muestra reduce
simultáneamente  y .
 Si la hipótesis nula es falsa,  es un máximo cuando el valor
verdadero de un parámetro se aproxima al valor hipotético. Entre
mayor es la diferencia entre el valor hipotético y el real, más
pequeña será .
Poder de una prueba

 La potencia de una prueba es la probabilidad de rechazar H0 dada


una alternativa específica verdadera y se puede calcular como 1 -
.
 Desde otro punto de vista, equivale a decir que un valor de P es el
nivel más bajo (de significancia) en el cual el valor observado del
estadístico de prueba es significativo.

Ejemplo anterior
p = 1 -  = 1 - 0.8661 = 0.1339,
significa que en forma acertada rechaza H0 sólo el 13.39% del
tiempo.
Poder de una prueba

Procedimiento:
 Establecer la hipótesis nula H0 de que  = 0
 Seleccionar una hipótesis alternativa apropiada H1 de una de las
alternativas  < 0,  > 0 ó   0
 Seleccionar un nivel de significancia de tamaño 
 Seleccionar el estadístico de prueba apropiado y establecer la región
crítica. (Si la decisión se basará en un valor de P no es necesario
establecer la región crítica).
 Calcular el valor del estadístico de prueba de los datos muestrales.
 Decidir: rechazar H0 si el estadístico de prueba tiene un valor en la región
crítica (o si el valor calculado de P es menor o igual que el nivel de
significancia deseado ); de otra forma, no rechazar H0.
Ejemplo:
Una muestra aleatoria de 100 muertes registradas durante el año
pasado mostró una vida promedia de 71.8 años. Suponiendo una
desviación estándar poblacional de 8.9 años, ¿parecería esto indicar
que la vida promedio hoy en día es mayor que 70 años?. Utilice un
nivel de significancia del 0.05.
1. - H 0 :μ  70 años
2. - H 1 :μ  70 años
3. - α  0.05
4. - z 0.95  1.645
Región crítica : z  1.645, donde :
x -μ
z
σ/ n
5.  Cálculos : x  71.8 años, σ  8.9 años, y
71.8 - 70
z  2.02
8.9/ 100
6.  Decisión : Se rechaza H 0 y se concluye que la vida promedio hoy en día es mayor que 70 años.
P  P(Z  2.02)  0.0217
Test de hipótesis

 Pruebas sobre una sola media (variancia desconocida)

H 0 :μ  μ
H 1 :μ  μ
x -μ
t
s/ n
 Para la hipótesis bilateral en un nivel de significancia , se aplican
regiones críticas de doble cola
 Para H1: u > u0, el rechazo resulta cuando t > t,n-1.
 Para H1: u < u0, el rechazo resulta cuando t < t,n-1.
Ejemplo:
Una empresa eléctrica afirma que una aspiradora consume un
promedio de 46 kwh. Si en una muestra aleatoria en 12 hogares indica
que el consumo es de 42 kwh con una desviación estándar de 11.9
kwh, ¿sugiere esto con un nivel de significancia de 0.05 que las
aspiradoras consumen en promedio menos de 46 kwh?.

1. - H 0 :μ  46 kwh
2. - H1 :μ  46 kwh
3. - α  0.05
4. - t 0.025,11  - 1.796
x -μ 0
Región crítica : t  - 1.796, donde : t
s/ n
5.  Cálculos : x  42 kwh; s  11.9 kwh; n  12
42 - 46
t  - 1.16 P  P(T  -1.16)  0.135
11.9/ 12
6.  Decisión : Se acepta H 0 y se concluye que la cantidad promedio de kwh consumidos
por las aspiradora s no es significat ivamente menor que 46.
Test de hipótesis

 Pruebas sobre dos media (variancia desconocida)


H 0 :μ 1 - μ 2  d 0
H 1 :μ 1 - μ 2  d 0
x1 - x 2 - d 0
t
s p 1/n 1  1/n 2
donde
s12 (n 1  1)  s12 (n 1  1)
sp 
n1  n 2  2

 se incluye la distribución t y la hipótesis bilateral no se rechaza


cuando: -t/2,n1+n2-2 < t < t/2,n1+n2-2
Ejemplo:
Se llevó a cabo un experimento para comparar el deterioro abrasivo de
dos materiales laminados diferentes. En cada caso se midió la
profundidad del deterioro. Doce muestras de material 1 dieron una
deterioro promedio de 85 unidades con s=4, mientras que diez muestras
del material 2 dieron un promedio de 81 con s=5. ¿Puede concluirse con
un nivel de significancia de 0.05 que el deterioro abrasivo del material 1
excede al del material 2 por más de 2 unidades?.

1. - H 0 :μ 1 - μ 2  2
2. - H 1 :μ 1 - μ 2  2
3. - α  0.05
4. - t 0.025,20  1.725
(x 1 - x 2 ) - d 0
Región crítica : t  1.725, donde : t
s p / 1/n 1  1/n 2
5.  Cálculos : x 1  85; s1  4; n 1  12; x 2  81; s 2  5; n 2  10
s p  4.478; t  1.04; P  P(T  1.04)  0.16
6.  Decisión : Se acepta H 0 . No se está en condicione s de concluir que el deterioro
abrasivo del material 1 excede al del material 2 por más de dos unidades.
Test de hipótesis

 Observaciones pareadas

H 0 : μ 1  μ 2 o u D  μ 1 -μ 2  0
H1 : μ 1  μ 2 o u D  μ 1 - μ 2  0
d - d0
t
sd n

 se incluye la distribución t y la hipótesis bilateral no se rechaza


cuando: -t/2,n-1 < t < t/2,n-1
 Ejemplo
Se examinó la influencia de una droga en los niveles de circulación de
andrógenos de la sangre. Se obtuvieron muestras de sangre de ciervos
salvajes vía la vena yugular inmediatamente después de una inyección
intramuscular. Se obtuvieron nuevas muestras de sangre 30 minutos
después de aplicada la inyección. Los niveles de andrógenos en estas
condiciones, medidos en nanogramos por mililitro (ng/ml), para 15 ciervos se
muestran en la tabla. Pruébese, con un nivel de significancia de 0.05, si las
concentraciones se alteran después de 30 minutos de inhibición.

Andrógeno (ng/ml)
Al momento de la 30 minutos después de
Ciervo inyección la inyección

1 2.76 7.02
2 5.18 3.10
3 2.68 5.44
4 3.05 3.99
5 4.10 5.21
6 7.05 10.26
7 6.60 13.91
8 4.79 18.53
9 7.39 7.91
10 7.30 4.85
11 11.78 11.10
12 3.90 3.74
13 26.00 94.03
14 67.48 94.03
15 17.04 41.70
Solución:
Sean 1 y 2 la concentración promedio de andrógeno en el momento de
la inyección y 30 minutos después, respectivamente. Se procede como
sigue:

1. - H 0 : μ 1  μ 2 o μ D  μ 1  μ 2  0
2. - H 1 : μ 1  μ 2 o μ D  μ 1  μ 2  0
3. - α  0.05
4. - t 0.025,14  - 2.145
d - d0
Región crítica : t  -2.145 y t  2.145, donde : t
sd / n
5.  Cálculos : d  9.848; s d  18.474
t  2.06; P  P(T  2.06)  0.06
6.  Decisión : No obstante que eñ estadístic o t no es significat ivo en el nivel 0.05,
P  0.6 indica que existe alguna evidencia de que hay una diferencia en los niveles
promedio de circulació n de andrógeno.

También podría gustarte