Documentos de Académico
Documentos de Profesional
Documentos de Cultura
NotasEstadistica PDF
NotasEstadistica PDF
Estadstica Descriptiva
Mara Margarita Olivares M.
Abril 2004
INTRODUCCIN:
Una vez obtenido los datos debemos organizarlos, lo que se hace siguiendo
ciertos mtodos que constituyen la Estadstica Descriptiva. Los mtodos
comnmente usados son de tres tipos: Mtodos de Tabulacin, Mtodos
Grficos y Mtodos Numricos.
Los primeros de ellos se constituyen a partir de la elaboracin de tablas
que incluyen los datos numricos. Los mtodos grficos exigen la elaboracin
de grficos, entre los cuales los ms usados son los de barras, los circulares e
histogramas. Los mtodos numricos consisten en obtener ciertas relaciones
cuantitativas a partir de los datos.
Una vez realizado el estudio de los datos mediante los mtodos de la Estadstica Descriptiva, se trata entonces de inferir o sacar conclusiones sobre
algunos aspectos de la poblacin, que generalmente se refiere a la confirmacin de alguna hiptesis, (prueba de hiptesis) o a la estimacin de algn
promedio numrico u otras caractersticas de la poblacin (estimacin de
parmetros). Esta parte constituye lo que se conoce con el nombre de Estadstica Inferencial o Inferencia Estadstica.
Mtodos de Tabulacin
Estadstica
Mtodos Numricos
Estimacin de parmetros
Inferencia
Pruebas de Hiptesis.
3.1
CONCEPTOS BSICOS.
Supongamos que tenemos una fuente de material radioactivo que emite partculas Alfa () y que definimos la variable aleatoria X como el nmero de
partculas observadas en una pantalla, en un intervalo de tiempo t. Bajo
ciertas hiptesis que idealizan el experimento, X tiene una distribucin de
Poisson de parmetro t.
Si queremos calcular, por ejemplo, la probabilidad de que X sea mayor
que 10 u otras caractersticas asociadas con la distribucin tales como la
esperanza, la varianza, etc., la respuesta depender del parmetro y del
intervalo de tiempo t.
Para buscar un valor numrico de , dejamos el mundo de los modelos
matemticos tericos y entramos en el mundo de las observaciones, es decir,
observamos la emisin de partculas, obtenemos algunos valores numricos de
X y luego los utilizamos de alguna manera, a fin de obtener una informacin
atinada del parmetro .
En general, un material estadstico que consiste en cierto nmero de
observaciones
x1 , x2 , , xN
de una variable aleatoria X, dado en la forma original, en la que los N resultados aparecen en el orden en que se han observado, es muy difcil de
examinar y por lo tanto no es adecuado para darnos informacin acerca de
la variable X investigada.
El propsito de la Estadstica Descriptiva es reemplazar el material observado por cantidades relativamente pocas en nmero, que representen el
material total en otras palabras, que contenga tanta informacin como sea
posible respecto a la variable X.
3
Tipos de variables:
Los tipos de variables que consideraremos, son:
1. Variables cualitativas o atributos: no toman valores numricos y describen cualidades. Por ejemplo, clasificar una pieza como aceptable o
defectuosa.
2. Variables cuantitativas discretas: toman slo valores enteros, en muchos
casos se limita a contar el nmero de veces que ocurre un suceso. Por
ejemplo, nmero de compras de un producto en un mes.
3. Variables cuantitativas continuas: toman valores en un intervalo, corresponde a medir magnitudes continuas. Por ejemplo, tiempo entre la
llegada de dos autobuses.
3.1.1
MUESTRA OBSERVADA:
Los valores observados se suelen registrar en una lista. Si el nmero de observaciones no excede 20 o 30, por ejemplo, es posible darse una idea aproximada
de la distribucin, simplemente mediante la ordenacin de los valores observados, escribindolos en una tabla, en orden creciente de magnitud. Con
estos datos podemos hacer representaciones grficas y calcular determinadas
caractersticas numricas.
Si el conjunto de datos es muy grande, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo
algn tipo de agrupacin, como paso preliminar, antes de iniciar un nuevo
tratamiento de los datos.
4
3052
2911
2965
3193
2832
2944
3003
2903
3061
3169
2940
2883
3109
2865
2950
3038
3317
2910
3097
3133
3128
3027
2886
3298
3059
2968
2875
2957
3085
3152
2865
2872
3045
2932
3052
2953
2820
2891
2975
3102
3125
2942
3238
2782
3017
2998
2808
2899
3072
3251
2881
3042
2965
3201
3001
3275
2973
2884
3115
2702
con esta eleccin, dejamos un hueco entre 2759 y 2760, etc., pero
por la precisin de los datos sabemos que all no hay observaciones,
sin embargo, es preferible elegir como lmites exactos de cada clase
los puntos correspondientes a medias unidades de la ltima cifra
significativa de los lmites anteriores, es decir:
(2699.5, 2759.5)
(2759.5, 2819.5)
(2819.5, 2879.5) , etc.
en este caso estamos seguros de que ninguna observacin caer en
un lmite de clase.
Clase
(2699.5, 2759.5)
(2759.5, 2819.5)
(2819.5, 2879.5)
(2879.5, 29539.5)
(2939.5, 2999.5)
(2999.5, 3059.5)
(3059.5, 3119.5)
(3119.5, 3179.5)
(3179.5, 3239.5)
(3239.5, 3299.5)
(3299.5, 3359.5)
Total
tabla de frecuencias:
Clase(% de ceniza) Frecuencia Absoluta Frecuencia Relativa
1
(9, 9.99)
1
250
3
(10, 10.99)
3
250
3
(11, 11.99)
3
250
9
(12, 12.99)
9
250
13
(13, 13.99)
13
250
27
(14, 14.99)
27
250
28
(15, 15.99)
28
250
39
(16, 16.99)
39
250
42
(17, 17.99)
42
250
34
(18, 18.99)
34
250
19
(19, 19.99)
19
250
14
(20, 20.99)
14
250
10
(21, 21.99)
10
250
4
(22, 22.99)
4
250
3
(23, 23.99)
3
250
0
(24, 24.99)
0
=0
250
1
(25, 25.99)
1
250
Total
250
1
Los datos se agrupan tal como aparecen en la tabla de forma que,
por ejemplo, el intervalo de clase (14, 14.99) contenga todas las
observaciones registradas con valor de 14 a 14.99, ambos inclusive.
Al agrupar los datos originales, si registramos una observacin, por
ejemplo, 14.27 con dos cifras decimales exactas, el valor realmente
observado se encuentra entre 14.265 y 14.275. Los lmites exactos
de este intervalo de clase son 13.995 y 14.995. Si los datos hubiesen
sido dados con una cifra decimal exacta, los intervalos de clase
seran de la forma (14.0, 14.9) con lmites exactos 13.95 y 14.95.
Cuando se utilizan los datos ya agrupados, para los clculos, se
supone que todas las observaciones que pertenecen a una clase
dada, estn situadas en el punto medio de dicha clase. Al hacer
esta aproximacin, se introduce un error que evidentemente se
puede hacer tan pequeo como queramos, tomando los intervalos
de clase suficientemente pequeos y reduciendo as la prdida de
informacin debida a la agrupacin. Sin embargo sto aumenta el
9
FRECUENCIAS ACUMULADAS.
EJEMPLO:
10
El grfico resulta ser escalonado y creciente. Esta informacin se suele representar mediante las ojivas que son curvas equivalentes a polgonos de frecuencias acumuladas, suavizado.
3.1.5
MTODOS GRFICOS.
3.2
N
1 X
x=
xi
N i=1
_
3.2.2
2700 + 2759
= 2729.5
2
12
N
_ 2
1 X
=
xi x
N 1 i=1
Note que
s2 =
N 1 2
s1
N
as, si N , s2 = s21 .
La desviacin estndar observada es s y la centrada es s1. Cuando no
disponemos de la muestra bruta y en su lugar contamos con la tabla de
frecuencias, calculamos las varianzas de manera anloga al caso de la media,
mediante las frmulas:
M
P
s2 =
1
N
s21 =
1
N1
P
_ 2
_ 2
fi yi x =
i yi x
i=1
M
P
i=1
i=1
_ 2
fi yi x =
N
N1
M
P
i=1
_ 2
i yi x
1
N
N
P
_2
x2i x
i=1
N
P
_2
1
2
2
s1 = N1
xi N x
i=1
x = 3010, 8857
s = 133, 84112
s1 = 134, 80794
_
_
_
x s, x + s = (2887, 04458; 3144, 72682)
_
17,0
8,2
39,4
151,2
8,2
17,8
23,2
20,6
157,4
10,1
25,8
26,8
36,0
20,1
10,3
92,3
8,0
17,8
14
74,7
8,8
16,2
7,7
19,4
19,3
152,2
10,7
100,2
47,6
21,2
37,2
19,6
26,0
37,7
29,0
150,1
13,4
Si se representan estos datos en un histograma de frecuencias observarn que no es simtrico alrededor de ningn punto ya que tiene una
cola larga hacia la derecha ( sesgado hacia la derecha). Para estos datos
_
x = 37, 28$
s = 41, 35
este promedio no es un valor particularmente
tpico, de hecho, 32
de
_
_
los 42 datos son menores que x y slo 10 son mayores, es decir, x no
es una buena medida de centramiento; el histograma tiene este gran
sesgo a la derecha, ( empuje del promedio a la derecha) de tal manera
que 75% de las observaciones quedan a la izquierda del promedio. La
diferencia grande entre los datos ejerce una gran influencia en el valor
del promedio y lo hacen tener un valor no centrado, al igual que hace
crecer la desviacin estndar.
En resumen,
para datos fuertemente sesgados (a la derecha o a la
_
izquierda) x, s s1 pueden no ser los parmetros que describan el centro y dispersin de los datos, en este caso es conveniente definir otras
medidas de centramiento.
3.2.3
RANGO DE LA MUESTRA.
Si
x1 , x2 , x3 , , xN
15
1iN
3.2.4
3.2.5
Si
x1 , x2 , x3 , , xN
una muestra observada, definimos el momento de orden n de esta muestra como:
N
_ n
1 X
Mn =
xi x
N i=1
M
M
X
_ n
_ n
1 X
Mn =
fi yi x =
i yi x
N i=1
i=1
Si
x1 , x2 , x3 , , xN
una muestra observada, llamamos moda de la muestra al valor que se
presenta con mayor frecuencia. Si disponemos solamente de una tabla de
frecuencias, tomaremos como moda el punto medio del intervalo de clase de
mayor frecuencia.
3.2.7
Si
x1 , x2 , x3 , , xN
16
N X
N
fi ,
fi >
2 i=1
2
k
2. Supondremos que las observaciones que caen en el intervalo [ek , ek+1 ] , estn
uniformemente distribudas en dicho intervalo, es decir, si fk es el
nmero de observaciones en dicho intervalo y lo subdividimos en fk subintervalos
de igual longitud
ek+1 ek
Lk =
fk
supondremos que en cada subdivisin hay una sola observacin:
(a) Si N es impar nos gustara aproximar la mediana por la obser, cuando la muestra bruta se ordena
vacin que ocupa el lugar N+1
2
k1
P
fi la cantidad que
de menor a mayor, entonces aadimos a
i=1
N+1
, es
2
k1
X
fi + k0 =
i=1
N +1
.
2
ek+1 ek
ek+1 ek
ek + (k0 1)
.
, ek + k0
fk
fk
(b) Si N es par aproximamos la mediana por la observacin que ocupa
el lugar N2 + 1, cuando la muestra bruta se ordena de menor a
mayor,para ello elegimos k0 tal que
k1
X
fi + k0 =
i=1
N
+1
2
ek+1 ek
ek+1 ek
ek + (k0 1)
, ek + k0
fk
fk
Podramos tambien aproximar la mediana por el valor
x( N ) + x( N +1)
2
ek+1 ek
= ek + (k0 1)
fk
18
Observe que
N
+1 =
2
N
+ 1, si N es par
2
N+1
, si N es impar
2
N
= 125
2
X
N
N
fi
fi >
= 125,
= 125
2
2
i=1
k
N
N
, 123 + 42 = 165 >
= 125
2
2
Luego, el intervalo donde se encuentra la mediana es (17, 17.99) , para simplificar los clculos podemos considerar los lmites exactos del intervalo, es
decir, (16.99, 17.99) cuya longitud es 1 :
ek+1 ek = 1, fk = 42, ek = 16.99, k = 9
k1
P
fi + k0 = 123 + k0 = N2 + 1 = 126, k0 = 3
i=1
2
3
16.99 + , 16.99 +
,m
= 17.05
42
42
3.2.8
PERCENTILES:
Como extensin de la idea de mediana ( que divide los datos en dos partes
iguales) podramos pensar en aquellos valores que dividen a los datos en
cuatro partes iguales aproximadamente, representados por Qi , i = 1, 2, 3; los
19
20
pN X
pN
,
fi
fi >
100 i=1
100
k
pN
fi + k0 =
+1
100
ek+1 ek
ek+1 ek
ek + (k0 1)
, ek + k0
.
fk
fk
EJEMPLO: Las notas obtenidas por 1350 estudiantes en los exmenes
de ingreso a la Universidad (en base a 100 puntos), en cierto ao, aparece
agrupado en la siguiente tabla de frecuencias:
Clases
(0, 10)
(11, 20)
(21, 30)
(31, 40)
(41, 50)
(51, 60)
(61, 70)
(71, 80)
(81, 90)
(91, 100)
Total
Frecuencias
2
15
75
150
302
352
287
120
42
5
1350
21
N
2
= 675
Consideramos el intervalo de clase [51, 60] , para facilitar los clculos tomamos
en su lugar el intervalo [50, 60] de longitud 10
ek+1
k1
P
ek = 10, f6 = 352,
fi + k0 = 544 + k0 =
i=1
N
2
+ 1 = 676, k0 = 132
ek+1 ek
ek+1 ek
ek + (k0 1)
, ek + k0
. = (53.72, 53.75)
fk
fk
Si queremos aproximarla por un valor numrico, podemos tomar el punto
medio del intervalo, a saber:
m = 53.73
Clculo del centil 12% :
Np
100
Np
= 162, 100
+ 1 = 163
2 + 15 + 75 = 92 < 162
92 + 150 > 162, k = 4.
22
3.3
En muchos problemas obtenemos datos pareados (xi , yi ), no conocemos la distribucin conjunta de las variables aleatorias correspondientes y al graficar
estos datos tenemos la impresin de que una recta podra ser un buen ajuste
para ellos, aunque los puntos no estn exactamente sobre una recta. Los
problemas de este tipo, suelen manejarse por medio del mtodo de los mnimos cuadrados que consiste en hallar la recta
y = ax + b
que mejor se ajusta a esos datos, para ello debemos calcular los parmetros
a y b a partir de los datos, es decir:
Si nos dan un conjunto de datos pareados {(xi , yi ); i = 1, 2, 3, , n} , las
estimaciones de mnimos cuadrados de los coeficientes a y b son los valores
para los cuales la cantidad:
q(a, b) =
n
X
i=1
= (2)
q
b
= (2)
n
P
i=1
n
P
i=1
[yi (a + bxi )] = 0
xi [yi (a + bxi )] = 0
i=1
n
P
i=1
yi = an + b
xi yi = a
n
P
n
P
xi
i=1
xi + b
i=1
n
P
i=1
a = y bx
xy
b = SSxx
23
x2i
donde :
Sxx =
Sxy =
n
P
(xi x) =
i=1
n
P
n
P
i=1
_
x2i
(xi x)(yi y) =
i=1
3.3.1
1
n
n
P
i=1
n
P
xi
i=1
xi yi
1
n
n
P
i=1
xi
n
P
yi
i=1
EJERCICIO:
3.4
Correlacin:
Recuerde que si X e Y son dos variables aleatorias, el coeficiente de correlacin de ellas se define como:
Cov(X, Y )
= p
V ar(x)V ar(Y )
este valor est en el intervalo [1, 1] y mide en cierto sentido el grado de dependencia lineal entre las variables, si = 1, con porbabilidad uno, existe
una dependencia lineal perfecta entre las variables. Si las variables son independientes = 0, el recproco es falso, salvo cuando la distribucin conjunta
de las variables es normal.
24
r=r
n
P
(xi x)(yi y)
i=1
n
P
(xi x)2
i=1
n
P
(yi y)2
i=1
En la prctica para tener una idea estimada del grado de correlacin de dos
variables, se utilizan los llamados diagramas de dispersin nubes de puntos,
que son los puntos correspondientes a los pares (xi , yi ) , que representan las
observaciones de ambas variables, representados en un plano cartesiano. Si
r = 0 no existe relacin lineal entre las variables, si r < 0 y cercano a
1, existe cierta correlacin lineal entre las variables y la mejor recta que
aproxima los datos tiene pendiente negativa ( es decreciente).
Sea (, F, P) un espacio de probabilidades. Cuando realizamos un experimento el conjunto de resultados de las observaciones sirve de material inicial
para toda investigacin estadstica, en muchos casos corresponden a los valores experimentales {x1 , x2 , , xn } de cierta variable aleatoria X. La distribucin de esta variable PX (B) = P (X B) , B boreliano de R, en general
se deconoce al menos parcialmente.
Consideremos n repeticiones independientes de la variable aleatoria X, es
decir, X1 , , Xn es una sucesin de variables aleatorias independientes con
la misma dostribucin que X.
Definamos
1 si x B
Ix (B) =
0 si x
/B
esta expresin es una variable aleatoria que denominamos funcin de distribucin emprica. Tambin se puede expresar como
1X
card {i : Xi x}
I(,x] (Xi ) =
n i=1
n
n
Fn (x) =
donde
I(,x] (Xi ) =
1 si Xi x
0 si Xi > x
Podemos estimar la funcin de distribucin F (x) por medio de la funcin de distribucin emprica, la mayor distancia vertical entre las grficas de
26
las funciones Fn y F est representada por la expresin sup |Fn (x) F (x)| ,
xR
xR
1
k
= , F (zk ) =
= k, k = 1, 2, , N 1;
N
N
= , zN = , as F (z0 ) = 0, F (zN ) = 1
F (z1 ) =
definimos z0
N
T
k=0
Ak , tambin P(A) = 1. Si A,
27
28
Estadstica Descriptiva.
Estadstica
Prctica No 1
5
19
11
3
12
13
21
19
6
9
37
12
6
10
10
10
11
15
4
8
16
7
10
6
20
2
7
14
32
15
11
9
10
9
5
6
16
7
12
17
12
18
24
7
10
Utilice las seis clases: 0-4, 5-9, 10-14, 15-19, 20-24, 25 mayor para
construir una tabla de frecuencias absolutas y relativas. Dibujar el
histograma. Construir la tabla de frecuencias acumuladas. Encontrar
media muestral, desviacin estandard, moda, mediana y cuartiles. Se
cumple la regla emprica?
2. Los siguientes datos son lo nmeros de torsiones requeridas para doce
barras cierta aleacin: 33, 24, 39, 48, 26, 35, 38, 54, 23, 34, 29 y 37.
Calcule:
(a) media
(b) s2
(c) la mediana
(d) la moda
(e) los cuartiles.
(f) Se cumple la regla emprica?
3. Demuestre que
n
X
_
(xi x) = 0
i=1
x = cu + a, sx = csu
para una muestra pareada x1 , x2 , , xn ; u1 , u2 , , un .
5. La efectividad de una nueva tcnica para controlar un insecto que afecta
un tipo de cultivo se puede medir contando el nmero de larvas del
insecto halladas en cierta superficie de cultivo. Despus de aplicar
la tcnica, se contaron las larvas en 40 reas, obteniendo los datos
siguientes:
5 0 2 40 27 3 0 22
14 0 4 19 38 2 5 16
0 7 42 15 39 0 2 0
29 26 14 0 3 27 32 20
3 0 17 35 29 12 16 6
(a) Elabore una tabla de frecuencias absolutas y relativas y haga los
histogramas correspondientes.
(b) Calcule las acumuladas absolutas y relativas y haga los histogramas correspondientes.
(c) Se cumple la regla emprica?
(d) En lugar de histogramas haga ahora grficos de lnea.
(e) Encontrar media muestral, varianza, desviacin estandard, moda,
mediana y cuartiles de los datos.
6. Despus de observar el tiempo de vida de 70 motores, se obtuvieron los
siguientes datos:
Intervalos de aos de funcionamiento Nmero de motores
[0, 1)
30
[1, 2)
23
[2, 31)
6
[3, 4)
5
4 aos o ms
6
(a) Haga un histograma de frecuencias relativas.
(b) Se cumple la regla emprica?
2
46 53 37 42 43 29 60 44 41 48 33 40
12 14 11 13 10 8
17 12 10 15 9
(a) Ajuste una recta de mnimos cuadrados a partir de la cual podamos predecir el contenido de humedad de la materia prima en
funcin de la humedad del lugar.
(b) Utilice el resultado anterior para calcular el contenido de humedad
de la materia prima cuando la humedad relativa es del 38%.
9. La siguiente tabla muestra las ventas (en miles de unidades) de una pequea empresa de componentes electrnicos durante los ltimos 10 aos.
Ao
1
2
3
4
5
6
7
8
9
10
Ventas 2, 6 2, 85 3, 02 3, 45 3, 69 4, 26 4, 73 5, 16 5, 91 6, 5
3
13
7. Un defecto metablico ocurre en aproximadamente 1 de cada 100 nacimientos. Si en un hospital nacen 4 nios en un da dado, calcule:
(a) la probabilidad de que ninguno tenga el defecto
(b) la probabilidad de que a lo sumo uno de ellos tenga el defecto
(c) la probabilidad de que al menos uno de ellos tenga el defecto.
8. En un examen se plantean 10 preguntas a las que debe responderse con
verdadero o falso. Un alumno aprobar el examen si al menos 7 de sus
respuestas son acertadas.
(a) Qu probabilidad de aprobar tiene un estudiante que responde
todo al azar?
(b) Qu probabilidad de aprobar tiene un estudiante que sabe el 30%?
Semestre Abril-Julio 2004/MMOM
2. Una lnea area sabe que el 5% de las personas que hacen reservaciones
en un cierto vuelo, al final no se presentan. Si la aerolnea vende 160
boletos para este vuelo, y slo hay 155 asientos en el avin, cul es la
probabilidad de que todo pasajero con reservacin que se presente al
aeropuerto tenga un puesto en el vuelo?.
3. En una empresa se ha observado que el gasto semanal en mantenimiento
y reparaciones es una variable aleatoria con distribucin aproximadamente normal de media = Bs. 24000 y desviacin = Bs.1200. Cunto
debe presupuestarse semanalmente para mantenimiento y reparaciones
para que el monto presupuestado sea excedido con una probabilidad de
a lo sumo 0, 1?
4. Un encuestador cree que el 20% de los votantes de una zona est a
favor del candidato A. Si se escogen 24 votantes de la zona, aproxime la
probabilidad de que la fraccin de votantes de la muestra que favorece
al candidato A, no difiera de la verdadera fraccin (en toda la zona) en
ms de 0, 06.
5. Una mquina se manda a reparar si una muestra de 100 artculos escogidos al azar de su gran produccin diaria, revela un 15% mas de
defectuosos. Si la mquina en realidad slo produce un 10% de defectuosos, calcule aproximadamente la probabilidad de que la manden a
reparar.
1
Captulo II
Inferencia Estadstica:
Estimacin Puntual de Parmetros.
Mara Margarita Olivares M.
Abril 2004
INTRODUCCIN:
1.1
1.1.1
DEFINICIONES:
MUESTRA ALEATORIA SIMPLE:
Es un vector aleatorio
X = (X1 , X2 , , XN )
cuyas componentes son variables aleatorias independientes, idnticamente
distribuidas, siendo N el tamao de la muestra.
1.1.2
ESTADSTICO (o ESTADGRAFO)
TN = T (X) = T (X1 , X2 , , XN )
(La funcin T debe ser lo suficientemente regula como para que T (X) sea
una variable aleatoria)
3
EJEMPLOS DE ESTADSTICOS:
1. Media Muestral Aleatoria:
N
1
1 X
(X1 + X2 + + XN ) =
X=
Xi
N
N i=1
_
S12
1.1.3
OBSERVACIN:
1.2
ESTIMADOR:
Un estimador paramtrico o para simplificar, diremos simplemente, un estimador, es un estadstico cuyo valor observado intentamos usar para estimar
el valor de un parmetro desconocido de la distribucin terica. (El enfoque
paramtrico supone que la forma del modelo es conocida).
La media muestral y la varianza muestral aleatorias, como lo indica sus
nombres, son estimadores de la media y la varianza de la distribucin terica.
Supongamos que TN = T (X1 , X2 , , XN ) sea un estimador de un cierto
parmetro de una distribucin terica. La diferencia:
TN = T (X1 , X2 , , XN )
se denomina Error de Estimacin. Una buena forma de conseguir que TN
sea un buen estimador, es pedir que el error de estimacin sea pequeo y
4
esto puede hacerse, por ejemplo, exigiendo que se cumplan condiciones tales
como:
P (|T (X1 , X2 , , XN ) | > ) <
para valores pequeos de > 0, > 0; o bien que
E |T (X1 , X2 , , XN ) |k < c
E |T (X1 , X2 , , XN ) |2 ,
se le llama sesgo de T.
1.3
1. X =
1
N
N
P
i=1
_
E X =
1
N
V ar(X) =
N
P
E (Xi ) =
i=1
N
P
1
V
N2
i=1
ar (Xi ) =
1
N
N
1
N 2
N2
2
N
N
Puesto que S12 = N1
S 2 , podemos calcular E (S 2 ) y deducir de all la
N
E (S12 ) = N1
E (S 2 ) . Para calcular E (S 2 ) , supongamos que:
i=1
(Xi )2 + N( X)2 + 2( X)
i=1
N
P
N
P
(Xi ) =
i=1
_
2
i=1
o equivalentemente
N
P
(Xi )2 N( X)2
i=1
N
N
_
_
X
X
2
(Xi ) =
(Xi X)2 + N(X )2
i=1
i=1
N 2 = E (NS 2 ) + NV ar(X)
2
2.
E (S 2 ) = 2 N = N1
N
De aqu se obtiene que:
E S12 =
N
E S 2 = 2.
N 1
Note que S12 es un estimador insesgado o centrado de la varianza, mientras que S 2 no lo es. Esta es la razn por la que se prefiere trabajar con
S12 en lugar de S 2 y por sto S12 recibe el nombre de varianza centrada
o varianza muestral corregida, el divisor n 1 se denomina nmero de
grados de libertad.
Si llamamos residuo a
ei = xi x
7
S12 =
_
_
ei = 0
xi x =
i=1
i=1
+
N
N2
N3
k = E (X )k
1.4
Funcin de Verosimilitud:
= ( 1 , 2 , , k ),
f1
f2
fr
L(x1 , x2 , , xN ; ) = g( 1 ; )
g( 2 ; )
g( r ; )
= ( 1 , 2 , , k )
1
f (xi ; , ) = 2
exp 21 2 (xi )2 , x = (x1 , x2 , , xN )
N
1 exp 1 2 (xi )2 =
L( x; , ) =
2
2
i=1
N
P
1
1
2
exp 22 (xi )
(2 2 )N/2
i=1
10
l(, ) = ln L( x; , ) = N ln
N
P
l(,)
l(,)
= N +
1
2
(xi ) = 0 =
i=1
1
23
N
P
N
2
1
N
ln(2)
N
P
1
2 2
xi = x
i=1
(xi )2 = 0 2 =
i=1
1
N
N
P
N
P
(xi )2
i=1
(xi x)2 = s2
i=1
2
l(,) 2 l(,)
2
= 2l(,)
l(,)
2
N
N
_
_
1 X
1 X
xi = x, 2 =
(xi x)2 = s2
N i=1
N i=1
_
1
, max xi [0, b] , 0 min xi .
bN
11
e
, l() = ln L( x; ) =
fi ln ei!
L(x1 , x2 , , xN ; ) =
i!
i=0
i=0
r
r
r
i
P
P
P
l()
1
=
f
1
=
0
if
=
fi = N
i
i
i=0
de donde: =
1
N
r
P
i=0
i=0
ifi =
1
N
r
P
i=0
xi = x.
i=0
l(p) = ln L( x; p) = f ln p + (N f ) ln(1 p)
l(p)
= fp + Nf
= 0 p = Nf .
p
1p
12
1.5
E (X) =
f (x; )dx
en el caso que esta ecuacin tenga solucin nica. Si tiene infinitas soluciones,
como suele suceder cuando la distribucin terica depende de k parmetros
desconocidos, con k 2, se agrega la ecuacin
Z
N
2
1 X 2
2
E X =
x f (x; )dx =
X .
N i=1 i
13
EJEMPLOS:
f (x; ) =
1
,
b
x [0, b]
0, si no.
N
_
1 X
Xi = X
N i=1
E (X) =
1
xf (x; )dx =
b
Zb
b
xdx = .
2
Igualando obtenemos:
_
_
b
= X, tomamos b = 2X
2
b
2 X
2
E b = 2E X =
E (Xi ) = NE (X) = 2 = b.
N i=1
N
2
14
El error medio cuadrtico del estimador b, por ser en este caso insesgado, coincide con su varianza:
N
_
4 X
2
E (b b)
= V ar(b) = V ar(2X) = 2
V ar (Xi ) =
N i=1
4 b2
4
V ar(X) =
N
N 12
V ar(b) =
b2
0 si N ,
3N
_
P b x = P (max(X1 , X2 , , XN ) x) =
P (X1 x, X2 x, , XN x) =
N
Q
P (Xi x) = (P (X x))N = (F (x; b))N
i=1
donde F es la funcin de distribucin de X que es uniforme en el intervalo [0, b] . Es fcil calcular esta funcin de distribucin para obtener:
0 si x < 0
x
si x [0, b]
F (x; b) =
b
1 si x > b.
0 si x < 0
xN
P bx =
si x [0, b]
bN
1 si x > b.
15
N
b,
E b =
N +1
es decir, este estimador del parmetro b no es insesgado, pero s lo es
asintticamente ya que
N
b = b.
lim E b = lim E (max(X1 , X2 , , XN )) = lim
N
N
N N + 1
Este estimador es consistente, en efecto:
2
N
N
2
b
E b = N+2 b , E b = N+1
N
N2
V ar b = N+2
b2 =
(N+1)
2
Nb2
(N+2)(N+1)2
l(p) = ln L( x; p) = f ln p + (N f ) ln(1 p)
l(p)
= fp + Nf
= 0 p = Nf .
p
1p
De aqu se deduce que el estimador de mxima verosimilitud de p
es:
N
_
1 X
p=
Xi = X.
N i=1
16
N
_
P
1
V ar(X) = V ar N
Xi =
i=1
1
N2
N
P
V ar(Xi ) =
i=1
p(p1)
N
1.6
x = (x1 , x2 , , xN ).
R
R
ln f (X,)
ln L()
=E
, X = (X1 , X2 , , XN ).
E
Si
b() = E (T (X1 , X2 , , XN ) )
es el sesgo del estimador T del parmetro y calculamos su derivada, se
tendr
Z
0
1 + b () =
E (T (X1 , X2 , , XN )) =
T ( x)f ( x; )dx1 dx2 dxN
RN
Si admitimos que esta ltima integral se puede derivar bajo el signo de integral respecto al parmetro , obtenemos las siguientes igualdades:
R
f ( x ,)
1
T
(
x)
f ( x; )dx1 dx2 dxN =
R
f ( x ;)
R
ln f (X,)
ln L()
ln L()
= E T (X)
E lnL() =
E T (X)
ln L()
E T (X)
ln L()
= 0.
puesto que E
18
1.6.1
Desigualdad de Crmer-Rao:
ln
L()
2
(1 + b0 ()) E T (X)
E
,
b() = 0, b0 () = 0, E T (X)
= V ar(T (X))
ln L()
1 V ar(T (X))E
.
ln L()
ln L()
= E
E
2
ya que:
2 ln L()
2
1 2 L()
L() 2
2 ln L()
2
ln L()
1 L()
L()
= E
=
2
ln L()
1 L()
L()
1 2 L()
L() 2
2
si 0 =
ln L()
RN
f ( x ,)
dx1 dx2
dxN
puesto que
i R
h
2
1 2 L()
E L() 2 = RN 1 f(2x,) f ( x, )dx1 dx2 dxN =
f ( x ,)
R 2 f (
R f (
x ,)
x ,)
ln L()
E T (X)
E
19
OBSERVACIONES:
1. La desigualdad de Crmer-Rao proporciona una cota inferior del error cuadrtico medio de un estimador. En particular, para los estimadores insesgados, proporciona una cota inferior para la varianza del
estimador. Esta cota inferior no tiene por qu ser alcanzada, pero si se
encuentra un estimador insesgado cuya varianza es:
"
2 !#1
ln L()
E
Eficiencia de T =
V ar(T )
4. Un estimador insesgado de varianza mnima tiene eficiencia igual a
1; tal estimador suele llamarse Estimador Eficiente. Si la sucesin de
eficiencias de una sucesin de estimadores insesgados tiende a 1, la
sucesin se dice que es asintticamente eficiente.
EJEMPLO: El estimador de mxima verosimilitud del parmetro de
la distribucin de Poisson tiene varianza mnima, es decir, es un estimador
eficiente; en efecto:
i
r
X
e
ln L() =
fi ln
i!
i=0
20
donde fi, 0 i r son las frecuencias de los valores 0, 1, 2, , r representados en la muestra x1 , x2 , , xN con max(x1 , x2 , , xN ) = r. Derivando
con respecto al parmetro e igualando a cero, obtenemos que el estimador de
mxima verosimilitud del parmetro es
N
1 X
=X=
Xi ,
N i=1
adems la cota de Crmer-Rao coincide con la varianza del estimador que es:
_
V ar(X) =
pues:
E
ln L()
por lo tanto:
2 !
_
2 N 2
_
N2
N
= 2 E X
= 2 V ar(X) =
"
2 !#1
_
ln L()
E
=
= V ar(X),
N
_
1.7
Estadsticos Suficientes.
1 x1 ++xN = 1 N _x
e
e ; x1 , x2 , , xN > 0
N
N
22
(, t) =
as
L = h(x1 , , xN )(, T (x1 , , xN ))
Observacin: Los estadsticos suficientes no son nicos en el sentido que
n
n
P
P
si
xi es suficiente para en un modelo de Poisson, tambin lo ser n1
xi
i=1
n
P
1
8
i=1
i=1
23
DISTRIBUCIONES DE PROBABILIDAD.
ESTADSTICA
PRCTICA N0 4
1. Determine la varianza de la distribucin de Poisson basndose en su
funcin generatriz de momentos ( o transformada geomtrica).
2. Sea X una variable aleatoria de densidad expenencial, de parmetro
= 1.
Determine la funcin de densidad de
Y = X3
3. Sean X e Y dos variables aleatorias independientes, f y g las densidades de X e Y respectivamente, con X > 0. Calcule la densidad de la
variable aleatoria
Y
Z=
X
Y
h
2
1
1)
exp 2(12 ) (x
2
1
2(x1 )(y1 )
1 2
(y2 )2
22
21 12
12 22
1
1 1 t
f (x, y) =
exp zC z
2
2 1 2 1
1
1 1 t
f (x1 , x2 , x3 , , xn ) =
exp zC z
n
2
(2) 2
Diag(C) = 21 , 22 , 2n
Calcule C 1 .
2 s2
2
(1/2) 2 y (n2)/2 e 2
fY (y) =
(n/2)
Esta distribucin recibe el nombre de chi-cuadrado (X 2 ) con n
grados de libertad.
7. Sea X una variable aleatoria N(0, 1). Y una variable aleatoria chicuadrado (X 2 ) con n grados de libertad. Si X e Y son independientes,
definimos T como:
X
T = n .
Y
Demuestre que la densidad de T viene dada por:
)
( n+1
1
2
, t (, )
fT (t) =
n(n/2) (1 + t2 ) n+1
2
n
Sugerencia: calcule Ft (t) = P (T t) = P X tn Y , utilizando la
densidad conjunta de X e Y, luego derive respecto a t.
8. Sean X1 , X2 , X3 , , Xn variables aleatorias independientes, normales
N(i , 2i ), i = 1, 2, , n. Demuestre que la variable aleatoria:
X = a1 X1 + a2 X2 + a3 X3 + + an Xn
tiene distribucin N(, 2 ), donde
2
= a1 1 + a2 2 + a3 3 + + an n , =
n
X
a2i 2i
i=1
(a) Sea X =
1
n
n
P
i=1
n grados de libertad.
_
n
P
(c) Sea S 2 = n1 (Xi X)2 . Verifique que:
i=1
n
_
nS 2
1 X
2
(X
X)
=
.
i
2 i=1
2
Yi 2 =
i=1
n
X
Zi 2
i=1
v. Deduzca que
libertad.
nS 2
2
1 Yn + . Deduzca
n
_
n
P
1
2
(X
X)
i
n1
i=1
i. Verifique que:
nS 2
(n 1)S12
=
2
2
ii. Sean
(X )
(n 1)S12
X= n
.
;Y =
2
Verifique que X es normal estndar e Y es X 2 con n1 grados
de libertad. Adems X e Y son independientes.
iii. Verifique que:
_
X
n 1X
n=
S1
Y
5
X
n
S1
es t student con (n 1) grados de libertad.
Abril-Julio 2004/MMOM
ESTIMADORES PUNTUALES
ESTADSTICA -PRCTICA No 5
b = E .
V ar() + b2 .
V ar(1 ) = 21 , V ar(2 ) = 22
Demuestre que si a es un nmero real, entonces:
3 = a1 + (1 a)2
f (y) =
0
si no
Considere los 5 siguientes estimadores de :
1 = Y1 , 2 =
Y1 + Y2
Y1 + 2Y2
, 3 =
, 4 = min(Y1 , Y2 , Y3 ), 5 = Y
2
3
specto a 5 .
4. El nmero de fallas por semanas de un cierto tipo de mini- computadoras es una variable aleatoria Y con distribucin de Poisson de parmetro
. Se dispone de una muestra aleatoria simple Y1 , Y2 , Y3 , , Yn de Y.
(a) Sugiera dos estimadores insesgados para .
(b) El costo semanal de reparacin de estas fallas es la v.a.
C = 3Y + Y 2
Demuestre que
E (C) = 4 + 2
(c) Obtenga una funcin de Y1 , Y2 , Y3 , , Yn , que sea un estimador
insesgado de E (C) .
5. Sea X1 , X2 , X3 , , Xn una muestra aleatoria simple de una distribucin de Bernoulli de parmetro p.
_
nX(1 X)
?Es ste un estimador insesgado de la varianza de la distribucin?
(c) Modifique adecuadamente el estimador anterior para obtener un
estimador insesgado de la varianza.
6. Sea X1 , X2 , X3 , , Xn una muestra aleatoria simple de una distribucin normal N(1 , 21 ) y Y1 , Y2 , Y3 , , Ym una muestra aleatoria simple
de una distribucin normal N(2 , 22 ), supongamos que las Xi, Yj , son
independientes entre s.
_
(b) Sean:
S12 =
Sp =
1
n1
n
P
i=1
(n1)S12 +(m1)S22
n+m2
1
m1
n
P
(Yi Y )2
i=1
10. Demuestre que la media muestral X es un estimador insesgado de varianza mnima del parmetro de una poblasin de Poisson.
M.M.O.M./Abril 2004
Mtodos de Estimacin.
Estadstica
Prctica No 6
1. Dada una muestra aleatoria simple de tamao n de una variable aleatoria X, calcular el estimador de mxima verosimilitud y de los momentos
cuando X tiene las siguientes distribuciones:
(a) Bernoulli de parmetro p.
(b) Poisson de parmetro .
(c) Exponencial de parmetro .
(d) N(, 2 ) con y desconocido.
(e) N(, 2 ) con conocido y desconocido.
(f) N(, 2 ) con desconocido y conocido.
Hallar en cada caso las propiedades del estimador obtenido: sesgo,
consistencia, eficiencia.
2. Hallar por el mtodo de los momentos los estimadores de y para
la funcin Gamma (, ).
3. La muestra 1.3, 0.6, 1.7, 2.2, 0.3, 1.1 proviene de una distribucin uniforme en [0, b] . Encontrar los valores numricos de los estimadores de b
obtenidos por los mtodos de mxima verosimilitud y de los momentos.
4. El nmero de defectos congnitos de un individuo en una cierta poblacin
sigue una distribucin de Poisson de parmetro . De una muestra de
n = 50 individuos de la poblacin, se observaron los siguientes datos:
No de defectos 1 2 3 4
Frecuencias
31 15 4 0
Hallar el estimador de mxima verosimilitud del parmetro .
5. Una variable aleatoria discreta toma los valores 0, 1 y 2 con:
P (0) = p2 , P (1) = 2p(1 p), P (2) = (1 p)2 ,
donde 0 < p < 1 es un parmetro desconocido. Hallar la estimacin
mximo verosmil de p a partir de una muestra de tamao n = 100 en
la que se ha presentado 23 veces el 0, 52 veces el 1 y 25 veces el 2.
1
(xi )2 =
n
X
_
2
_ 2
xi x + n x
i=1
)
n exp
2 2
(2) 2
_
Captulo III
Intervalos de Confianza
Mara Margarita Olivares
Mayo 2004
1
1.1
P X < 120 = 0, 95
o equivalentemente
_
P X 120 < < X + 120 = 0, 95
_
_
_
Observe que X 120, X + 120 es un intervalo aleatorio y la probabilidad de que la verdadera media est all es de 0, 95. Si se obtuviesen 100
muestras del mismo tamao en forma repetida de una poblacin
y para cada
_
muestra se calculan las madias observadas y sustituimos x en el intervalo
aleatorio debe esperarse que 95 de ellos contenagan el verdadero valor de la
media desconocida. El intervalo
(80, 320)
no es ms que una
_ especfico
_
realizacin del intervalo aleatorio X 120, X + 120 en base a los datos de
_
x _= 200. El
valor
de probabilidad
una sola muestra en la cual sustituimos
_
0, 95 se refiere slo al intervalo aleatorio X 120, X + 120 , es incorrecto
decir que la probabilidad de que (80, 320) es de 0, 95 pues aqu slo hay
constantes, nada es aleatorio, lo que se puede decir que con una confianza
de 0, 95 podemos decir que (80, 320) , lo cual es una alta confianza. Asi
que no es correcto escribir P (80 < < 320) = 0, 95, en algunos textos lo
escriben abusando del lenguaje probabilstico pero debe entenderse como se
explic arriba. De acuerdo a estas aclaratorias, el intervalo (80, 320) recibe
el nombre de intervalo de confianza del 95% para .
2
1.1.1
Definicin:
Definicin:
x = (x1 , x2 , , xn ) Rn
1.1.4
Observaciones:
1. Si
C(X1 , X2 , , Xn ) = (T1 (X1 , X2 , , Xn ), T2 (X1 , X2 , , Xn )
es un intervalo de confianza para al nivel 1 a menudo se dice que
constituye un intervalo de confianza de 100(1 )% o con coeficiente
de confianza 100(1 )%.
2. El coeficiente de confianza 1 es un valor que elige el experimentador.
Suele tomarse = 0, 10 ( 0, 05 0, 01), es decir 100(1 )% ser 90%
respectivamente 95% 99%.
3. El coeficiente de confianza representa la probabilidad proporcin de
veces que los intervalos conocidos contendrn el verdadero valor de .
4. El valor desconocido es constante, mientras que los intervalos obtenidos
son aleatorios puesto que sus extremos dependen de la muestra aleatoria.
As, un intervalo de confianza del 95% ( una estimacin por intervalos
al nivel 0, 95) no es un intervalo fijo que contiene a con probabilidad
0, 95, sto no tendra sentido pues si el intervalo es fijo el parmetro estar o no en l ( la probabilidad sera cero uno). Luego, al evaluar los
extremos del intervalo a partir de la muestra observada x1 , x2 , , xn ,
lo que podemos decir es que si se repitieran las n observaciones varias
veces al menos el 95% de las veces acertaremos, es decir, estar en el
intervalo obtenido.
5. Si podemos elegir entre varios mtodos que dan lugar a diferentes intervalos de confianza para un parmetro desconocido , trataremos de
elegir el que nos proporcione el intervalo de menor longitud.
6. Si hay varios parmetros desconocidos hallaremos regiones de confianza
o intervalos de confianza para cada uno de ellos.
1.2
1.2.1
(X ) (X )
= n
Z=
/ n
el cual tiene distribucin normal N(0, 1). Sea z 2 el valor tal que si Z es
normal estndar satisface:
P Z > z 2 = .
2
P Z < z 2 = ,
2
por lo tanto
P z 2 < Z < z 2 = 1
_
_
P X z 2 < < X + z 2 = 1
n
n
es decir, con probabilidad 1 , se encuentra en el intervalo aleatorio
_
_
X z2 ,X + z2 ;
n
n
_
_
I = x z 2 , x + z 2
n
n
_
1
n
n
P
i=1
1.2.2
Ejemplos:
1. A partir de una muestra aleatoria simple X1 , X2 , , Xn de la distribucin N(, 1) construir un intervalo de confianza para al nivel 95%
siendo la media observada
_
x = 3, 05; n = 100.
Usando el procedimiento anteriormente desarrollado, se obtienen que
el intervalo de confianza al nivel 95% es:
_
z0,025 _ z0,025
,X +
X
10
10
= 0, 025
2
de donde
P (Z z0,025 ) = 1 0, 025 = 0, 975.
De aqu se obtiene que
z0,025 = 1, 96.
Luego el intervalo de confianza es
_
_
X 0, 196, X + 0, 196
Basndonos en nuestras observaciones, sustituimos X por su valor observado para obtener como estimacin del intervalo
I = (2.85, 3.25)
al nivel de confianza de 95%.
2. Si en el ejemplo anterior se desea estimar el tamao necesario de la
muestra de_ manera tal que con probabilidad 1 = 0, 95 la media
muestral X se encuentre en un intervalo igual a = 0, 20 unidades
alrededor de la media de la distribucin se procede de la siguiente
manera: puesto que en en este caso
_
1
1
P z 2 < X < z 2 = 1 = 0.95
n
n
6
X ( 0.20, + 0.20)
con probabilidad 0.95, tomamos = 1n z 2 = 0.20, hemos calculado en
este caso z 2 y obtuvimos 1.96, despejando n en la ltima ecuacin se
tiene que
2
1.96
n=
= 96.04
0.20
Si tomamos
n = 97 podemos confiar en que si estimamos por medio
_
de X el error ser menor que 0.20 para el nivel 0.95.
1.2.3
(X)
(X)
=
n
/ n
2
(n1)S1
2
es Xn1
2
es N(0, 1)
(X )
(X )
=
S1 / n
S/ n 1
tiene distribucin t de Studente con n 1 grados de libertad, donde
_
_
1 X
1X
=
(xi x)2 , S 2 =
(xi x)2 .
n 1 i=1
n i=1
n
S12
Tn1 = (SX)
1/ n
E (Tn1 ) = 0, V ar(Tn1 ) =
n
, lim V
n2 n
ar(Tn1 ) = 1.
Usaremos una notacin anloga al caso anterior, llamando tn1, 2 el valor tal
que si Tn1 es tStudent con n 1 grados de libertad
(X)
_
_
P X S1n tn1, 2 < < X + S1n tn1, 2 = 1
siendo, el intervalo aleatorio
_
_
S1
S1
X tn1, 2 , X + tn1, 2
n
n
_
_
s1
s1
I = x tn1, 2 , x + tn1, 2
n
n
_
1.3
1.3.1
X)
=
,
i
2 i=1
2
2
2
P a < Xn1
< b = 1 , P Xn1
b = P Xn1
a =
2
8
(n 1)S12
2
2
< xn1, = 1
P xn1,1 <
2
2
2
despejando 2 obtenemos:
!
2
(n 1)S12
(n
1)S
1
P
=1
< 2 <
x2n1,1
x2n1,
2
!
2
2
(n 1)S1 (n 1)S1
, 2
x2n1,1
xn1,
2
!
nS 2
nS 2
.
,
x2n1,1 x2n1,
2
1.3.2
n
S2,
n1
1.4
21 22
+
0, n1 , n2 .
n1 n2
El estadstico
X Y (1 2 )
q 2
Z=
1
2
+ n22
n1
se tiene que
P Z > z 2 =
2
P z 2 < Z < z 2 = 1
despejando 1 2 , obtenemos:
s
s
2
2
2
2
_
_
_
_
1 2
1 2
+
1 2 X Y + z 2
+
P X Y z 2
= 1 .
n1 n2
n1 n2
s
s
2
2 _
2
2
_
_
_
X Y z 1 + 2 , X Y + z 1 + 2 .
2
2
n1 n2
n1 n2
10
1.4.2
Ejemplo:
Y
= 1300
n1
n2
Si
1 = 2 = , X1 , X2 , , Xn e Y1 , Y2 , , Yn
X Y (1 2 )
q
T =
1
+ n12 Sp
n1
con
Sp2 =
siendo
S12 =
1
2
_
_
1 X
1 X
(Xi X)2 , S22 =
(Yi Y )2 .
n1 1 i=1
n2 1 i=1
11
P Tn1 +n2 2 tn1 +n2 2 , 2 = .
2
Despejando 1 2 obtenemos:
_
q
q
_
_
_
P X Y Sp tn1 +n2 2 , 2 n11 + n12 1 2 X Y + Sp tn1 +n2 2 , 2 n11 +
1
De aqu se deduce que el intervalo de confianza aleatorio para 1 2
cuando 1 = 2 = es desconocido ser
r
r
_
_
_
1
1
1 _
1
.
X Y Sp tn1 +n2 2 , 2
+ , X Y + Sp tn1 +n2 2 , 2
+
n1 n2
n1 n2
1.4.4
Observacin:
12
Y1
n1
Y2
n2
1
n2
n1
n1 +2 n2
n1 2
z 2 1
fF (z) = n1 n2
n1 +2 n2 , si z 0
n2
2 2
n1 z
1 + n2
Y2
n2
Y1
n1
1
fn1 ,n21;
por lo tanto
=
1 = P Fn1 ,n2 fn1 ,n21; = P Fn2 ,n1 fn ,n1
1 21;
21;
1.5
1
fn2 ,n1 ;
1
2
cuando 1 y 2 no se
Consideramos el estadstico
Fn1 1,n2 2 =
21;
S12
21
S22
22
13
(n1 1)
2
S1
2
1
(n1 1)
(n2 1)
2
S2
2
2
(n2 1)
S2
S12
1
S12
,
fn2 1,n1 1, 2
I=
S22 fn1 1,n2 1, 2 S22
1
y
al nivel 1 , donde fn2 1,n1 1, 2 = f
n1 1,n2 1,1
2
1.6
1.6.1
S1
21
S22
22
14
Si = p(1 p) es conocido:
Si = p(1 p) es desconocido:
La distribucin de
X p
q
p(1p)
n
X p
q
p(1 p)
n
p(1 p)
n
p(1p)
n
p(1 p)
n
p(1 p)
n
X p
P z 2 < q < z 2 = 1
y de aqu:
P X z 2
p(1 p)
n
p(1 p)
< p < X + z 2
n
15
p(1 p)
=1
n
_
p(1 p) _
p(1 p)
, X + z 2
I = X z 2
n
n
p(1 p)
, donde z 2 verifica:
relativa de xitos es de z 2
n
P Z > z 2 =
2
Comparacin de proporciones:
_
_
_
_
_
_
_
_
_
_
X Y z X(1 X) + Y (1 Y ) , X Y + z X(1 X) + Y (1 Y )
2
2
n1
n2
n1
n2
1.6.5
_
X
P z 2 < q
< z 2 = 1
16
r
r !
_
_
< < X + z 2
=1
P X z 2
n
n
de este igualdad, usando el mtodo grfico para resolver inecuaciones, se
obtiene:
s _
s _
2
2
2
2
_
_
z
z
z
z
4X
4X
1
1
I = X + 2 z 2
+ 22 , X + 2 + z 2
+ 22
n
2
n
n
n
2
n
n
en la prctica, se opera como en el caso de la distribucin de Bernoulli, es
X
q
s
s
_
I = X z 2
1.6.6
< < X + z 2
n
.
n
Ejercicio:
f (x) =
1.7
x
1
e ,x
>0
si no.
1 2
E Y
2
Si R() = E
y Y =
obtenemos que
R()
de aqu se obtiene
2
1 2
1
E
Y
,
pues
E
Y =1
=
2
2
1
P 1 2
R()
1
P R() + R() 1 2 .
1.8
P a() b() = 1
y despejando el parmetro se obtiene el intervalo de confianza.
1.8.1
n
; si
n+1
tomamos =
18
n+1
n
max(X1 , X2 , , Xn ), es ins-
La densidad de es:
f (x) =
nn+1 xn1
,0
(n+1)n n
0 si no
n+1
P a b = 1 = 0.90
P a = 0.05, P b = 0.05
1 n + 1
1 n + 1
n
n
(0.95)
= 0.90
P (0.05)
n
n
de donde:
!
max(X1 , X2 , , Xn )
max(X1 , X2 , , Xn )
P
= 0.90
1
1
(0.95) n
(0.05) n
Observe que si estimamos por max(X1 , X2 , , Xn ) se obtiene el mismo intyervalo de confianza para .
1.9
Datos Apareados:
Si es conocido:
+ z
z , D
I= D
2
2
n
n
Si es desconocido:
S1
S1
I = D tn1, 2 , D + tn1, 2
n
n
19
1.9.2
!
(n 1)S12 (n 1)S12
I=
, 2
2
Xn1,
Xn1,1
donde
1 X
2.
=
(Di D)
n 1 i=1
n
S12
Note que si
20
508
504
493
509
499
510
496
496
497
512
506
505
Si el peso de cada caja es una variable aleatoria normal con una desviacin
estndar igual a = 5grs., obtenga los intervalos de confianza estimados del 90%, 95% y 99% para la media de llenada del proceso.
2. Una finca cuadrada tiene lado L. Suponga que, si medimos esta longitud L, la medicin, debido a diversos errores, sigue una distribucin
N(L, 1).
En 100 mediciones se ha obtenido una media muestral de 325mts..Si
usamos sta como estimacin de L, obtenga un intervalo de confianza
de 95% para L. Calcule el mnimo tamao que debe tener la muestra
para que en la estimacin de L se cometa un error mximo de 0.1mts.
con una probabilidad de 0.95.
3. Se hace un envo de latas de conserva, de las que se afirma que el peso
medio es de 1000grs.. Se examina una muestra de 5 latas, obtenindose
los siguientes pesos:
995 992 1005 998 1000
en gramos. Encuentre un intervalo de confianza del 95% para el peso
medio de las latas. En base al intervalo obtenido, aceptara Ud. la
afirmacin de que = 1000grs.?
4. Un fabricante de cauchos asegura que un tipo de caucho tiene una
vida til media de aproximadamente 43000 millas. Para verificar esta
afirmacin se prueban 10 cauchos en una rueda de prueba que simula las
z 2
2
4e2
4. En una cierta poblacin se desea conocer la proporcin de individuos alrgicos al polen de Acacias. En 100 individuos escogidos al azar se observaron
10 alrgicos.
1. Hallar el intervalo de confianza del 95% de la proporcin pedida.
2. Cuntos individuos se deberan observar para que, con probabilidad
0.95, el error mximo en la estimacin de alrgicos sea del 1%.
3. Conteste la pregunta anterior si Ud. no dispone de ninguna muestra
ya examinada de la poblacin.
5. Un remedio tpico para la calvicie, el Minoxidil, se administr a un grupo
de 310 hombres calvos, de los cuales el 32% observ crecimiento de cabello
nuevo. Simultneamente se administr un placebo a un grupo de 309 hombres calvos, de los cuales 20% observ crecimiento de cabello nuevo. A
partir de estos datos, al nivel de confianza del 95%, qu puede decir de la
efectividad del Minoxidil?.
6. Se supone que el nmero de erratas por pgina de un cierto libro sigue una
distribucin de Poisson. Elegidas al azar 95 pginas se obtuvo:
Nmero de erratas 0 1 2 3 4 5
Nmero de pginas 40 30 15 7 2 1
Hallar el intervalo de confianza del 90% para el nmero medio de erratas por
pgina en el libro.
1. Usando el Teorema Central del Lmite.
2. Usando la desigualdad de Chebychev.
7. Sea X una variable aleatoria con distribucin Gamma de parmetro p = 2
y desconocido, es decir la densidad de X es:
f (x) =
2
xex , x > 0.
(2)
2. Construir un intervalo para el cociente de las varianzas al 95% de confianza.? Es posible suponer que las varianzas son iguales?
3. Utilizando el mismo estimador de la varianza comn hallado en la
primera parte de este ejercicio, halle el tamao muestral n de ambas muestras para que al nivel de 95%, la longitud del intervalo de
confianza para la diferencia de las medias sea 8 unidades.
10. Suponga que se mide un objeto independientemente con dos procedimientos de medidas diferentes. Sean L1 y L2 las longitudes medidas obtenidas
con cada mtodo. Si cada mtodo est correctamente calibrado podemos
suponer que E(L1 ) = E(L2 ) = L, la longitud verdadera. Los mtodos no
tienen necesariamente la misma exactitud, si medimos la exactitud mediante
la varianza, entonves V ar(L1 ) 6= V ar (L2 ) . Si Z = aL1 + (1 a)L2 como
nuestro estimador de L, es inmediato verificar que es insesgado. ?Para qu
valor de a (0, 1) es mnima la varianza de Z?
11. Una muestra de 400 candidatos polticos, 200 escogidos al azar en el este y
200 en el oeste, se clasific teniendo en cuenta si el candidato tuvo respaldo
de un sindicato nacional y si el candidato gan la eleccin. Un resumen de
los datos es el siguiente:
Oeste Este
Ganadores respaldados por el sindicato 120 142
Encuentre un intervalo de confianza del 95% para la diferencia entre las
proporciones de ganadores respaldados por el sindicato, en el oeste y en el
este.
MMOM/04
Captulo IV
Prueba de Hiptesis
Mara Margarita Olivares
Mayo 2004
Introduccin:
como regin de rechazo y los otros valores como regin de aceptacin, puesto
que observamos Y = 8 personas sin resfriado, rechazamos la hiptesis nula
de que la vacuna es ineficaz y conclumos que la probabilidad de pasar el
invierno sin ningn resfriado es mayor que p = 12 cuando se usa la vacuna.
Podramos preguntarnos: ? cul es la probabilidad de rechazar la hiptesis nula siendo cierta?. Esto no es ms que la probabilidad del evento
{Y = 8 o9 o10}
si p =
1
2
y esta probabilidad es
P (Y = 8 o Y = 9 o Y = 10) =
10 k 10k
X
10
1
1
k=8
= 0, 055
Estos valores
= 0.055, 0.9 = 0.07
dan una medida de los riesgos de cometer alguno de los errores posibles para
esta prueba.
Conceptos Bsicos:
2.1
La Hiptesis Nula:
2.2
La Hiptesis Alternativa:
2.3
El Estadstico de Prueba:
La decisin de rechazar o de aceptar la hiptesis nula se basa en la informacin contenida en una muestra extrada de la poblacin de inters. Los
valores de la muestra se usan para calcular un slo nmero, este nmero
acta como ente que toma decisiones y lo llamamos estadstico de prueba.
2.4
Regin de Rechazo:
2.5
Tipos de Errores:
2.6
Potencia de la Prueba:
= 1 = PH1 (T (X1 , X2 , , Xn ) R)
Observaciones:
1. Las notaciones
P (T (X1 , X2 , , Xn ) R | H0 ) y P (T (X1 , X2 , , Xn ) R | H1 )
no corresponden a probabilidades condicionales sino a probabilidades
correspondientes a un valor del parmetro compatible con cada una de
las hiptesis, para evitar confucin es preferible utilizar las notaciones
PH1 T (X1 , X2 , , Xn ) Rc ) y PH0 (T (X1 , X2 , , Xn ) R) sinembargo utilizaremos las dos notaciones indistintamente..
2. Si H0 es simple, por ejemplo H0 : p = p0
= P (T (X1 , X2 , , Xn ) R | p = p0 )
es el nivel de la prueba. Si H0 es compuesta, por ejemplo, p [a, b] , se
suele llamar el nivel de la prueba a :
sup P (T (X1 , X2 , , Xn ) R | p) = = sup (p)
p[a,b]
p[a,b]
La siguiente tabla muestra las cuatro situaciones que pueden darse segn
se cumpla o no H0 y segn decidamos o no rechazarla:
Realidad
Se cumple H0
No se cumple H0
Rechazar H0
T (X1 , X2 , , Xn ) R
Error I(prob.)
Probabilidad 1 =
No rechazar H0
T (X1 , X2 , , Xn )
/R
Probabilidad 1
Error II(prob.)
2.7
2.8
P z 2 Z z 2 = 1
, z 2 z 2 ,
P-valor
n(x 0 )
(x1 , , xn ) :
>c
!
_
n(X )
0
PH0
>c =
0)
Si n(x
> c, asumimos H1
0)
Si n( x
c, asumimos H0
_
n(X )
0
la funcin u PH0
!
_
n(X )
0
PH0
>u uc
_
!
n(X )
0
PH0
> |Tobs |
_
n(X0 )
rechazamos H0 .
_
n(X )
0
La expresin P
Esta tcnica expuesta para hallar el p-valor asociado a una prueba estadstica se generaliza fcilmente a las pruebas que se desarrollarn ms adelante
sutituyendo el estadstico de prueba por el correspondiente en cada caso. Se
debe sealar que hay queser cuidadoso con aquellas distribuciones que no
sean simtricas respecto al origen (chi-cuadrado, distibucin F)
1. (a) EJEMPLO: Se desea probar al 95% de certeza la hiptesis nula
siguiente:
una poblacin estadstica normal tiene media cero, basndose en
una muestra de tamao n = 9 y suponiendo que = 1(es conocida), contra la alternativa que la media es positiva.
Hallemos la regin crtica al nivel = 1 0.95 = 0.05
H0 : = 0 H1 : > 0
que es una prueba unilateral. El estadstico de prueba es:
_
_
nX _
Z=
= 9X = 3X
1, 6448
= 0, 5483
3
La regin de rechazo se puede expresar como
X>
X > 0, 5483
El error de tipo I es = 0.05
Si = 1 > 0, el error de tipo II se calcula a partir de
_
(1 ) = P X 0, 5483 | = 1 =
_
!
X 1
3 (0, 5483 1 ) | = 1
P
1/ 9
11
si en particular 1 = 1
_
= P X 0, 5483 | = 1 =
_
!
X 1
1, 3551 | = 1
P
1/ 9
_
X1
tiene distribucin N(0, 1) si = 1, de aqu obtenemos
donde 1/
1
9
= 0, 0877.
, tn1, 2 tn1, 2 ,
H1 : < 2000
T = 1, 9206145
/R
H1 : 2 > 20 2 < 20
(n 1)S12
20
0, x2n1,1
x2n1, , .
2
H1 : 2 > 20 = 0.05
P X 2 > 4, 4 = 0, 35457
13
Si 2 = 0.08, la potencia
(n 1)S12
2
2
R= X =
> 9, 488 = x4,
20
(n 1)S12
20
(n 1)S12
(n 1)S12
> 9, 488 =
> 2 9, 488 =
> 5.93
20
2
2
(n1)S 2
1
Bajo la hiptesis alternativa 2 = 0.08,
tiene distribucin Chi2
cuadrado con 4 grados de libertad, usando la tabla se obtiene que:
(n 1)S12
2
P
> 5.93 | = 0.08 = 0.20
2
2.8.2
Sea X N(1 , 21 ), Y N(2 , 22 ), X1 , , Xn1 una muestra aleatoria simple de X y Y1 , , Yn2 una muestra aleatoria simple de Y . Las muestras X
e Y son independientes.
Comparacin de Medias:
H0 : 1 = 2 , H1 : 1 > 2 1 < 2
1. Si 1 y 2 son conocidos, el estadstico de prueba es:
_
X Y (1 2 )
X Y
q 2
Z=
=q 2
2
1
2
1
22
+
+
n1
n2
n1
n2
P z 2 Z z 2 = 1
R = , z 2 z 2 ,
14
X Y (1 2 )
X Y
q
= q
T =
Sp n11 + n12
Sp n11 +
1
n2
t Student con n1 + n2 2
R = , tn1, 2 tn1, 2 , .
Comparacin de Varianzas:
H0 : 21 = 22 , H1 : 21 > 22 o 21 < 22
El estadstico de prueba es:
F =
S12
S22
1
donde fn1 1,n2 1,1 2 = f
. La regin de rechazo bilateral viene dada
n2 1,n1 1,
2
por:
[
R = 0, fn1 1,n2 1,1 2
fn1 1,n2 1, 2 ,
2.8.3
Datos Apareados:
Z=
16
T =
D
S1
S12
,
z
,
z
2
2
tn1; 2 ,
, tn1; 2
D = 0, 48
S1 = 0, 0837
(si hubisemos considerado dos muestras independientes, se hubiese obtenido
Sp = 1, 32). El estadstico de prueba tiene distribucin T-estudent con 4
grados de libertad
_
D
T = S1
2.8.4
X p0
N(0, 1)
Z=q
p0 (1p0 )
n
R = , z 2 z 2 ,
X 0
Z= q
N (0, 1)
0
n
2.8.5
R = , z 2 z 2 ,
Comparacin de proporciones:
n1 X + n2 Y
p=
,
n1 + n2
18
X Y
Z=r
_
_
p(1 p) n11 +
1
n2
R = , z 2 z 2 , .
2.9
Ejemplo:
Sea X1 , , Xn es una muestra aleatoria de tamao n de una poblacin
normal de media desconocida y varianza 2 conocida. Determinar la mejor
regin crtica de tamao para probar
H0 : = 0
H1 : = 1
en donde 1 > 0 . Las funciones de verosimilitud bajo cada hiptesis son:
n
P
2
2
2
exp (xi 0 ) /2
L0 (x1 , , xn ; 0 ) =
i=1
n
n
P
2
exp (xi 1 )2 /2 2
L1 (x1 , , xn ; 1 ) =
i=1
n
P
2
2
exp (xi 0 ) /2
k
i=1
n
P
2
2
exp (xi 1 ) /2
i=1
i=1
n(21 20 ) 2 2 ln(k)
2(1 0 )
esta expresin define la mejor regin crtica para esta prueba, donde 1 >
0 , de manera sencilla, la mejor
regin crtica es el extremo derecho de la
_
distribucin
de muestreo de X bajo la hiptesis nula, es decir, dado , el valor
_
crtico x0 puede encontrarse mediante una adecuada eleccin de la constante
k > 0, de manera tal que
_
_
P X x0 | = 0 =
20
_
x0 0
| = 0 = 0.05
P Z
/ n
_
_
x0 0
1,645
+0 . Note que esta mejor regin crtica no depende de 1 > 0 , por lo
n
que esta regin crtica recibe el nombre de regin ( o prueba) uniformemente
ms potente para probar H0 : = 0 contra H1 : = 1 > 0 .
Observe que esta regin coincide con la expuesta anteriormente para este
tipo de prueba de hiptesis unilateral en este caso especfico. Hemos enunciado este lema y expuesto este ejemplo de manera de justificar en cierto
modo las regiones crticas seleccionadas para cada uno de los casos presentados en esta gua.
21
Prctica No 9
Estadstica
1. Para probar la hiptesis de que una moneda est bien hecha, se toma la
siguiente regla de decisin: se acepta la hiptesis si el nmero de caras
obtenido en una serie de 100 lanzamientos se encuentra entre 40 y 60
(ambos inclusive). De otro modo se rechaza.
(a) Hallar la probabilidad de rechazar la hiptesis cuando en realidad
es cierta.
(b) Cul es la probabilidad de aceptar la hiptesis de que la moneda
est bien hecha cuando la probabilidad real de obtener cara es
p = 0.7?
(c) Denotemos por la probabilidad de la parte anterior (probabilidad de error de tipo II). El siguiente cuadro muestra los valores
de correspondientes a distintos valores de p :
p 0.1 0.2 0.3
0.4
0.5
0.6
0.7
0.8 0.9
0.00 0.00 0.0192 0.504 0.9642 0.504 0.0192 0.00 0.00
Haga un grfico de y de 1 en funcin de p. Cmo deberan
ser los grficos ideales?
2. Se recibe un envo de latas de conserva, de las que se afirma que el peso
medio son 1000 gramos. Examinamos una muestra de 5 de estas latas,
obteniendo que el peso medio de la muestra es de 995 grs. Al nivel de
confianza 95% se puede aceptar que el peso medio es 100gramos?. Cul
es el mximo valor para el nivel de significacin que permitira aceptar
la hipotsis de la empresa de latas de conserva?(Este valor se denomina p valor o valor de significacin observado). Suponga distribucin
normal.
3. Una compaa est interesada en determinar si el promedio de Kms.
rodados por vehculos en un mes, de su flota de vehculos asignados
a vendedores, ha aumentado por encima del promedio usual de 2600
Kms. Supongamos que la desviacin es conocida e igual a 35 Kms.
Despus de examinar 400 vehculos de la flota, en un mes dado, se
encontr que el promedio de rodaje de stos, fue de 2640 Kms. ( es
decir, hubo un aumento de 1,5% en el rodaje medio mensual para los
vehculos de la muestra).
1
(a) Para = 0, 05 diga si estos datos permiten concluir que la administracin de 650 mgs. de aspirina tiene algn efecto sobre el
tiempo de protombina. Hgalo de dos maneras:
i. Por medio de una prueba de hiptesis bilateral.
ii. Por medio de un intervalo de confianza.
(b) Utilice la tabla para obtener el p valor aproximado.
7. Los electro encefalogramas muestran las fluctuaciones de la actividad
elctrica en el cerebro. Hay diversos tipos de ondas cerebrales: una
de ellas son las ondas alfa, cuya frecuencia vara entre 8 y13 ciclos por
segundo. Un grupo de mdicos canadienses realiz un estudio acerca
de los efectos de la deprivacin sensorial en los patrones de emisin de
ondas alfa. Se estudiaron 20 presos, que se dividieron en dos grupos de
10. Cada individuo del primer grupo fue recluido en celda solitaria, los
del segundo en celdas usuales. Despus de 7 das se midieron las ondas
alfa, obteniendo:
Celdas usuales 10, 7 10, 7 10, 4 10, 9 10, 5 10, 3 9, 6 11, 1 11, 2 11, 4
Celdas solitarias 9, 6 10, 4 9, 7 10, 3 9, 2 9, 3 9, 9 9, 5 9, 0 10, 9
Aparentemente hay un descenso en la frecuencia de las ondas alfa y
aumento en la variabilidad cuando las personas se recluyen en soledad.
Pruebe si esta diferencia de frecuencias y variabilidad son significativas
al nivel = 0, 05. Suponga distribucin normal.
8. Se considera qu el 20% de las personas de una poblacin tienen una determinada caracterstica gentica. Sinembargo en un estudio realizado
en 100 personas de la poblacin se encontr slo 15 con la caracterstica. Para = 0.01 ?aceptaramos la hiptesis de que la proporcin
de personas con la caracterstica dada es inferior al 20%? ?Qu nivel
de significacin tienen los datos? Cambiara la respuesta si en una
poblacin de 200 personas hubisemos hallado 30 con la caracterstica?
9. En un estudio diseado para ver si una dieta controlada puede retardar
los efectos de la arterioesclerosis, se hizo un seguimiento a 846 personas
elegidas al azar de una poblacin. La mitad de ellas sigui una dieta
prefijada y a la otra mitad se le permiti alimentarse como deseara. Al
final de 8 aos, 66 personas del primer grupo muri de un infarto al
3
y1 = 40, 33
2
S
= 1, 64
_1
y2 = 42, 54
S22 = 2, 96
(a) ?Presentan los datos suficiente evidencia para concluir que hay
diferencia en la variabilidad de las dos acciones para las poblaciones asociadas con las dos muestras?
(b) Encuentre un intervalo de confianza para el cociente de las dos
varianzas poblacionales al 95% de confianza.
MMOM/2004
Captulo V
Bondad de Ajuste-Prueba Chi-Cuadrado
Tablas de Contingencia con dos criterios de
clasificacin.
Anlisis de varianza: comparacin de ms de
dos medias
Mara Margarita Olivares M.
Junio 2004
0.1
0.1.1
Hasta ahora todas las situaciones que hemos examinado han tenido como
suposicin bsica que los datos que se tienen provienen de una distribucin
dada que depende de uno o varios parmetros desconocidos los cuales se
pueden estimar por medio de un nmero, un intervalo de confianza o hacer
pruebas de hiptesis referente a ellos.
Si tenemos un conjunto de valores muestrales x1 , x2 , , xn , correpondiente
a una muestra aleatoria simple X1 , X2 , , Xn y se desea saber si hay motivos razonables para considerar la distribucin de esta muestra, como una
distribucin de probabilidad dada, es importante tener criterios para decidir
si efectivamente es razonable suponer, basndose en los resultados experimentales, acerca de la veracidad de la hiptesis formulada.
A partir de las observaciones podemos trazar una curva de frecuencias
acumuladas ( o un histograma ) y compararla con la funcin de distribucin
de la hiptesis ( o funcin de probabilidad o densidad, segn la variable
sea discreta o continua) y obtener as una idea, al menos cualitativa de la
coincidencia entre ambas distribuciones.
Sin embargo, es necesario, para dar un veredicto preciso, introducir alguna
medida cuantitativa del grado de desviacin que muestran los datos respecto
a la distribucin hipottica. Si esta medida excede algn lmite adecuado
fijo debemos rechazar la hiptesis y viceversa.
Tal medida de la desviacin se puede definir de diversas formas, nosotros
estudiaremos una de ellas: la prueba Chi-Cuadrado introducida por K.Pearson.
Las pruebas que tratan este tipo de problemas, se llaman pruebas de
Bondad de Ajuste.
0.1.2
Caso Discreto:
Sea
pi = P (X = i ) , i = 1, 2, , k;
k
X
pi = 1
i=1
la distribucin hipottica, la cual suponemos totalmente especificada, es decir, en su expresin no aparecen parmetros desconocidos.
Sea
fi
n
el estimador de mxima verosimilitud de pi , f1 + f2 + , fk = n.
Observaciones:
a) Si n est fijo, fi es el nmero de veces que aparece i en n repeticiones
del experimento y pi representa la probabilidad de obtener i , luego,
fi tiene distribucin binomial de parmetros (n, pi ), donde E (fi ) =
npi .
La diferencia fi npi mide la desviacin entre las frecuencias observadas
y las frecuencias esperadas.
K. Pearson demostr que si tomamos
X2 =
k
X
(fi npi )2
i=1
npi
k
k
X
X
fi2
n (si
pi = 1)
np
i
i=1
i=1
X =
k
X
(fi npi )2
npi
i=1
Toma de Decisin:
Nosotros queremos que fi est cercano a npi , es decir, que el valor observado
2
Xobs
k
X
(fi npi )2
npi
i=1
P X 2 > x2,k1r =
1
= P (X = i) , i = 1, 2, , 6
6
2
Xobs
1
6
= 50.
k
X
(fi 50)2
50
i=1
= 8.96
Para hallar el p valor debemos calcular P (X52 > 8.96) es algo mayor
a 0, 10.
0.1.3
Caso Continuo:
P (Ii ) = 1,
i=1
X =
k
X
(fi npi )2
npi
i=1
Ejemplos:
1. Un generador de nmeros aleatorios produjo n = 100 nmeros, los
cuales aparecen tabulados en la siguiente tabla:
0.0
0.099
Frecuencias 7
0.5
Clases
0.599
Frecuencias 13
Clases
0.1
0.2
0.199
0.299
14
8
0.
0.75
0.699
0.799
17
4
0.3
0.4
0.399
0.499
16
6
0.85
0.9
0.8599
0.999
10
5
X =
k
X
(fi npi )2
npi
i=1
2
; Xobs
= 20
Estimamos = X = 3540; 2 = S12 = 283, 240, (la primera y la ltima clase estn abiertas, arbitariamente hemos tomado en ellas como
marcas de clase los valores 1900 y 5100 gramos). Si suponemos =
3540; 2 = 283, 240, calculamos
pi = P (Ii )
obtendremos:
2
X =
k
X
(fi 570pi )2
i=1
570pi
2
; Xobs
= 24, 283.
as el p-valor est entre esos dos niveles por lo que rechazamos la hiptesis nula.
0.1.4
Un problema frecuente en el anlisis de datos enumerativos es el de la independencia de dos mtodos de clasificacin de los sucesos observados. Por
6
74
69
pA = cn1 = 309
pB = cn2 = 309
38
pC = cn3 = 128
pD = cn4 = 309
309
7
94
96
p1 = rn1 = 309
p2 = rn2 = 309
p3 = rn3 = 119
309
son los estimadores de las probabilidades correspondientes a las filas, ri , i =
1, 2, 3 es la frecuencia observada de la fila i.
Si ni,j es la frecuencia observada de la celda que se encuentra en la fila i
y la columna j de la tabla de contingencia, entonces, la estimacin del valor
esperado de nij es en particular para n11
E(n11 ) = np1 pA = n
r1 c1
r1 c1
=
,
n n
n
en general,
ri cj
, i = 1, 2, 3; j = 1, 2, 3, 4.
n
En nuestro ejemplo, hemos colocado los clculos de las frecuencias esperadas
entre parntesis, en la tabla de contingencia. El estadstico de prueba, en
general, es
E(nij ) =
X =
nij E(nij )
c X
r
X
2
X(c1)(r1)
,
E(nij )
donde c es el nmero de columnas y r es el nmero de filas.
j=1 i=1
y debemos restar el nmero total de estimaciones, es decir, por cada estimacin, (r 1) en total por las filas, ya que la r esima queda determinada
por las primeras (r 1), anlogamente, por cada estimacin, (c 1) en total
por las columnas, se obtiene el nmero de grados de libertad del estimador:
rc 1 (r 1) (c 1) = (r 1)(c 1).
En nuestro ejemplo
X2 =
nij E(nij )
3
4 X
X
j=1 i=1
E(nij )
X62
2
X0.05;6 ,
donde
2
= 0, 05
P X62 > X0.05;6
2
2
Utilizando la tabla se obtiene que X0.05;6
= 12, 60 como Xobs
= 19.18 cae en
la regin de rechazo se rechaza la hiptesis nula, es decir, se concluye que no
hay independencia entre el turno y el tipo de defecto. El p valor se calcula
hallando
0.1.5
Anova
Anlisis de Varianza: Para introducir el mtodo de Anlisis de Varianza (ANOVA) vamos a estudiar un ejemplo sencillo:
Supongamos que el nmero de horas de sueo de los miembros de una
familia est dada por:
Adultos 8.4 7.7 7.9
Nios 9.8 9.9 10.3
Queremos constatar si la variacin (diferencia entre las medias), es debida a
la edad no es significativa esa diferencia.
_
y_1 =
y2 =
8.4+7.7+7.9
= 8(media del grupo i = 1
3
9.8+9.9+10.3
= 10(media del grupo i =
3
yij = yi + (yij yi )
de adultos)
2 de nios)
Hagamos una tabla que compare cada resultado con la media de su grupo:
j=1
j=2
j=3
Adultos (i = 1) 8 + 0.4 8 0.3 8 0.1
Nios (i = 2) 10 0.2 10 0.1 10 + 0.3
Observe que tenemos dos grupos, cada uno con medias diferentes.La media
de toda la muestra (uniendo los dos grupos) es:
_
y =
yij
Hagamos una tabla que muestre la variacin de la media de cada grupo con
la media general:
j=1
j=2
j=3
Adultos (i = 1) 9 1 + 0.4 9 1 0.3 9 1 0.1
Nios (i = 2) 9 + 1 0.2 9 + 1 0.1 9 + 1 + 0.3
donde
_
y es la media general
y) compara la media de cada grupo con la media general
_
(yij yi ) variacin de cada individuo respecto a la media de su grupo
_
(yi
porque
i=1 j=1
i=1 j=1
2 X
3
X
_
_
_
(yi y)(yij yi ) = 0.
i=1 j=1
ya que
3
P
j=1
S22
i
_
1 XX
=
(yij yi )2
N 2 i=1 j=1
10
i=1
Yi
Sk2
ni
1 X
=
Yij estima mi
ni j=1
n
i
_
1 XX
=
(Yij Yi )2 es un estimador de 2 , N = n1 + n2 + , nk .
N k i=1 j=1
estima 2 y
F =
S2
Sk2
Fk1,.Nk
Una discrepancia con la hiptesis nula queda indicada por un valor grande de
F, ya que el numerador (variabilidad de la media de cada grupo con la media
general), cuando la hiptesis nula es falsa, ser en promedio ms grande que
el denominador (variabilidad dentro de cada grupo) por lo que la regin de
rechazo para un dado ser:
[F > fk1,Nk, ]
donde
P ([F > fk1,Nk, ]) = .
11
S2
S22
de libertad.
El mtodo que hemos expuesto, se denomina, Anlisis de varianza con un
slo factor o clasificacin simple. Fue inventado por Fisher (1925) con el objetivo de descomponer la variabilidad de un experimento (variabilidad total)
en componentes independientes que puedan asignarse a diferentes causas.
Por ejemplo, si queremos comparar el rendimineto de k mquinas medido
por su produccin diaria. Existen diversos factores que pueden influir en la
produccin diaria de cada mquina ( aunque trabajen en condiciones idnticas), por ejemplo, pureza de la materia prima, desajustes aleatorios de la
mquina, temperatura de funcionamiento, habilidad del operario, etc. Si
medimos durante ni das la produccin diaria de la mquina i
k
X
ni = N es el total de datos
i=1
donde,
ni
k P
P
i=1 j=1
k
P
(yi y)2 =
i=1 j=1
i=1
i=1 j=1
F =
S2
Sk2
donde
Sk2
Fk1,.Nk
n
i
_
1 XX
=
(yij yi )2
N k i=1 j=1
S2 =
1 X _ _ 2
ni (yi y)
k 1 i=1
k
14
masculino femenino
p2
p
+ pq
2
2
q
2
q2
2
0.2
4.4
4.7
4.7
4.7
0.8
3.7
4.6
1.3
1.2
7.6
2.9
5.8
2.5
2.5
0.7
0.9
7.2
3.8
1.1
0.5
1.4
0.4
2.8
5.6
5.6
6.2
0.4
1.6
1.5
5.5
6.8
0.5
2.8
3.3
9.5
9.5
1.2
1.3
1.9
2.7
3.4
5.2
1.4
exp( x )
, x > 0.
6. Un siclogo desea conocer la relacin entre los sntomas deteriorossicognicos del pensamiento y depresin. En una muestra de 100 individuos obtuvo los siguientes datos
Depresin Si
Depresin No
Deterioros Si Sicognicos No
38
31
9
22
Con el nivel de confianza del 95%, existe relacin entre ambos sntomas?
2
Presentan los datos suficiente evidencia para concluir que hay diferencias en el rendimiento medio correspondientes a las cuatro tcnicas?
(Realice un anlisis de varianza)
11. Un siclogo clnico quera comparar tres mtodos para reducir los niveles de hostilidad en estudiantes universitarios. Cada prueba sicolgica
(PNH) fue usada para medir el grado de hostilidad. Las puntuaciones
altas en esta prueba se usaron como indicacin de gran hostilidad. En
el experimento se usaron 11 estudiantes que obtuvieron puntuaciones
altas y muy cercanas entre s. De los 11 estudiantes se seleccionaron
5 al azar y se trataron con el mtodo A, de los 6 restantes se tomaron
tres al azar y se trataron con el mtodo B y el resto se trat con el
mtodo C. Todos los tratamientos se realizaron durante un semestre.
Cada estudiante tom la prueba PNH nuevamente al final del semestre,
con los resultados siguientes:
Mtodo:A 73, 83, 76, 68, 80
Mtodo:B
54, 74, 71
Mtodo:C
79, 98, 87
(a) Realice un anlisis de varianza para este experimento.
(b) Presentan los datos suficiente evidencia para concluir que hay
diferencias entre las respuestas medias de los estudiantes de los
tres mtodos, despus del tratamiento?
12. Se efecta un experimento para determinar el efecto de la edad sobre el
ritmo cardiaco, cuando una persona es sometida a una cantidadespecfica de ejercicio. Para esto, se selecionaron 10 varones de los 4 grupos
de edades: 10-19-20-39-40-59-60-69. Cada individuo accion un molino
a una velocidad especfica durante 12 minutos y se anot el aumento
del ritmo cardiaco (diferencia antes y despus del ejercicio), en latidos
Captulo VI
Recta de Regresin lineal
Prof. Mara Margarita Olivares
Julio 2004
En muchos problemas obtenemos datos pareados (xi , yi ), no conocemos la distribucin conjunta de las variables aleatorias correspondientes y al graficar
estos datos tenemos la impresin de que una recta podra ser un buen ajuste
para ellos, aunque los puntos no estn exactamente sobre una recta. Problemas de este tipo, suelen manejarse por medio del mtodo de los mnimos
cuadrados que consiste en hallar la recta
y = ax + b
que mejor se ajusta a esos datos, para ello debemos calcular los parmetros
a y b a partir de los datos, es decir:
si nos dan un conjunto de datos pareados {(xi , yi ); i = 1, 2, 3, , n} , las
estimaciones de mnimos cuadrados de los coeficientes a y b son los valores
para los cuales la cantidad:
q(a, b) =
n
X
i=1
= (2)
q
b
= (2)
n
P
i=1
n
P
i=1
[yi (a + bxi )] = 0
xi [yi (a + bxi )] = 0
1
i=1
n
P
yi = an + b
xi yi = a
i=1
n
P
n
P
xi
i=1
xi + b
i=1
n
P
i=1
x2i
a = y bx
xy
b = SSxx
donde :
Sxx =
Sxy =
n
P
(xi x) =
i=1
n
P
n
P
i=1
_
x2i
(xi x)(yi y) =
i=1
1
n
n
P
i=1
n
P
xi
i=1
xi yi
1
n
n
P
i=1
xi
n
P
i=1
yi
Introduccin:
En este curso hemos estudiado el siguiente tipo de problema:
se tiene una variable aleatoria Y (que denominaremos respuesta) cuya
distribucin se supone conocida, excepto por uno o varios parmetros. En
particular se estudiaron los siguientes casos:
1. Y con distribucin de Bernoulli de parmetro p desconocido, donde
P(Y = 1) = p, P(Y = 0) = 1 p, E(Y ) = p
2. Y con distribucin de Poisson de parmetro , E(Y ) = es desconocido.
3. Y es normal de parmetros desconocidos , , con E(Y ) = , V ar(Y ) =
2.
y en base a una muestra y1 , , yn de la variable aleatoria Y se desea
estimar dichos parmetros. Como es observable, uno de los parmetros
bsicos a observar es la media de la variable aleatoria.
Se estudiaron tres maneras de estimar:
2
y=
y1 + + yn
n
S12
/ n
2i =
i=1
n
X
i=1
(Yi 0 1 xi )2
n
P
n
P
xi =
i=1
n
P
xi + 1
i=1
i=1
n
P
yi
i=1
n
P
x2i =
xi yi
i=1
n
P
_
_
xi x yi y
i=1
n
P
_ 2
xi x
Cov(x, y)
Sx2
i=1
donde
n
n
_
_
_ 2
1 X
1 X
2
cov(x, y) =
xi x yi y ; Sx =
xi x
n i=1
n i=1
Yi = 0 + 1 xi
B0 = y B1 x
en la recta de regresin estimada, obtenemos
_
Yi = Y + 1 (xi x)
La diferencia entre el valor observado y el estimado se denomina i
esimo
residuo o residual:
ei = yi yi
1 X
1 X 2
2
yi yi =
=
e
n 2 i=1
n 2 i=1 i
n
SR2
se usa n2 pues se pierden dos grados de libertad al estimar los dos parmetros 0 , 1 . Este estimador de la varianza es insesgado si el modelo de regresin
es correcto.
Se cumplen las siguientes propiedades: (se deja como ejercicio la verificacin)
1.
n
P
ei = 0
i=1
2.
n
P
i=1
3.
n
P
yi =
n
P
yi
i=1
xi ei = 0
i=1
n
X
1
1
L(y1 , , yn ; 0 , 1 , 2 =
exp 2
(yi 0 1 xi )2
2
2
i=1
donde
n
n
n
1 X
ln(L( 0 , 1 , 2 )) = ln(2) ln( 2 ) 2
(yi 0 1 xi )2
2
2
2 i=1
al tomar las derivadas parciales con respecto a cada uno de los parmetros se
obtendr que los estimadores de 0 , 1 son los mismos hallados por mnimos
cuadrados y para 2 se obtiene
2 =
1 X
2
yi yi
n i=1
n
El mtodo de mnimos cuadrados admite una simple interpretacin geomtrica. Expresando vectorialmente las observaciones, defimanos los siguientes vectores filas:
Y0 = (y1 , , yn )
10 = (1, , 1)
X0 = (x1 , , xn )
0 = (1 , , n )
El modelo postulado es: Y = 0 1 + 1 X + e0 = (e1 , , en )
Estimar el modelo por mnimos cuadrados equivale a encontrar constantes
B0 , B1 tales que el mdulo del vector de residuos
e = YY
e1 =
i=1
n
X
e0 X =
ei = 0
ei xi = 0
i=1
0
e = YY
0
n
P
i=1
i=1
n
P
xi + 1
i=1
x2i
i=1
n
P
xi yi
i=1
1. Coeficiente de Regresin 1
Este estimador se puede expresar como
1 =
n
X
wi Yi
i=1
_
xi x
con wi =
pues
nSx2
B1 =
n
P
_
_
xi x yi y
i=1
n
P
_ 2
xi x
n
P
_
xi x yi
i=1
nSx2
i=1
wi = 0,
i=1
n
X
wi2 =
i=1
1
nSx2
_
yi y
y que si denotamos por pi =
_ la pendiente de la recta que une
x
x
i
_ _
(xi , yi ) con x, y
B1 =
n
P
_ 2
xi x pi
i=1
nSx2
n
X
di pi
i=1
_
yi y
es una ponderacin de las pendientes pi =
_ con pesos que
xi x
dependen de la distancia relativa de cada punto xi y el centro de todos
ellos, note que
_
di =
_
(xi x)
=
w
(x
x)
0,
i
i
nSx2
10
n
X
i=1
di =
n
P
_ 2
xi x
i=1
nSx2
= 1.
wi E (Yi ) = 0
wi + 1
wi xi = 1
E 1 =
Calculemos la varianza de 1
V ar( 1 ) =
wi2 V ar(Yi ) = 2
1
nSx2
2 1
por lo tanto 1 tiene distribucin N 1 , nS 2 , y as, es un estimador
x
insesgado y consistente del coeficiente de regresin.
y = y + B1 (x x)
esta expresin pone de_manifiesto
que la relacin construida es vlida en
_
un entorno del punto x, y que representa el centro de las observaciones
que se utiliza para construir el modelo. Estudiaremos las propiedades
es decir
0 =
ri Yi
0 es insesgado, en efecto
P1 _
xwi ( 0 + 1 xi ) =
E 0 =
n
_
_P
_P
0 (1 x wi ) + 1 x 1 x wi xi = 0
11
Hallemos la V ar( 0 ) :
V ar( 0 ) =
ri2 2 = 2
X1
xwi
= 2
_2
x
1
+
n nSx2
_
_
2
2
es el error dela estimacin de Y pues V ar(Y ) = ; el error
note que
n
n
de estimacin de la pendiente de la recta de regresin vine dado por
_ 2
x
siendo as
Se concluye que 0 tiene distribucin N 0 , 2 n1 + nS
2
x
insesgado y consistente..
Observaciones:
1 X
1 X 2
2
=
e
yi yi =
n 2 i=1
n 2 i=1 i
n
SR2
(n 2)SR2
2
se puede demostrar que
tiene distribucin Xn2
(chi-cuadrado
2
con n 2 grados de libertad), la esperanza de esta distribucin es n 2
y la varianza es 2(n 2) por lo que se concluye que
2
2
(n 2)SR
E
E SR2 =
= 2
n2
2
12
y que
V
ar(SR2 )
(n
2 V ar
(n 2)
2)SR2
2
2 4
(n 2)
A partir de las distribuciones de los estimadores 0 , 1 , SR2 de los parmetros podemos construir estadsticos que nos permitan hacer inferencias, el
siguiente cuadro muestra los estadsticos que nos permiten hacer el contraste
parmetro
estimador
estadstico Tn2
n 0 0
q
=
_2
SR 1 + Sx2
Tn2 =
n 1 1 Sx
SR
SR2
(n 2)SR2
2
Xn2
2
Coeficiente de determinacin o R2
El coeficiente de determinacin se define como
P _2
yi y
R2 = P
_ 2
yi y
el numerador (V E) es la variabilidad explicada por la regresin y el denominador (V T ) la variabilidad total..En el caso que estamos tratando, tenemos
una recta de regresin lineal simple as:
P
P _2 P _
_
_ 2
_
yi y =
y + B1 (xi x) y = B12 (xi x)2 = B12 nSx2
VE =
V T = nSy2
13
por lo tanto
B12 nSx2
B12 Sx2
(cov(x, y))2 Sx2
(cov(x, y))2
=
=
=
= r2
R =
2
2
4
2
2
2
nSy
Sy
Sx
Sy
Sx Sy
2
0, yi es prximo a y)
en este caso r 0.
La definicin de R2 es general, R2 = r2 (coeficiente de correlacin de
Pearson) solo en le caso de regresin lineal simple, cuando la regresin es
una recta.
El coeficiente de correlacin se usa para comparar rectas de regresin
entre s, pero se debe evitar su uso indiscrimanado. Dos rectas de regresin
pueden tener la misma eficacia predictiva y los mismos errores de estimacin
y sinembargo tener diferentes coeficientes de correlacin.
14