Está en la página 1de 15

D ISTRIBUCIN M ULTINOMIAL

Suponga que un experimento aleatorio consiste de n ensayos tales que:


(1)

el resultado de cada ensayo se clasifica en una de k clases

(2)

la probabilidad de que un ensayo genere un resultado en la clase 1, la clase 2, , clase k, es


constante en todos los ensayos e igual a p1, p2, , pk respectivamente

(3)

los ensayos son independientes

Las variables aleatorias X1, X2, Xk que denotan el nmero de ensayos que caen en la clase 1, clase 2, ,
clase k, respectivamente, tienen una distribucin multinomial con una funcin de probabilidad conjunta:

p(X1 = x1, X2 = x2, , Xk = xk) =

Nota:

xi 0

e.o.c.

x1 + x2 + + xk = n

Teniendo en cuenta los supuestos p1 + p2 + pk = 1

NOTACIN: el Vector Aleatorio


Nota:

n!
p x1 p x2 ... pkxk
x1! x2!...xk! 1 2

(X1, X2, , Xk) ~ Mul(n, p1, p2, , pk)

Esta es una extensin multivariable de k distribuciones binomiales, por lo que se cumple:

Xi ~ B(n, pi)

i = 1, 2, k

E(Xi) = npi

Var(Xi) = npi(1 pi)

INTERVALO DE CONFIANZA PARA PROPORCIONES.1)

Si n es grande, un Intervalo de Confianza al 100(1 )% para pi es:

p i z
2

pi :
2)

proporcin de veces que ocurre la clase i en los n ensayos.

Si n es grande, un Intervalo de Confianza al 100(1 ) % para pi pj, i j es:

p i p j z
2

3)

p i 1 p i
n

p i 1 p i p j 1 p j 2 p i p j
n

Si p1 y p2 representan las proporciones en las que ocurre un evento de inters en 2 poblaciones


independientes, siendo n1 y n2 grandes, un IC al 100(1)% para p1 p2, es:

p 1 p1 p 2 1 p 2
p1 p 2 z 1

n1
n2
2
donde:

p1 y p 2 denotan la proporcin de veces que ocurre el evento de inters en las


muestras de tamao n1 y n2 de ambas poblaciones.

4)

Si se desea hallar intervalos de confianza para m comparaciones simultneas a un nivel de


confianza de por lo menos 100 (1 )%, entonces:
i)

Hallar 0,
0

0 1 1

ii)

comparaciones dependientes
1m

comparaciones independientes

Hallar Intervalos de Confianza al 100(1 0)% para cada caso

El procedimiento anterior se denomina MTODO DE BONFERRONI


EJEMPLOS:
1.

A unas elecciones se presentaron 4 partidos polticos: el UD obtuvo un 50% de los votos, el


AL el 35%, el MUN el 10% y el CIE el 5% restante.
a. Cul es la probabilidad de que al elegir 5 ciudadanos al azar, 3 hayan votado por el UD, 1
por AL y 1 por CIE?
b. Cul es la probabilidad de que al elegir 18 ciudadanos al azar, 9 hayan votado por el UD
y 7 por AL?
c. Cul es la probabilidad de que al elegir 18 ciudadanos al azar, 9 hayan votado por el UD?

2.

En un estudio de Marketing, una empresa ha encuestado a 640 personas acerca de sus


preferencias sobre 4 presentaciones de un nuevo producto. Se encontr que 220, 160, 80 y
180 de estas personas preferan, respectivamente, las presentaciones 1, 2, 3 y 4. De otro lado,
el costo de produccin bajo estas presentaciones vara siendo la menos costosa la presentacin
4, la siguiente menos costosa la presentacin 3 y la ms costosa la presentacin 1.
Si usted tuviera que recomendar alguna presentacin, cul recomendara? Justifique su
eleccin.
2

C ONTRASTES

SOBRE

P ROPORCIONES (1)

TEOREMA.Sea (X1, X2, , Xk) ~ Mul(n, p1, p2, , pk) donde n es grande y npi 5

i = 1, , k

Entonces aproximadamente:
k

X i Ei 2

i 1

Ei

~ 2 k 1

APLICACIN: CONTRASTE SOBRE PROPORCIONES


Sea (X1, X2, , Xk) ~ Mul(n, p1, p2, , pk)

n es grande

npi 5

i = 1, , k

1.

Parmetros de inters:
p1 = proporcin de veces que ocurre la clase 1
p2 = proporcin de veces que ocurre la clase 2

pk = proporcin de veces que ocurre la clase k

2.

H0:

p1 p10 , p2 p20 , ........, pk pk0

H1:

existe por lo menos un caso en el que pi pi0

Recordar que as como: p1 + p2 + pk = 1 p10 p20 ........, pk0 1


3.

Dar un nivel de significancia

4.

Estadstico de prueba:
k

U0
i 1

npi0
npi0

5.

Regin Crtica

Si H0 es Verdadera

U0 ~ 2(k 1)

2 (k1)

n de
Regi cin
ta
Acep

12

Regin Crtica

Aceptar
Rechazar
U0

6.

Nota:

12 (k 1)

Regla de Decisin:
Si

U 0 12 (k 1)

Rechazar H0

Si

U 0 12 (k 1)

Aceptar H0

Si las probabilidades de ocurrencia pi dependen de otros parmetros poblacionales la


Regla de decisin no tiene validez

EJEMPLOS:
1.

Se van a realizar nuevas elecciones con los mismos partidos del ejemplo anterior. Se toma una
muestra de 100 ciudadanos para averiguar su intencin de voto, siendo los resultados: 55 por el
UD, 32 por AL, 9 por MUN, 4 por CIE. Se puede pensar que los resultados van a ser similares
a los de las elecciones anteriores? Use = 0.05.

2.

Se toma una muestra de 100 personas y se les pregunta por su preferencia entre 6 artculos. El
nmero de personas que prefiere los artculos 1, 2, 3, 4, 5 y 6 fueron: 12, 15, 19, 18, 16 y 20
respectivamente. Existe diferencia significativa entre las preferencias de las personas por los
diferentes artculos? Use = 0.05?

C ONTRASTES
Sean:

DE

B ONDAD

DE

A JUSTE

Y: una variable aleatoria con funcin de distribucin FY desconocida


F0: una funcin de distribucin conocida

Se desea probar:

H0: FY = F0
H1: FY F0

Es decir queremos probar si la funcin de distribucin de Y se ajusta a la funcin F0


El procedimiento de prueba requiere:

Tomar una muestra aleatoria de tamao n de la variable Y

Construir la distribucin de frecuencias de las n observaciones en k intervalos de clase


Oi = frecuencia observada en el i-simo intervalo de clase

Utilizando la funcin de distribucin propuesta F0, calcular la frecuencia esperada (Ei) en el i-simo
intervalo de clase
E i n p i0

donde:
pi0 : probabilidad de que una observacin se encuentre en el i-simo intervalo de clase si H0 es
Verdadera
Por lo tanto la prueba es equivalente a una prueba de proporciones

Estadstico de Prueba

Oi E i 2

i 1

Ei

U0

Si H0 es Verdadera, n grande y Ei 5
U0 ~ 2 (k 1)

2 (k1)

n de
Regi cin
ta
Acep
12

Regin Crtica

NOTA.1.
2.

Si algn Ei < 5 se pueden juntar 2 o ms intervalos de clase a fin de satisfacer la condicin


Si existen r parmetros desconocidos de F0 estimados por el mtodo de mxima verosimilitud
U0 ~ 2 (k r 1)

EJEMPLO 1: DISTRIBUCIN CONTNUA


Se toma una muestra de 90 artculos y se mide su longitud (X). Se desea saber si la longitud de los
artculos sigue una distribucin normal con media 43 y desviacin estndar 6.

Histograma

PRUEBA DE BONDAD DE AJUSTE:


F0

Distribucin Normal con


parmetros:

=
=

43
6

H0: FX = F0
H1: FX F0

1
2
3
4
5
6
7

xm
30
35
40
45
50
55
60

xM
35
40
45
50
55
60
65

Freci
9
20
29
16
6
6
4
90

zm
-2.17
-1.33
-0.50
0.33
1.17
2.00
2.83

zM
-1.33
-0.50
0.33
1.17
2.00
2.83
3.67

pi
0.09176
0.21678
0.32076
0.24970
0.09825
0.02042
0.00233
1.00000

Ei
8.26
19.51
28.87
22.47
8.84
1.84
0.21
90

1
2
3
4
5

xm
30
35
40
45
50

xM
35
40
45
50
65

Freci
9
20
29
16
16
90

zm
-2.17
-1.33
-0.50
0.33
1.17

zM
-1.33
-0.50
0.33
1.17
3.67

pi
0.09176
0.21678
0.32076
0.24970
0.12100
1.00000

Ei
8.26
19.51
28.87
22.47
10.89
90

Oi

Ei

Oi Ei

9
20
29
16
16
90

8.26
19.51
28.87
22.47
10.89
90

0.74
0.49
0.13
-6.47
5.11
0.00

1
2
3
4
5

= 0.05
g.l.= 4
2 = 9.4877

O i E i 2
0.55
0.24
0.02
41.86
26.11

O i E i 2
Ei

0.07
0.01
0.00
1.86
2.40
4.34

U0

Conclusin
U0 < 2, por lo tanto, para un nivel de significancia de 0.05,
se puede aceptar que X ~ N(43,62)
6

EJEMPLO 2: DISTRIBUCIN DISCRETA


Se piensa que existe una probabilidad 0.4 de que un tirador inexperto acierte al blanco en un
determinado juego.
Para verificar si es cierta esta afirmacin, se tom una muestra de 100 personas sin experiencia en
este juego. Cada persona realiz 5 tiros y se registr el nmero de aciertos que tuvieron. De acuerdo
a estos registros, podra decir que est de acuerdo con la probabilidad supuesta?
Tabla de Frecuencias

Histograma
40
35

xi

Oi

0
1
2
3
4
5

12
33
28
19
7
1
100

30
25

Oi

20

Ei

15
10
5
0

Solucin:
PRUEBA DE BONDAD DE AJUSTE:
F0

Distribucin Binomial con


parmetros:

xi
0
1
2
3
4
5

Oi
12
33
28
19
7
1
100

pi
0.07776
0.25920
0.34560
0.23040
0.07680
0.01024
1.00000

Ei
7.776
25.920
34.560
23.040
7.680
1.024
100

xi
0
1
2
3
4

Oi
12
33
28
19
8
100

pi
0.07776
0.25920
0.34560
0.23040
0.08704
1.00000

Ei
7.776
25.920
34.560
23.040
8.704
100

n=
p=

5
0.4

H0: FX = F0
H1: FX F0

xi

Oi

Ei

Oi Ei

0
1
2
3
4

12
33
28
19
8
100

7.776
25.920
34.560
23.040
8.704
100

4.224
7.080
-6.560
-4.040
-0.704
0.000

= 0.05
g.l.= 4
2 = 9.4877

Oi Ei 2
Ei
2.295
1.934
1.245
0.708
0.057
6.239

Conclusin
U0 < 2, por lo tanto, para 0.05, se
acepta que X ~ B(5,0.4)

U0

C ONTRASTES

SOBRE

P ROPORCIONES (2)

En muchas ocasiones, los n elementos de una muestra tomada de una poblacin pueden clasificarse
con dos criterios diferentes. Por tanto, es interesante saber si los dos mtodos de clasificacin son
estadsticamente independientes.
Objetivo: Probar si los 2 mtodos de clasificacin son estadsticamente independientes.
Supngase que el primer mtodo de clasificacin tiene r niveles, y que el segundo tiene c niveles.
Sea:
Oij

la frecuencia observada para el nivel i del primer mtodo de clasificacin y el nivel j del
segundo mtodo de clasificacin

En general, los datos aparecern como se muestra en la siguiente tabla. Una tabla de este tipo
usualmente se conoce como tabla de contingencia r x c.
TABLA DE CONTINGENCIA
Mtodo 2 de clasificacin

Mtodo 1 de
clasif.

O11

O12

O1c

O1j

O21

O22

O2c

O2j

Or1

Or2

Orc

Orj

Total

Oi1

Oi2

Oic

Total

El inters recae en probar la hiptesis de que los dos mtodos de clasificacin (rengln-columna)
son independientes. Si se rechaza esta hiptesis, entonces se concluye que existe alguna interaccin
entre los dos criterios de clasificacin.
Veremos un estadstico de prueba aproximado, vlido para n grande.
1.

Parmetros de inters:
pij =
proporcin de elementos de la poblacin clasificados en el regln i del Mtodo de
clasificacin 1 y la columna j del Mtodo 2 de clasificacin
i = 1, 2, , r j = 1, 2, , c

2.

H0: Las 2 clasificaciones son independientes


H1: Las 2 clasificaciones no son independientes
Si la hiptesis nula H0 es VERDADERA significara que la proporcin de elementos de la
poblacin clasificados en una categora del Mtodo 1 es la misma para todas las
clasificaciones de la poblacin segn el Mtodo 2.

3.

Dar un nivel de significancia

4.

Estadstico de prueba:
r

V0

Oij Eij 2

i 1 j 1

Eij

Sea ui la probabilidad de que un elemento seleccionado al azar pertenezca al rengln de la


clase i, y vj la probabilidad de que un elemento seleccionado pertenezca a la columna de la
clase j
Si se supone independencia, entonces:
pij=uivj
los estimadores de ui y vj son:
c

1
ui Oij
n j 1

5.

1
v j Oij
n i 1

Regin Crtica:
Si H0 es Verdadera

V0 ~ 2 ((r1) (c1))

2 ((r1)(c1))
n de
Regi cin
ta
Acep

12

Regin Crtica

Aceptar
Rechazar
12 ((r 1)(c 1))

6.

Regla de Decisin:
Si

V0 12 ((r 1)(c 1))

Rechazar H0

Si

V0 12 ((r 1)(c 1))

Aceptar H0

Eij n ui v j

EJEMPLO
Se ha efectuado un estudio de investigacin de mercados acerca de la preferencia del pblico por la
suscripcin en una revista especializada. Para tal efecto se ha aplicado una encuesta a una muestra
de 1,000 personas y de los datos registrados se piensa que la edad es una variable que puede influir
en sus preferencias.
En la siguiente tabla se presenta el cruce de la variable edad (recodificada) con una pregunta
objetivo planteada: Est interesado en una suscripcin anual?

Edad
Menos de 30 aos
De 30 a 40 aos
Ms de 40 aos

Nivel de inters en la suscripcin anual


No est
Moderadam.
No esta seguro
Muy interesado
interesado
Interesado
D
A
C
B
60
90
159
75
110
80
104
40
145
60
38
39

Puede confirmar si el inters en la suscripcin depende de la edad de la persona? Utilice = 0.05.


Solucin:
H0:

El Nivel de inters de una persona en la suscripcin es independiente de su edad

H1:

El Nivel de inters en la suscripcin depende de la Edad de la persona

Nivel de significancia: = 0.05:

Frecuencias Observadas

Menos de 30 aos
De 30 a 40 aos
Ms de 40 aos
Total (col)
Total (col.)
v j
n

60
110
145
315

90
80
60
230

159
104
38
301

75
40
39
154

0.315

0.230

0.301

Total (fila)
ui
n
0.384
0.334
0.282
1.000

1.000

Frecuencias Esperadas

Menos de 30 aos
De 30 a 40 aos
Ms de 40 aos
Total (col)

0.154

Total
(fila)
384
334
282
1,000

120.96
105.21
88.83
315

88.32
76.82
64.86
230

C
115.58
100.53
84.88
301

D
59.14
51.44
43.43
154

Total
(fila)
384
334
282
1,000

Frec. Observada - Frec. Esperada


A
Menos de 30 aos
De 30 a 40 aos
Ms de 40 aos
Total (col)

-60.96
4.79
56.17
0.00

B
1.68
3.18
-4.86
0.00

10

43.42
3.47
-46.88
0.00

15.86
-11.44
-4.43
0.00

Total
(fila)
0.00
0.00
0.00
0.00

(Frec. Observ. - Frec. Esperada)

Frec. Esperada
A
Menos de 30 aos
De 30 a 40 aos
Ms de 40 aos
Total

30.72
0.22
35.52
66.46

B
0.03
0.13
0.36
0.53

C
16.31
0.12
25.89
42.32

D
4.26
2.54
0.45
7.25

Total
(fila)
51.32
3.01
62.23
116.56

V0

Para = 0.05. se debe Rechazar H0


si V0 12 (6) = 12.5916
Conclusin:

Para un nivel de significacin de 0.05 podemos afirmar que El Nivel de inters en la suscripcin depende
de la Edad de la persona. Es ms, la muestra tomada nos indica que ambas variables son fuertemente
dependientes.
Es decir, las proporciones de personas clasificadas segn su inters en la suscripcin difieren segn
la edad de la persona.
Queda preguntarnos, por ejemplo, qu grupo de edades son las ms interesadas en la suscripcin?

11

C ONTRASTES

SOBRE

P ROPORCIONES (3)

Dadas s poblaciones independientes, se desea determinar si la proporcin poblacional pi de xito en


cada una de las poblaciones es la misma o si existe al menos una en la cual esta proporcin difiere.
Sean:
O1j
O2j

la frecuencia observada de xitos en la poblacin j


la frecuencia observada de fracasos en la poblacin j

En general, los datos aparecern como se muestra en la siguiente tabla:


Poblacin

Resultado

7.

xito

O11

O12

O1s

O1j

fracaso

O21

O22

O2s

O2j

Total

n1

n2

ns

Parmetros de inters:
p1 = proporcin de xito en la poblacin 1
p2 = proporcin de xito en la poblacin 2

ps = proporcin de xito en la poblacin s


Es decir:

8.

Total

pi = proporcin de xito en la poblacin i,

H0: p1 = p2 = = ps = p
H1: Por lo menos para una poblacin i: pi p

9.

Dar un nivel de significancia

10.

Estadstico de prueba:

V0
s

Oij Eij 2

i 1

j 1

Eij

1
ui Oij
n j 1

12

Eij n j u i

i = 1,2, s

11.

Regin Crtica:
Si H0 es Verdadera

V0 ~ 2 (s 1)

2 (s1)

n de
Regi cin
ta
Acep

12

Regin Crtica

Aceptar
Rechazar

12 ( s 1)
12.

Regla de Decisin:
Si

V0 12 ( s 1)

Rechazar H0

Si

V0 12 ( s 1)

Aceptar H0

13

EJEMPLO
Se tom una encuesta a los alumnos de 4 y 5 ao de 5 colegios y uno de los datos que se registraron
fue la profesin que deseaban seguir. Para cada colegio se tom una muestra de tamao variable y
se clasific la profesin segn fuera del rea de ciencias o de letras. Los resultados obtenidos se
muestran en la siguiente tabla:
Colegio

Profesin
C1

C2

C3

C4

C5

Ciencias

35

10

42

27

40

Letras

30

50

28

18

50

Solucin:
H0:

p1 = p2 = = p5 = p

H1:

Por lo menos para una poblacin i: pi p

Nivel de significancia: = 0.05:

Frecuencias Observadas
C1

C2

C3

C4

C5

Total
(fila)

Total (fila)
ui
n

Ciencias

35

10

42

27

40

154

0.4667

Letras

30

50

28

18

50

176

0.5333

Total (col)

65

60

70

45

90

330

1.0000

Frecuencias Esperadas
C2

C3

C4

C5

Ciencias

30.33

28.00

32.67

21.00

42.00

154

Letras

34.67

32.00

37.33

24.00

48.00

176

65

60

70

45

90

330

Total (col)

Total
(fila)

C1

Frec. Observada - Frec. Esperada


C1
Ciencias
Letras
Total (col)

C2

C3

C4

C5

Total
(fila)

4.67

-18.00

9.33

6.00

-2.00

0.00

-4.67

18.00

-9.33

-6.00

2.00

0.00

0.00

0.00

0.00

0.00

0.00

0.00

14

(Frec. Observ. - Frec. Esperada)

Frec. Esperada
C1

C2

C3

C4

C5

Total
(fila)

Ciencias

0.72

11.57

2.67

1.71

0.10

16.77

Letras

0.63

10.13

2.33

1.50

0.08

14.67

Total (col)

1.35

21.70

5.00

3.21

0.18

31.44

V0
Se debe Rechazar H0 si V0 12 (4) = 9.4877
Conclusin:
Para un nivel de significacin de 0.05 podemos afirmar que Existe por lo menos un colegio en el que
la proporcin de estudiantes (de 4 y 5 ao) que prefieren seguir una profesin del rea de Ciencias
es diferente a la del resto de colegios.
Es decir, la proporcin de alumnos (de 4 y 5 ao) que desean seguir una profesin del rea de
Ciencias no es la misma en todos los colegios considerados.
Queda preguntarnos, por ejemplo, qu colegios difieren?, para el rea de Ciencias, podra ordenar
los colegios segn la preferencia de sus alumnos por profesiones de esta rea?

15

También podría gustarte