Está en la página 1de 97

rino@lamolina.edu.

pe 1
DISTRIBUCIN CHICUADRADO Y ANLISIS DE
FRECUENCIAS
PROPIEDADES DE LA DISTRIBUCIN _
2
(v)
Muestra aleatoria: Conjunto de variables aleatorias i.i.d.
Si de una poblacin N(, o
2
) se extrae al azar una muestra, se
genera una m.a. con Xi ~ N(, o
2
).

(0,1)
i
i
X
Z N

=
Si una variable tiene distribucin normal estndar o aproximada-
mente normal estndar, entonces el cuadrado de esta variable se
distribuye como una chicuadrado con un grado de libertad.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 2
La suma de variables aleatorias independientes cada una con distri-
bucin chicuadrado produce otra variable tambin con distribucin
chicuadrado pero con los grados de libertad igual a la suma de los
grados de libertad de las variables que se suman.
( )
2
2 2
( )
2
1 1
n n
i
i n
i i
X
Z

_
o
= =

=

( )
2
2
2 2
( 1) ( 1)
2 2
1
( 1)
n
i
n n
i
X x
n s
_ _
o o

=

MS Rino Sotomayor Ruiz


rino@lamolina.edu.pe 3
El nmero de ocurrencias de un evento cuando se conoce la tasa pro-
medio de ocurrencias () sigue una distribucin de Poisson con pa-
rmetro .
2
( ) ( ) ( )
X
X P E X V X o = = =
El nmero de ocurrencias, es decir la frecuencia observada puede ser
asociada a una distribucin de Poisson con parmetro igual a su fre-
cuencia esperada y se prueba que para frecuencias esperadas mode-
radamente grandes (mayores que 5) la distribucin de Poisson
puede aproximarse a la Normal, con lo cual:
( ) / (0,1)
i i i
o e e N
Por lo tanto:
2
2
(1)
( )
i i
i
o e
e
_

PRUEBA DE BONDAD DE AJUSTE


MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 4
En una prueba de bondad de ajuste, el nmero de frecuencias observa-
das independientes est dado por el nmero de categoras 1-N de
parmetros estimados de la distribucin terica (m).
Por lo tanto si la Ho es cierta el estadstico:
2
2
( 1 )
1
( )
k
i i
k m
i
i
o e
Q
e
_

=

Evidentemente discrepancias grandes entre frecuencias observadas


y esperadas significan la negacin de Ho e implican valores grandes
de Q, con lo cual Ho se rechaza si Q>_
2
(k-1-m)
Prueba de Bondad de ajuste a una Distribucin de Frecuencias
Esta prueba permite analizar si las frecuencias observadas de una va-
riable aleatoria en k categoras se ajustan a cierta distribucin terica
o esperada. Esta prueba se aplica principalmente con variables cualita-
tivas, como por ejemplo:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 5
Tipo de plaga en una plantacin afectada (1,2, ..,k)
Caractersticas genticas heredadas como por ejemplo color de las
flores.
Hiptesis:
La hiptesis nula se define de acuerdo con las proporciones esperadas
para cada una de las k categoras.
H
0
:t
i
= t
i0
para i = 1, 2, ..., k

H
1
:
t
i
= t
i0
para al menos un i.
Estadstico de prueba:
Dado por Q, donde las frecuencias esperadas son e
i
= n t
i
, siendo
n el tamao de la muestra.
Regla de decisin:
La H
0
se rechaza con un nivel de significacin o si Q resulta mayor
que _
2
(1-o,k-1)

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 6
En una poblacin de manzanos de la variedad A que son atacados por
cierta plaga, se ha establecido histricamente que luego de cierto tiempo
de iniciado el ataque, el 35% de la plantacin an est sana, el 24% ya
tiene consecuencias leves, 18% consecuencias regulares y el resto tiene
graves consecuencias. Para una nueva variedad B, se desea evaluar si las
proporciones anteriormente mencionadas se mantienen, para este fin se
tom una muestra aleatoria 1000 manzanos de una plantacin de la nue-
variedad, con los siguientes resultados:
Intensidad de la
enfermedad
ninguna leve regular Grave
Frecuencia
observada
341 220 185 254
H
o
: las proporciones poblacionales no han cambiado
(t
1
=0.35, t
2
=0.24, t
3
=0.18, t
4
=0.23)
H
1
: las proporciones poblacionales han cambiado
(al menos uno de los t
i
es diferente)

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 7
Suponiendo que la hiptesis nula es verdadera, se obtiene:
Intensidad de la
enfermedad
ninguna leve regular Grave
Frecuencia esperada
350 240 180 230
2
4
1
( )
4.54
i i
i
i
o e
Q
e
=

= =

Con lo cual:
Lo que corresponde a Pvalor de 0.20875, con lo que no hay sufi-
ciente evidencia estadstica para afirmar que las proporciones en la
variedad B son diferentes.
Prueba de Bondad de ajuste a una Distribucin de Probabilidades
Usando la funcin de probabilidad o densidad supuesta se obtienen las
frecuencias esperadas, en lo dems la prueba se realiza de la misma ma-
nera.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 8
Hay 1000 bolsas de naranjas, cada una de las cuales contiene 10 na-
ranjas. Algunas de las naranjas estn podridas. Es la distribucin de
probabilidades del nmero de naranjas podridas por bolsa una Bino-
mial(10, t). Los resultados al analizar las 1000 bolsas son los siguien-
tes:
# naranjas
podridas
0 1 2 3 4 5 6
# de bolsas 334 369 191 63 22 12 9
H
0
: El # de naranjas podridas por bolsa sigue una distribucin B(10, t)
H
1
: El # de naranjas podridas por bolsa no sigue una distrib. B(10, t)
Dado que no se conoce la proporcin de naranjas podridas t de la fp,
este valor ser estimado mediante la proporcin muestral:
# 1142
0.1142
# 10000
de naranjas podridas
p
de naranjas
t = = = =
Usando la distribucin binomial se calculan las probabilidades y las e
i
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 9
# naranjas
podridas (x)
0 1 2 3 4 5 6 o +
Frecuencias
observadas
334 369 191 63 22 12 9
Probabilidad
p(x)
0.2974 0.3834 0.222
4
0.076
5
0.0173 0.0027 0.0003
Frecuencias
esperadas
297.4 383.4 222.4 76.5 17.3 2.7 0.3
Note que las dos ltimas frecuencias esperadas son menores que 5, por
lo que es necesario agrupar las tres ltimas categoras:
# naranjas
podridas (x)
0 1 2 3 4
Frecuencias
observadas
334 369 191 63 43
Probabilidad
p(x)
0.2974 0.3834 0.222
4
0.076
5
0.0203
Frecuencias
esperadas
297.4 383.4 222.4 76.5 20.3
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 10
Con estos el estadstico de prueba es:
2
5
1
( )
37.24
i i
i
i
o e
Q
e
=

= =

Los grados de libertad para el estadstico sern (5-1-1) y el Pvalor re-


sultante es 0.0000. Por lo tanto hay evidencia estadstica para afirmar
que el # de naranjas podridas por bolsa no sigue una distrib. B(10, t)
Un entomlogo est analizando la distribucin de una especie de in-
secto en una zona de cultivo. Para dicho estudio seleccion 40 parce-
las de 2m x 2m y contabiliz el nmero de insectos en cada una. Los
resultados son los siguientes:
Nmero de
insectos
0 1 2 3 4
Nmero de
parcelas
4 16 12 6 2
Los datos se ajustan a una distribucin de Poisson?
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 11
H
0
: El # de insectos por parcela sigue una distrib. P() para algn
H
1
: El # de insectos por parcela no sigue una distrib. P() para algn
Dado que no se conoce el parmetro este valor ser estimado mediante
la media muestral:
# sec 66
1.65
# 40
de in tos
x
de parcelas
= = = =
Luego:
# de insectos (x) 0 1 2 3 4 o +
Frecuencias
observadas
4 16 12 6 2
Probabilidad p(x) 0.1920 0.3169 0.2614 0.1438 0.0859
Frecuencias
esperadas
7.68 12.68 10.46 5.75 3.43
# de insectos (x) 0 1 2 3 o +
Frecuencias
observadas
4 16 12 8
Probabilidad p(x) 0.1920 0.3169 0.2614 0.2296
Frecuencias
esperadas
7.68 12.68 10.46 9.19
Agrupando las
dos ltimas
Categoras :
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 12
Con estos el estadstico de prueba es:
2
4
1
( )
3.0175
i i
i
i
o e
Q
e
=

= =

Los grados de libertad para el estadstico sern 2 (4-1-1) y el Pvalor re-


sultante es 0.2212. Por lo tanto no hay suficiente evidencia estadstica
Para rechazar que el # de insectos por parcela siga una distribucin de
Poisson.
Tablas de Contingencia
Es una tabla de frecuencias en la que se presentan las unidades
clasificadas de acuerdo con dos variables. Por ejemplo, las unidades
agropecuarias pueden ser clasificadas como fundamentalmente
agrcolas, fundamentalmente pecuarias o mixtas, por otro lado
tambin pueden ser clasificadas como utilizadoras de crdito o no.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 13
Cuando el inters es verificar si las dos variables utilizadas como
criterios de clasificacin simultnea son independientes, se toma una
sola muestra de tamao n y se est frente a un modelo de independencia.
En cambio si primero se consideran muestras aleatorias indepen-
dientes con tamaos predeterminados e interesa probar que la distribu-
cin en los grupos es similar u homognea, se est frente aun modelo
de homogeneidad de subpoblaciones.
Frecuencias Observadas y Frecuencias Esperadas
En cualquiera de los dos casos los valores de las celdas de las tablas de
contingencia corresponden a las frecuencias observadas o
ij
, es decir
al nmero de elementos que corresponden a cada una de las combina-
ciones posibles de las categoras de las dos variables involucradas.
Para cada una de las frecuencias observadas, existe una frecuencia
esperada, e
ij
que est dada por el valor que se espera tener siempre que
la hiptesis nula (sea de independencia o de homogeneidad) sea verda-
dera.
Modelos de Independencia y Homogeneidad
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 14
Prueba Estadstica
El nmero de ocurrencias dentro de cada celda, es decir la frecuencia
observada puede ser asociada a una distribucin de Poisson con par-
metro igual a su frecuencia esperada y se prueba que para frecuencias
esperadas moderadamente grandes (mayores que 5) la distribucin de
Poisson puede aproximarse a la Normal, con lo cual:
( ) / (0,1)
ij ij ij
o e e N
Por lo tanto:
2
2
(1)
( )
ij ij
ij
o e
e
_

En una tabla de contingencia, el nmero de frecuencias observadas


independientes est dado por el (N filas-1)x(N Columnas 1), por lo
Tanto si la Ho es cierta el estadstico:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 15
2
2
( 1) ( 1)
( )
f
c
ij ij
f x c
i j
ij
o e
Q
e
_

Evidentemente discrepancias grandes entre frecuencias observadas


y esperadas significan la negacin de Ho e implican valores grandes
de Q, con lo cual Ho se rechaza si Q>_
2
(1-o, (f-1)x(c-1))
Obtencin de las frecuencias esperadas
. .
..
.
i j
ij
o o
Total de fila Total de columna
e
o Total de datos
= =
. .
. . ( , ),
ij ij i j
e n p n P F o C o = = = =
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 16
Se desea saber si la proporcin del uso del crdito es la misma en las
cuatro regiones en la que se ha dividido previamente el pas, para este
fin se han tomado muestras aleatorias de cada regin, encontrndose
los siguientes resultados:
REGIN 1 REGIN 2 REGIN 3 REGIN 4 TOTAL
Usa
crdito
558 345 185 402 1490
No usa
crdito
225 109 81 134 549
TOTAL 783 454 266 536 2039
Chi-Sq = 5.957, DF = 3, P-Value = 0.114
0 1, 2, ,
...
j j f j
H para todo j t t t = = = =
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 17
En un estudio sobre productividad de cierta variedad de vid, 356
plantas elegidas al azar fueron clasificadas de acuerdo a su anti-
gedad y cantidad de racimos que han producido en la ltima
cosecha. Los datos se presentan en la siguiente tabla

ANTIGUEDAD
CANTIDAD DE RACIMOS
TOTAL
POCO REGULAR MUCHO
JOVENES 51 22 43 116
SEMIANTIGUOS 92 21 28 141
ANTIGUOS 68 9 22 99
TOTAL
211 52 93 356
0 ,
. . ,
i j i j
H para todo i j t t t = =
Chi-Sq = 18.510, DF = 4, P-Value = 0.001
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 18
PRUEBA EXACTA DE FISHER
Permite analizar si dos variables dicotmicas estn asociadas
Caracterstica A
Total
Caracterstica B Presente Ausente
Presente a b a+b

Ausente c d c+d
Total a+c

b+d

n
La probabilidad exacta de observar un conjunto concreto de
frecuencias a, b, c y d en una tabla 2 x 2 cuando se asume
independencia y los totales de filas y columnas se consideran fijos
viene dada por la distribucin hipergeomtrica
( )!( )!( )!( )!
! ! ! ! !
a b c d
a c
n
a c
C C a d c d a c b d
p
C n a b c d
+ +
+
+ + + +
= =
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 19
La probabilidad anterior deber calcularse para todas las tablas de
contingencia que puedan formarse con los mismos totales marginales
que la tabla observada. Posteriormente, estas probabilidades se usan
para calcular valor de la p asociado al test exacto de Fisher. Este valor
de p indicar la probabilidad de obtener una diferencia entre los gru-
pos mayor o igual a la observada, bajo la hiptesis nula de indepen-
dencia. Si esta probabilidad es pequea (p<0.05) se deber rechazar
la hiptesis de partida y deberemos asumir que las dos variables no
son independientes, sino que estn asociadas.
(ver www.fisterra.com/mbe/investiga/fisher/fisher.asp#tabla1)
RIESGO RELATIVO
El estudio por observacin es una investigacin cientfica en la que no
es posible manipular de ninguna forma individuos o variables.
El estudio prospectivo es un estudio por observacin donde se selec-
cionan dos muestras aleatorias para los individuos. Una muestra con-
siste en individuos que poseen el factor de riesgo y la otra no. A los
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 20
individuos se les hace seguimiento en el futuro, son seguidos de mane-
ra prospectiva, y se inicia un registro respecto a la cantidad de indivi-
duos en cada una de las muestras, en algn momento son clasificados
en cada una de las categoras de las variable resultado.
Para dos variables dicotmicas:
Variable Resultado
(enfermedad)

Total
Factor de
riesgo
Presente Ausente
Presente a b a+b

Ausente c d c+d
Total a+c

b+d

n
El riesgo relativo es la razn del riesgo de desarrollar la enfermedad
entre individuos con el factor de riesgo con respecto al riesgo de de-
sarrollar la enfermedad entre individuos sin el factor de riesgo.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 21
( )

( )
a
a b
RR
c
c d
+
=
+
Puede construirse un intervalo de con-
fianza para el RR
( )
2
(1 / 2)
1 /

( )
Z
IC RR RR
o
_

=
Siendo
2
2
( )
( )( )( )( )
n ad bc
a c b d a b c d
_

=
+ + + +
Interpretacin del RR: Es un valor no negativo, un valor de cero
Indica que no existe asociacin entre el estado del factor de riesgo y
el estado de la variable dependiente. Un valor de RR=1, significa que
el riesgo de adquirir la enfermedad es la misma tanto para los indivi-
duos con y sin el factor de riesgo.Un RR>1 indica que el riesgo de ad-
quirir la enfermedad es mayor entre los individuos con el factor de
riesgo
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 22
2. Los grados de probabilidad de ser un caso con respecto a la proba-
bilidad de ser un control entre los individuos sin el factor de
riesgo es [c/(c+d)]/[d/(c+d)]=c/d

La razn de los grados de probabilidad a partir de los datos retros-
pectivos OR. La estimacin de OR (Odss Ratio) es:
/

/
a b ad
OR
c d bc
= =
( )
2
(1 / 2)
1 /

( )
Z
IC OR OR
o
_

=
Razn de grados de probabilidad (razn de chances)
Aplicable cuando se trata de estudios retrospectivos que comprende
dos muestras de individuos los casos y los controles, se definen:
1. Los grados de probabilidad de ser un caso con respecto a la proba-
bilidad de ser un control entre los individuos con el factor de
riesgo es [a/(a+b)]/[b/(a+b)]=a/b
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 23
Interpretacin de la OR: Ofrece una estimacin indirecta del riesgo
Relativo. Tambin toma valores no negativos. Un valor de cero indica
una no asociacin entre factor de riesgo y el estado de la enfermedad.
Un valor menor que 1 indica grados de probabilidad reducidos en con-
tra de la enfermedad entre los individuos con el factor de riesgo. Un va-
lor mayor que 1 indica que aumentan los grados de probabilidad en
contra de tener la enfermedad en los individuos en los que el factor de
riesgo est presente.
Nmero de
fumigaciones
Ataque de gusano
Total
Presente Ausente
Menos de 2 41 58 99
2 o ms 10 49 59
Total 51
107
158
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 24
41
99
10
59

2.44 RR = =
Se obtiene:
2
10.122 _ =
Indica que las plantacin con poca fumiga-
cin tiene un riesgo del 144% mayor que la
plantacin con una fumigacin alta.
Nivel de confianza 95%, Z=1.96
IC(RR) = (1.41, 4.24)
41 49

3.47
58 10
x
OR
x
= =
IC(OR)=(1.61, 7.45)
La probabilidad de tener ataque de gusano en
comparacin con la probabilidad de no tener ataque
de gusano es 3.47 veces mayor en el grupo con poca
fumigacin respecto al grupo con alta fumigacin
Como el intervalo no incluye el 1, se concluye que
hay ms probabilidad que la plantacin con ataque de gusano haya
recibido poca fumigacin.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 25
ESTADSTICA DE MANTEL - HAENSZEL
til cuando existe otra variable que puede asociarse con el factor de
riesgo o la variable en estudio (enfermedad) o con ambas , entonces
se pueden establecer estratos o grupos y permite verificar la hiptesis
nula que no existe asociacin entre el factor de riesgo y la variable en
estudio. El procedimiento es el siguiente:
1. Formar los k estratos. La tabla muestra los datos para el estrato i.
Variable Resultado
(enfermedad)

Total
Factor de
riesgo
Presente
(casos)
Ausente
(controles)
Presente
a
i
b
i
a
i
+b
i
Ausente
c
i
d
i
c
i
+d
i
Total
a
i
+c
i
b
i
+d
i
n
i
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 26
2. Para cada estrato se calcula la frecuencia esperada e
i
de la celda
superior izquierda de la tabla e
i
=(a
i
+b
i
)(a
i
+c
i
)/n
i

3. Para cada estrato se calcula:

2
( )( )( )( )
( 1)
i i i i i i i i
i
i i
a b c d a c b d
v
n n
+ + + +
=

4. Estadstico de prueba:
2
1 1 2 2
(1)
1
k k
i i
i i
HM
k
i
i
a e
v
_ _
= =
=
| |

|
\ .
=

MS Rino Sotomayor Ruiz


rino@lamolina.edu.pe 27
En una investigacin se han sembrado en condiciones bastante con-
troladas manzanos los mismos que provienen de plantas con injerto
temprano y tardo. Una de los objetivos de la investigacin es inves-
tigar si existe asociacin entre el uso de fungicidas al inicio de la
siembra y la necesidad de posteriores aplicaciones de carcter inten-
sivo. Los datos son los siguientes:
Con fungicida al
inicio
Sin fungicida al
inicio
TRANSPLANTE
TEMPRANO
Nmero de plantas
303 303
# de plantas que requieren
de aplicaciones posteriores
26 43
TRANSPLANTE
TARDIO
Nmero de plantas
301 311
# de plantas que requieren
de aplicaciones posteriores
14 25
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 28
H
0
: No existe asociacin entre el uso de fungicidas al inicio de la
siembra y la necesidad de aplicaciones intensivas posteriores.
H
1
: Existe asociacin entre el uso de fungicidas al inicio de la
siembra y la necesidad de aplicaciones intensivas posteriores.
e
1
= (43+260)(43+26)/606=34.50
e
2
= (25+286)(25+14)/612=19.82

v
1
=(303)(303)(69)(537)/(606
2
)(606-1)=15.3112
v
2
=(311)(301)(39)(573)/(612
2
)(612-1)=9.1418

| |
2
2
(43 25) (34.50 19.82)
7.65
15.3112 9.1418
HM
_
+ +
= =
+
Pvalor = 0.005677
Conclusin: Existe asociacin entre el uso de fungicidas al inicio de la
siembra y la necesidad de aplicaciones intensivas posteriores
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 29
Estimador Mantel Haenszel de la razn comn de los grados de
probabilidad (OR con estratos)
1
1
( / )

( / )
k
i i i
i
k
i i i
i
a d n
OR
b c n
=
=
=

Asumiendo que en la poblacin, la


razn de los grados de probabilidad
es la misma para todos los estratos.
Para el ejemplo:
(a
1
d
1
/n
1
) +(a
2
d
2
/n
2
)=[(43)(277)/606]+[(25)(287)/612]=31.378972
(b1c1/n1)+(b2c2/n2)=[(260)(26)/606]+[(286)(14)/612]=17.697599
Luego OR
HM
= 31.378972/17.697599=1.77
Se estima que los manzanos que no reciben fungicidas al inicio de la
siembra tienen 1.77 mas probabilidad de requerir aplicaciones inten-
sivas posteriores.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 30
ESTADSTICA NO PARAMTRICA

Los procedimientos de inferencia de la estadstica que tratan
la estimacin y prueba de hiptesis referidas a los
parmetros de las poblaciones en estudio, constituyen la
estadstica paramtricas y utilizan los estadsticos calculados
con los datos de las muestras provenientes de esas
poblaciones. Sin embargo, la formulacin de estas pruebas
requiere suposiciones restrictivas tales como: muestras
provenientes de poblaciones con distribucin normal,
variancias poblacionales homogneas, conocidas, muestras
grandes para garantizar normalidad por el Teorema central
del lmite, entre otras.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 31
La estadstica no paramtrica proporciona tcnicas y
pruebas alternativas las cuales no hacen suposiciones
restrictivas sobre la forma de la distribucin de la poblacin.
Estas pruebas alternativas son denominadas ms
comnmente, pruebas de distribucin libre. Las pruebas no
paramtricas disponibles son muchas, de ellas abordaremos
la Prueba del signo y Prueba de rangos con signo o de
Wilcoxon para una muestra, Prueba del signo para datos
(muestras) pareados, Prueba de rangos para dos muestras
independientes denominada U de Mann- Withney. Cuando
se recurre a pruebas no paramtricas se hace un
compromiso: perder eficiencia en la estimacin de intervalos,
pero adquirir la habilidad de utilizar menos informacin.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 32
VENTAJAS DE LOS MTODOS NO PARAMTRICOS
1. No requieren hacer la suposicin de que la poblacin est
distribuida normalmente o tiene otra forma especfica.
2. En general, son ms fciles de comprender y aplicar
3. Requieren supuestos muy generales acerca de la poblacin
4. La escala de medicin puede ser de las inferiores
DESVENTAJAS DE LOS MTODOS NO PARAMTRICOS
1. Desperdician informacin al utilizar signos o rangos en lugar
de los valores de las variables
2. No recomendables cuando una buena alternativa sea un mtodo
paramtrico, desde que a menudo no son tan eficientes o
"exactas" como stas.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 33
ESCALAS DE MEDICIN
Medicin: Se define como la asignacin de nmeros a objetos o
eventos de acuerdo a un conjunto de reglas. Las diversas escalas de
medicin son consecuencia de que la medicin puede llevarse a cabo
segn diferentes conjuntos de reglas. Se consideran las siguientes:
Escala nominal: Consiste en clasificar las observaciones en varias ca-
tegoras mutuamente excluyentes y colectivamente exhaustivas.
Escala ordinal: Las observaciones pueden clasificarse por grados con
algn criterio. Suelen asignar nmeros de manera ordenada.
Escala de intervalos: Se conoce la distancia entre dos mediciones cua-
lesquiera, implica el uso de una distancia unitaria y un punto cero que
no significa necesariamente ausencia, escala realmente cuantitativa.
Escala de razones: Puede establecerse tanto la igualdad de razones
como la de los intervalos.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 34
RANGOS
Muchas pruebas no paramtricas usan los rangos en lugar de los
datos. Un RANGO es un nmero asignado a una observacin
teniendo en consideracin su importancia relativa (o jerarqua)
respecto a los dems datos.
EJEMPLO 1: Suponga los datos 14.5, 10.3, 11.0, 8.5 y 15.8. stos
pueden ordenarse de menor a mayor y tener rangos
respectivamente:
Rangos: 4, 2, 3, 1, 5
EMPATES EN LOS RANGOS. En caso de empate o
coincidencia de observaciones se asigna el promedio de los
rangos que ocupan las observaciones.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 35
PRUEBA DEL SIGNO PARA UNA MUESTRA
Es una de las pruebas no paramtricas ms sencillas de utilizar. Su
nombre proviene del hecho en que se basa en la direccin (o signo) de
los datos en lugar de su valor numrico.
La prueba se usa cuando:
No es posible suponer normalidad de los datos
Los datos disponibles estn en escala ordinal, por lo menos
La prueba supone que la muestra se obtiene de una poblacin
simtrica en la cual la probabilidad de que un valor muestral sea
menor que la mediana (media) es 1/2 e igual a la probabilidad de que
sea mayor.
Para los clculos de la prueba los datos son signos + y , dependiendo
si las observaciones estn por arriba o por debajo de la mediana
hipottica.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 36
PROCEDIMIENTO
1. Las hiptesis H0: Me = H0: Me H0: Me
H1: Me H1: Me > H1: Me <
Si H0 es cierta, se esperara que el nmero de observaciones mayores que
sea igual al nmero de observaciones menores, es decir, que la
probabilidad de observar un signo + es igual a la probabilidad de observar
un signo , entonces tambin se puede plantear H0: P(+) = P() =
2. Estadstica de prueba: S = nmero de signos + en la muestra H
1

determina la conveniencia de + .
S H
1
: P(+) < P(), la estadstica de prueba es el nmero de signos + y un
nmero suficientemente pequeo de signos + causar el rechazo de H0.
(H1: Me < )
S H
1
: P(+) > P(), la estadstica de prueba es el nmero de signos y un
nmero suficientemente pequeo de signos causar el rechazo de H0.
(H1: Me > )
S H
1
: P(+) P(), un nmero suficientemente pequeo de + causar
rechazo. Se puede tomar como estadstica de prueba el nmero de signos
que ocurra con menos frecuencia.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 37
3. Distribucin de la estadstica de prueba Las
observaciones constituyen ensayos de Bernoulli, luego S tiene
distribucin binomial con probabilidad de xito igual a 1/2.
4. Decisin: Cuando H
1
: P(+) < P(), se rechaza H
0
, s bajo H
0

cierta, la probabilidad de observar s menos signos + es menor
igual que
Cuando H
1
: P(+) > P(), se rechaza H
0
, s bajo H
0

cierta, la
probabilidad de observar s menos signos es menor igual que
Cuando H
1
: P(+) P(), se rechaza H
0
, s bajo H
0

cierta, la
probabilidad de obtener un valor de s tanto ms extremo como el
que se calcul, es menor igual que /2.
En una prueba unilateral, el valor p = P(S s), si la prueba es
bilateral, se rechaza H
0
si P(S s) < /2
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 38
EJEMPLO: En un estudio sobre el nmero de yemas que brotan
luego de 15 das de sembrada cierto cultivar, se ha establecido que se
tiene una planta de calidad excelente si el nmero de yemas es de por
lo menos 5. De una plantacin se ha tomado una muestra al azar de
11 plantas obtenindose los siguientes resultados:
4 4 7 3 2 4 8 5 4 4 7
Qu puede concluir respecto a la afirmacin? (Use = 0.05)
PROCEDIMIENTO:
1. H
0
: Me >= 5 equivalentemente, H
0
: P(+) = P()
H
1
: Me < 5
2. Signos de las diferencias respecto al valor planteado. Si alguna diferencia resulta cero,
se elimina la observacin correspondiente, disminuyendo el tamao de muestra.
- - + - - - + 0 - - +

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 39
3. Estadstica de prueba: S =3, nmero de signos + (el que ocurre
con menos frecuencia) en la muestra. Un nmero suficientemente
pequeo de + causar rechazo
4. Distribucin de la estadstica de prueba. Las observaciones
constituyen ensayos con dos resultados posibles, luego S tiene
distribucin binomial con probabilidad de xito igual a 1/2 y
tamao de muestra reducida si hay ceros, n = 10
5. Decisin. La prueba es unilateral, se rechaza H
0

si el valor p =
P(S s)< P(S 3)< 0.05
6. Clculo de la probabilidad:
p=0.0010 + 0.0098 + 0.0438+0.117 = 0.1717
7. Como p > , no se rechaza la hiptesis nula.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 40
OBSERVACIONES
1. La estadstica de prueba S tiene distribucin Binomial (n, =1/2)
2. Si el tamao de muestra n, es pequeo, se usar la verdadera
distribucin. Si n es grande (n>30), la distribucin de S se puede
aproximar por la normal con parmetros = n y = n (1- ), luego
con la correccin de continuidad.
0.5
( )
(1 )
s n
P S s P Z
n
t
t t
| |
+
s = s
|
|

\ .
MUESTRA GRANDE Suponga una situacin con una
muestra grande (n = 40) donde se observaron 11 signos - y
29 signos +.
Se desea contrastar las hiptesis
H
0
: P(+) = P() = 1/2
H
1
: P(+) > P()
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 41
La estadstica de prueba es el nmero de signos y un
nmero suficientemente pequeo de signos causar el
rechazo de H
0
. La distribucin binomial de la estadstica de
prueba S se aproxima por la distribucin normal de la forma
siguiente:
( )
11 0.5 40*0.5
( 11) 2.69 0.003573
40*0.5*(1 0.5)
P S P Z P Z o
| |
+
s = s = s = <
|
|

\ .
Luego, se rechaza H
0
PRUEBA DEL SIGNO PARA MUESTRAS PAREADAS
Un dato pareado o de una muestra pareada es un dato bivariado (x,y)
que corresponde a:
Dos variables obtenidas para un mismo elemento de la poblacin.
Una variable obtenida en un mismo elemento de la poblacin, en dos
momentos distintos o por dos observadores.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 42
La prueba se usa cuando:
No son satisfechas las suposiciones de la prueba t .
Los datos disponibles estn en escala ordinal, por lo menos
La prueba se basa en las medianas de X e Y.
Supone que se muestrean dos poblaciones simtricas que son
dependientes, relacionadas.
La prueba compara los valores del par observado y se basa en la
direccin de esta diferencia. Se toma la pareja de datos de la
observacin i y se obtiene la diferencia x
i
- y
i
, la cual puede ser
mayor que 0 menor que 0, es decir, tener signo + -. Si la
diferencia entre las medianas es 0, se esperara que un par x
i

, y
i

cualquiera tenga igual probabilidad de dar un signo + -.

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 43
PROCEDIMIENTO
La hiptesis
H
0
: Mex

= Mey

, (Mex

- Mey

= 0) equivalentemente
H
0
: P (x
i

> y
i
) = P (x
i
< y
i
) = 1/2
Tambin se puede plantear,
H
0
: P(+) = P() = 0.5
En una muestra aleatoria se esperara que el nmero de signos + y
sea casi igual. Si existen ms signos + que los que pueden
atribuirse nicamente al azar, cuando H
0

es verdadera, se dudar de
la veracidad de H
0
. Mediante la prueba de signos, es posible
determinar cuntos signos de uno u otro tipo son ms de los que
pueden atribuirse nicamente al azar.
El procedimiento contina como en el problema de una muestra
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 44
PRUEBA DE WILCOXON (O DEL RANGO CON SIGNO)
Se usa cuando se desea probar una hiptesis con respecto a la media
de una poblacin, pero por alguna razn, ni Z ni t resultan
adecuadas como estadstica de prueba.
La prueba supone respecto a los datos:
La muestra es aleatoria
La variable es continua
La poblacin es simtrica
La escala de medicin es al menos de intervalo
La prueba del signo no sea aconseja porque podra desperdiciarse
demasiada informacin contenida en los datos.
La prueba utiliza en lugar de los signos, las magnitudes de las
diferencias entre las observaciones y el parmetro de inters
ordenadas por rangos.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 45
Las hiptesis que pueden probarse para alguna media de
poblacin no conocida:
H
0
: = 0 H
0
: 0 H
0
: 0
H
1
: 0 H
1
: < 0 H
1
: > 0
PROCEDIMIENTO
1. Obtener las diferencias d
i
= x
i
-
0
. Si cualquier d
i
= 0,
eliminarla de los clculos, reduciendo por lo tanto n .
2. Ordenar las di de menor a mayor sin considerar el signo.
Si dos ms |d
i
| son iguales asignar a cada valor la
media de la posicin que ocupa en la lista. Por ejemplo,
si las tres |d
i
| ms pequeas, sus posiciones son 1, 2 y
3, dentro del rango, luego a cada una se le asigna el
rango (1+2+3)/3=2
3. A cada categora se le asigna el signo de la diferencia
correspondiente.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 46
4. Encontrar las estadsticas: T
+
, la suma de las categoras con
signo + y T
-
, la suma de las categoras con signo -.
Si H0

es verdadera, la probabilidad de una diferencia positiva de
una magnitud dada, es igual a la probabilidad de una diferencia
negativa de la misma magnitud, es decir, P(d
i
+
) = P(d
i
-
). Luego, el
valor esperado de T
+
es igual al valor esperado de T
-
. A partir de una
muestra no se espera una gran diferencia entre sus valores
La estadstica de prueba es T
+
T
-
, dependiendo de la hiptesis
alternativa.
S H
1
: 0

, un valor suficientemente pequeo de T
+
T
-
causa
rechazo de H
0
.
S H
1
: < 0, se espera un valor grande de T
+
, la estadstica de
prueba es T
+
y un valor suficientemente pequeo de T
+
causa
rechazo.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 47
S H
1
: >
0
, se espera un valor grande de T
-
, la estadstica de
prueba es T
-
y un valor suficientemente pequeo de T
-
causa rechazo.
El valor calculado se compara con los valores crticos de la
estadstica de prueba de Wilcoxon que se encuentran en la tabla
correspondiente. Los valores se presentan para todas las muestras de
tamao 5 hasta n = 30.
Las reglas de decisin para las tres hiptesis alternativas:
H
1
:
0
. Se rechaza H
0
a un nivel de significacin , si el
valor calculado de T es menor o igual al valor T de la tabla para
n y para /2 preseleccionado.
H
1
: <
0
. Se rechaza H
0
a un nivel de significacin , s T
+
es
menor o igual al valor T de la tabla para n y para
preseleccionado.
H
1
: >
0
. Se rechaza H
0
a un nivel de significacin , s T
-
es
menor o igual al valor T de la tabla para n y para
preseleccionado.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 48
OBSERVACIONES
Si n>30, se define la estadstica de prueba:
2
i
i
R
T
R
=

S no hay empates sta se simplifica:


( 1)(2 1)
6
i
R
T
n n n
=
+ +

Luego se usa la aproximacin de la distribucin normal estndar


para este estadstico, es decir:
(0,1) T N ~
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 49
EJEMPLO 1. Suponga el estudio del efecto de una dieta en 15
animales de laboratorio en los que se midi el aumento de peso en
gramos de cada uno de ellos:
4.91 4.10 6.74 7.27 7.42 7.50 6.56 4.64 5.98 3.14 3.23 5.80 6.17
5.39 5.77
Se desea probar la hiptesis de que el incremento de peso en media
fue de 5.05 gramos.
PROCEDIMIENTO
Las hiptesis son H0: = 5.05
H1: 5.05
Los clculos necesarios se muestran en la tabla siguiente:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 50
Aumento de
peso (gramos)
Diferencia
d
i
= x
i
-
0
Rango de
| d
i
|
Rango con signo
de d
i
4.91 -0.14 1 -1
4.10 -0.95 7 -7
6.74 +1.69 10 +10
7.27 +2.22 13 +13
7.42 +2.37 14 +14
7.50 +2.45 15 +15
6.56 +1.51 9 +9
4.64 -0.41 3 -3
5.98 +0.93 6 +6
3.14 -1.91 12 -12
3.23 -1.82 11 -11
5.80 +0.75 5 +5
6.17 +1.12 8 +8
5.39 +0.34 2 +2
5.77 +0.72 4 +4
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 51
T
+
= 86 ; T

= 34 Se suma los rangos con signo, por separado
rangos negativos y positivos.
La estadstica de prueba es el menor entre los valores T, en
este caso T

= 34, la pregunta es es suficientemente
pequeo para rechazar H0 ?
El valor crtico, (tabla de Wilcoxon) para una hiptesis
bilateral es T=25. CONNOVER
Luego, no es posible rechazar la hiptesis nula, el valor
p = 2(0.0757) = 0.1514
Wilcoxon Signed Rank Test
Test of median = 5.050 versus median not = 5.050
N for Wilcoxon Estimated
N Test Statistic P Median
Inc-Peso 15 15 86.0 0.148 5.747
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 52
EJEMPLO. Un estudio analiz la influencia de charlas
educativas de nutricin en cambios de actitudes hacia la
preparacin de alimentos en familias de pocos ingresos. Se
seleccionaron aleatoriamente quince familias de
caractersticas similares, a las cuales se les instruy en el
valor nutritivo de distintos productos locales y en la
importancia de preparar comidas balanceadas. A
continuacin se presenta los resultados de la evaluacin de
la preparacin de alimentos antes y despus de las charlas
educativas. Los resultados se presentan en una escala de 1
= pobre a 7 = alto valor nutritivo de las comidas
preparadas en casa. Realizar la prueba de los rangos
signados de Wilcoxon. Usar = 0.05.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 53
Familia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Antes 3 6 6 1 5 3 1 4 6 3 6 4 5 2 4
Despus 4 5 4 6 5 5 7 7 6 5 3 3 7 5 6
d
j
1 -1 -2 5 0 2 6 3 0 2 -3 -1 2 3 2
|d
j
| 1 1 2 5 0 2 6 3 0 5 3 1 2 3 2
Valor de
orden
2 2 5.5 11.5 - 5.5 13 9 - 11.5 9 2 5.5 9 5.5
R
j
signado 2 -2 -5.5 11.5 - 5.5 13 9 - 11.5 -9 -2 5.5 9 5.5
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 54
Hiptesis
Ho: Charlas educativas no tuvieron ningn impacto
H
1
: Luego de las charlas mejor la preparacin de las comidas, o equivalentemente,
Ho: P
0.5
0
H
1
: P
0.5
>0
Estadstico de prueba y clculo de la evidencia muestral
R
j
= 2 2 - 5.5 + 11.5 + 5.5 + 13 + 9 + 11.5 9 2 + 5.5 + 9 + 5.5 =54
R
j
2
= 2
2
+ (-2)
2
+ . . . + (5.5)
2
= 809.5

13
*
1
13
2
1
54
1.8979
809.5
i
i
calc
i
i
R
Z
R
=
=
= = =

p-value = P(Z 1.8979) = 0.028855



MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 55
Conclusin p-value = 0.028855 < 0.05 , por lo tanto
rechazar la hiptesis nula y concluir que las charlas
educativas s tuvieron efecto positivo en la preparacin de
comidas de mayor nivel nutritivo
PRUEBA DE LA MEDIANA
Procedimiento no paramtrico, til para probar la hiptesis nula que
dos muestras independientes fueron extradas de poblaciones con
medianas iguales.
H
0
: Me
1
=Me
2
H
1
: Me
1
=Me
2
Se calcula la mediana comn de las dos muestras combinadas.
Se determina para cada muestra el # de observaciones que son ma-
yores y menores que la mediana comn. Las frecuencias resultantes
se arreglan en una tabla 2x2. En el caso de valores iguales a la Me,
Si son pocas se eliminan o se cuentan en el grupo < que Me.
Se realiza la prueba chicuadrado para una tabla 2x2.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 56
Variedad de camote
A B A B
36 29 25 50
26 50 27 37
27 43 45 34
21 22 46 31
27 42 33
38 47 26
23 42 46
25 32 41
Nmero de tubrculos cosechados por planta
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 57
H
0
: Me
A
=Me
B
H
1
: Me
A
=Me
B
Mediana comn = (33+34)/2 =33.5
Variedad de
camote

Total
A B
# de plantas con # tubrculos
mayores que la mediana
6 8 14
# de plantas con # tubrculos
menores que la mediana
10 4 14
Total 16 12 28
2
2
28[(6)(4) 8(10)]
2.33
(16)(12)(14)(14)
_

= =
Pvalue =0.126902
Se acepta H
0
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 58
PRUEBA DE MANN -WHITNEY PARA DOS MUESTRAS
INDEPENDIENTES
Alternativa a la prueba t para la diferencia de dos medias.
Las preguntas que se hacen y que la prueba va a responder
son:
Hay tendencia de una poblacin a producir valores ms
grandes que la otra poblacin?
Son las medianas de las poblaciones iguales?
La prueba supone que las dos muestras, de tamaos n
1
y n
2

respectivamente, han sido extradas independientemente y en
forma aleatoria de sus poblaciones.
Si las poblaciones son diferentes, difieren slo en lo que
respecta a sus medianas
La escala de medicin es por lo menos ordinal
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 59
La prueba utiliza la informacin de los datos ordenados por
rangos. Las HIPTESIS se refieren a las medianas de las
poblaciones:
H0: Me
x
= Me
y
H0: Me
x
Me
y
H0: Me
x
Me
y

H1: Me
x
Me
y
H1: Me
x
> Me
y
H1: Me
x
< Me
y
PROCEDIMIENTO
Combinar los valores de ambas muestras aleatorias y luego asignar
rangos (de menor a mayor) sin importar a que poblacin pertenece
cada valor. En caso de empate o coincidencia de observaciones se
asigna el promedio de los rangos que ocupan las observaciones.
Si la mediana de la poblacin X es, en efecto, ms pequea (o ms
grande) que la mediana de la poblacin Y, es de esperar, (para
muestras de igual tamao) que la suma de los rangos asignados a las
observaciones de X sea menor (o mayor) que la suma de los rangos
asignados a las observaciones de la poblacin Y
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 60
La prueba estadstica se basa en
U = mn ( U1 , U2 ), donde U1 y U2 son funciones de Rx
Ry de la forma siguiente:
1 1 2 2
1 1 2 2 1 2
( 1) ( 1)
2 2
x y
n n n n
U n n R U n n R
+ +
= + = +

Se rechaza H
0
: Las medianas son iguales, las poblaciones son
idnticas, s U < U
La tabla de valores U, presenta la probabilidad P (U U) para
muestras pequeas (n 20)
EJEMPLO. En un experimento diseado para estimar los efectos de la inhalacin
prolongada de xido de cadmio, 15 animales de laboratorio sirvieron de sujetos para
el experimento, mientras que 10 animales similares sirvieron de controles. La
variable de inters fue la concentracin de hemoglobina (gramos) despus del
experimento. Los resultados se muestran a continuacin:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 61
Animales expuestos X 14.4 14.2 13.8 16.5 14.1 16.6 15.9 15.6
14.1 15.3 15.7 16.7 13.7 15.3 14.0
Animales no expuestos Y 17.4 16.2 17.1 17.5 15.0 16.0 16.9 15.0
16.3 16.8
Se desea saber si es posible concluir que la inhalacin prolongada de xido
de cadmio disminuye el nivel de hemoglobina.
Las hiptesis: H
0
: Mex Mey
H
1
: Mex < Mey
PROCEDIMIENTO: Datos y rangos para el clculo de la
estadstica de prueba:
Dato
13.7
X
13.8
X
14.0
X
14.1
X
14.1
X
14.2
X
14.4
X
15.0
Y
15.0
Y
15.3
X
15.3
X
15.6
X
15.7
X
Ri 1 2 3 4.5 4.5 6 7 8.5 8.5 10.5 10.5 12 13
Dato 15.9
X
16.0
Y
16.2
Y
16.3
Y
16.5
X
16.6
X
16.7
X
16.8
Y
16.9
Y
17.1
Y
17.4
Y
17.5
Y
Ri 14 15 16 17 18 19 20 21 22 23 24 25
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 62
De donde: R
x

= 145 R
y
= 180
Clculo de U = mn ( U1 , U2 ), donde U1 y U2 son:
1 1
1 1 2
2 2
2 1 2
( 1) 15 16
15 10 145 125
2 2
( 1) 10 11
15 10 180 25
2 2
x
y
n n x
U n n R x
n n x
U n n R x
+
= + = + =
+
= + = + =

U = mn ( U
1

, U
2
) = 25
El valor de la Tabla de valores crticos de U Mann-Whitney es Uo=44
Luego, se rechaza H
0
. La prueba result significativa. Es posible
concluir que la inhalacin prolongada de xido de cadmio disminuye el
nivel de hemoglobina (p<0.05)
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 63
OBSERVACIONES
Para muestras grandes, n>20, se usa la aproximacin de la distribucin
normal:
La prueba se puede basar en U1 U2 (pruebas equivalentes)
Bajo H
0
, las dos muestras provienen de poblaciones idnticas, se
puede probar que:
1 2 1 2 1 2
( 1)
2 12
U U
n n n n n n
o
+ +
= =
Luego:
U
U
U
Z

o

=
DECISIN
Rechazar H0: Mex = Mey , a favor de:
H1: Mex Mey si Z < - Z
1-/2
Z > Z
1-/2
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 64
H
1
: Mex < Mey s Z > Z
1-
(valores grandes de U corresponden a menores
valores de Rx)
H
1
: Mex > Mey s Z < - Z
1-
Mann-Whitney Confidence Interval and Test
Expuesto N = 15 Median = 15.300
No expue N = 10 Median = 16.550
Point estimate for ETA1-ETA2 is -1.300
95.1 Percent CI for ETA1-ETA2 is (-2.300,-0.600)
W = 145.0
Test of ETA1 = ETA2 vs ETA1 < ETA2 is significant at 0.0030
The test is significant at 0.0030 (adjusted for ties)
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 65
La prueba de Kruskal-Wallis
La prueba de Kruskal-Wallis basada en los rangos de las observaciones es
una extensin de la prueba de Mann Whitney, donde en lugar de dos medias,
se realiza la comparacin de las medias de k grupos o tratamientos
independientes.
Esta prueba contrasta la hiptesis nula de que las k muestras
independientes proceden de la misma poblacin y, en particular, todas ellas
tienen la misma esperanza.
Se procede como sigue.
1. Se ordenan todas las observaciones en sentido creciente y se reemplazan por su
rango R
ij
, i = 1,...,k, j = 1,...,n
i
, en la muestra conjunta ordenada.
2. En caso de empates se asigna a cada una de las observaciones empatadas el
rango promedio de todas ellas.
3. Estadstico de prueba:
2 2
2
( 1)
1
4
1
i
i
k
R N N
n
S
i
T
+
=
(
=
(

1
( )
i
n
i ij
i
R R X
=
=

para i de 1 a k
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 66
Cuando los tamaos muestrales n
i
son razonablemente grandes (n
i
> 5),
T tiene una distribucin aproximadamente chicuadrado con k - 1 grados
de libertad bajo la hiptesis nula.
2
( ) 2 2
1
1 4
,
: ( )
N N
ij N
i j
donde S R X
+

| |
=
|
\ .

Si no hay empates S
2
se reduce a:

( 1) 2
12
N N
S
+
=
Y el estadstico de prueba queda como:
2
12
(( 1)
1
3( 1)
i
i
k
R
N N n
i
T N
+
=
= +

MS Rino Sotomayor Ruiz


rino@lamolina.edu.pe 67
Comparaciones mltiples
Si la H
0
es rechazada, los grupos (tratamientos) i y j difieren significa-
tivamente si se satisface:
( )
( )
2
1 1 1
(1 / 2, )
j
i
i j i j
R
R
N T
N k n n N k n n
t S
o


> +
Para evaluar el efecto de la expectativa sobre la percepcin de la cali-
dad en vinos, un investigador asign aleatoriamente 24 bebedores afi-
cionados a tres grupos A, B y C, de 8 individuos cada uno. Cada indi-
viduo fue citado para una entrevista individual. Desafortunadamente,
uno de los individuos del grupo B y dos del grupo C no se presenta-
ron por lo que el investigador tuvo que trabajar con muestras de dis-
tinto tamao. A los individuos que si se presentaron se les pidi que
prueben una copa de vino y que la evalen en una escala de 10 puntos
donde 1 el calificativo menor y 10 el mayor. En realidad, los tres gru-
pos probaron el mismo vino; la nica diferencia est en la presenta-
cin de la muestra, la cual es diseada para inducir a una alta expecta-
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 68
tiva sobre la calidad del vino en los miembros del grupo A, una baja
expectativa en los miembros del grupo C y una expectativa intermedia
en los del grupo B. La siguiente tabla muestra los calificativos asigna-
dos por los 21 individuos:
Grupo A 6 7 7 8 8 9 9 9
Grupo B 4 5 5 6 8 8 7
Grupo C 3 4 5 5 8 6
H = 7.89 DF = 2 P = 0.019
H = 8.12 DF = 2 P = 0.017 (adjusted for ties)
Kruskal-Wallis Test on calific
grupo N Median Ave Rank Z
a 8 8.000 15.6 2.68
b 7 6.000 9.5 -0.78
c 6 5.000 6.6 -2.06
Overall 21 11.0
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 69
La Prueba de Friedman
Es una extensin de la prueba de Wilcoxon para el caso de k muestras
relacionadas, cada una de tamao b, estas k observaciones relacionadas
constituyen un bloque. Se emplea por ejemplo cuando b jueces califican
a k tratamientos.
Se asignan rango de 1 a k dentro de cada bloque, entonces Rij es el rango
asignado a Xij y Ri es la suma de los rangos asignados en la muestra o
tratamiento i.
1
( ), 1, 2,...,
b
ij
j
Ri R X i k
=
= =

Supuestos
1. Los b bloques son mutuamente independientes (Los resultados dentro
de un bloque no influyen en los resultados de los otros bloques).
2. La escala de medida es al menos ordinal, de modo que se puede
rankear dentro de cada bloque
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 70
Procedimiento de la prueba
Hiptesis
H
0
: No hay diferencias significativas entre las respuestas medias de
los tratamientos o grupos.
H
1
: Al menos de los tratamientos o grupos tiene una respuesta media
diferente.
Estadstico de prueba
Calcule :
2 2
1 1 1
1
k b k
ij i
i j i
A R B R
b
= = =
= =

Si no hay empates A se simplifica a:
( 1)(2 1)
6
bk k k
A
+ +
=
2 2
2
( 1)
( 1)
4
( 1)
4
b k k
k bB
T
bk k
A
( +

(

=
+

2
( 1) 0
/
k
T H es verdadera _

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 71
Comparaciones mltiples
Si la H
0
es rechazada, los grupos (tratamientos) i y j difieren significa-
tivamente si se satisface:
1/ 2
2 ( )
(1 / 2,( 1)( 1)) ( 1)( 1)
b A B
i j b k b k
R R t
o


(
>

Tres diferentes soluciones estn siendo estudiadas para evaluar su
efectividad en el retardo del crecimiento de bacterias en contenedores
de leche de 5 galones. Los anlisis son hechos en el laboratorio y slo
tres ensayos pueden efectuarse un da dado. Debido a que los das
son una fuente de variabilidad que relaciona las respuestas , se ha
considerado un anlisis de dos vas. (Datos en UFC)

solucin
Das
1 2 3 4
1 13 22 18 39
2 16 24 17 44
3 5 4 1 22
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 72
S = 6.50 DF = 2 P = 0.039
Sum
Est of
trat N Median Ranks
1 4 19.75 9.0
2 4 21.75 11.0
3 4 3.25 4.0
Grand median = 14.92
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 73
DCIMA DE KOLMOGOROV-SMIRNOV.
Premisas
La nica premisa que se necesita es que las mediciones se encuentren
al menos en una escala de intervalo. Se necesita que la medicin con-
siderada sea bsicamente continua. Adems dicha prueba es aplicable
cualquiera sea el tamao de la muestra
Potencia-Eficiencia
La prueba de una muestra de K-S puede en todos los casos en que
se aplique ser ms poderosa que su prueba alternativa, la prueba chi-
cuadrado

Caractersticas de la dcima
La prueba de K-S de una muestra es una dcima de bondad de
ajuste. Esto es, se interesa en el grado de acuerdo entre la distribucin
de un conjunto de valores de la muestra y alguna distribucin
terica especfica. Determina si razonablemente puede pensarse que
las mediciones muestrales provengan de una poblacin que tenga esa
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 74
distribucin terica. En la prueba se compara la distribucin de
frecuencia acumulativa de la distribucin terica con la distribucin
de frecuencia acumulativa observada. Se determina el punto en el que
estas dos distribuciones muestran la mayor divergencia.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = F
t
(x) para todo x.
H
1
: La distribucin observada no se ajusta a la distribucin terica.
Tambin:
F(x) F
t
(x) para algn x
F(x): es funcin desconocida
F
t
(x): es la funcin terica. Esta puede ser por ejemplo la funcin
normal con cierta media y varianzas conocidas
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 75
Estadgrafo y distribucin muestral
{ }
max ( ) ( )
i i
D F x S x =
S
n
(x): es la funcin de distribucin emprica
Correlacin Categrica de Spearman o correlacin de grado
Llamado rho de Spearman, se usa para describir la relacin entre dos
caractersticas ordinal (o una ordinal y una numrica. Es tambin una
medida estadstica adecuada para usarse con variables numricas,
cuando sus distribuciones son sesgadas. Su clculo se realiza con los
rangos de cada una de las variables
2 2
[ ( ) ( )][ ( ) ( )]
[ ( ) ( )] [ ( ) ( )]
i i i i
s
i i i i
R X R X R Y R Y
r
R X R X R Y R Y

=


MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 76
INTRODUCCIN AL ANLISIS DE DATOS CATEGRICOS
Para tablas de contingencia 2x2, un solo nmero tal como el odss ratio
puede resumir la asociacin, con un solo nmero se pierde informacin.
Medidas de Asociacin Ordinal
La pregunta bsica cuando se analiza datos ordinales es Y crece
cuando X crece ? Para variables de escalas de intervalo se tiene el
coeficiente de correlacin de Pearson, una mediada del grado de aso-
ciacin lineal entre dos variables. Para el caso de variables ordinales,
La nocin de linealidad puede ser cuestionada, sin embargo se tiene el
concepto de monotonicidad del cual surgen las ideas de Concordancia
y discordancia.
Cuando se observa el ordenamiento de dos sujetos, sobre cada una de
dos variables, se puede clasificar el par de sujetos como Concordante
o Discordante
MEDIDAS DE ASOCIACIN
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 77
Ejemplo: La siguiente tabla muestra el nmero de rboles clasificados
de acuerdo a antiguedad y grado de dureza de su madera

Antigedad
Grado de dureza de la madera
Nada
duro
Algo
Duro

Duro
Muy
duro
< 5 aos 20 24 80 82
5 - 8 aos 22 38 104 125
9 12 aos 13 28 81 113
> 12 aos 7 18 54 92
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 78
Considere el par de rboles uno clasificado en (<5, ND) y el otro en
la celda (5-8, AD), este par es concordante : cada uno de los rboles
en la celda (<5, ND) forman pares concordantes con cada uno de los
38 rboles clasificados en (5-8, AD), es decir hay 20x38=760 pares
concordantes provenientes de esas dos celdas.
El nmero total de pares concordantes denotado por C ser entonces:
C=20(38+104+125+28+81+113+54+92)+24(104+125+81+113+
54+92)+80(125+113+92)+22(28+81+113+54+92)+38(81+113+
54+92)+104(113+92)+13(18+54+92)+28(54+92)+81(92)=109,520
De manera anloga el nmero de pares discordantes es:
D=24(22+13+7)+80(22+38+13+28+7+18)+....+113(7+118+54)=
84,915.
En este ejemplo, C>D, sugiere que bajos grados de dureza ocurren con
bajos niveles de antiguedad y altos grados de dureza con altos niveles
de antiguedad.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 79
COEFICIENTE GAMMA DE GOODMAN Y KRUSKAL
Medida de asociacin para datos ordinales definida por:

C D
C D


=
+
Esta medida puede tomar valores entre 1 y 1; su interpretacin es
la misma que en el caso del coeficiente de correlacin, obviando la
linealidad. Para el ejemplo resulta igual a 0.127, lo que indica que
existe ligera tendencia que a mayor nivel de ingreso mayor nivel de
satisfaccin en el trabajo.
MEDIDA DE ASOCIACIN NOMINAL
Cuando las variables en una tabla de doble entrada son nominales los
conceptos de asociacin positiva, negativa o monotonicidad ni tienen
sentido. En este caso se puede usar como medida de asociacin el
coeficiente de contingencia de Cramer, que est definido a partir
de la estadstica _
2
y del tamao de muestra n por:

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 80
2
2
n
CC
_
_ +
=
Para facilitar su interpretacin, se modifica este coeficiente, en funcin
el k, el menor valor entre el nmero de filas y columnas.
2
2
*
( 1)( )
k
CC
k n
_
_
=
+
El valor de CC* siempre estar en el intervalo de 0 a 1. Ser cero
cuando existe completa independencia y ser 1 cuando existe
asociacin perfecta: Valores de CC* prximos de 1 describen una
asociacin fuerte, mientras que valore de CC* prximos de 0 indican
una asociacin dbil: Este coeficiente es til tambin para tablas de
dimensione fxc.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 81
LA ESTADSTICA KAPPA
Variacin entre las observaciones
Las causas de la variabilidad de observaciones, es decir la variacin
de mediciones del mismo sujeto, pueden clasificarse en tres
categoras:
1.Imputable a la persona u objeto que se est midiendo.
2.Causada por el examinador.
3.Debido al instrumento o mtodo usado.
Kappa es una estadstica para la medicin de la concordancia entre
dos observadores, ante una variable dicotmica.
En los estudios de confiabilidad, donde es usada se tienen los
objetivos siguientes:
Cuantificar la repetibilidad de una variable evaluada muchas
varias o muchas veces.
Valorar el grado de concordancia.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 82
Determinar si un procedimiento es adecuado para evaluar o
diagnosticar alguna enfermedad o anormalidad.
Ejemplos:
Medida de concordancia de diagnsticos.
Medida de repetibilidad de las encuestas.
Clculo de Kappa
Considere los siguientes datos correspondiente al diagnstico de 2
entomolgos

Entomlogo 1
Entomlogo 2
Total
Anormal Normal
Anormal 136 92 228
Normal 69 240 309
Total 205 332 537
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 83
Los diagnsticos son concordantes en 136+240=376, es decir, en
el 70.02% de los pacientes.
La concordancia observada p
o
se compara con la concordancia que
se esperara p
e
si los dos entomlogos actan independientemente.
Tasa de concordancia observada o probabilidad de concordancia
p
o
=376/537=0.7002.
Tasa de concordancia esperada, bajo independencia:
228/537*205/537+309/537*332/537=0.5178.
La diferencia p
o
-p
e
es una medida, luego la mxima diferencia se
dara cuan p
o
=1, y Kappa se define como:

1
o e
e
p p
k
p

k=1, perfecta concordancia


k=0, perfecta independencia
En el ejemplo:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 84
Gua para la evaluacin de Kappa
k > 0.75 excelente repetibilidad o concordancia
0.4 <=k<=0.75 buena
K<0.4 regular (resultados de cuidado)
0.7002 0.5178
0.378
1 0.5178
k

= =

Para el ejemplo:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 85
Inferencia sobre Kappa
Estimacin del error estndar: A partir de:

Observador 1
Observador 2
0 1
0 n
0
1 n
1
m
0
m
1
n
( )
( )
0 0 1 1
0 0 1 1
2
2
2 3
1
1 1
(1 )
e
k e e i i i i
e
n m n m
p n m n m
n n n n n
s p p n m n m
n p n
= + = +
(
= + +
(

MS Rino Sotomayor Ruiz


rino@lamolina.edu.pe 86
Prueba de significancia de Kappa
Para las hiptesis:
Ho: k=0
H1: k>0
La estadstica ( )
0,1
k
k
Z N
S
=
cuando Ho es verdadera
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 87
REGRESIN LOGSTICA I: RESPUESTA DICOTMICA
Cuando en una regresin la variable respuesta o dependiente es binaria
o dicotmica es decir se expresa como cero o uno, los modelos de la re-
gresin logstica son los adecuados. Las variables independientes pue-
den ser continuas o binarias.
Sea Y la variable dicotmica tal que el valor resultante 1 representa la
presencia (los casos) y 0 indica su ausencia (los controles). Basado en
la muestra, se podra estimar la probabilidad de que un paciente de la
poblacin sea un caso mediante:

( 1) p P Y = =
En el estudio de la Regresin Lineal el modelo es de la forma
c | o + x + = Y
La variable respuesta Y es continua, el inters es
identificar un conjunto de variables explicativas
que ayuden en la prediccin de un valor medio
de y.
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 88
variable respuesta Y no es continua sino dicotmica, es decir los valo-
res que puede asumir son dos: 1 que representa un "xito" y 0 que re-
presenta un "fracaso". La media de la variable dicotmica, designada
como p, es la proporcin de veces que la variable asume el valor 1, es
decir: p=P(Y=1)=P(xito).
En este caso, el inters es estimar la probabilidad p y determinar los
factores o variables explicativas que influencian este valor
LA FUNCIN LOGSTICA
Una alternativa de solucin podra ser la formulacin de un modelo de
la forma:
c | o + x + = p
Sin embargo este modelo no resulta til. Desde que p es una proba-
bilidad, asume valores entre 0 y 1, mientras que el trmino podra
proporcionar un valor fuera de este intervalo. Se intenta resolver el
problema formulando el modelo
e = p
x | + o
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 89
La expresin a la derecha es llamada funcin logstica, no puede
resultar un valor negativo ni mayor que 1; en consecuencia est
restringida al intervalo de 0 a 1, como una probabilidad.
Para cumplir con esta ltima restriccin, creamos un modelo de la
forma:

e 1
e
= p
x
x
| + o
| + o
+
La expresin a la derecha es llamada funcin logstica, no puede resul-
tar un valor negativo ni mayor que 1; en consecuencia est restringida
al intervalo de 0 a 1, como una probabilidad.
e
)) e 1 /( e ( 1
) e 1 /( e
=
p 1
p
x
x x
x x
| + o
| + o | + o
_ + o | + o
=
+
+

Se puede ver que:


MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 90
Al extraer el logaritmo natural a cada miembro de la ecuacin,
x
p 1
p
ln | + o =
(

Se define la chance en favor de un evento que ocurre con probabilidad


p, como
p - 1
p
As crear un modelo para la probabilidad p
con una funcin logstica es equivalente a
crear un modelo de regresin lineal en que
la respuesta continua Y se ha reemplazado
por el logaritmo de la chance de xito para una variable aleatoria bina-
ria. En lugar de suponer que la relacin entre p y x es lineal, suponemos
que la relacin entre y x es lineal. La tcnica para construir un modelo
de esta forma se conoce con el nombre de regresin logstica.
| | ) p 1 /( p ln
Se denomina logit
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 91
El mtodo de estimacin de mnimos cuadrados no puede ser empleado,
ste supone que la variable respuesta es continua y tiene distribucin
normal. En su lugar utilizamos la estimacin de mxima verosimilitud.
FLORECE 1 0 1 0 0 0 1 0 1 1
NUTRIENTES 120 110 150 100 110 90 120 120 100 150
FLORECE 1 0 1 1 0 0 1 1 0 1
NUTRIENTES 160 90 120 110 110 100 110 130 120 140
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -12.5579 6.19910 -2.03 0.043
NUTRIENTE 0.111094 0.0547143 2.03 0.042 1.12 1.00 1.24

MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 92
La ecuacin estimada es

ln 12.5579 0.111094

1
p
x
p
(
= +
(


Indica que para cada unidad adicional de nutrientel, el logaritmo de la
chance de producirse el florecimiento incrementa en promedio en
0.111094.
PRUEBA DE HIPTESIS
Como en la regresin lineal simple, para probar la hiptesis nula, de
que no existe relacin entre p y x, contra la alternativa
0 : H
0
= |
0 : H
1
= |
|
|
=

z
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 93
UTILIZANDO EL MODELO AJUSTADO
El inters puede ser calcular la probabilidad de que una planta con
un nivel de nutriente en particular sufra florezca. Vamos a utilizar la
ecuacin estimada, sustituyendo el valor adecuado de x. Por ejemplo,
para un nivel de nutriente de 140

ln 12.05579 0.111094(140)

1
3.49737
p
p
(
= +
(


=
Al calcular el antilogaritmo a cada miembro de la ecuacin, se obtiene:
3.49737

33.02847
p
e
1- p
=
=
Resolviendo la ecuacin:

0.97061 p =
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 94
Interpretando: la probabilidad estimada de que una planta con un
nivel de nutriente de 140, florezca es 0.97061
REGRESIN LOGISTICA CON UNA VARIABLE BINARIA
El modelo de regresin logstica puede incluir una variable nominal,
dicotmica como variable explicativa.
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -0.916291 0.836660 -1.10 0.273
RIEGOTEO 1.72722 1.03010 1.68 0.094 5.62 0.75 42.36

ln 0.916291 1.72722

1
p
x
p
(
= +
(


Para un ejemplo con variable explicativa que indica el uso o no
del riego por goteo y el florecimiento como variable y se obtuvo:
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 95
En la ecuacin, el valor positivo del coeficiente de la presencia de
riego por goteo indica que el logaritmo de la chance, la chance misma
y tambin la probabilidad de hacer floreces es mayor entre quienes hacen
uso del riego por goteo que entre los que no lo hacen.
Cuando la variable explicativa es binaria, el coeficiente de regresin
estimado tiene una interpretacin especial. En la ecuacin, desde que
x slo toma valores 1 0, si x=1

ln 0.810929

1
p
p
(
=
(


Tomando antilogaritmo la chance de
florecer es 2.2500
Mientras que para x=0

ln 0.916291

1
p
p
(
=
(


Luego la chance de florecer es 0.400
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 96
Luego la razn de chances OR estimado es 2.25/0.4=5.625, luego la
probabilidad de florecer es 5.625 veces mayor cuando se aplica el rie-
go por goteo que cuando no se aplica este tipo de riego.
Este es el resultado del antilogaritmo del coeficiente

|
1.72722

5.625 OR e e
|
= = =
Es decir:
Los datos usados para estos clculos fueron
FLORECE 1 0 1 0 0 0 1 0 1 1
RIEGO
GOTEO
1 1 1 1 1 1 1 0 1 1
FLORECE 1 0 1 1 0 0 1 1 0 1
RIEGO GOTEO 1 0 1 1 0 0 1 0 0 0
MS Rino Sotomayor Ruiz
rino@lamolina.edu.pe 97
Riego por goteo
Total
Florece Si No
Si
9 2 11
No
4 5 9
Total
13 7 20
Con los datos se puede obtener:
Y como se recordar
9 5
4 2

5.625
x
x
OR = =
LA ESTADSTICA DE WALD
2

|
|
s
WALD=
Se evala mediante la distribucin Chi-
cuadrado, con un grado de libertad si la va-
riable es numrica y con el nmero de cate-
goras menos 1 si la variable es categrica