Está en la página 1de 50

MODULO:

REGRESIÓN LINEAL Y MÉTODOS NO


PARÁMETRICOS

ESPECIALIZACIÓN EN ESTADÍSITCA APLICADA


M.Sc. Jesús Alonso Cabrera

Septiembre 2005
Capítulo 1

Modelo de regresión lineal


simple.

1.1. Modelo de regresión lineal simple.


La relación matemática determinística más sencilla entre dos variables x
y y es una relación lineal y = 0 + 1 x. El conjunto de pares (x; y) para el
cual y = 0 + 1 x, determina una línea recta con pendiente 1 e intersección
y de 0 .
En muchos problemas dos o más variables están relacionadas entre sí, pero
no de manera determinística. Por ejemplo se tiene interés en el problema
de medir la dependencia del tiempo de dormir según diferentes dosis que se
administran de cierto somnífero. Se parte de un modelo probabilístico de
regresión lineal.
E (Y =x ) = 0 + 1 x (1.1)
Es decir se supone que la dosis es una variable determinística x 2 R; regu-
lable con exactitud, y que el tiempo de dormir dado x; Y =x es una variable
aleatoria con media E (Y =x ) que depende linealmente de x.
A la pendiente 1 y a la intersección 0 se les llama Coe…cientes de re-
gresión.
En un estudio de regresión, se observa la variable x en n puntos x1 ; x2 ; : : : ; xn ,
se obtiene así las observaciones y1 ; y2 ; : : : ; yn de las variables aleatorias Y1 =
Y =x1 ; Y2 = Y =x2 ; : : : ; Yn = Y =xn .
Recuerde que una variable aleatoria Y varía en torno a su media.
Sea i = Y =xi E (Y =xi ) la variable que representa el error y supóngase

1
que las Yi ; i = 1; 2; : : : ; n son independientes y que i N (0; 2 ), es decir
2
E ( i ) = 0 y V ar ( i ) = para i = 1; 2; : : : ; n.
Entonces una forma alterna de expresar el modelo de regresión lineal simple
es Y =x = E (Y =x ) + . Se sigue que
2
Y = 0 + 1x + ; Y N 0 + 1 x; (1.2)

En un estudio de regresión, es útil representar grá…camente los puntos de


datos en el plano xy, lo que se llama Diagrama de dispersión. No se
espera que esos puntos se ubiquen exactamente en una recta. Sin embargo,
cuando la regresión lineal es aplicable, entonces deben mostrar una tendencia
lineal.

1.2. Estimación de parámetros del modelo (mí


nimos cuadrados).
Supóngase que las variables X y Y están relacionadas según el modelo
de regresión lineal. Los valores de 0 y 1 casi nunca serán conocidos, por lo
que deberán estimarse a partir de los datos muestrales formados por n pares
de observaciones (x1 ; y1 ) ; (x2 ; y2 ) ; : : : ; (xn ; yn ).
Según el modelo, los puntos observados estarán distribuidos alrededor de la
verdadera recta de regresión de una manera aleatoria. Los estimadores de 0
y 1 deberán dar como resultado una recta que proporciona en algún sentido
un buen ajuste a los datos observados. Esto es lo que motiva el principio
de los mínimos cuadrados. Según este principio una recta proporciona
un buen ajuste a los datos si la suma de los cuadrados de las distancias
verticales (desviaciones) desde los puntos observados a la recta son lo más
pequeña posible.
Usando la ecuación (1.2), las n observaciones de la muestra pueden expresarse
como
yi = 0 + 1 xi + "i ; i = 1; 2; : : : ; n (2.1)
y la suma de los cuadrados de las desviaciones de las observaciones de la
verdadera recta de regresión es:
X
n X
n
2
W( 0; 1) = "2i = (yi 0 1 xi ) (2.2)
i=1 i=1

2
los estimadores de mínimos cuadrados de 0 y 1, por ejemplo b0 y b1 deben
satisfacer
!
@W X X
n
= 2 yi nb0 b1 xi =0
@ 0 (b0 ;b1 ) i=1
!
@W X
n X
n X
n
= 2 yi xi b xi b x2i =0
0 1
@ 1 (b0 ;b1 ) i=1 i=1 i=1

Para valores xi (no todos iguales) se tiene:

b = y b1 X
0
Pn Pn
yi xi nxy (xi x) (yi y)
b1 i=1 i=1 Sxy
= P n = P
n =
Sxx
x2i nx2 (xi x)2
i=1 i=1

Ahora se calcula la matriz 0 1


! P
n
@2W @2W 2n 2 xi
@ 20 @ 1@ B i=1 C
@2W @2W
0
=@ P
n Pn A
@ 0@ 1 @ 21 (b0 ;b1 ) 2 xi 2 x2i
i=1 i=1
@2W
La cual es de…nida positiva, ya que @ 20
= 2n > 0 y el determinante es

P P P P
xi ) 2
(2n) (2 x2i ) (2 xi )2 = 4n x2i (
n
P
n
= 4n (xi x)2 > 0
i=1

Por lo tanto b0 y b1 son los valores que minimizan W ( 0; 1) y la recta de


regresión es:
yb = b0 + b1 x

Ejemplo 1 (Walpole, 6a ed, pág. 364) Las cantidades de un compuesto quími-


co \y", que se disuelven en 100 gramos de agua a varias temperaturas, \x",
se registran como sigue:

3
Tabla 1.1
x (o C) y (gramos)
0 8
0 6
0 8
15 12
15 10
15 14
30 25
30 21
30 24
45 31
45 33
45 28
60 44
60 39
60 42
75 48
75 51
75 44

(a) Gra…que un diagrama de dispersión de los datos. ¿Parecería plausible


un modelo de regresión lineal simple?.

(b) Encuentre las estimaciones de mínimos cuadrados de la pendiente y la


ordenada al origen del modelo de regresión lineal simple.

(c) Estime la cantidad de compuesto químico que se disolverá en 100 gramos


de agua a 500 C.

4
n = 18

X
50 X

X X
X
40 X

X
X
30 X

X
X
Gramos disueltos

20 X

X
X
10 X
X
X

15 30 45 60 75
0

a) Temperatura 0C

Solución 2

b) Se ajustará un modelo de regresión lineal simple a los datos de la tabla


1.1.
Pueden calcularse las siguientes cantidades:
n = 18; x = 675
18
= 37; 5 y = 488 18
= 27; 11
P 2
18 P18
xi = 37125 ; yi2 = 17142
i=1 i=1
P18
xi yi = 25005
i=1 P
Sxy = xi yi nxy = 25005 18 (37; 5) (27; 11) = 6705
P18
Sxx = x2i nx2 = 37125 18 (37; 5)2 = 11812;5
i=1
Por lo tanto, las estimaciones de mínimos cuadrados son

b1 = Sxy = 0; 567 y b0 = y b1 x = 5;825


Sxx
El modelo de regresión lineal simple ajustado es

yb = 5;825 + 0; 567x

c) Al utilizar el modelo de regresión, yb = 5; 825 + 0; 567x, cuando x = 500 C.

5
Se puede estimar la cantidad media de compuesto químico se disolverá.

yb = 5;825 + 0; 567 500 C = 34; 172 gramos.

2
1.3. Estimación de
El parámetro 2 determina la cantidad de variabilidad inherente en el
modelo de regresión.
Muchas desviaciones grandes (pequeñas) sugieren un valor grande (pequeño)
de 2 .
Se llama residuos (errores) a las desviaciones verticales ei = yi ybi ; i =
1; 2; : : : ; n de la recta estimada.
Se usa la suma de los cuadrados de los residuos, SSE, para calcular la esti-
mación de 2 .
Pn
(yi ybi )2
SSE
b2 = = i=1 .
n 2 n 2

1.4. Coe…ciente de determinación.


Una medida cuantitativa de la cantidad total de variación en valores y
observados está dada por la suma total de cuadrados.
X
n
SST = Syy = (yi y)2
i=1

SST está relacionada con SSE como se muestra a continuación:


P P b b x
2
(yi ybi )2 = yi 0 1
P 2
= yi y + b1 x b x
1
P b (xi x)
2
= (yi y) 1
P P 2 P
= (yi y)2
2b1 (yi y) (xi x) + b1 (xi x)2
2
= SST 2b1 Sxy + b1 Sxx
= SST 2b1 Sxy + b1 Sxy
= SST b1 Sxy

6
De aquí SSE < SST y la proporción SSE SST
es la variación total que no puede
ser “explicada”por el modelo de regresión lineal simple, luego R2 = 1 SSE SST
es la proporción de variación en y, la cual puede ser explicada por el modelo
de regresión lineal simple.
R2 se llama Coe…ciente de Determinación.
El coe…ciente de determinación puede escribirse de un modo diferente al
introducir una tercera suma de cuadrados, la suma de cuadrados de re-
gresión
X
n
SSR = (b
yi y)2
i=1
X X 2 X 2
SSR = (b
yi y)2 = b + b xi y = b x + b xi
0 1 1 1
2 X
= b1 (xi x)2 = b1 Sxy = SST SSE
SSE SST SSE SSR b Sxy
Así R2 = 1 = = = 1
SST SST SST Syy
Ejemplo 3 (Continuación del ejemplo 1)
El diagrama de dispersión de los datos de la cantidad de compuesto químico
que se disuelven en 100 gramos de agua a varias temperaturas, expresan un
coe…ciente de determinación muy grande.
b1 Sxy b1 (P xi yi nxy)
R2 = = P 2
Syy yi ny 2
0; 567 6705; 75 3801; 73
= 2 = = 0; 97293
17142 18 (27; 11) 3911; 78
Esto es, el modelo lineal explica 97; 29 % de la variabilidad de los datos.

1.5. Propiedades de los estimadores de mí-


nimos cuadrados.
Los estimadores de mínimos cuadrados de los coe…cientes de regresión
dependen de las yi observados. Como las Yi son aleatorias, b0 y b1 pueden
considerarse como variables aleatorias.
Recurriendo a las propiedades de una función lineal de variables aleatorias,
se llega a los siguientes resultados:

7
(a) E b1 = 1 ; E b0 = 0

h i
(b) V b =
2
; V b = 2 1 2
+ Sxxx
1 Sxx 0 n
2 2
Al sustituir por su estimador b se obtiene un estimador de b
1
(error estándar)
b
b = p
1
Sxx
h i
b
(c) 1 N
2
1 ; Sxx ; b 0 N 0;
2 1 x2
+ Sxx
n

1.6. Estimación de intervalo de con…anza y


prueba de hipótesis para 1
1.6.1. Intervalo de con…anza para 1:
Las suposiciones del modelo de regresión lineal simple, implican que :
b
1 1
T = t (n 2)
b 1

Al igual que en la deducción de intervalos de con…anza para , se comienza


con una expresión de probabilidad:
b
1 1
P t 2 ;n 2 < < t 2 ;n 2 =1
b 1

Esto lleva a que la fórmula de un intervalo de con…anza de (1 ) 100 % para


1 sea q q
b t ;n 2 b2
< < b + t ;n 2 b
2
(6.1)
1 2 Sxx 1 1 2 Sxx

Ejemplo 4 Se encontrará un intervalo de con…anza de 95 % para la pen-


diente de la recta de regresión usando los datos del ejemplo 1.
Recuérdese que
b1 = 0; 567 ; Sxx = 11812; 5 y
SSE SST SSR 3911; 78 3801; 73 110; 045
b2 = = = = = 6; 877
n 2 n 2 16 16

8
Entonces por la ecuación (6.1) se encuentra
r r
6; 877 6; 877
0; 567 2; 12 1 0; 567 + 2; 12
11812; 5 1812; 5
0; 5158 1 0; 618

1.6.2. Prueba de Hipótesis para 1:


El par de hipótesis que de manera más común se plantean sobre 1 son
H0 : 1 = 0 vs H1 : 1 6= 0
Cuando esta hipótesis nula es verdadera, E (Y =x ) = 0 , por lo que el conoci-
miento de x no ofrece información acerca del valor de la variable dependiente.
La prueba de estas dos hipótesis se conoce como prueba de utilidad del
modelo en la regresión lineal simple. A menos que n sea muy pequeña, H0
será rechazada y se con…rmará la utilidad del modelo precisamente cuando
R2 sea grande. El modelo de regresión lineal simple no debe utilizarse para
más inferencias a menos que la prueba de utilidad del modelo resulte en el
rechazo de H0 para una pequeña.
Prueba. Procedimiento de prueba.

(1) H0 : 1 =0
H1 : 1 6= 0
(2) Valor del estadístico de prueba.
b1 1
t0 = q 2
b
Sxx

(3) Valor P
P = 2P (T > jt0 j) ; T t (n 2)

Ejemplo 5 Se probará la utilidad del modelo para los datos del ejemplo 1.
Las hipótesis son
H0 : 1 =0
H1 : 1 6= 0

9
Y se usará = 0; 01 por los ejemplos anteriores se tiene
b1 = 0; 567 ; n = 18; Sxx = 11812; 5 ; b2 = 6; 877

Por lo que el valor del estadístico t de prueba es


b 0; 567
t0 = q 1 2 = q = 23; 5
b 6;877
Sxx 11812;5

El valor P para esta prueba es


14
P = 2P (T > jt0 j) = 7; 856 10 0;00000

Lo cual implica que H0 : 1 = 0 debe rechazarse.

1.7. Enfoque del análisis de varianza para pro-


bar la utilidad del modelo.
Si es verdadera la hipótesis nula,
P
n

X
n (yi ybi )2
SSE i=1
H0 : 1 = 0 ; SSR = (b
yi y)2 y =
i=1
n 2 n 2

son dos estimaciones independientes de 2 , y la distribución de SSR= (SSE=n 2)


es una distribución F (1; n 2). Por consiguiente, cuando 1 = 0, el valor de
SSR= (SSE=n 2) debería ser cercano a 1. Sin embargo, si la hipótesis nula
es falsa ( 1 6= 0) ; SSR sobre estimaría a 2 y el valor de SSR= (SSE=n 2)
será exagerado; así los valores grandes de SSR= (SSE=n 2) conducen al
rechazo de H0 : 1 = 0. El proceimiento de prueba suele ordenarse en una
tabla de análisis de varianza (ANOVA) como sigue.
Tabla ANOVA para la regresión lineal simple.
Fuente de Grados de Suma de Cuadrado f
Variación Libertad Cuadrados Medio
SSR
Regresión 1 SSR SSR SSE
n 2
SSE
Error n 2 SSE n 2
Total n 1 SST

10
Ejemplo 6 Tabla ANOVA para los datos del ejemplo (1).
Fuente de Suma de Grados de Cuadrados f Valor
Variación Cuadrados Libertad Medios P
Regresión 3801; 73 1 3801; 73 552;82 0
Error 110; 045 16 6; 877
Total 3911; 78 17

1.8. Medidas repetidas y falta de ajuste.


El ajuste de una recta a un conjunto de datos por pares con el procedi-
miento de mínimos cuadrados supone de entrada que la regresión lineal es
apropiada. Naturalmente, a uno le interesaría saber si el modelo propuesto
es el correcto. En esta sección se describe una prueba de la validez de este
supuesto.

(1) Las hipótesis que quieren probarse son:


H0 : El modelo de regresión lineal es apropiado.
H1 : El modelo de regresión lineal es inapropiado.

La prueba implica hacer la partición de la suma de cuadrados de los


errores en los siguientes componentes:

SSE = SSP E + SSLF (8.1)

Donde SSP E es la suma de los cuadrados atribuible al error puro, y SSLF


es la de los cuadrados atribuible a la falta de ajuste del modelo. Para
calcular SSP E deben tenerse observaciones repetidas de la respuesta Y para
al menos un nivel de X. Suponga que se tienen n observaciones totales tales
que.
y11 ; y12 ; : : : ; y1n1 Observaciones repetidas en x1 .
y21 ; y22 ; : : : ; y2n2 Observaciones repetidas en x2 .
.. .. ..
. . .
ym1 ; ym2 ; : : : ; ymnm Observaciones repetidas en xm .
hay m niveles distintos de x. La contribución a la suma de cuadrados del
error puro en x1 sería
P
n1
n1
X y1k
2 k=1
(y1k y 1 ) donde y 1 = :
k=1
n1

11
la suma total de los cuadrados del error puro se obtendría haciendo la suma
en todos los niveles de x como
Xm X ni
SSP E = (yik y i )2
i=1 k=1
P
m
hay nP E = (ni 1) = n m : grados de libertad asociados con la suma
i=1
de cuadrados del error puro.
La suma de los cuadrados de la falta de ajuste es simplemente
SSLF = SSE SSP E
con n 2 (n m) = m 2 grados de libertad.
El estadístico de la prueba de la falta de ajuste sería entonces.
(SSLF ) = (m 2)
F = F (m 2; n m)
SSP E= (n m)
observese que la falta de ajuste se re‡eja en los valores incrementados de
SSLF y un valor alto de F . Se rechaza H0 con valores de la razón F de-
masiado altos para haber ocurrido del azar.
Este procedimiento de prueba puede introducirse sin di…cultades en el ANO-
VA realizado para probar la utilidad del modelo.
Ejemplo 7 ANOVA del ejemplo (anterior).
Fuente de Suma de Grados de Cuadrados f Valor
Variación Cuadrados Libertad Medios P
Regresión 3801; 73 1 3801; 73 552;82 0
Error 110; 04 16 6; 877
Falta de ajuste 40; 706 4 10; 176 1; 76 0; 20145
Error puro 69; 334 12 5; 777
Total 17
La suma de los cuadrados del error puro se calcula como sigue:
P
ni
Nivel de x (yik y i )2 Grados de Libertad
k=1
0 2; 666 2
15 8 2
30 8; 665 2
45 12; 67 2
60 12; 666 2
75 24; 6667 2
Totales 69; 334 12

12
1.9. Intervalo de con…anza para Y =xo

bY =x0 = b0 + b1 x0 es un estimador puntual insesgado de Y =x0 ya que b0


y b1 son estimadores insesgados de 0 y 1.
la varianza de Y =x0 es

V ar Y =x0 = V ar b0 + b1 x0
= V ar Y b x + b x0
1 1

= V arY + (x0 x)2 V ar b1


2 2
= n h+ (x0 x)2 iSxx
2 1 (x0 x)2
= n
+ Sxx

El proceso de estandarización permite demostrar que


bY =x0 Y =x0
r t (n 2)
2 1 (x0 x)2
b n
+ Sxx

por lo que el intervalo de con…anza de (1 ) 100 % para Y =x0 , está dado


por v
u !
u 2 1 (x0 x)2
Y =x0 t 2 ;n 2 tb +
n Sxx

Esta fórmula puede usarse para elaborar lo que se llama banda de con…anza
en torno a la línea de regresión estimada.
Para tal efecto, basta determinar intervalos de con…anza de (1 ) 100 %
de varios puntos selectos y luego unir los puntos de estos intervalos con una
curva continua, la regresión verdadera debe estar al interior de esa banda.

1.10. Intervalo de pronóstico para un valor


futuro de Y .
Un intervalo de con…anza se re…ere a un parámetro cuyo valor es …jo pero
desconocido. En contraste, un valor futuro de Y no es un parámetro sino
una variable aleatoria; por esta razón nos referimos a un intervalo de valores

13
razonables para una futura Y como intervalo de pronóstico en lugar de
intervalo de con…anza.
El error de estimación es Y =x0 Yb =x0 una diferencia entre una cantidad …ja
(pero desconocida) y una variable aleatoria.
El error de pronóstico es Y =x0 Yb =x0 , una diferencia entre dos variables
aleatorias. Por lo que hay más incertidumbre en el pronóstico que en la
estimación, así un intervalo de pronóstico es más amplio que un intervalo de
con…anza.
Se hace uso del error de pronóstico para calcular el intervalo de pronóstico
así:
V Y =x0 Yb =xo = V (Y =x0 ) + V b0 + b1 x0
2 2 1 (x0 x)2
= + n
+ Sxx
2 1 (x0 x)2
= 1+ n
+ Sxx

Además, como
E Y =x0 Yb =x0 = 0
se tiene que
Y =x Yb =x0
T = q 0 2
t (n 2)
b 1 + n1 + (x0Sxxx)
A partir de lo anterior se puede desarrollar el siguiente intervalo de predicción
de (1 ) 100 % para una observación futura Y =x0 :
s
b + b x0 1 (x0 x)2
0 1 t 2 ;n 2 b 1 + +
n Sxx

El ejemplo siguiente debe mostrar claramente la diferencia entre estos dos


tipos de intervalos.

Ejemplo 8 Se construirá un intervalo de con…anza de 95 % alrededor de


la respuesta media para los datos del ejemplo (1). El modelo ajustado es
bY =x0 = 5;825 + 0; 567x0 y el intervalo de con…anza de 95 % para Y =x0 es
v !
u
u 1 (x0 37; 5)2
(5;825 + 0; 567X0 ) 2; 12t6; 877 +
18 11812; 5

14
Suponga que hay interés en predecir la cantidad de compuesto químico prome-
dio que se disolverá cuando x0 = 500 C. Entonces

b Y =x 0C
= 5;825 + 0; 567 (50) = 34; 175
0 =50

y el intervalo de con…anza de 95 % es
v !
u
u 1 (50 37; 5)2
34; 175 2; 12t6; 877 +
18 11812; 5

o bien

34; 175 1; 458 Y =x0 =50 34; 175 + 1; 458


32; 717 Y =x0 =50 35; 633

Puede tenerse con…anza de 95 % que la cantidad de compuesto químico prome-


dio que se disolverá a 500 C está entre 32; 1717 y 35; 633 gramos.
Un intervalo de predicción de 95 % de la cantidad de compuesto químico que
se dislverá a 500 C es
v !
u
u 1 (50 37; 5) 2
34; 175 2; 12t6; 877 1 + +
18 11812; 5

o bien

34; 175 6; 058 Y =x0 =500 C 34; 175 + 6; 058


28; 116 Y =x0 =500 C 40; 233

Es posible tener con…anza de 95 % de que la cantidad de compuesto químico


que se disolverá a 500 C se ubica entre 28; 116 y 40; 233 gramos.

1.11. Correlación
En el análisis de regresión desarrollado aquí, el problema fundamental ha
sido expresar el valor medio de una variable aleatoria Y como función lineal
de una variable no aleatoria x.
En un estudio de correlación tanto X como Y deben ser variables aleatorias

15
y no se busca una relación lineal de X con la media Y , sino más bien se
intenta medir la intensidad de la relación lineal que existe entre X y Y .
El parámetro teórico usado para medir la intensidad de la relación lineal de X
con Y es el Coe…ciente de Correlación de Pearson, . Dicho parámetro
está di…nido por:
Cov (X; Y ) XY
=p =
V ar (X) V ar (Y ) X Y

(Grá…cas pág. 419 Milton).


El valor teórico de se determina con base en el conocimiento de la función
de densidad conjunta de X y Y . En la práctica pocas veces se conoce dicha
función. Por ello se estima a partir de un conjunto f(xi ; yi ) ji = 1; 2; : : : ; n g
de observaciones de la variable aleatoria (X; Y ).
Estimador para , el coe…ciente de correlación de Pearson.
P
SXY xi yi nxy
b=R= p =pP P
Sxx Syy ( x2i nx2 ) ( yi ny 2 )
Ejemplo 9 Calcule e interprete el coe…ciente de correlación para las si-
guientes cali…caciones de seis estudiantes seleccionados al azar.

Cali…cación en Matemáticas (x) 70 92 80 74 65 83


Cali…cación en Inglés (y) 74 84 63 87 78 90

De los datos encontramos que


X X X
xy = 36926 ; y 2 = 38254 ; x2 = 36354
464 476
x = = 77; 333 ; y= = 79; 3333
6 6
por lo tanto
SXY 36926 6 (77; 333) (79; 333)
R = p =q
Sxx Syy 36354 6 (77; 333)2 38254 6 (79; 333)2
= 0; 2401

Se observa una correlación positiva débil, es decir no hay una buena relación
lineal entre X y Y .

16
Capítulo 2

El análisis de datos categóricos.

Las pruebas de hipótesis que se han revisado en los capítulos anteriores


tratan problemas en los que la población o la distribución de probabilidad es
conocida y en las hipótesis intervienen los parámetros de la distribución. En
la primera sección de este capítulo se considera una prueba para determinar
si una población tiene una distribución teórica especí…ca (en principio es un
método para el análisis de datos discretos).
La prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de
ocurrencia de las observaciones de la muestra y las frecuencias esperadas que
se obtienen a partir de la distribución hipotética. El procedimiento formal
para probar la bondad de ajuste está basado en la distribución chi-cuadrada.

2.1. Prueba de bondad de ajuste cuando la


distribución está completamente especi-
…cada.
Suponga que un problema puede ser caracterizado por una variable aleato-
ria discreta cuyos valores representan K posibles categorías y ocurren con
probabilidades pk ; k = 1; 2; : : : ; K interesa la hipótesis H0 : pk = pk0 ; k =
1; 2; : : : ; K; siendo pk0 valores …jos contra la alternativa lógica H1 .
El procedimiento de prueba requiere una muestra aleatoria de tamaño n.
Estas n observaciones se ordenan en K categorías o celdas. El número de
ensayos que resultaron en la categoría k es una variable aleatoria Nk con

17
P
K P
K
valores nk ; k = 1; 2; : : : ; K. Nótese que nk = n y naturalmente pk = 1.
k=1 k=1
Tabla (2.1) Valores de celda observado y esperado.

Categoría k=1 k=2 k=K


f observadas n1 n2 nK
f esperadas np10 np20 npK0

Como estadístico de prueba se escoge

X
K
(Nk npk0 )
X2 = 2
(K 1)
k=1
npk0

Si las frecuencias observadas están cerca de las frecuencias esperadas co-


rrespondientes, el valor de X 2 será pequeño, lo que indica un buen ajuste.
La región crítica caerá, por tanto, en la cola derecha de la distribución chi-
cuadrada.
El criterio de decisión que aquí se describe no se debe usar a menos que
cada una de las frecuencias esperadas sea al menos igual a 5. Esta restri-
cción puede requerir la combinación de celdas adyacentes lo que tiene como
resultado una reducción en el número de grados de libertad.

Ejemplo 10 El año pasado en cierta ciudad, el 75 % de los conductores no


tuvieron accidentes, un 15 % tuvo un accidente y 10 % tuvieron más de uno.
Este año una muestra aleatoria de conductores produjo la siguiente informa-
ción:
N 0 de accidentes 0 1 más de 1
Frecuencia 291 65 44 n = 400

con = 0; 05; indica esta muestra que cambiaron los porcentajes de acci-
dentes?

Solución 11 1.

(1) H0 : los porcentajes de accidentes no han cambiado.

p1 = 0; 75 ; p2 = 0; 15 ; p3 = 0; 10

H1 : Por lo menos un porcentaje de accidentes ha cambiado.

18
(2) Cálculos

X = N 0 de accidentes 0 1 más de 1
frecuencia observada 291 65 44
frecuencia esperada 300 60 40

np10 = 400 0; 75 = 300 ; np11 = 400 0; 15 = 60


2 (291 300)2 (65 60)2 (44 40)2
X = + +
300 60 40
X 2 = 1; 0866
2
Como valor P resulta entonces, usando una tabla (2).

P = P X 2 > 1; 0866 = 05808 58 % > 5 %

los datos con…rman que no han cambiado los porcentajes de accidentes.

2.2. Bondad de ajuste para una distribución


con parámetro.
Ahora la hipótesis es

H0 : pk = pk ( ) ; k = 1; 2; : : : ; K;

siendo = ( 1 ; : : : ; s ) ; s < K 1; un parámetro. Como estadística de


prueba se escoge ahora
2
X
K Nk npk b
X2 = 2
(K 1 s)
k=1 npk b

Siendo b la estimación de máxima verosimilitud de , n el tamaño de la


muestra y Nk el número de ensayos que resultaron en la categoría k.

Ejemplo 12 Se propone hipotéticamente que el número de defectos en tar-


jetas de circuitos impresos sigue una distribución de Poisson.
Se ha colectado una muestra aleatoria de n = 64 tarjetas de circuitos y se
observó el número de defectos.

19
X = N 0 de defectos 0 1 2 3
Frecuencia observada 32 15 9 4
¿El supuesto de una distribución de Poisson parece apropiado para los datos?.
Solución 13 (1) H0 : La forma de la distribución de los defectos es de
Poisson. x
e
p (x; ) = ; x = 0; 1; : : : ;
x
H1 : La forma de la distribución no es de Poisson.
(2) debe estimarse a partir de los datos
b=x= 0 32 + 1 15 + 2 9+3 4
= 0; 75
64
con b = 0; 75 las probabilidades de celda son
e 0;75
(0; 75)k 1
pk b = ; k = 1; 2; 3 y
(k 1)!
X3
p4 b = 1 pk b
k=1

Por ejemplo

b e (0; 75)0
0;75
p1 = = 0; 472
0!
p4 b = 1 (p1 + p2 + p3 ) = 0; 041;

se obtiene
X = N o de defectos 0 1 2 3 ó más
Frecuencia observada 32 15 9 4
Frecuencia esperada 28; 32 21; 24 7; 98 2; 46

puesto que la frecuencia esperada np4 b = 2; 46 < 5 se combinan las


dos últimas celdas.
X = N o de defectos 0 1 2 ó Más
Frecuencia observada 32 15 13
Frecuencia esperada 28; 32 21; 24 10; 44

20
(3)

2 (32 28; 32)2 (15 21; 24)2 (13 10; 44)2


X = + + = 2; 94
28; 32 21; 24 10; 44
2
usando una tabla (3 1 1) se tiene
P = P X 2 > 2; 94 = 0; 0864 8; 6 % > 5 %
no se puede rechazar la hipótesis nula.

2.3. Prueba de Kolmogorov-Smirnov de la bon-


dad de ajuste.
La prueba de Kolmogorov-Smirnov es una prueba para bondad de ajuste
alternativo al de chi-cuadrada.
Esta prueba se basa en una comparación entre la función de distribución
acumulada muestral y la distribución propuesta bajo la hipótesis nula.
Denótese por x(1) ; x(2) ; : : : ; x(n) a las observaciones ordenadas de una mues-
tra aleatoria de tamaño n y de…náse la función de distribución acumulada
muestral Sn (x) como la proporción del número de valores en la muestra que
son menores o iguales a x, es decir
(número de observaciones de la muestra x)
Sn (x) =
n
Sea F0 (x) la distribución teórica, completamente especi…cada, propuesta ba-
jo la hipótesis nula.
La estadística de Kolmogorov-Smirnov se de…ne como
Dn = max jSn (x) F0 (x)j
x

cuya distribución es conocida y está tabulada.


En otras palabras, Dn es la diferencia máxima entre la f d acumulada muestral
Sn (x) y la f d acumulada hipotéticaF0 (x). Dn tenderá a ser pequeño cuando
la hipótesis nula H0 es cierta, y Dn tenderá a ser grande si la verdadera f d
acumulada es distinta de F0 (x).
Para n y dados, se halla c tal que
c
P Dn p =
n

21
La región crítica de la prueba será
c
Dn > p .
n

La estadística de Kolmogoroc-Smirnov es, en general, superior a la prueba


de bondad de ajuste chi-cuadrado cuando los datos involucran una variable
aleatoria continua.

Ejemplo 14 Los pesos en libras de una muestra aleatoria de bebes de seis


meses son:

14; 6 12; 5 15; 3 16; 1 14; 4 12; 9 13; 7 y 14; 9.

Haga una prueba con nivel de signi…cancia de 5 % para determinar si los


pesos se distribuyen normalmente.

Solución 15 Sea X = pesos en libras de bebes de seis meses. Dado que X


es una variable aleatoria continua y el tamaño de la muestra es pequeño, se
usará una prueba k s.
Se halla x y s de los datos para estimar a y respectivamente.

x = 14; 3 ; s = 1; 21

(1) H0 : La población de la muestra tiene distribución normal.


H2 : La población de la muestra no tiene distribución normal.
Cálculos

22
X S (x) F0 (x) jS (x) F0 (x)j
12; 5 0; 125 0; 068 0; 056
12; 9 0; 25 0; 123 0; 127
13; 7 0; 375 0; 31 0; 065
14; 4 0; 5 0; 533 0; 033
14; 6 0; 625 0; 598 0; 027
14; 9 0; 75 0; 69 0; 06
15; 3 0; 875 0; 795 0; 08
16; 1 1;00 0; 932 0; 068

Se observa que la máxima desviación es de 0; 127. De la tabla el valor crítico


D8 para = 0; 05 es 0; 457. Dado que 0; 127 < 0; 457, no puede rechazarse
la hipótesis nula.

2.4. Prueba de independencia de dos varia


bles.
Suponga que se caracteriza un problema de una población por medio de
dos variables, la primera X1 de J categorías y la segunda X2 de K categorías.
Se tiene interés en saber si las dos variables X1 y X2 son independientes o
no.

Ejemplo 16 Suponga que se desea determinar se la presencia o ausencia de


hipertensión (J = 2) es independiente de los hábitos de fumar (no fumadores,
fumadores moderados, fumadores empedernidos; K = 3)
Así se plantean las hipótesis.

(1)
H0 : pjk = pj+ p+k ; i = 1; 2; : : : ; J ; k = 1; 2; : : : ; K
Siendo pjk la probabilidad conjunta P (X1 = j; X2 = k) ; pj+ la proba-
bilidad marginal P (X1 = j) y p+k la probabilidad marginal P (X2 = k).

(2) Para una muestra de n individuos tomados de la población, represen-


tamos con njk el número entre los n individuos que caen tanto en la
categoría j de X1 , como en la categoría k de X2 . Los njk se pueden

23
representar en una tabla de contingencia con J renglones y K colum-
nas.
X2
1 2 K
1 n11 n12 n1K n1+
2 n21 n22 n2K n2+
X1 .. .. .. ..
. . . .
J nJ1 nJ2 nJK nJ+
n+1 n+2 n+k n

El valor esperado de la celda (j; k) es pjk , entonces cuando la hipótesis


nula es verdadera, el valor esperado es

npj+ p+k

las estimaciones (máxima verosimilitud) de pj+ y p+k son

P
K P
K
njk njk
nj+ k=1 n+k k=1
pbj+ = = y pb+k = =
n n n n
Esto proporciona valores esperados estimado de celdas
nj+ n+k nj+ n+k
pj+ pb+k = n
ejk = nb =
n n n
(total j ésima renglón) (total k ésima columna)
=
n
El estadístico de prueba también tiene la forma que en anteriores situa-
ciones.
X
J X
K
(njk eij )2
2 2
X = ((J 1) (K 1))
j=1 k=1
eij

la prueba se puede aplicar con seguridad mientras ejk 5 para todas


las celdas.
2 2
Región de rechazo ;(J 1)(K 1) :

24
Ejemplo 17 En un experimento para estudiar la dependencia de la hiperten-
sión de los hábitos de fumar, se tomaron los siguientes datos de 180 indivi
duos:
No Fumadores Fumadores
fumadores moderados empedernidos
Con hipertensión 21 36 30
Sin hipertensión 48 26 19

pruebe la hipótesis de que la presencia o ausencia de hipertensión es inde-


pendiente de los hábitos de fumar. Utilice un nivel de signi…cancia de 0; 05.

Solución 18 1.

(1) H0 : La presencia o ausencia de la hipertensión es independiente de


los hábitos de fumar.
H1 : La presencia o ausencia de la hipertensión es dependiente de los
hábitos de fumar.

(2) Frecuencias observadas y esperadas

No Fumadores Fumadores
fumadores moderados empedernidos
Con hipertensión 21 (33; 35) 36 (29; 96) 30 (23; 68) 87
Sin hipertensión 48 (35; 65) 26 (32; 03) 19 (25; 31) 93
69 62 49 180

87 69 6003
e11 = = = 33;35
180 180
62 87
e12 = = 29; 9667
180
El estadístico de prueba es

2 33; 35)2 (36 29; 96)2


(21 (19 25; 31)2
X = + + +
33; 35 29; 96 25; 31
X2 = 14; 46
2
como 0;05 (2) = 5; 99, la hipótesis de independencia es rechazada.

25
2.5. Prueba de homogeneidad.
Suponga que se puede caracterizar un problema por medio de una variable
X2 de K categorías y que, además, se consideran J poblaciones de individuos,
donde cada individuo de las J poblaciones pertenece a exactamente una de
las K categorias. Se denota la variable “población”por X1 y la probabilidad
(condicional) de que un individuo tenga la categoria k, dado que se sabe que
es de la población j, por

Pk=j = P (X2 = k=X1 = j) ; j = 1; 2; : : : ; J; k = 1; 2; : : : ; K

Se tiene interés en saber si las poblaciones son homogéneas en el sentido


de que las pk=j no dependen del número j de la población, es decir

p1=j = p2=j = = pK=j para cada j

Por eso se hace la hipótesis nula.

(1) H0 : pk=j = pk para cada j y cada k; siendo pk la probabilidad supuesta


P (X2 = k) de que un individuo tenga la categoría k, cualquiera que
sea la población j a la cual pertenece.

(2) Se observan nj individuos en la población j, es decir en total n =


n1 + n2 + + nJ individuos independientemente. Denotando por Njk
la variable aleatoria que representa el número de los individuos de la
población j con categoría k, entonces el número esperado de Njk cuando
H0 es verdadera es
E (Njk ) = nj pk .
la sustitución del estimado pbk = nn+k por pk en nj pk produce la fórmula
para eij :los valores esperados estimados bajo H0 :

nj n+k (total j ésimo renglón) (total k ésima columna)


eij = =
n n
Como estadística de prueba se considera ahora:

X
J X
K
(njk ejk )2
2 2
X = ((J 1) (K 1))
j=1 k=1
ejk

26
con renglón de rechazo
2 2
;(J 1)(K 1)

la prueba se puede aplicar con seguridad mientras ejk 5 para todas


las celdas.
La siguiente tabla de contingencia de los njk resalta las observaciones
anteriores.
X2
1 2 K …jados
1 n11 n12 n1K n1+ = n1
2 n21 n22 n2K n2+ = n2
Población .. .. .. .. ..
j . . . . .
J nJ1 nJ2 nJK nJ+ = nj
n+1 n+2 n+k n

Ejemplo 19 Se estudia un nuevo método de grabación de semiconductores.


La calidad de la grabación se compara contra la obtenida con dos técnicas
antiguas. Los resultados del estudio aparecen en la siguiente tabla.
¿Los datos sugieren desigualdad en las proporciones que caen en las distintas
categorías de calidad de los tres métodos de grabación?.
Calidad
Excelente Buena Normal De…ciente
Presión alta 113 34 21 32 200
(antiguo)
Iones reactivos 117 31 25 27 200
(antiguo)
Magnetrón 130 40 20 10 200
(nuevo)

Solución 20 1.

(1) H0 : los métodos de grabación son homogéneos con respecto a las cuatro
categorías de calidad.
H1 :los métodos de grabación no son homogéneos respecto a las cate-
gorías de calidad.

27
(2) Calidad
E B N D
1 113 (120) 34 (35) 21 (22) 32 (23) 200
2 117 (120) 31 (35) 25 (22) 27 (23) 200
3 130 (120) 40 (35) 20 (22) 10 (23) 200
360 105 66 69 600

360 200
e11 = = 120
600
105 200
e12 = = 35
600
El estadístico de prueba es
2 2 2
X 2 = (113120120) + (34 3535) + + (10 2323) = 14; 72
P (X 2 (6) > 14; 72) = 0; 0226 2 % < 5 %

Se rechaza la hipótesis nula.

28
Capítulo 3

Pruebas no paramétricas.

En este capítulo, vamos a estudiar un conjunto de pruebas estadísticas,


agrupadas bajo el nombre de estadística no paramétrica o métodos de dis-
tribución libre.
En la mayoría de las pruebas estadísticas analizadas en métodos estadísticos
se trabaja bajo el supuesto de que las muestras se han originado a partir de
poblaciones que poseen ciertas distribuciones conocidas, donde cada función
de distribución teórica depende de uno o más parámetros. A las pruebas
anteriores se les denomina pruebas paramétricas.
El uso e…ciente de las pruebas paramétricas requiere, por lo general, la nor-
malidad de la población y la estabilidad de la varianza. Sin embargo, en
muchas situaciones, es imposible especi…car la forma de la distribución pobla-
cional, y solo podemos suponer en forma razonable que es continua.
El proceso de sacar conclusiones directamente de las observaciones mues-
trales, sin formar los supuesto con respecto a la forma matemática de la
distribución poblacional, se llama teoría no paramétrica ó métodos de dis-
tribución libre.

3.1. Prueba de rachas de una muestra.


El procedimiento prueba de rachas contrasta si es aleatorio el orden de
aparición de dos valores de una variable. Se de…ne una racha como una
sucesión de símbolos idénticos.

29
Ejemplo 21 Una serie de símbolos de más y menos ocurrida en este orden:
++ + ++ +
1 2 3 4 5 6 7
se observa que \r" el número de rachas es 7.
El número total de rachas de una muestra de cualquier tamaño nos señala si
la muestra es o no aleatoria. Si hay pocas rachas como si hay muchas, puede
deberse a falta de independencia.
Las hipótesis en este caso son:
H0 : La muestra es aleatoria.
H1 : La muestra no es aleatoria
La prueba de las rachas con SPSS se realiza mediante los menús.
Analizar ! pruebas no paramétricas ! rachas.

3.2. Prueba de rangos con signo de Wilcoxon.


La prueba de rangos con signo de Wilcoxon se aplica al caso de dis-
tribuciones continuas simétricas. Bajo estos supuestos, la media es igual
a la mediana, y puede usarse este procedimiento para probar la hipótesis
nula de que = 0 . Contra las hipótesis alternativas usuales. Supon-
ga que X1 ; X2 ; : : : ; Xn es una muestra aleatoria de una distibución con-
tinua y simétrica con media (y mediana) . Se calculan las diferencias
Xi 0 ; i = 1; 2; : : : ; n.
Se ordenan las diferencias absolutas jXi 0 j ; i = 1; 2; : : : ; n en orden a-
scendente, y después a los rangos o posiciones ordenadas se les asigna los
signos de sus diferencias correspondientes, los empates se asignan a rangos
promedios.
Sea W + la suma de rangos positivos y sea W el valor absoluto de la suma
de los rangos negativos, el estadístico de prueba es:
W = m n W +; W
cuya distribución es conocida y con valores críticos W tabulados.
Si la hipótesis alternativa es H1 : 6= 0 , entonces si el valor observado del
estadístico W W , se realiza la hipótesis nula.
Para las pruebas de una cola, si la hipótesis alternativa H1 : > 0 , se
rechaza H0 : = 0 si W W ; y si la hipótesis alternativa es H1 : < 0 ,
+
se rechaza H0 ; = 0 si W W .

30
Ejemplo 22 Los siguientes datos representan el número de horas que un
compensador opera antes de requerir una recarga:

1; 5 2; 2 0; 9 1; 3 2; 0 1; 6 1; 8 1; 5 2; 0 1; 2 y 1; 7

Utilice la prueba de rango con signo de Wilcoxon para probar en el nivel de


signi…cancia de 0; 05 que este compensador particular opera con una media
de 1; 8 horas antes de requerir una recarga.

Solución 23 1.

(1) H0 : = 1; 8
H1 : 6= 1; 8

(2) = 0; 05

(3) El estadístico de prueba es W = m n (W + ; W ), como n = 10, después


de rechazar la medición que es igual a 1; 8; se rechaza H0 si W
W0;05 = 8 por la tabla ( ).

(4) Cálculos
Xi 1,5 2,2 0,9 1,3 2,0 1,6 1,5 2,0 1,2 1,7
Xi -1,8 -0,3 0,4 -0,9 -0,5 0,2 -0,2 -0,3 0,2 -0,6 -0,1
Rango con
-5,5 7 -10 -8 3 -3 -5,5 3 -9 -1
signo

Ahora bien W + = 13 y W = 42 por lo que se tiene W = 13 > 8 =


W0;05 .
luego no se rechaza H0 es decir el tiempo promedio de operación no es
signi…cativamente diferente de 1; 8 horas.

3.2.1. Observaciones por pares.


Cuando los datos están formados por pares (X1 ; Y1 ) ; : : : ; (Xn ; Yn ) y las
diferencias D1 = X1 Y1 ; : : : ; Dn = Xn Yn estan normalmente distribuidas,
se utiliza una prueba t por pares para probar la hipótesis acerca de la dife-
rencia esperada D . Si no se supone normalidad, las hipótesis acerca de D
se pueden probar mediante la prueba de Wilcoxon de rango con signo en las
Di , siempre que la distribución de las diferencias sea continua y simétrica.
Si Xi y Yi tienen distribuciones continuas que di…eren sólo con respecto a

31
sus medias, entonces Di tendrá una distribución simétrica continua (no es
necesario que las distribuciones X y Y sean simétricas individualmente). La
hipótesis nula es H0 : D = 1 2 = 40 , el estadístico de prueba es
+
W = m n (W ; W ).

Ejemplo 24 Se a…rma que una nueva dieta reducirá el peso de una persona
4; 5 kilogramos, en promedio, en un período de dos semanas. Se registran los
pesos de 10 mujeres que siguen esta dieta antes y después de un período de
dos semanas, y se obtienen los siguientes datos.
Mujer Peso antes Peso después
1 58; 5 60; 0
2 60; 3 54; 9
3 61; 7 58; 1
4 69; 0 62; 1
5 64; 0 58; 5
6 62; 6 59; 9
7 56; 7 54; 4
8 63; 6 60; 2
9 68; 2 62; 3
10 59; 4 58; 7
Utilice la prueba del rango con signo al nivel de signi…cancia de 0; 05 para
probar la hipótesis de que la dieta reduce la media de la diferencia en pesos
en 4; 5 kg contra la hipótesis alternativa de que la media de la diferencia en
pesos es menor que 4; 5 kg.

Solución 25 1.
(1) H0 : D = 4; 5 Kg.
H1 : D < 4; 5 Kg.
(2) = 0; 05
(3) Como n = 10, la región crítica es W+ 11.
(4) Cálculos
par 1 2 3 4 5 6 7 8 9 10
di 1; 5 5; 4 3; 6 6; 9 5; 5 2; 7 2; 3 3; 4 5; 9 0; 7
di 4; 5 6 0; 9 0; 9 2; 4 1 1; 8 2; 2 1; 1 1; 4 3; 8
Rango
10 1; 5 1; 5 8 3 6 7 4 5 9
con signo

32
Encontramos que W + = 1; 5 + 8 + 3 + 5 = 17; 5 > 11 luego no puede
rechazarse la hipótesis nula de que la dieta reducve el peso en una per-
sona en 4; 5 kg, en promedio.
Cuando n 15, la distribución muestral de W + ó W se aproxima a
la distribución normal con media
n (n + 1)
=
4
y varianza
2 n (n + 1) (2n + 1)
=
24
Por lo tanto, la prueba puede basarse en el estadístico
n(n+1)
W 4
Z=q N (0; 1)
n(n+1)(2n+1)
24

3.3. La prueba de Mc. Nemar para la signi…-


cación de los cambios.
Esta prueba se utiliza normalmente para los diseños de “antes y después”
en los que cada persona es usada como su propio control. Así podría usarse
para probar la efectividad de un tratamiento particular, una reunión, una
visita personal, etc.
La disposición habitual de los datos en la prueba de Mc. Nemar es en forma
de tabla 2 2, de la siguiente manera:

DESPUÉS
SI NO
NO A B
ANTES
SI C D

Las letras son frecuencias. La primera casilla indica que A individuos han
pasado del NO al SI.
En este caso, hemos considerado los valores de la variable, como SI y NO, pero
pueden ser otros valores, siempre que sea posible evaluarlos dicotomicamente.

33
Las casillas de interés son las A y D, puesto que en ellas se re‡ejan los cam-
bios ocurridos.
Las Hipótesis son:

H0 : p A = p D
H0 : pA 6= pD

La hipótesis nula indica que la proporción de cambios en ambos sentidos son


iguales.
La hipótesis alternativa indica que los cambios observados son signi…cativa-
mente distintos en un sentido que en otro, y se concluye que se observan
cambios signi…cativos entre ANTES y DESPUÉS.
El estadístico de prueba es

(A D)2
X2 = 2
(1)
A+D
Si la muestra es menor que 200, debe realizarse la corrección por continuidad,
también conocida como la corrección de Yates. En este caso el estadístico
de prueba es
2 (jA Dj 1)2 2
X = (1)
A+D
Ejemplo 26 Suponga que antes de un discurso de un candidato se sele-
ccionan 100 personas y se les pregunta si estan (SI) o no (NO) a favor del
candidato. Después, tras el discurso, se hace a las mismas 100 personas la
anterior pregunta, las respuestas se anotan en una tabla como sigue.

DESPUÉS
SI NO
NO 20 30
ANTES
SI 35 15

¿Qué se puede concluir?

Solución 27 Se aplica la prueba de Mc. Nemar.

(1) H0 : La proporción de cambios en ambos sentidos son iguales (PA = pD ).


H1 : pA 6= pB

34
(2) Para estos datos A = 20; D = 15

2 (j20 15j 1)2 16


X = = = 0; 457
20 + 15 35
El valor P = P (X 2 (1) > 0; 457) = 0; 499, luego no se rechaza H0 es
decir la proporción de simpatizantes después del discurso, no ha au-
mentado.

3.4. La prueba U de Mann - Whitney.


En métodos estadísticos, se analiza la prueba T para poner a prueba
la igualdad de medias poblacionales de dos muestras independientes. Bajo
los supuestos de las variables aleatorias de distribución normal con varianzas
iguales y desconocidas, es la prueba más potente de medias. Sin embar-
go, con muestra pequeñas, en particular si las varianzas no son iguales la
prueba T puede llevar a conclusiones inválidas. Bajo tales circunstancias,
debe considerarse una prueba no paramétrica como alternativa para probar
la igualdad de las medias de dos poblaciones con distribuciones iguales y las
muestras son independientes. La más conocida de estas pruebas es la prueba
U de Mann Whitney.
El procedimiento es el siguiente: agrupamos los datos de las dos muestras en
un sólo grupo y ordenamos los datos de menor a mayor, asignándole a cada
dato el rango correspondiente a su orden de magnitud; si no hay diferencias
signi…cativas entre las dos variables, esperamos que los rangos esten uniforme-
mente repartidos entre los dos grupos. Por el contrario, si hay diferencias
signi…cativas entre las dos variables, esperamos que los rangos menores se
asocien con un grupo y los mayores con el otro grupo.
Las hipótesis son:
H0 : 1 = 2
H1 : 1 6= 2
Supóngase que se tiene dos muestras aleatorias independientes, sea n1 el
tamaño de la muestra más pequeña; n2 el tamaño de la muestra más grande;
la suma de los rangos correspondientes a cada grupo, son R1 y R2 . A par-
tir de estos datos, calculamos los estadísticos U1 y U2 según las siguientes

35
expresiones:
n1 (n1 + 1)
U1 = n 1 n 2 + R1
2
n2 (n2 + 1)
U2 = n1 n2 + R2
2
Una vez calculamos U1 y U2 , se elige el menor; a este valor lo denominamos
U y, mediante la correspondiente tabla, se comprueba si las diferencias son
signi…cativas.
Cuando las muestras son grandes (n2 > 20), se consigue una buena aproxi-
mación a una distribución normal con media
n1 n2
U =
2
y desviación estandar
r
n1 n2 (n1 + n2 + 1)
U =
12
Es decir, podemos determinar la signi…cación de un valor observado de U por
medio de:
U n1 n2
2
Z=q
n1 n2 (n1 +n2 +1)
12

Ejemplo 28 Se encuentra que el contenido de nicotina de marcas de ciga-


rrillo, medido en miligramos, es el siguiente:
Marca A 2; 1 4; 0 6; 3 5; 4 4; 8 3; 7 6; 1 3; 3
Marca B 4; 1 0; 6 3; 1 2; 5 4; 0 6; 2 1; 6 2; 2 1; 9 5; 4
Pruebe la hipótesis, en el nivel de signi…cancia de 0; 05, de que el contenido
promedio de nicotina de las dos marcas es igual contra la alternativa de que
son diferentes.

Solución 29 n1 = 8; n2 = 10

(1) H0 : 1 = 2
H1 : 1 6= 2

(2) = 0; 05
región crítica : U 17 (según tabla).

36
(3) Cálculos
Datos ordenados y rangos correspondientes

Muestra 1 Rango Muestra 2 Rango


0; 6 1
1; 6 2
1; 9 3
2; 1 4
2; 2 5
2; 5 6
3; 1 7
3; 3 8
3; 7 9
4; 0 10; 5
4; 0 10; 5
4; 1 12
4; 8 13
5; 4 14; 5
5; 4 14; 5
6; 1 16
6; 2 17
6; 3 18
Total 93 78

n1 (n1 + 1)
U1 = n 1 n 2 + R1
2
8 9
U1 = 80 + 93
2
U1 = 23 ; U2 = 57

Como U = 23 > 17 no se rechaza H0 y se concluye que no hay diferen-


cia signi…cativa en el contenido promedio de nicotina en las dos marcas
de cigarrillo.

37
3.5. Prueba de dos muestras de Kolmogorov
- Smirnov.
La prueba de dos muestras de Kolmogorov - Smirnov puede con…rmar
que dos muestras independientes han sido extraidas de la misma población,
ó de poblaciones con la misma distribución. La prueba es sensible a cualquier
clase de diferencia en las distribuciones de las que se sacaron las dos mues-
tras: diferencia en tendencia central, en dispersión, etc.
La prueba de Kolmogorov - Smirnov se basa en la diferencia máxima abso-
luta entre las funciones de distribución acumulada observadas para ambas
muestras. Cuando esta diferencia es signi…cativamente grande se consideran
diferentes las dos distribuciones.
Las hipótesis son
H0 : Las distribuciones son iguales (F1 (x) = F2 (x))
H1 :Las distribuciones son distintas (F1 (x) 6= F2 (x))
El estadístico de prueba es

D = max jS1 (x) S2 (x)j


x

Donde Si (x) es la proporción de valores de la muestra i, que son menores o


iguales a x, i = 1; 2 la diferencia S1 (x) S2 (x) se calcula para todos los
valores de x y el valor de la diferencia de máximo valor absoluto es el valor
del estadístico de prueba observado D.
La distribución muestral de D se conoce y las probabilidades asociadas con
la ocurrencia de valores como el de una D observada conforme a la hipótesis
nula se han tabulado.
Cuando los tamaños de las dos muestras son mayores que 40, se puede utilizar
el siguiente estadístico de prueba.

n1 n2
X 2 = 4D2 2
(2)
n1 + n2

Ejemplo 30 Considere el ejemplo anterior ¿Se puede concluir de estos datos


que las distribuciones poblacionales representadas por estas muestras son
iguales?

Solución 31 (1) H0 : F1 (x) = F2 (x)


H1 : F1 (x) 6= F2 (x)

38
(2)
Muestra 1 Muestra 2 S1 (x) S2 (x)
1 1
0; 6 0 10 = 10 = 808
2 2
1; 6 0 10 = 10 = 8016
3 3
1; 9 0 10 = 10 = 2480
1 3
2; 1 8 10
= 8014
1 4
2; 2 8 10
= 8022
1 5
2; 5 8 10
= 8030
1 6
3; 1 8 10
= 8038
2 6
3; 3 8 10
= 8028
3 6
3; 7 8 10
= 8018
4 7
4; 0 4; 0 8 10
= 8016
4 8
4; 1 8 10
= 8024
5 8
4; 8 8 10
= 8016
6 9
5; 4 5; 4 8 10
= 8012
7 9
6; 1 8 10
= 802
7 10
6; 2 8 10
= 8010
8 10
6; 3 8 10
=0
De aqui se tiene
38 19
D = max jS1 (x) S2 (x)j = =
x 80 40
De la tabla el valor P para este valor observado de D es 0; 20, luego
no se rechaza la hipótesis nula y podemos suponer que las poblaciones
están idénticamente distribuidas.

3.6. Prueba de las rachas de Wald - Wol-


fowitz.
Otra prueba que sirve para examinar la probabilidad de que dos muestras
procedan de la misma población es la prueba de Wald - Wolfowitz.
La prueba de Wald - Wolfowitz supone que la variable considerada tiene co-
mo base una distribución continua.
Se aplica la prueba a datos procedentes de dos muestras independientes de
tamaño n1 y n2 y se agrupan en un solo conjunto, ordenándolos de menor
a mayor y contando a continuación las rachas. una racha se de…ne como

39
cualquier sucesión de puntajes del mismo grupo (ya sea del 1 o del 2). la
prueba se basa en que, si las distribuciones de los datos son iguales, las
rachas estarán uniformemente repartidas; por el contrario, si hay diferen-
cias entre ellas, las rachas de cada grupo se encontrarán repartidas de forma
desequilibrada.
Las hipótesis son:
H0 : las dos muestras vienen de poblaciones identicamente distribuidas.
H1 :Las dos poblaciones no están idénticamente distribuidas.
El contraste se resuelve para muestras pequeñas (menores que 20) consultan-
do la distribución muestral del número de rachas (r). Hay tablas de valores
críticos de r.
Cuando n1 y n2 son mayores que 20, la distribución muestral conforme a H0
para r es aproximadamente normal, con
2n1 n2
media = r = +1
n1 + n2
y s
2n1 n2 (2n1 n2 n1 n2 )
desviación estandar = r =
(n1 + n2 )2 (n1 + n2 1)
esto es
r r
Z= N (0; 1)
r
Esta aproximación puede mejorarse mediante la corrección por continuidad
que se realiza sustrayendo 0; 5 de diferencia absoluta entre r y r :

jr rj 0; 5
Z=
r

Si se producen empates, se obtiene el máximo y mínimo posible de rachas .


Si el resultado de las dos situaciones, mínimo y máximo, fuera signi…cativo,
se concluye que las distribuciones son distintas si el resultado de las dos situa-
ciones fuera no signi…cativo, aceptariamos que no tenemos evidencia de que
las distribuciones sean distintas, pero cuando ocurre que una es signi…cativa
y otra no, debemos realizar otra prueba.

40
Ejemplo 32 A continuación vemos unas muestras de sueldos anuales ini-
ciales, para quienes se inician en las profesiones de contador público y de
plani…cador …nanciero (Fortune, 26 de Junio de 1995). Los sueldos anuales
están expresados en miles de doláres.
Contador público Plani…cador …nanciero
25; 2 24; 0
33; 8 24; 2
31; 3 28; 1
33; 2 30; 9
29; 2 26; 9
30; 0 28; 6
25; 9 24; 7
34; 5 28; 9
31; 7 26; 8
26; 9 23; 9
Con nivel de signi…cancia de 0; 05 compruebe el supuesto de que no hay dife-
rencia entre los sueldos anuales iniciales de contadores públicos y de plani…-
cadores …nancieros.
Solución 33 En este caso n1 = n2 = 10
(1) H0 : Los sueldos anuales iniciales de contadores públicos y de plani…-
cadores …nancieros están identicamente distirbuidos.
H1 : Las distribuciones no son iguales.
(2) = 0; 05, región crítica r 6
(3) Cálculos
Sueldo: 23; 9 24; 0 24; 2 24; 7 25; 2 25; 9 26; 8 26; 9
Muestra: 2 2 2 2 1 1 2 1 2
2 1
28; 1 28; 6 28; 9 29; 2 30; 0 30; 9 31; 3 31; 7
2 2 2 1 1 2 1 1
33; 2 33; 8 34; 5
1 1 1
rmax = 8
rm n = 8
Decisión: No se rechaza la hipótesis nula.

41
3.7. Prueba de Moses de reacciones extremas.
La prueba de Moses trata de determinar si el comportamiento en los va
lores extremos, mayores y menores, de dos variables es igual o distinto.
A uno de los grupos se le denomina grupo experimental, y al otro control.
Las observaciones de ambos grupos se combinan y ordenan. Esta prueba se
centra en la amplitud del grupo control. Si no hay diferencias signi…cativas
entre los valores extremos, esperamos que los rangos mayores y menores es-
tén repartidos equitativamente entre los dos grupos; en caso contrario habrá
diferencias que podrán ser detentadas por la prueba de Moses.
Las hipótesis son:
H0 : No hay diferencias en los valores extremos.
H1 : Hay diferencias en los valores extremos.
El estadístico de prueba es la amplitud del grupo control que se calcula co-
mo la diferencia entre los rangos de los valores mayor y menor del grupo de
control más uno:
S 0 = RM Rm + 1
Debido a que los valores atípicos ocasionales pueden distorsionar fácilmente
el rango de la amplitud, Moses propuso que para el cálculo de S 0 previamente
se descontaría un número pequeño \L" de los valores extremos del grupo de
control.

Ejemplo 34 Aplicar la prueba de Moses a los datos del ejemplo (3.4.1).

3.8. El caso de K muestras relacionadas.


3.8.1. La prueba de Q de Cochran.
La prueba de Mc. Nemar para dos muestras relacionadas, puede exten-
derse para usarse en una investigación que contenga más de dos muestras.
Esta extensión, la prueba Q de Cochran para K muestras relacionadas, pro-
porcionan un método para examinar si tres o más conjuntos igualados de
frecuencias o proporciones di…eren signi…cativamente entre sí.
La prueba de Cochran es adecuada cuando la respuesta es dicotómica (éxito
o fracaso, si o no, etc).
Los campos de aplicación de esta prueba son múltiples.

42
Ejemplo 35 n individuos son sometidos a K pruebas. cada una de ellas
sólo puede evaluarse con éxito o fracaso.
Tabla de contingencia para la prueba Q de Cochran.
Pruebas
Individuos 1 2 K Total
1 X11 X12 S1 S12
2 X21 X22 S2 S22
.. ..
. .
n Xn1 Xn2 XnK Sn Sn2
T1 T2 TK
Total N
T12 T22 TK2

Xik 2 f0; 1g

Las hipótesis son:


H0 : Las pruebas dan igual resultado.
H1 : Las pruebas di…eren.
El estadístico de prueba es
" #
2
P
K P
n
(K 1) K Tk2 Si
k=1 i=1
2
Q= P
n P
n (K 1)
K Si Si2
i=1 i=1

Ejemplo 36 A un grupo de 10 expertos se les piden que lean 4 artículos


cientí…cos, A; B; C; y D, cada uno de los cuales debe evaluar como bueno (1)
o como malo (0).
Los resultados obtenidos son los siguientes:

43
Expertos A B C D Si Si2
1 0 0 1 0 1 1
2 1 0 1 1 3 9
3 1 0 1 1 3 9
4 1 1 1 1 4 16
5 0 1 0 0 1 1
6 1 0 1 1 3 9
7 1 0 1 1 3 9
8 1 0 1 0 2 4
9 1 0 1 0 2 4
10 0 0 0 0 0 0
Tk 7 2 8 5
Tk2 49 4 64 25

Las hipótesis en este caso son:

(1) H0 : Los artículos son iguales de buenos.


H1 : Los artículos no son iguales de buenos.

(2) El valor del estadístico de prueba es

(4 1) 4 (142) (22)2
Q= = 9; 69
4 (22) 62

El valor
P = P X 2 (3) > 9; 69 = 0; 021 < 0; 05:
Luego rechazamos la hipótesis nula a un nivel de signi…cancia de 5 % y
aceptamos que, según los expertos, el valor de los artículos es distinto.

3.8.2. Prueba de Friedman.


Esta prueba nos permite comparar K variables (tratamientos), las cuales
dispondremos en las columnas, correspondientes a n …las que representan a
los diferentes sujetos o conjuntos de sujetos igualados (bloques).
A los datos de cada …la se les asigna un número del 1 a K, según el orden
de magnitud de menor a mayor, a este número le llamaremos rango. Cuan-
do hay repeticiones, a cada valor repetido se le asigna el promedio de los
rangos correspondientes. Cada bloque (…la) de rangos será, necesariamente,

44
una permutación de los enteros de uno a K. La suma de los rangos en cada
bloque será igual a

K (K + 1)
1+2+ +K =
2
Si la hipótesis nula
H0 : e 1 = e 2 = = ek
es verdadera se puede esperar que los rangos estén repartidos en cada colum-
na de manera uniforme y sólo encontraremos entre ellas pequeñas diferen-
cias debidas al azar, si las diferencias son demasiado grandes, rechazamos la
hipótesis nula y concluiremos que existen diferencias signi…cativas entre las
variables. esto es, cuando H0 es verdadera, las medias de los rangos dentro
de cada muestra (columna) Rk se acercan a la media K+1 2
, y cuando H0 es
K+1
falsa, las Rk tenderán a ser bastante diferentes de 2 . El estadístico de
prueba para la prueba de Friedman está dado por

12n X K
K +1
2
2
S= Rk (K 1)
K (K + 1) k=1 2

donde n es el número de bloques, K el de variables y Rk es la media de los


rangos de la k ésima variable.
La usual fórmula de cálculo para el estadístico de prueba S está dada por:

12 X K
S= R2 3n (K + 1)
nK (K + 1) k=1 k

Ejemplo 37 Tres evaluadores estatales de bienes raíces fueron contratados


por una …rma bancaria para determinar los precios en el mercado de las
propiedades cuyo …nanciamiento está en trámite.
El banco decidió realizar un estudio para comparar a los tres evaluadores,
sus avaluos, en miles de doláres, de seis propiedades elegidas al azar están
registrados en la tabla adjunta. Use = 0; 05 y la prueba de Friedman para
determinar si esas personas proporcionaron precios signi…cativamente difer-
entes.

Evaluador

45
Propiedad I II III
A 58; 9 63; 7 65; 3
B 63; 1 62; 9 63; 5
C 76; 4 81; 2 77; 1
D 81; 0 83; 4 81; 5
E 90; 5 91; 4 86; 2
F 225; 0 276; 5 245; 5

Solución 38 1.

(1) H0 : Los precios medios de las propiedades son iguales para los tres
evaluadores.
H1 : Los precios medios no son iguales.

(2)

Evaluador
Propiedad I II II
A 1 2 3
B 2 1 3
C 1 3 2
D 1 3 2
E 2 3 1
F 1 3 2
R1 = 8 R2 = 15 R3 = 13

12
S= 82 + 152 + 132 3 6 4 = 4; 33
6 3 4
El valor P es P = P (X 2 (2) > 4; 33) = 0; 1145 > 0; 005
No hay evidencia su…ciente para rechazar la hipótesis nula.

3.8.3. Prueba de Kruskall - Wallis.


Suponga que se extraen K muestras aleatorias independientes de tamaños
n1 ; n2 ; : : : ; nK de poblaciones distribuidas en forma continua. El proce-
dimiento de Kruskall - Wallis pone a prueba la hipótesis de que cada una
de las K muestras se extrajo de poblaciones idénticas.
Sin embargo, es una prueba especialmente sensible a las diferencias de lo-
calización, por lo que la hipótesis nula usualmente se expresa con base en

46
la igualdad de las medianas poblacionales. Así pues, la hipótesis nula y
alternativa se expresan como:

H0 : e i = e 2 = = eK
H1 : al menos medianas poblacionales no son iguales.

En la ejecución de la prueba, primero combinamos todas las K muestras y


acomodamos las n = n1 + n2 + + nK observaciones en orden ascendente,
y sustituimos el rango apropiado de 1; 2; : : : ; n para cada observación. En
caso de empates (observaciones repetidas), seguimos el procedimiento acos-
tumbrado de reemplazar las observaciones por las medias de los rangos que
tendrían las observaciones por las medias de los rangos que tendrían las ob-
servaciones si fueran distinguibles.
La suma de los rangos que corresponden a las ni observaciones en la i ésima
muestra se denota mediante la variable aleatoria Ri .
La estadística de prueba de Kruskal - Wallis está dada por:

12 X R2
K
i
H= 3 (n + 1)
n (n + 1) i=1 ni

H mide las desviaciones de los rangos promedio observados de los K grupos


respecto al valor esperado cuando H0 es verdadera.
Las desviaciones de gran magnitud llevan a valores relativamente altos de H
y, por tanto, al rechazo de la hipótesis nula. Aunque se cuenta con tablas
exactas para valores pequeños de K y n, se ha demostrado que H tiene
distribución chi-cuadrada aproximada, con K 1 grados de libertad si todas
las ni 5.

Ejemplo 39 Se realizan experimentos de comparación de los tiempos de o-


peración en horas para tres tipos de calculadoras cientifícas de bolsillo antes
de que requieran recarga. Se obtienen muestras aleatorias de tamaño 5; 7 y
6 de las calculadoras A; B y C respectivamente. Los tiempos de operación
y los rangos correspondientes (entre paréntesis) de la muestra combinada de

47
5 + 7 + 6 = 18 observaciones son las siguientes:

Calculadora
A B C
4; 9 (4) 5; 5 (8; 5) 6; 4 (15)
6; 1 (12) 5; 4 (7) 6; 8 (18)
4; 3 (1) 6; 2 (13) 5; 6 (10)
4; 6 (2) 5; 8 (11) 6; 5 (16)
5; 3 (6) 5; 5 (8; 5) 6; 3 (14)
5; 2 (5) 6; 6 (17)
4; 8 (3)

(1) H0 : e1 = e2 = e3 ; H1 : Al menos dos medianas no son iguales.

(2) La suma de los rangos son:

R1 = 4 + 12 + 1 + 2 + 6 = 25
R2 = 8; 5 + 7 + + 3 = 56
R3 = 15 + 18 + + 17 = 90

El cálculo de la estadística de la prueba de Kruskal - Wallis lleva a


obtener:
12 252 562 902
H= + + 3 19 = 10; 473
18 19 5 7 6

El valor P es
2
P =P (2) > 10; 473 = 0; 0053 0; 5 %

Se rechaza la hipótesis de que los tiempos medios de operación para las


tres calculadoras son iguales.

48
REFERENCIAS BIBLIOGRÁFICAS.

[A ] ANDERSON, David. Estadística para administración y economía. 7a


ed. Thomson.

[D ] DANIEL, Wayne. Applied nonparametric statistics. 2nd ed. PWS -


Kend.

[DJ ] DEVORE, Jay. Probabilidad y estadística para ingeniería y ciencias


5a ed. Thomson.

[H ] HOLLANDER, M. Nonparametric statistical Methods, John Wiley &


Sons. Nueva York.

[M ] MILTON, Susan. Probabilidad y estadística con aplicaciones para


ingeniería y ciencias computacionales. 4a ed. Mc Graw - Hill.

[MD ] MONTGOMERY, Douglas. Probabilidad y estadística aplicadas a


la ingeniería. 2a ed. Limusa.

[P1 ] PÉREZ, César. Estadística práctica con statgra…cs. Pearson.

[P2 ] PÉREZ, César. Técnicas estadísticas con SPSS. Pearson.

[S ] SIEGEL, Sydney. Estadística no paramétrica aplicada a las ciencias de


la conducta. Trillas.

[W ] WALPOLE, Ronald. Probabilidad y estadística para ingenieros. 6a


ed. Pearson.

[WR ] WEIMER, Richard. Estadística. CECSA.

49

También podría gustarte