Está en la página 1de 15

TALLER A DISTANCIA DE INFERENCIA

ESTADSTICA:
Prueba t de Student

Adaptacin de material del Curso de
Estadstica en Medicina a Distancia de CONSENSO MDICO















Elaborado: Prof. Douglas Angulo Herrera

Caracas, marzo 2014
1
INDICE DE CONTENIDO

La prueba t de Student para muestras independientes: razonamiento 2
Paso previo: Verificacin del tipo de distribucin 3
Estadstico de contraste t de Student 6
Pasos en la aplicacin del estadstico de contraste 7
Prueba t de Student para muestras dependientes o pareadas 11
2
La prueba t de Student para muestras independientes

Razonamiento

Suponga que se desea hacer un estudio para determinar si un medicamento es ms
eficaz que otro para el tratamiento de la hipertensin. Con este fin, los investigadores
asignan al azar a 30 sujetos hipertensos a uno de los dos grupos de tratamiento. Los
sujetos asignados al grupo 1 reciben un rgimen de tratamiento basado en el primer
frmaco y los asignados al grupo 2 reciben un tratamiento que se basa en el
segundo. La pregunta que nos atae es: Los dos regmenes de tratamiento
producen niveles de presin arterial diferentes en los pacientes hipertensos? La tabla
abajo muestra las presiones arteriales sistlicas (ficticias) de 30 sujetos, tomadas
despus de recibir tratamiento mediante los dos regmenes de medicamentos.

Grupo 1 Grupo 2
129 138
111 120
140 137
139 154
144 148
120 122
131 131
129 128
131 140
154 145
119 131
138 120
142 144
110 129
140 141

Una estrategia razonable para contestar la pregunta sobre si los dos tratamientos
producen niveles diferentes de presin arterial sera calcular las medias de las
presiones para cada uno de los dos grupos, y luego compararlas para determinar si
difieren. As, las medias en cada grupo, vienen dadas por:

Grupo 1: 8 , 131
1
= X

Grupo 2: 2 , 135
2
= X

As que, la presin arterial promedio del primero grupo fue de 3,4 unidades menos
que la del segundo.

Pero existen por lo menos dos explicaciones para esta diferencia. Primero, que si los
dos tratamientos tuvieran igual efecto sobre la variable de inters, esperaramos ver
cierta diferencia en los promedios de los dos grupos. La primera explicacin para la
diferencia de 3,4 unidades que se observa en nuestro estudio ficticio es, entonces,
3
que surgi no por alguna diferencia en el efecto de los medicamentos, sino por
casualidad relacionada con la manera en que se formaron los grupos.

Una segunda explicacin es que el medicamento administrado al grupo 1 es ms
efectivo al reducir las presiones de los pacientes hipertensos que la sustancia
administrada al segundo grupo. Esto explica por qu las presiones en el grupo 1
tienden a ser ms bajas que en el grupo 2. Pero, cul de estas explicaciones debe
creerse? Una prueba de significancia podra ser til para decidir el asunto.

La prueba t de Student para muestras independientes es la forma de responder a
esta interrogante.

Paso previo: Verificacin del tipo de distribucin

Hay que aclarar que antes de aplicar la prueba t de Student, es preciso conocer si la
distribucin de datos a comparar proviene o no de una distribucin Normal, pues es
condicin necesaria que antes de aplicar dicho procedimiento se verifique que dicha
distribucin es tal.

Prueba
2
de Pearson.

La idea del contraste de
2
Pearson es muy sencilla: se agrupan los datos en k
clases (k 5), como si furamos a construir un histograma, cubriendo todo el rango
posible de valores, siendo deseable disponer, aproximadamente, del mismo nmero
de datos en cada clase y al menos de tres datos en cada una.
Llamamos
i
O al nmero de datos observado en la clase i. Mediante el modelo de
probabilidad que se desea verificar se calcula la probabilidad
i
p asignada a cada
clase, y por lo tanto, para una muestra de n datos, la frecuencia esperada segn ese
modelo de probabilidad es
i i
p n E =
Se calcula entonces el siguiente ndice de discrepancia entre las frecuencias
observadas y las que era previsible encontrar si el modelo fuera el adecuado:
( )


=
i
i i
E
E O
2
2



Que se distribuye aproximadamente como una
2
si el modelo es correcto.

Si el modelo se especifica de forma completa con las probabilidades
i
p , conocidas
antes de tomar los datos, el nmero de grados de libertad es 1 k . Pero si se han
estimado r parmetros del modelo a partir de los datos, entonces los grados de
libertad son 1 r k .




4
Prueba de Kolmogorov-Smirnov

Este contraste, que es vlido nicamente para variables continuas, compara la
funcin de distribucin (probabilidad acumulada) terica con la observada, y calcula
un valor de discrepancia, representado habitualmente como D , que corresponde a la
discrepancia mxima en valor absoluto entre la distribucin observada y la
distribucin terica, proporcionando asimismo un valor de probabilidad p , que
corresponde, si estamos verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe tanto como la observada si
verdaderamente se hubiera obtenido una muestra aleatoria, de tamao n , de una
distribucin normal. Si esa probabilidad es grande no habr por tanto razones
estadsticas para suponer que nuestros datos no proceden de una distribucin,
mientras que si es muy pequea, no ser aceptable suponer ese modelo
probabilstico para los datos.

Prueba de Shapiro-Wilks
Aunque esta prueba es menos conocida es la que se recomienda para contrastar el
ajuste de nuestros datos a una distribucin normal, sobre todo cuando la muestra es
pequea ( 30 < n ).
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilstico Normal.
Este tipo de representacin tambin lo proporcionan algunos programas de
estadstica, de tal manera que nos permite adems apreciar el ajuste o desajuste de
forma visual:
Probabilidad acumulada observada
1,0 ,8 ,5 ,3 0,0
P
r
o
b
a
b
i
l
i
d
a
d

a
c
u
m
u
l
a
d
a

e
s
p
e
r
a
d
a
1,0
,8
,5
,3
0,0

En escala probabilstica Normal se representa en el eje horizontal, para cada valor
observado en nuestros datos, la funcin de distribucin o probabilidad acumulada
observada, y en el eje vertical la prevista por el modelo de distribucin normal. Si el
5
ajuste es bueno, los puntos se deben distribuir aproximadamente segn una recta a
45. En la imagen vemos que en este ejemplo existe cierta discrepancia.
En cualquier caso siempre es adecuado efectuar una representacin grfica de tipo
histograma de los datos, y comparar el valor de la media y la mediana, as como
evaluar el coeficiente de asimetra y apuntamiento, adems de llevar a cabo una
representacin en escala probabilstica de la distribucin de probabilidad esperada
versus observada, como la de la figura.
En ese sentido, aplicando las pruebas
2
de Pearson y de Kolmogorov-Smirnov a los
datos de presin arterial, obtenemos:
Prueba de hiptesis de normalidad, basado en los parmetros:
H
0
:
T O
X X = es Normal
H
A
:
T O
X X no es Normal

Regla de decisin:

Si
2 2
T O
< la distribucin de datos es Normal
Si
2 2
T O
> la distribucin de datos no es Normal

En el caso de la prueba
2
de Pearson (resultado obtenido mediante un paquete
estadstico)

El
2
T
para gl = 4 y = 0,05, resulta: 488 , 9
2
=
T
as, el valor de
2
obtenido de los
datos, 663 , 2
2
=
O
, se concluye entonces que la distribucin de datos es Normal.

Respecto a la prueba Kolmogorov-Smirnov, p = 0,754 (valor obtenido mediante un
paquete estadstico)

6

Estadstico de contraste t de Student

La hiptesis nula que debe analizarse mediante la prueba t de Student de muestras
independientes viene dada por:

H
0
: 2 1 X X =

H
A
: 2 1 X X (para un contraste de dos colas)

Las alternativas, de un contraste de una cola por la derecha viene dada por:

H
0
: 2 1 X X =
H
A
: 2 1 X X >

En el caso de un contraste de una cola por la izquierda, sera:

H
0
: 2 1 X X =
H
A
: 2 1 X X <


La regla de decisin se expresa como:

Si
t O
t t < la hiptesis nula (H
0
) es verdadera, por tanto H
A
es falsa.

Si
t O
t t > la hiptesis nula (H
0
) es falsa, por tanto H
A
es verdadera.



7
Pasos en la aplicacin del estadstico de contraste:

Luego de verificar que la distribucin de datos es Normal, debemos elegir el
estadstico de contraste en base a si la variabilidad de la distribucin de datos es o
no homognea, la no homogeneidad (heterogeneidad) introduce un factor decisivo al
momento de establecer las inferencias, pues, las poblaciones de las cuales
provienen los datos pudieran no ser tan iguales como se pudiera suponer, lo cual
conlleva en cierto sentido un sesgo, siendo importante que el atributo de verificar
este homogeneidad no se vea afectado el verdadero resultado de la diferencia a
encontrar.

De all que, lo primero que debemos comprobar, es si los datos tiene una alta
variabilidad o no la tienen, para hecho, para ello utilizamos la prueba F.

La comparacin de la variabilidad de los datos en dos grupos independientes se
hace mediante la prueba F que permite comparar dos varianzas (varianza es el
cuadrado de la desviacin estndar) obteniendo un coeficiente, mayor que uno
resultante de dividir la varianza mayor entre la menor.

muestra la de menor Varianza
muestra la de mayor Varianza
= F

Las hiptesis de contraste (a dos colas) vienen dadas por:

H
0
:
1
2
2
2
1
=

(las varianzas son iguales, por tanto, la distribucin es homognea)



H
A
:
1
2
2
2
1

(las varianzas son iguales, por tanto, la distribucin es heterognea)



Regla de decisin:

Si
T O
F F < la distribucin de datos es homognea.

Si
T O
F F > la distribucin de datos no es homognea.

Los grados de libertad (gl) vienen dados por (donde n
1
es el tamao muestral de la
varianza mayor, y n
2
es el tamao muestral de la varianza menor), haciendo coincidir
ambos valores, nos informa sobre el valor crtico de F:

1
1 1
= n gl

1
2 2
= n gl


8

Los estadsticos de contraste vienen dados por:

Si las varianzas son iguales (homogneas):

|
|

\
|
+

=
2 1
2
2 1
1 1
n n
S
X X
t
p


Los grados de libertad vienen dado por: 2
2 1
+ = n n gl independientemente si los
tamaos muestrales son iguales o no.

La varianza combinada,
2
p
S , se expresa como:

( ) ( )
2
1 1
2 1
2
2 2
2
1 1 2
+
+
=
n n
S n S n
S
p



Si las varianzas son diferentes (no homogneas):

2
2
2
1
2
1
2 1
n
S
n
S
X X
t
+

=


Los grados de libertad vienen dado por:

Si los tamaos de muestra son iguales:
2 1
n n = 2
2 1
+ = n n gl

Si los tamaos de muestra son diferentes:
2 1
n n
(
(
(
(
(

|
|

\
|
+

|
|

\
|
|
|

\
|
+
=
1 1
2
2
2
2
1
1
2
1
2
1
2
2
2
2
1
2
1
n
n
S
n
n
S
n
S
n
S
gl







9
Procedamos a comprobar entonces si las medias difieren o no en este caso, los
estadsticos descriptivos se expresan:
PAS
15 131,80 12,531 157,029
15 135,20 10,421 108,600
Grupos
Grupo 1
Grupo 2
n Media Desv. tp. Varianza

Se comprob previamente que la distribucin no es Normal:
Averigemos si las varianzas son o no iguales:
As,
muestra la de menor Varianza
muestra la de mayor Varianza
= F
Sustituyendo, 446 , 1
600 , 108
029 , 157
= = F
Los grados de libertad, seran:

14 1 15 1
1
= = = n gl
numerador


14 1 15 1
2
= = = n gl
denomiador


Para un contraste con nivel de confianza del 5% (0,05) hacemos coincidir grados de
libertad del numerador con grados de libertad del denominador (usando la tabla
anexo Distribucion_F.pdf), como no existe 14 no esta en los valores del numerador,
tomamos por aproximacin el valor ms prximo (hacia arriba en este caso).

460 , 2 =
T
F

Regla de decisin:

Si
T O
F F < las varianzas son iguales

Si
T O
F F > las varianzas no son iguales

En el caso particular 460 , 2 466 , 1 = < =
T O
F F

Se concluye que las varianzas son iguales.




10

En este caso, escogemos el estadstico de contraste:

|
|

\
|
+

=
2 1
2
2 1
1 1
n n
S
X X
t
p


La varianza combinada,
2
p
S se calcula segn:

( ) ( ) ( ) ( ) ( ) ( )
811 , 132
28
36 , 1520 36 , 2198
2 15 15
421 , 10 1 15 531 , 12 1 15
2
1 1
2 2
2 1
2
2 2
2
1 1 2
=
+
=
+
+
=
+
+
=
n n
S n S n
S
p


Luego, calculando el estadstico t de Student:

808 , 0
208 , 4
400 , 3
15
1
15
1
811 , 132
20 , 135 80 , 131
1 1
2 1
2
2 1
=

=
|

\
|
+

=
|
|

\
|
+

=
n n
S
X X
t
p


Regla de decisin:

048 , 2
) 05 , 0 ; 28 (
= t
(1)


Como 048 , 2 808 , 0 = < =
T O
F F

La regla de decisin nos informa que no hay diferencias en la reduccin de presin
arterial en los tratamientos evaluados, por lo que el frmaco 1 no ofrece ventajas
clnicas evidentes de tal hecho.

1
El valor expresado como
) 05 , 0 ; 28 (
t viene dado por
) ; ( gl
t donde gl son grados de libertad y es el nivel de
significacin del contraste.
11
Prueba t de Student para muestras dependientes o pareadas

Los datos apareados se presentan con cierta frecuencia en una variedad de
contextos de investigacin. Por ejemplo, los investigadores pueden evaluar la
efectividad relativa de dos tcnicas de ciruga lser para el tratamiento de la
retinopata diabtica si aplican una tcnica en uno de los ojos de los pacientes que
padecen la enfermedad y aplican el segundo mtodo en el otro ojo. Si despus de
algn tiempo se mide la agudeza visual en cada ojo para determinar cul es la
tcnica de ciruga que dio por resultado una mejor visin, las dos agudezas
obtenidas en cada paciente constituirn un par de datos.

Como segundo ejemplo, los investigadores que deseen determinar si un remedio
para el resfriado que se vende sin prescripcin mdica tiene como efecto colateral
indeseable la elevacin de la presin arterial sistlica, podran tomar medidas de
lnea base la presin arterial para cada paciente, medir la presin arterial por
segunda vez. Despus, podran compararse las medias de las dos presiones
arteriales tomadas en dos diferentes momentos para determinar si ocurri un
incremento. De nuevo, las dos mediciones tomadas en cada persona constituirn un
par de datos.

12
Razonamiento

Suponga que el investigador est interesado en determinar si un medicamento para
el resfriado que se vende sin prescripcin mdica tiene como efecto colateral
indeseable la elevacin de la presin arterial sistlica. Para este fin, el investigador
toma la presin arterial de 15 personas del tipo en el que est interesado. Luego,
cada persona recibe la dosis recomendada del medicamento. Treinta minutos
despus de administrar el remedio, se toman de nuevo las presiones arteriales de
cada persona. La pregunta que nos interesa es: Son ms altas las presiones
arteriales despus de tomar el medicamento? La tabla abajo muestra las presiones
arteriales (ficticias) de las 15 personas antes (pre-tratamiento) y despus (post-
tratamiento) de administrar el frmaco.



Pre-
tratamiento
Post-
tratamiento
Diferencia
(d)
d
2

95 99 4 16
111 120 9 81
97 97 0 0
132 130 -2 4
144 148 4 16
100 122 22 484
120 131 11 121
110 109 -1 1
131 140 9 81
154 153 -1 1
105 131 26 676
119 120 1 1
107 114 7 49
101 110 9 81

118 116 -2 4
1744 1840 96 1616

Es posible determinar el cambio en la presin arterial de cada persona si restamos
su valor pre-tratamiento del valor post-tratamiento. Estas puntuaciones de diferencia
estn representadas en la tabla por la letra d. La media de estas puntuaciones de
diferencia, que designaremos como d, es 96/15 = 6,40. Observe que ste es el
mismo valor que se obtendra si la media pre-tratamiento fuera restada de la media
post-tratamiento o 122,67 116,27 = 6,40.

As, el cambio promedio en la presin arterial medida antes y despus de tomar el
remedio para el resfriado es de 6,40 unidades. Pero existen al menos dos
explicaciones para esta diferencia de medias. Primero, notamos que cada vez que se
toman dos medidas de presin arterial a la misma persona, los valores resultantes
rara vez son los mismos aun cuando no haya intervencin alguna entre las
mediciones. Por lo tanto, pudiera ser que el medicamento no tengo ningn efecto
13
sobre las presiones arteriales. Sin embargo, por azar, las mediciones posteriores
fueron mayores en promedio que las mediciones pre-tratamiento. Esto implica que, si
repitiramos el experimento, quiz obtendramos una diferencia de medias de -6,40 o
algn otro valor muy cercano a cero. Una segunda explicacin es que el
medicamento s tiene un efecto colateral indeseable. Como resultado, las presiones
post-tratamiento individuales tienden a ser elevadas de los que hubieran sido sin el
medicamento, produciendo as una diferencia de medias de 6,40 unidades. Cul de
estas explicaciones debe creerse? Una prueba de significancia podra ayudarnos a
decidir esta cuestin.

La prueba

Se formula la siguiente hiptesis estadstica:

H
0
:
0 =
d


(2)

H
A
:
0 >
d



As, el estadstico de contraste, viene dado por:

n
S
d
t
d
=


Donde d es la media de la diferencia de puntuaciones,
d
S es la desviacin estndar
de la muestra de las diferencia de puntuaciones. Los grados de libertad de la prueba
vienen expresados como 1 = n gl .

40 , 6 = d

46 , 8 =
d
S

Sustituyendo,

930 , 2
184 , 2
40 , 6
15
46 , 8
40 , 6
= = = t

El estudio consider un valor de significacin estadstica del 1% (0,01) y los grados
de libertad, vienen expresados como: 14 1 15 1 = = = n gl



2
Hay que tener en cuenta que
d
se interpreta como la media de la diferencia.
14
El estadstico de contraste terico, en ese sentido, se expresa como:

624 , 2
) 01 , 0 ; 14 (
= t

Hay que tener en cuenta, que el contraste es una cola a la derecha, pues, se esta
probando que la diferencia antes-despus es diferente de cero, expresado
nuevamente en trminos de hiptesis.

La regla de decisin se expresa de la siguiente manera:

Si
T O
t t < la hiptesis nula, H
0
, es cierta (H
A
por tanto, es falsa)

Si
T O
t t > la hiptesis nula, H
0
, es falsa (H
A
por tanto, es cierta)

En el caso que nos concierne,

624 , 2 930 , 2 = > =
O T
t t

Este hallazgo significa que el medicamento caus la elevacin de la presin
arterial? Es probable, pero se deben considerar dos factores. Primero, siempre existe
la posibilidad de un error tipo 1. Segundo, y tal vez ms importante, debemos tener
en mente que la prueba t nos dice que ocurri un cambio en las presiones arteriales
pero no nos dice por qu. Suponga, por ejemplo, que las personas se pusieron
ansiosas en el experimento y sufrieron una ligera elevacin de la presin arterial
como resultado de tal ansiedad. La prueba t no puede diferenciar entre el frmaco, la
ansiedad o cualquier otra fuente que sea un agente causante; simplemente confirma
que el cambio no fue producto del azar.

También podría gustarte