Está en la página 1de 25

1

INFERENCIA ESTADSTICA
Notas
Indice
1. OBJETIVOS.....................................................................................................................1
2. INFERENCIA ESTADSTICA...........................................................................................2
3. INTERVALOS DE CONFIANZA ......................................................................................2
4.1. Intervalos de confianza para la media........................................................................................................ 4
4.2. Intervalo de confianza para medianas y otros cuantiles ............................................................................ 5
4.3. Intervalo de confianza para la proporcin .................................................................................................. 6
4.4. Intervalos de confianza para la varianza.................................................................................................... 6
4.5. Intervalo de confianza para la razn de varianzas..................................................................................... 7
4.6. Intervalo de confianza para el coeficiente de variacin ............................................................................. 7
4.7. Intervalo de confianza para la diferencia de medias en poblaciones normales con varianza conocida.... 7
4.8. Intervalo de confianza para la diferencia de medias de dos distribuciones normales, varianzas
desconocidas pero iguales ................................................................................................................................ 8
4.9. Intervalo de confianza para la diferencia de medias de dos distribuciones normales con varianzas
desconocidas..................................................................................................................................................... 9
4.10. Intervalo de confianza para la diferencia de medias con datos apareados ............................................. 9
4.11. Intervalo de confianza de la diferencia de proporciones.......................................................................... 9
4.12. Intervalo de confianza para el parmetro de una distribucin de Poisson.......................................... 10
4.13. Intervalo de confianza para la diferencia de parmetros de dos distribuciones de Poisson
independientes ................................................................................................................................................ 10
5. CONTRASTES DE HIPTESIS ....................................................................................10
5.1. Conceptos generales................................................................................................................................ 10
5.2. Pruebas de uno y dos extremos (unilaterales y bilaterales, de una y dos colas) .................................... 13
5.3. Curva caracterstica operativa y curva de potencia ................................................................................. 14
5.4. Grados de libertad.................................................................................................................................... 14
5.5. Observaciones.......................................................................................................................................... 14
5.6. El concepto de valor p o grado de significacin....................................................................................... 16
5.7. Errores comunes en la interpretacin del nivel de significacin y el valor p............................................ 16
5.8. Los valores p y los intervalos de confianza: en qu confiar?................................................................. 18
5.9. Potencia o poder estadstico de un estudio ............................................................................................. 19
6. BIBLIOGRAFA..............................................................................................................24
7. BIBLIOGRAFA ADICIONAL..........................................................................................24
1. Objetivos
Comprender los fundamentos lgico-matemticos de la inferencia estadstica;
Saber plantear, resolver e interpretar problemas de intervalos de confianza;
Comprender las distintas fases de un contraste de hiptesis;
Saber plantear, resolver e interpretar problemas de contraste de hiptesis;
Analizar los errores que pueden cometerse en un contraste de hiptesis;
Enjuiciar la correcta aplicacin de las pruebas estadsticas en situaciones de investigacin concretas;
Saber interpretar el resultado del valor p a la hora de tomar decisiones en los contrastes de hiptesis.
2
2. Inferencia estadstica
La inferencia estadstica es aquella rama de la estadstica mediante la cual se trata de sacar conclusiones
de una poblacin en estudio, a partir de la informacin que proporciona una muestra representativa de la
misma. Tambin es denominada estadstica inductiva o inferencia inductiva ya que es un procedimiento
para generar nuevo conocimiento cientfico.
La muestra se obtiene por observacin o experimentacin. La necesidad de obtener un subconjunto
reducido de la poblacin es obvia si se tiene en cuenta los costes econmicos de la experimentacin o el
hecho de que muchos de los mtodos de medida son destructivos.
Toda inferencia inductiva exacta es imposible ya que se dispone de informacin parcial, sin embargo es
posible realizar inferencias inseguras y medir el grado de inseguridad si el experimento se ha realizado de
acuerdo con determinados principios. Uno de los propsitos de la inferencia estadstica es el de conseguir
tcnicas para hacer inferencias inductivas y medir el grado de incertidumbre de tales inferencias. La medida
de la incertidumbre se realiza en trminos de probabilidad.
Figura 1. Esquema de inferencia estadstica.
De acuerdo con el conocimiento sobre la distribucin en la poblacin, la inferencia estadstica puede
dividirse en:
Inferencia paramtrica: se conoce la forma de la distribucin (normal, binomial, Poisson, etc...) pero se
desconocen sus parmetros. Se realizan inferencias sobre los parmetros desconocidos de la
distribucin conocida;
Inferencia no paramtrica: forma y parmetros desconocidos. Se realizan inferencias sobre
caractersticas que no tienen porque ser parmetros de una distribucin conocida (mediana,
estadsticos de orden).
De acuerdo con la forma en que se estudian los parmetros o caractersticas desconocidas, la inferencia
puede dividirse en:
Estimacin: se intenta dar estimaciones de los parmetros desconocidos sin hacer hiptesis previas
sobre posibles valores de los mismos:
Estimacin puntual: un nico valor para cada parmetro;
Estimacin por intervalos: intervalo de valores probables para el parmetro.
Contraste de hiptesis: se realizan hiptesis sobre los parmetros desconocidos y se desarrolla un
procedimiento para comprobar la verosimilitud de la hiptesis planteada.
3. Intervalos de confianza
En los mtodos de estimacin puntual se utiliza una funcin de los valores de la muestra (estadstico) para
dar la estimacin del parmetro en estudio. Si en vez de esto, se utilizan dos funciones y se da el valor de
dicho parmetro a partir del intervalo que tiene por extremos los valores de dichas funciones para una
muestra, se dice que se est dando una estimacin por intervalos del parmetro, o un intervalo de
confianza.
Muestra
{x
1
, x
2
, , x
n
}
inferencia
POBLACIN
(DISTRIBUCIN DE
PROBABILIDAD)
3
En la construccin de estos intervalos, hay dos elementos fundamentales. La amplitud del intervalo que
dar la precisin de la estimacin, y que por lo tanto deber ser la menor posible, y la probabilidad de que el
intervalo contenga al verdadero valor del parmetro a estimar, que se llama nivel de confianza o coeficiente
de confianza, y que deber ser lo mayor posible. Est claro que se puede ganar en precisin a base de
perder confianza en la estimacin.
Para centrar ideas, vase el caso en el que se selecciona una muestra aleatoria simple de una poblacin
descrita por la funcin ( ) ; f x dependiente del parmetro que pretendemos estimar. El problema se
plantea como sigue: se fija un nivel de confianza, que se denota por 1, en donde 0 1 << , y se trata de
determinar dos funciones
( )
( )
1 1 2
2 1 2
, , ,
, , ,
n
n
x x x
x x x

de forma que:
( ) ( ) ( ) 1 1 2 2 1 2
Pr , , , , , , 1
n n
x x x x x x =
Al intervalo
( ) ( )
1 1 2 2 1 2
, , , , , , ,
n n
x x x x x x



se le llama intervalo de confianza de al nivel de
confianza del ( ) 1 100% . Es muy importante observar que sera un error afirmar que la probabilidad
indicada anteriormente, es la probabilidad de que est entre los nmeros reales
( )
1 1 2
, , ,
n
x x x y
( )
2 1 2
, , ,
n
x x x puesto que no es una variable aleatoria sino un parmetro que tendr un valor
concreto, aunque sea desconocido. Las variables aleatorias son
( )
1 1 2
, , ,
n
x x x y
( )
2 1 2
, , ,
n
x x x
al variar la muestra, luego la probabilidad anterior debe ser considerada como la probabilidad de que el
intervalo aleatorio
( )
1 1 2
, , ,
n
x x x a
( )
2 1 2
, , ,
n
x x x contenga el verdadero valor de . Dicho en
trminos de frecuencias esto significa que de cada 100 muestras aleatorias que se tomen, cabe esperar que
el ( ) 1 100% de ellas contenga al verdadero valor de entre
( )
1 1 2
, , ,
n
x x x y
( )
2 1 2
, , ,
n
x x x .
El esquema general para la estimacin de un intervalo de confianza es:
estimador coeficiente de confiabilidad error estndard
El coeficiente de confiabilidad ( z o t ) indica entre ms/menos cuntos errores estndar del estimador est
1 del rea de la distribucin muestral del estadstico.
La probabilidad de que los valores obtenidos a travs del estimador por medio de un intervalo contenga el
verdadero valor del parmetro que se pretende estimar de la poblacin, es 1. La probabilidad de estimar
1 de la poblacin se llama tambin coeficiente de confianza o probabilidad de acertar. Los
coeficientes de confianza ms utilizados son: 0,90, 0,95 y 0,99.
La probabilidad (probabilidad de equivocarse) se divide en dos reas en los extremos
( )
2

.
Figura 2.
4
Valores del coeficiente de confiabilidad si ( ) 30 n z > .
Para 1 99% = , 1% 0, 01 = =
2
2, 58 z

=
Para 1 95% = , 5% 0, 05 = =
2
1, 96 z

=
Para 1 90% = 10% 0,10 = =
2
1, 64 z

=
A la mitad de la amplitud del intervalo de confianza se le llama precisin del estimador.
En todo intervalo de confianza hay un aspecto positivo y un aspecto negativo:
El positivo, se ha usado una tcnica que acierta en una alta proporcin de casos;
El negativo, se desconoce si en el caso concreto se ha acertado.
4.1. Intervalos de confianza para la media
Se supone que
{ }
1 2
, , ,
n
x x x es una muestra aleatoria simple y que x es la media muestral.
4.1.1.Poblacin normal de varianza conocida.
En estas condiciones, la variable aleatoria x media muestral se distribuye segn una distribucin
( )
2
, N
n

u , suponiendo que la poblacin es


( )
2
, N u con conocida. Esta propiedad permite asegurar
que la variable tipificada
x
n
u

sigue una distribucin ( ) 0,1 N , y por lo tanto, fijado el nivel de confianza


1 , obtener el valor
2
z

tal que:
2
Pr 1
x
z
n

| |
u
|
=
|

|
\ .
Operando, resulta:
2 2
2 2
2 2
2 2
1 Pr
Pr
Pr
Pr
x
z z
n
z x z
n n
x z x z
n n
x z x z
n n




| |
u
|
=
|

|
\ .
| |
= u
|
\ .
| |
= u +
|
\ .
| |
= u +
|
\ .
con lo que las funciones
1
y
2
buscadas, en este caso, sern
5
2
2
1
2
x z
n
x z
n

= +

=
y el intervalo de confianza para la media poblacional al nivel de confianza del (1 ) 100% es:
2 2
, x z x z
n n


+


Se puede ganar en precisin de dos formas, bien perdiendo confianza lo que, en general, no interesa, o
bien aumentando el tamao n de la muestra seleccionada.
4.1.2.Poblacin normal de varianza desconocida.
Sea ahora una poblacin
( )
2
, N u con desconocida. Es evidente que en este caso se han de utilizar
estimadores que no dependan del valor . De aqu la importancia de las distribuciones que no dependen
de este valor, como es el caso de la t de Student. En estas condiciones, la variable
1
x
n
u

, es una t-
Student con 1 n grados de libertad, en donde s es la desviacin tpica muestral. Esta propiedad permite,
fijado el nivel de confianza 1, obtener el valor
2
t

tal que:
2
Pr 1
1
x
t
s
n

| |
|
u
=
|
|

\ .
Operando de igual forma que en el apartado anterior resulta:
2 2
Pr 1
1 1
s s
x t x t
n n

| |
u + =
|
|

\ .
y el intervalo de confianza en este caso es:
2 2
,
1 1
s s
x t x t
n n


+




4.1.3 Intervalo de confianza para la media geomtrica
El intervalo de confianza para la media geomtrica viene dado por la expresin:
log log
2
x z es
e

| |

|
\ .




Que es consecuencia de:
Transformar los valores de la variable X en ( ) log X ;
Hallar la media
log
x de los ( ) log X ;
Hallar el error estndar
log
es de la media de los ( ) log X .
4.2. Intervalo de confianza para medianas y otros cuantiles
El intervalo de confianza para los cuantiles en general es:
6
( ) ( )
2
1 1 n q z nq q


+

Para un percentil 80, 0,8 q = .
Para la mediana
( )
2
1
2 2
n
n
z



teniendo en cuenta que los valores corresponden al nmero de orden fijado por dicho intervalo y que ocupa
cada dato de la variable cuando se ordenan de menor a mayor.
4.3. Intervalo de confianza para la proporcin
El intervalo de confianza para una proporcin
p
q
es:
( )
2
1

p p
p z
n




4.4. Intervalos de confianza para la varianza
Suponiendo que la poblacin es normal de media u y desviacin tpica , la variable aleatoria
2
2
n s

sigue
una distribucin
2
con 1 n grados de libertad. Esta propiedad, permite obtener dos valores
2
2

y
2
2
1

tales que:
2 2
2
2 2
2 1
Pr 1
n s

| |
=
|

\ .
luego:
2 2
2
2 2 2
1
1 1
Pr 1
n s

| |

| =
|
\ .
con lo que resulta:
2 2
2 2
2
2 2
1
Pr 1
n s n s

| |
| =
|
\ .
por lo que el intervalo de confianza para la varianza poblacional, al nivel de confianza del (1 ) 100%,
viene dado por:
2 2
2 2
2 2
1
,
n s n s






o de manera anloga:
2 2
2 2
2 2
1
1 1
,
n s n s







[1]
Obsrvese que, a diferencia de la estimacin de la media por intervalos, el intervalo anterior no es nico, es
decir, que existen infinitos pares de valores
2
2

y
2
2
1

que verifican [1]. De entre estos pares de valores


7
deberan elegirse aquellos que den el intervalo de menor amplitud; sin embargo, al ser muy complicados los
clculos, se utilizan en la prctica los valores de
2
2

y
2
2
1

indicados en la figura:
Figura 3.
4.5. Intervalo de confianza para la razn de varianzas
El intervalo de confianza para la razn
2
1
2
2
s
s
de varianzas es:
1 2 1 2 2 2
2 2
1 1
2 2
2 2
1, 1 , 1, 1, 1
,
n n n n
s s
s s
F F








4.6. Intervalo de confianza para el coeficiente de variacin
El intervalo de confianza para el coeficiente de variacin es:
,
CV CV
j k





donde
2
2
j

= ;
2
2
1
k

= ; y
son los grados de libertad.
4.7. Intervalo de confianza para la diferencia de medias en poblaciones normales con
varianza conocida
Sea
{ }
1 2
, , ,
n
x x x un muestreo aleatorio simple de
( )
2
1 1
, N u y
{ }
1 2
, , ,
n
y y y uno de
( )
2
2 2
, N u .
Ambas muestras son independientes. Supngase que
1
u y
2
u son desconocidos y que
1
y
2
son
conocidas. Se desea obtener un intervalo de confianza para
( )
1 2
u u de nivel 1.
Se sabe que:
8
( ) ( )
( )
2 2
1 2 1 2
1 2
2 2
1 2
1 2
1 2
, 0 , 1
x y
x y N N
n n
n n
| |
u u
|
u u +
|

\ .
+
Existe un
2
z

que verifica:
( ) ( )
2 2
1 2
2 2
1 2
1 2
Pr 1
x y
z z
n n

| |
|
u u
|
=
|

|
+
|
\ .
( ) ( )
( ) ( )
2 2
2 2
1 2
1 2
1 2
2 2
1 2
1 2
1 2
x y
z x y z
n n
n n

u u
u u + +

+
Despejando:
( ) ( )
( ) ( )
2 2
2 2
1 2
1 2
1 2
2 2
1 2
1 2
1 2
x y
z x y z
n n
n n

u u
u u +

+
Entonces:
( ) ( )
( ) ( )
2 2 2
2 2
1 2 1 2
1 2
2 2
1 2
1 2
1 2
Pr 1 Pr
x y
z z x y z
n n
n n

| |
|
| |
u u |
|
= + u u
|
|

|
\ .
+
|
\ .
Luego el intervalo de confianza de nivel 1 es:
( )
2
2 2
1 2
1 2
x y z
n n



+


4.8. Intervalo de confianza para la diferencia de medias de dos distribuciones normales,
varianzas desconocidas pero iguales
Si
1
x ,
2
x ,
2
1
s y
2
2
s son las medias y las varianzas de dos muestras aleatorias de tamao
1
n y
2
n ,
respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero
iguales, el intervalo de confianza del ( ) 1 100% para la diferencia entre medias
( )
1 2
u u es:
( )
1 2
1 2
1 1
p
x x t s
n n

+


donde:
( ) ( )
2 2
1 1 2 2
2
1 2
1 1
2
p
s n s n
s
n n
+
=
+
es el estimador combinado de la desviacin tpica comn de la
poblacin con
1 2
2 n n + grados de libertad.
9
4.9. Intervalo de confianza para la diferencia de medias de dos distribuciones normales
con varianzas desconocidas
El intervalo de confianza para la diferencia de medias
1 2
u u de dos distribuciones normales, varianzas
desconocidas pero diferentes es:
( )
2 2
1 2
1 2
1 2
s s
x x t
n n

+


donde:
2
2 2
1 2
1 2
2 2
2 2
1 2
1 2
1 2
1 1
s s
n n
s s
n n
n n
| |
+
|
|
\ .
=
| | | |
| |
| |
\ . \ .
+

son los grados de libertad
4.10. Intervalo de confianza para la diferencia de medias con datos apareados
Sean
( )
( )
,
,
X X
Y Y
X N
Y N
u
u
De ambas se extraen dos muestras aleatorias:
{ }
{ }
1 2
1 2
, , ,
, , ,
n
n
x x x
y y y

Se define
D X Y =
Que tiene la muestra asociada:
{ }
1 1 1 2 2 2
, , ,
n n n
d x y d x y d x y = = =
El intervalo de confianza es:
2
, 1
d
n
s
d t
n



4.11. Intervalo de confianza de la diferencia de proporciones
Recurdese que para muestras de tamao grande, el estimador
1 2
p p es aproximadamente normal con
media
1 2
p p y varianza
( ) ( )
1 1 2 2
1 2
1 1 p p p p
n n

+
El intervalo de confianza es, entonces:
( ) ( )
2
1 1 2 2
1 2
1 2
1 1

p p p p
p p z
n n




+


10
4.12. Intervalo de confianza para el parmetro de una distribucin de Poisson
El intervalo de confianza para el parmetro de una distribucin de Poisson es:
2 2 2
2
2 2
2 2
2 2
1

4 10 20
2 2


20
1 1

max 0 , ,
2 2
z z z
n n n
z
n
z z
n n



| | | |

| | + + <
| |
\ . \ .






| | | | | |

+
| | |
|

\ . \ . \ .

donde:
2
2
z
n
d
| |
= |
|
\ .
4.13. Intervalo de confianza para la diferencia de parmetros de dos distribuciones de
Poisson independientes
El intervalo de confianza para la diferencia de parmetros
1 2
de dos distribuciones de Poisson
independientes es:
( )
2
1 2
1 2
1 2


z
n n




+


5. Contrastes de hiptesis
5.1. Conceptos generales
Una hiptesis estadstica es una afirmacin que se hace acerca de una o varias caractersticas de una
poblacin.
Un contraste de hiptesis es un procedimiento para decidir si una hiptesis se acepta como vlida o se
rechaza. Su finalidad esencial consiste en demostrar o rechazar hiptesis cientficas, mediante un
razonamiento inductivo de tipo probabilstico.
Los mtodos de contraste de hiptesis tienen como objetivo comprobar si determinado supuesto referido a
un parmetro poblacional, o a parmetros anlogos de dos o ms poblaciones, es compatible con la
evidencia emprica contenida en la muestra. Los supuestos que se establecen respecto a los parmetros se
llaman hiptesis paramtricas. Para cualquier hiptesis paramtrica, el contraste se basa en establecer un
criterio de decisin, que depende en cada caso de la naturaleza de la poblacin, de la distribucin de
probabilidad del estimador de dicho parmetro y del control que se desea fijar a priori sobre la probabilidad
de rechazar la hiptesis contrastada en el caso de ser sta cierta.
Referente al contraste de hiptesis, se sabe que un problema es investigable cuando existen dos o ms
soluciones alternativas y se tienen dudas acerca de cual de ellas es la mejor. Esta situacin permite
formular una o ms hiptesis de trabajo, ya que cada una de ellas destaca la conveniencia de una de las
soluciones sobre las dems. Si el propsito es comprobar una teora ella misma ser la hiptesis del
trabajo, pero es importante destacar que al formular dicha o dichas hiptesis no significa que ya est
resuelto el problema, al contrario, que la duda impulsa a comprobar la verdad o falsedad de cada una de
ellas. La decisin final partir de las decisiones previas de aceptar o rechazar las hiptesis de trabajo.
11
Ejemplo 1
Por ejemplo, supngase que debe realizarse un estudio sobre la altura media de los habitantes de cierto
pueblo de Espaa. Antes de tomar una muestra, lo lgico es hacer la siguiente suposicin a priori, (hiptesis
que se desea contrastar y que se denota como
0
H :
0
: H la altura media no difiere de la del resto del pas
Al obtener una muestra de tamao 8 n= , se podra encontrar ante uno de los siguientes casos:
{ }
{ }
1 1, 50,1, 52,1, 48,1, 55,1, 60,1, 49,1, 55,1, 63
2 1, 65,1, 80,1, 73,1, 52,1, 75,1, 65,1, 75,1, 78
caso muestra
caso muestra
=
=
Intuitivamente, en el caso 1 sera lgico suponer que salvo que la muestra obtenida sobre los habitantes del
pueblo sea muy poco representativa, la hiptesis
0
H debe ser rechazada. En el caso 2 tal vez no se pueda
afirmar con rotundidad que la hiptesis
0
H sea cierta, sin embargo no se podra descartar y se admitir por
una cuestin de simplicidad.
En todo contraste intervienen dos hiptesis. La
0
H es aquella que recoge el supuesto de que el parmetro
toma un valor determinado y es la que soporta la carga de la prueba. Es la que se acepta como verdadera,
la que se pretende rechazar y la que afirma que no existe diferencia entre dos poblaciones, o entre los
parmetros del estudio. La decisin de rechazar la
0
H , que en principio se considera cierta, est en funcin
de que sea o no compatible con la evidencia emprica contenida en la muestra. El contraste clsico permite
controlar a priori la probabilidad de cometer el error de rechazar la
0
H siendo sta cierta; dicha probabilidad
se llama nivel de significacin del contraste ( ) y suele fijarse en el 1 %, 5 % 10 %.
La proposicin contraria a la
0
H recibe el nombre de hiptesis alternativa
( )
1
H y suele presentar un cierto
grado de indefinicin: si la hiptesis alternativa se formula simplemente como la hiptesis nula no es cierta
el contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido de la diferencia, el
contraste es unilateral o a una sola cola. La decisin de rechazar o no la
0
H estn al fin y al cabo basado
en la eleccin de una muestra tomada al azar, y por tanto es posible cometer decisiones errneas. Los
errores que se pueden cometer se clasifican como sigue:
5.1.1. Error de tipo I
El error de tipo I es el error en que se incurre al rechazar
0
H cuando es cierta. La probabilidad de cometer
este error es lo que se llama nivel de significacin. Es una costumbre establecida denotarlo siempre con la
letra
( )
( )
0 0
1 0
Pr |
Pr |
rechazar H H es cierta
aceptar H H es cierta
=
=
5.1.2. Error de tipo II
El error de tipo II es el error en que se incurre al no rechazar
0
H cuando es falsa. La probabilidad de
cometer este error se denota con la letra :
( )
( )
0 0
0 1
Pr |
Pr |
no rechazar H H es falsa
no rechazar H H es cierta
=

En ambos casos, se ha producido un juicio errneo. Para que las reglas de decisin sean buenas, deben
disearse de modo que minimicen los errores de la decisin; y no es una cuestin sencilla, porque para
cualquier tamao de la muestra, un intento de disminuir un tipo de error suele ir acompaado de un
crecimiento del otro tipo. En la prctica, un tipo de error puede ser ms grave que el otro, y debe alcanzarse
12
un compromiso que disminuya el error ms grave. La nica forma de disminuir ambos a la vez es aumentar
el tamao de la muestra, lo que no siempre es posible.
5.1.3. Tipos de contraste y error gamma fatal
La interpretacin de la pruebas estadsticas est condicionada por la construccin de las hiptesis. Se
pueden formular hiptesis alternativas en una o dos direcciones con relacin a la hiptesis nula.
Considrese el caso en donde se comparan dos tratamientos. Con un tipo de contraste unilateral se
estableceran supuestos de superioridad o inferioridad de un tratamiento con respecto al otro. Por contra en
una aproximacin bilateral se estableceran diferencias entre ambos tratamientos, no importa en que
sentido.
Considrese una aproximacin bilateral en la comparacin de dos tratamientos S y P :
La
0
H establece que la diferencia es cero
0
: 0 H S P = .
La hiptesis alternativa
1
: 0 H S P , la diferencia entre ambos tratamientos es diferente de cero.
La hiptesis alternativa se aceptar tanto si A B > como si B A > . Supngase que la realidad es A B > .
La variabilidad muestral puede causar una mala jugada. An con el empleo de tcnicas de muestreo
adecuadas, es improbable pero posible que en la muestra resulte que B A . La decisin ser aceptar la
hiptesis alternativa pero precisamente en la direccin errnea, declarando que B A < ! . La probabilidad de
cometer este error en la decisin es el riesgo gamma. Este es muy pequeo pero comparativamente mucho
mas importante y dramtico. Como siempre nada har sospechar de la fiabilidad de los resultados y de la
bondad de la muestra.
5.1.4. Niveles de significacin
Se llama nivel de significacin a la mxima probabilidad con la que se est dispuesto a correr el riesgo de
cometer un error de tipo I al contrastar una hiptesis. Esta probabilidad, que a menudo se denota por ,
suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyan en su
eleccin. En la prctica, es frecuente un nivel de significacin de 0,05, 0,01 0.001, si bien son posibles
otros valores. Por ejemplo, si se escoge el nivel de significacin 0,05 ( 5 %) al disear una regla de
decisin, entonces hay unas cinco oportunidades entre 100 de rechazar la hiptesis cuando debiera
haberse aceptado. Es decir, se tiene un 95 % de confianza de que se ha adoptado la decisin correcta. En
este caso se dice que la hiptesis ha sido rechazada al nivel de significacin 0,05, que significa que tal
hiptesis tiene una probabilidad 0,05 de ser falsa. El nivel de significacin y el grado de confianza, estn en
relacin inversa.
En un contraste de hiptesis (test de hiptesis, contraste de significacin) se decide si cierta hiptesis
0
H
puede ser rechazada o no a la vista de los datos suministrados por una muestra de la poblacin. El
procedimiento general consiste en:
(a) Planificar la
0
H y la
1
H . La
0
H es el valor hipottico del parmetro que se compara con el resultado
muestral resulta muy poco probable cuando la hiptesis es cierta. La
1
H ser admitida cuando
0
H sea
rechazada. Habitualmente
1
H

es la negacin de
0
H , aunque esto no es necesariamente as;
(b) Especificar el nivel de significacin que se va a utilizar. El intervalo de aceptacin (o ms exactamente
de no rechazo de la
0
H ) se establece fijando el nivel de significacin , una cantidad suficientemente
pequea de modo que la probabilidad de que el estadstico del contraste tome un valor fuera del mismo
regin crtica
( )
| ,
i s
regin crtica C T T =
Por ejemplo, el nivel de significacin del 5 % significa que se rechaza
0
H solamente si el resultado
muestral es tan diferente del valor hipottico que una diferencia de esa magnitud o mayor, pudiera
ocurrir aleatoriamente con una probabilidad de 0,05 o menos. El nivel de significacin va a permitir
separar sucesos que tienen mucha probabilidad de ocurrir de aquellos que la tienen baja: es una forma
de marcar el error mximo que se est dispuesto a admitir;
(c) Definir un estadstico (de prueba, de contraste) T relacionado con la hiptesis que se desea contrastar.
El estadstico de prueba puede ser el estadstico muestral (el estimador no segado del parmetro que
13
se prueba) o una versin transformada de ese estadstico muestral. Por ejemplo, para probar el valor
hipottico de una media poblacional, se toma la media de una muestra aleatoria de esa distribucin
normal, entonces es comn que se transforme la media en un valor z el cual, a su vez, sirve como
estadstico de prueba;
(d) Establecer el valor o valores crticos del estadstico de prueba. Habiendo especificado la
0
H , el nivel de
significacin y el estadstico de prueba que se van a utilizar, se procede a establecer el o los valores
crticos del estadstico de prueba. Puede haber uno o ms de esos valores, dependiendo de si se va a
realizar una prueba de uno o dos extremos.
(e) Determinar el valor real del estadstico de prueba. Por ejemplo, al probar un valor hipottico de la media
poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor
crtico que se establece es un valor de z , entonces se transforma la media muestral en un valor de z .
(f) Suponiendo que
0
H sea verdadera, calcular un intervalo (de aceptacin de
0
H ,)
( )
i s
T T de manera
que al calcular sobre la muestra
exp
T T = el criterio a seguir sea:
( ) ( )
( )
exp 0 1
exp 0 1
,
,
i s
i s
Si T T T no se rechaza H se rechaza H
Si T T T se rechaza H y se acepta H

(g) Toma de decisin, comparando el valor observado del estadstico muestral con el valor (o valores)
crticos del estadstico de prueba y consecuentemente aceptar o rechazar
0
H ..
situaciones posibles
decisiones posibles la hiptesis nula es verdadera la hiptesis nula es falsa
aceptar la hiptesis nula se acepta correctamente error tipo II
rechazar la hiptesis nula error tipo I se rechaza correctamente
Tabla I. Consecuencias de las decisiones en pruebas de hiptesis
5.2. Pruebas de uno y dos extremos (unilaterales y bilaterales, de una y dos colas)
Cuando se estudian ambos valores estadsticos es decir, ambos lados de la media se denomina prueba de
uno y dos extremos o contraste de una y dos colas. No obstante, se estar interesado con frecuencia tan
slo en valores extremos a un lado de la media (o sea, en uno de los extremos de la distribucin), como
sucede cuando se contrasta la hiptesis de que un proceso es mejor que otro (que es lo mismo que
contrastar si un proceso es mejor o peor que otro). Tales contrastes se llaman unilaterales, de un extremo o
de una cola. En esta situacin, la regin crtica es una regin situada a un lado de la distribucin, con rea
igual al nivel de significacin.
Figura 4. Contrastes unilateral y bilateral. La posicin de la regin crtica depende de la hiptesis alternativa.
14
nivel de significacin
valores crticos de z 0,10 0,05 0,01 0,005 0,02
tests unilaterales 1,28 o 1,28 1,645 o 1,645 2,33 o 2,33 2,58 o 2,58 2,88 o 2,88
tests bilaterales 1,645 y 1,645 1,96 y 1,96 2,58 y 2,58 2,81 y 2,81 3,08 y 3,08
Tabla II. valores crticos de z para contraste de unos o dos extremos en varios niveles de significacin
5.3. Curva caracterstica operativa y curva de potencia
Se ha visto como limitar el error de tipo I eligiendo adecuadamente el nivel de significacin. Es posible evitar
el riesgo de cometer error de tipo II simplemente no aceptado nunca hiptesis, pero en muchas aplicaciones
prcticas esto es inviable. En tales casos se suele recurrir a curvas de operacin caractersticas (OC),
grficos que muestran las probabilidades de error de tipo II bajo diversas hiptesis. Proporcionan
indicadores de hasta que punto un test permitir evitar un error de tipo II; es decir, indicar la potencia de un
test para prevenir decisiones errneas. Son tiles en el diseo de experimentos porque sugieren entre otras
cosas al tamao de muestra a utilizar.
5.4. Grados de libertad
Para el clculo de un estadstico, es necesario emplear tanto observaciones de muestra como propiedades
de ciertos parmetros de la poblacin. Si estos parmetros son desconocidos, hay que estimarlos a partir de
la muestra el nmero de grados de libertad de un estadstico, generalmente denotado por , y definido
como el nmero N de observaciones independientes en la muestra (el tamao de la muestra) menos el
nmero k de parmetros de la poblacin, estimado a partir de observaciones mustrales. Simblicamente:
N k = .
5.5. Observaciones
1. Los errores de tipo I y II no estn relacionados ms que del siguiente modo: cuando decrece crece.
Por tanto no es posible encontrar tests que hagan tan pequeos como se quiera ambos errores
simultneamente. De modo que siempre es necesario privilegiar a una de las hiptesis, que no ser
rechazada, a menos que su falsedad se haga muy evidente. En los contrastes, la hiptesis privilegiada es
0
H que slo ser rechazada cuando la evidencia de su falsedad supere el umbral ( ) 100 1 % .
2. Al tomar muy pequeo se tendr que puede aproximarse a 1. Lo ideal a la hora de definir un test es
encontrar un compromiso satisfactorio entre y (aunque siempre a favor de
0
H )
Se denomina potencia o poder estadstico de un contraste a la cantidad 1, es decir:
( )
0 0
1 Pr | potencia del contraste rechazar H H es falsa =
no rechazar
0
H rechazar
0
H
correcto error tipo I
0
H es cierta
probabilidad 1 probabilidad
error tipo II correcto
0
H es falsa
probabilidad probabilidad 1
Tabla III.
3. En el momento de elegir una hiptesis privilegiada se puede, en principio, dudar entre si elegir una dada
o bien su contraria. Los siguientes criterios son a tener en cuenta en estos casos:
Simplicidad cientfica: a la hora de elegir entre dos hiptesis cientficamente razonables, se tomar
como
0
H la ms simple;
15
Las consecuencias de equivocarse: por ejemplo, al juzgar el efecto que puede causar cierto tratamiento
mdico que est en fase de experimentacin, en principio se ha de tomar como
0
H aquella cuyas
consecuencias de no rechazarla siendo falsa son menos graves, y como
1
H aquella en la que el
aceptarla siendo falsa trae peores consecuencias. Es decir:
0
1
:
:
H el paciente empeora o queda igual ante el tratamiento
H el paciente mejora con el tratamiento

Ejemplo 2
Otro ejemplo claro: cuando se acaban de instalar un nuevo ascensor en el edificio y se quiere saber si caer
o no al vaco cuando estn personas dentro. Una persona prudente es la que espera a que un nmero
suficiente de vecinos suyos hayan usado el ascensor (muestra aleatoria) y realiza un test del tipo:
0
1
:
:
H el ascensor se caer
H el ascensor no se caer

y slo aceptar la
1
H para 0 aunque para ello tenga que ocurrir que 1 , ya que las consecuencias
del error de tipo I (ir al hospital) son mucho ms graves que las del error del tipo II (subir a pie varios pisos).
Es decir a la hora de decidirse por una de las dos hiptesis no basta con elegir la ms probable (nadie dira
voy a tomar el ascensor pues la probabilidad de que no se caiga es del 60 %"). Hay que elegir siempre la
hiptesis
0
H a menos que la evidencia a favor de
1
H sea muy significativa.
Ejemplo 1. (continuacin)
Volviendo al ejemplo de la estatura de los habitantes de un pueblo, un estadstico de contraste adecuado es
X . Si la hiptesis
0
H fuese cierta se tendra que
2
, X N
n
| |
u
|
\ .
(Suponiendo, claro est, que la distribucin de las alturas de los espaoles siga una distribucin normal de
parmetros conocidos, por ejemplo,
( )
2 2
1, 74 ; 10 N

u= = . Si
0
u es el verdadero valor de la media en el
pueblo en estudio, como la varianza de X es pequea para grandes valores de n , lo lgico es pensar que
si el valor obtenido con la muestra X x = est muy alejado de 1, 74 u= (regin crtica), entonces:
o bien la muestra es muy extraa, si
0
H es cierta (probabilidad ); o bien
la hiptesis
0
H no es cierta.
Concretamente en el primer caso, donde la muestra es { } 1, 50,1, 52,1, 48,1, 55,1, 60,1, 49,1, 55,1, 63 , el
contraste de hiptesis conveniente es:
0 0
1 0
:
:
H
H
u = u

u > u

Aqu
1
H no es estrictamente la negacin de
0
H . Esto dar lugar a un contraste unilateral, que es aquel en
los que la regin crtica est formada por un slo intervalo:
( )
(
0
,
,
i
i
intervalo de no rechazo de H T
regin crtica T
+


En el segundo caso, donde la muestra es { } 1, 65,1, 80,1, 73,1, 52,1, 75,1, 65,1, 75,1, 78 , el contraste de
hiptesis que debera realizarse es:
16
0 0
1 0
:
:
H
H
u = u

u u

Aqu s se puede decir que


1
H es la negacin de
0
H : se trata de un contraste bilateral, aquel en el que la
regin crtica est formada por dos intervalos separados:
( )
( )
0
,
, ,
i s
i s
intervalo donde no se rechaza la H T T
regin crtica T T

+

Los ltimos conceptos que van a introducirse son:
Hiptesis simple: aquella en la que se especifica un nico valor del parmetro. Es el caso de las
hiptesis nulas en los dos ltimos contrastes mencionados;
Hiptesis compuesta: aquella en la que se especifica ms de un posible valor del parmetro. Por
ejemplo, son compuestas las hiptesis alternativas de esos mismos contrastes.
5.6. El concepto de valor p o grado de significacin
Supngase que, para una muestra dada, un test de hiptesis rechaza la hiptesis nula
0
H a un cierto nivel
de significacin . Si se va bajando poco a poco el nivel de significacin (manteniendo los mismos datos) el
test se va haciendo ms y ms conservador a favor de
0
H , de manera que
0
H se va rechazando cada
vez por menor margen hasta que llega un momento en que la hiptesis nula se acepta a partir de un
determinado valor de p = , y tambin para todos los valores de menores que l.
Para una muestra dada, valor p o grado de significacin, de un test, es aquel que viene dado por los datos
del experimento y es la probabilidad de encontrar una diferencia igual o superior a la hallada cuando la
hiptesis nula es cierta. El valor p se interpreta como una medida de la evidencia estadstica que los datos
aportan a favor de la hiptesis alternativa
1
H (o en contra de
0
H ): Cuando el valor p es muy pequeo
(por ejemplo, 0, 01 ) se considera que hay una fuerte evidencia a favor de
1
H ya que ha sido necesario
bajar mucho el nivel de significacin para poder aceptar
0
H . En otras palabras: el valor p indica el punto
de divisin entre el rechazo y la aceptacin: Si se aplica un test con un nivel ms alto que el valor p se
rechazara
0
H , si el nivel de significacin es ms pequeo, se acepta. Los programas estadsticos
informticos habituales suelen proporcionar el valor p de los diferentes tests. Esta es una informacin muy
completa ya que el usuario puede conocer el resultado (aceptacin o rechazo de
0
H ) para todos los
posibles valores de .
5.7. Errores comunes en la interpretacin del nivel de significacin y el valor p
La investigacin sobre la comprensin de los mtodos de inferencia muestra la existencia de concepciones
errneas ampliamente extendidas, tanto entre los estudiantes universitarios, como entre los cientficos que
usan la inferencia estadstica en su trabajo diario. Estas concepciones errneas se refieren principalmente
al nivel de significacin , que se define como la probabilidad de rechazar la hiptesis nula en caso de que
sea cierta.
5.7.1. Inferencia y probabilidad condicional
La interpretacin errnea ms extendida de este concepto consiste en intercambiar los dos trminos de la
probabilidad condicional, es decir, en interpretar el nivel de significacin como la probabilidad de que la
hiptesis nula sea cierta si se ha tomado la decisin de rechazarla. Por ejemplo:
Birnbaum (1982), inform que sus estudiantes encontraban razonable la siguiente definicin: "Un nivel
de significacin del 5 % indica que, en promedio, 5 de cada 100 veces que se rechace la hiptesis nula
se estar equivocado" (1);
Falk (1986) comprob que la mayora de sus estudiantes crean que era la probabilidad de
equivocarse al rechazar la hiptesis nula (2);
17
Vallecillos (1994) plante las siguientes cuestiones a una muestra de 436 estudiantes universitarios de
diferentes especialidades que haban estudiado el tema (3-5):
1. Un nivel de significacin del 5 % significa que, en promedio, 5 de cada 100 veces que se rechace la
hiptesis nula se estar equivocado (verdadero o falso?: justifquelo).
2. Un nivel de significacin del 5 % significa que, en promedio, 5 de cada 100 veces que la hiptesis
nula es cierta ser rechazada (verdadero o falso?: justifquelo).
En la cuestin 2 se presenta una(correcta) interpretacin frecuencial del nivel de significacin, mientras
que en la cuestin 1 se han intercambiado (incorrectamente) los dos sucesos que definen la
probabilidad condicional. Sin embargo, slo el 32 % de los estudiantes dio una respuesta correcta a la
primera cuestin y el 54 % dio una respuesta correcta a la segunda. De 135 estudiantes que justificaron
su respuesta, el 41 % dio un argumento correcto en los dos tems. Un error prevalente en todos los
grupos de estudiantes fue el intercambio de los trminos de la probabilidad condicional, juzgando por
tanto correcto la primera cuestin y falsa la segunda. Entrevistas a un grupo reducido de estudiantes
mostr que esta creencia apareca en algunos estudiantes que eran capaces de discriminar entre una
probabilidad condicional y su inversa (6). Otros estudiantes no distinguan las dos probabilidades
condicionales, es decir, consideraban que ambos tems eran correctos.
Ejemplo 3
Que las probabilidades condicionales con trminos intercambiados no coinciden, en general, se ilustra en la
tabla IV que se refiere a la eleccin de estadstica como tema optativo en una escuela. La probabilidad de
que una chica tomada al azar estudie estadstica y la probabilidad de que un estudiante de estadstica sea
una chica son diferentes:
( )
( )
3
Pr |
4
3
Pr |
8
estudie estadstica chica
chica estudie estadstica
=
=
chicas chicos total
estadstica 300 500 800
no estadstica 100 100 200
total 400 600 1000
Tabla IV. Nmero de chicos y chicas en un curso de estadstica
Es importante resaltar que, incluso cuando se fija el nivel de significacin , es decir, la probabilidad de
rechazar la
0
H (supuesto que es cierta) y se pueda calcular la probabilidad de obtener un valor del
estadstico de contraste menor que un valor particular (supuesta
0
H cierta), la probabilidad de que
0
H sea
cierta una vez sea rechazada y la probabilidad de que
0
H sea cierta una vez que se ha obtenido el valor
del estadstico de contraste no pueden conocerse.
La probabilidad a posteriori de
0
H dado un resultado significativo depende de la probabilidad a priori de
0
H , as como de las probabilidades de obtener un resultado significativo, dadas las
0
H y
1
H .
Desafortunadamente estas probabilidades no pueden determinarse. Ms an, una hiptesis es o cierta o
falsa y, por tanto, no tiene mucho sentido calcular su probabilidad en un paradigma inferencial clsico
(donde se da una interpretacin frecuencial a las probabilidades objetivas). Slo en la inferencia bayesiana
pueden calcularse las probabilidades a posteriori de la hiptesis, aunque son probabilidades subjetivas, Lo
ms que se puede hacer, y es usando inferencia bayesiana, es revisar el grado de creencia personal en la
hiptesis en vista de los resultados.
5.7.2. Otras interpretaciones errneas del nivel de significacin y el valor p
Hay quien piensa que el valor p es la probabilidad de que el resultado se deba al azar. Puede verse
claramente que esta concepcin es errnea en el hecho de que incluso si
0
H es cierta (por ejemplo, si no
hubiera diferencias de rendimiento en el ejemplo 1) un resultado significativo puede ser debido a otros
18
factores, como, por ejemplo, que los estudiantes del grupo experimental trabajasen ms que sus
compaeros al prepararse para la evaluacin. De aqu la importancia del control experimental para intentar
asegurar que todas las condiciones (excepto el tipo de enseanza) se mantienen constantes en los dos
grupos. El valor p es la probabilidad de obtener el resultado particular u otro ms extremo cuando la
hiptesis nula es cierta y no hay otros factores posibles que influencien el resultado. Lo que se rechaza en
un contraste de hiptesis es
0
H y, por tanto, no se puede inferir la existencia de una causa particular en un
experimento a partir de un resultado significativo.
Otro error comn es la creencia en la conservacin del valor del nivel de significacin cuando se realizan
contrastes consecutivos en el mismo conjunto de datos, lo que produce el problema de las comparaciones
mltiples. A veces se aplica un gran nmero de pruebas de significacin a un mismo conjunto de datos. El
significado del nivel de significacin es que, si se llevan a cabo 100 comparaciones sobre el mismo conjunto
de datos y se usan en todas ellos el nivel de significacin 0,05, habr que esperar que 5 de las 100 pruebas
sean significativas por puro azar, incluso cuando la hiptesis nula sea cierta, con la consiguiente dificultad
para interpretar los resultados (Moses, 1992).
El habitual uso de los niveles de significacin 0,05 y 0,01 es cuestin de convenio y no se justifica por la
teora matemtica. Si se considera el contraste de hiptesis como proceso de decisin (la visin de Neyman
y Pearson), debe especificarse el nivel de significacin antes de llevar a cabo el experimento y esta eleccin
determina el tamao de las regiones crticas y de aceptacin que llevan a la decisin de rechazar o no la
hiptesis nula. Neyman y Pearson dieron una interpretacin frecuencial a esta probabilidad: Si la
0
H es
cierta y se repite el experimento muchas veces con probabilidad de error tipo I igual a 0,05 se rechazar la
hiptesis nula el 5 % de las veces que sea cierta. Inicialmente Fisher (1935) sugiri seleccionar un nivel de
significacin del 5 %, como convenio para reconocer los resultados significativos en los experimentos.
Posteriormente, el mismo Fisher (1956) consider que cada investigador debe seleccionar el nivel de
significacin de acuerdo a las circunstancias, ya que "de hecho ningn investigador mantiene un nivel de
significacin fijo con el cual rechaza las hiptesis ao tras ao y en todas las circunstancias", sugiriendo que
se publicara el valor p exacto obtenido en cada experimento particular, lo que de hecho, implica establecer
el nivel de significacin despus de llevar a cabo el experimento (7). A pesar de estas recomendaciones, la
literatura de investigacin muestra que los niveles arbitrarios de 0,05, 0,01, 0,001 se usan casi en forma
universal para todo tipo de problemas. A pesar de que esta prctica introduce sesgo de publicacin (8). A
veces, si la potencia del contraste es baja y el error tipo II es importante, sera preferible una probabilidad
mayor de error tipo I.
A la interpretacin incorrecta del nivel de significacin se une habitualmente una interpretacin incorrecta de
los resultados significativos, punto tambin de desacuerdos entre Fisher y Neyman y Pearson. Para Fisher
un resultado significativo implica que los datos proporcionan evidencia en contra de
0
H , mientras que para
Neyman y Pearson solo establece la frecuencia relativa de veces que se rechazara
0
H cierta a la larga
(error tipo I). Por otro lado, hay que diferenciar entre significacin estadstica y significacin prctica. En el
ejemplo 1 se obtuvo una diferencia media significativa en puntuaciones entre los dos grupos de 13,32. Sin
embargo, se podra haber obtenido una significacin estadstica mayor con un efecto experimental menor y
una muestra de tamao mayor. La significacin prctica implica significacin estadstica ms un efecto
experimental suficientemente elevado.
5.8. Los valores p y los intervalos de confianza: en qu confiar?
Dado un contraste bilateral
0 0
1 0
:
:
H
H
=

con nivel de significacin , se rechaza la


0
H si
0
no pertenece al intervalo de confianza para con
nivel de confianza 1 .
La mayora de los estadsticos desaconsejan el uso de las pruebas de hiptesis estadsticas debido a las
graves deficiencias de estas pruebas y a su dudosa utilidad en comparacin con otros mtodos de anlisis
inferencial. Los primeros argumentos en contra del uso de pruebas de hiptesis aparecieron durante la
primera mitad del siglo pasado con carcter espordico, pero cuando en 1986 British Medical Journal dio a
conocer su postura al respecto, el debate en torno a ellas cobr un mpetu que ha quedado evidenciado en
los centenares de artculos posteriores que contrastan las ventajas de los intervalos de confianza con las
19
carencias del valor p (9). Lo cierto es que estas ltimas, raras veces abordadas en la sala de clase, son
considerables desde el punto de vista de los fines que persigue un investigador. Hoy por hoy se reconoce
que los intervalos de confianza aventajan a las pruebas de hiptesis como instrumento analtico para
muchos tipos de investigacin, entre ellos los estudios observacionales y experimentales relacionados con
las ciencias mdicas y sociales, con el resultado de que la mayora de las revistas biomdicas alientan a
sus autores a proporcionar intervalos de confianza en lugar de valores p . Fciles de calcular con los
paquetes estadsticos modernos, los valores p ejercen un poderoso atractivo sobre el investigador por la
exigua reflexin que exigen y la falsa sensacin de seguridad que confieren. Un solo nmero encierra la
clave que determina si los resultados de un estudio han de sumarse a las pruebas a favor o en contra de
una hiptesis, y el investigador que obtiene resultados significativos suele sentirse satisfecho de haber
logrado su meta, sin darse cuenta de que no ha conseguido mejorar en modo alguno su comprensin del
fenmeno que estudia. Para entender a fondo esta afirmacin, conviene examinar qu es un valor p .
5.9. Potencia o poder estadstico de un estudio
5.9.1. Factores que influyen en la potencia o poder estadstico de un estudio
La potencia o poder estadstico de un estudio depende de diferentes factores, como:
El tamao del efecto a detectar, es decir, la magnitud mnima de la diferencia o asociacin entre los
grupos que se considera clnicamente relevante. Cuanto mayor sea el tamao del efecto que se desea
detectar, mayor ser la probabilidad de obtener hallazgos significativos y, por lo tanto, mayor ser el
poder estadstico;
La variabilidad de la respuesta estudiada: cuanto mayor sea la variabilidad en la respuesta, ms difcil
ser detectar diferencias entre los grupos que se comparan y menor ser el poder estadstico de la
investigacin. De ah que sea recomendable estudiar grupos lo ms homogneos posibles;
El tamao de la muestra a estudiar: cuanto mayor sea el tamao muestral, mayor ser la potencia
estadstica de un estudio. Es por ello que en los estudios con muestras muy grandes se detectan como
significativas diferencias poco relevantes, y en los estudios con muestras menores es ms fcil obtener
resultados falsamente negativos;
El nivel de significacin estadstica. Si se disminuye el valor de tambin se disminuye el poder de la
prueba. Es decir, si se disminuye la probabilidad de cometer un error de tipo I aumenta
simultneamente la probabilidad de un error de tipo II, por lo que se trata de encontrar un punto de
equilibrio entre ambas. Habitualmente se trabaja con un nivel de significacin del 95 % ( ) 0, 05 = ,
por lo que el equilibrio hay que en encontrarlo finalmente entre el tamao de la muestra que es posible
estudiar y la potencia requerida para el estudio.
Los cuatro factores anteriores, junto con el poder estadstico, forman un sistema cerrado. De este modo,
una vez fijados tres de ellos, el cuarto queda completamente determinado.
5.9.2. Clculo del poder estadstico de un estudio
A la hora de disear una investigacin, es importante determinar si dicho estudio alcanzar una precisin
suficiente. Generalmente, se suele trabajar con una potencia en torno al 80 % o al 90 %. Sin embargo, las
condiciones en las que se lleva a cabo con frecuencia una investigacin son diferentes de las que se haban
previsto en un principio. En consecuencia, y a la vista de hallazgos no significativos, es recomendable
evaluar de nuevo a posteriori su potencia con el fin de discernir si el estudio carece del poder necesario
para detectar una diferencia relevante o bien si realmente puede no existir tal diferencia.
En la tabla VI se muestran las frmulas necesarias para el clculo del poder estadstico en funcin de la
naturaleza de la investigacin. Estas frmulas permiten obtener un valor
1
z

a partir del cual se puede
determinar el poder asociado recurriendo a las tablas de la distribucin normal. En la tabla VII se muestra la
correspondencia entre algunos valores de
1
z

y el poder estadstico asociado. Sin embargo, y aunque
dichas frmulas permitiran analizar la potencia estadstica en diferentes tipos de diseo, puede resultar ms
sencillo disponer de algn software especfico con el que poder realizar dichos clculos
Ejemplo 4
Supngase que se quiere llevar a cabo un ensayo clnico para comparar la efectividad de un nuevo frmaco
con la de otro estndar en el tratamiento de una determinada enfermedad. Al inicio del estudio, se sabe que
20
la eficacia del tratamiento habitual est en torno al 40 %, y se espera que con el nuevo frmaco la eficacia
aumente al menos en un 15 %. El estudio se dise para que tuviese una potencia del 80 %, asumiendo
una seguridad del 95 %. Esto implica que son necesarios 173 pacientes en cada uno de los grupos para
llevar a cabo la investigacin. Tras finalizar el estudio, slo fue posible tratar con cada uno de los frmacos
a 130 pacientes en cada grupo en lugar de los 173 pacientes estimados inicialmente. Al realizar el anlisis
estadstico, se objetiv que no hay diferencias significativas en la efectividad de ambos tratamientos. A partir
de las frmulas de la Tabla VI, se puede calcular la potencia final del estudio. Aplicando la frmula para el
clculo del poder estadstico de comparacin de dos proporciones ante un planteamiento unilateral se
obtiene:
( )
( ) ( )
( )
( ) ( )
1
1
1 2 1
1
1 1 2 2
1
0, 40
0, 475
0, 55
2 1
130
1 1
0, 05 1, 645
0, 44 0, 55 130 1, 654 2 0, 475 1 0, 475
0, 4 1 0, 4 0, 55 1 0, 55
0, 467
p
p
p
p p n z p p
n z
p p p p
z

=
`
=

)

= = =
`
+
= =

)

= =
+
=
A partir de la tabla VII, se puede determinar que un valor de
1
0, 467 z

= corresponde a una potencia en
torno al 6570 %. Utilizando las tablas de la distribucin normal, se sabe que la potencia es del 68 %, es
decir, el estudio tendra un 68 % de posibilidades de detectar una mejora en la eficacia del tratamiento del
15 %.
Utilizando la frmula anterior, podra obtenerse un grfico como en el que se muestra en la figura 5, en la
que, para este ejemplo, se estima la potencia estadstica del estudio en funcin del tamao de la muestra
estudiada y la magnitud del efecto a detectar. As, puede concluirse que de haber estudiado 130 pacientes
por grupo, se obtiene una potencia de slo el 36,6 % para detectar una diferencia mnima del 10 %, una
potencia del 68 % para detectar una diferencia del 15 % y de un 90,2 % para una diferencia del 20 %. Este
tipo de grficos resulta muy til tanto en la fase de diseo de un estudio como a la hora de valorar a
posteriori el poder de una investigacin.
Ejemplo 5
Supngase que se quiere llevar a cabo un estudio de casos y controles para estudiar la posible asociacin
entre la presencia de cardiopata isqumica y el hbito de fumar. De acuerdo con estudios previos, se cree
que la incidencia de cardiopata puede ser hasta dos veces ms alta entre los fumadores, y se asume que la
frecuencia de exposicin entre los controles ser de un 40 %. Debido a ciertas limitaciones, slo es posible
para el investigador incluir en el estudio a 100 pacientes con cardiopata isqumica (casos). Utilizando las
frmulas de la tabla VI, con un planteamiento bilateral y una seguridad del 95 %:
( )
( )
2
2
1
2
2 2
1 2
1
2
2 0, 4
0, 5714
0, 4
1 0, 4 2 0, 4 1
0, 486
2
100
0, 05 1, 96
1
OR OR p
p
p
p OR p
p p
p
n
z
c

=

= = =
`
=
+ +
)
+
= =
=
= =
=
21
( ) ( )
( ) ( )
( )
( ) ( )
1 2 1
1
1 1 2 2
1 1
1 1
0, 5174 0, 40 100 1, 96 2 0, 486 1 0, 486
0, 5714 1 0, 5714 0, 40 1 0, 40
0, 472
p p c n z c p p
z
c p p p p

+
= =
+

= =
+
=
En las tablas de la distribucin normal se obtiene para un valor
1
0, 472 z

= una potencia del 68,17 %.
Con el fin de mejorar la potencia del estudio, los investigadores se plantean reclutar un mayor nmero de
controles que de casos. En la figura 6 se muestra para el ejemplo anterior el poder de la investigacin en
funcin del nmero de casos y controles estudiados. Como se puede observar, la ganancia en la potencia
disminuye rpidamente, y es prcticamente nula cuando la relacin entre el nmero de controles y casos es
4:1. Esto se verifica en cualquier estudio de casos y controles. En particular, para el ejemplo previo, si se
estudiasen 100 casos y 200 controles se alcanzara una potencia del 80,28%. Si se incluyesen 100 casos y
300 controles, la potencia sera de un 84,69 %. Con 400 controles la potencia aumentara slo a un 86,89 %
y con 500 a un 88,19 %. Con lo cual claramente es ineficiente el incluir ms de 4 controles por caso ya que
no se lograra un incremento relevante de la potencia estadstica.
El anlisis adecuado de la potencia estadstica de una investigacin, que es en definitiva la capacidad que
tiene el estudio para encontrar diferencias si es que realmente las hay, es un paso fundamental tanto en la
fase de diseo como en la interpretacin y discusin de sus resultados. A la hora del diseo, por tanto, debe
establecerse la magnitud mnima de la diferencia o asociacin que se considere de relevancia clnica, as
como la potencia estadstica que se desea para el estudio y, de acuerdo con ello, calcular el tamao de la
muestra necesaria. Tras realizar el anlisis estadstico, cuando se dice que no existe evidencia de que A
se asocie con B o sea diferente de B , deber cuestionarse antes de nada si la ausencia de significacin
estadstica indica realmente que no existe una diferencia o asociacin clnicamente relevante, o
simplemente que no se dispone de suficiente nmero de pacientes para obtener hallazgos significativos.
Tanto si los hallazgos son estadsticamente significativos como si no lo son, la estimacin de intervalos de
confianza pueden tambin facilitar la interpretacin de los resultados en trminos de magnitud y relevancia
clnica, proporcionando una idea de la precisin con la que se ha efectuado al estimacin, de la magnitud y
de la direccin del efecto. De este modo, los intervalos de confianza permiten tener una idea acerca de la
potencia estadstica de un estudio y, por tanto, de la credibilidad de la ausencia de hallazgos significativos.
resultado de la prueba: asociacin o diferencia
significativa no significativa
existe
no error: 1 error de tipo II:
realidad: asociacin o
diferencia:
no existe
error de tipo I: no error: 1
Tabla V. Posibles conclusiones tras una prueba estadstica de contraste de hiptesis. es la probabilidad
de cometer un error de tipo I; es la probabilidad de cometer un error de tipo II.
22
test unilateral test bilateral
comparacin
de dos
proporciones
( )
( ) ( )
1 2 1
1
1 1 2 2
2 1
1 1
p p n z p p
z
p p p p


=
+
( )
( ) ( )
2
1 2 1
1
1 1 2 2
2 1
1 1
p p n z p p
z
p p p p


=
+
comparacin
de dos media
1 1
2
n d
z z
s

=
2
1 1
2
n d
z z
s


=
estimacin
de un OR en
estudios de
casos y
controles
( )
( ) ( )
( ) ( )
2
1
2 2
1 2 1
1
1 1 2 2
1
1 1
1 1
OR p
p
p OR p
p p nc z c p p
z
c p p p p
m c n

=
+
+
=
+
=
( )
( ) ( )
( ) ( )
2
2
1
2 2
1 2 1
1
1 1 2 2
1
1 1
1 1
OR p
p
p OR p
p p nc z c p p
z
c p p p p
m c n

=
+
+
=
+
=
estimacin
de un RR
( )
( ) ( )
1 2
1 2 1
1
1 1 2 2
2 1
1 1
p RR p
p p n z p p
z
p p p p

=

=
+
( )
( ) ( )
2
1 2
1 2 1
1
1 1 2 2
2 1
1 1
p RR p
p p n z p p
z
p p p p

=

=
+
estimacin
de un
coeficiente
de
correlacin
lineal
1 1
1 1
3 ln
2 1
r
z n z
r

| | +
=
|

\ .
2
1 1
1 1
3 ln
2 1
r
z n z
r


| | +
=
|

\ .
n Tamao muestral. En un estudio de casos y controles, n es el nmero de casos
1
p En un estudio transversal o de cohortes, proporcin de expuestos que desarrollan la enfermedad.
En un estudio de casos y controles, proporcin de casos expuestos
2
p En un estudio transversal o de cohortes, proporcin de no expuestos que desarrollan la
enfermedad. En un estudio de casos y controles, proporcin de controles expuestos
1 2
2
p p
p
+
=
d Valor mnimo de la diferencia a detectar entre dos medias
2
s Varianza en el grupo control o de referencia
c Nmero de controles por caso
m En un estudio de casos y controles, nmero de controles
OR Valor aproximado del odds ratio a detectar
RR Valor aproximado del riesgo relativo a detectar
r Magnitud del coeficiente de correlacin a detectar
Tabla VI. Frmulas para el clculo del poder estadstico para diferentes tipos de diseo.
23
seguridad
test unilateral
1
z

test bilateral
2
1
z

80 % 0,200 0,842 1,282


85 % 0,150 1,036 1,440
90 % 0,100 1,282 1,645
95 % 0,050 1,645 1,960
97,5 % 0,025 1,960 2,240
99 % 0,010 2,326 2,576
poder estadstico
1
1
z

99 % 0,99 0,01 2,326
95 % 0,95 0,05 1,645
90 % 0,90 0,10 1,282
85 % 0,85 0,15 1,036
80 % 0,80 0,20 0,842
75 % 0,75 0,25 0,674
70 % 0,70 0,30 0,524
65 % 0,65 0,35 0,385
60 % 0,60 0,40 0,253
55 % 0,55 0,45 0,126
50 % 0,50 0,50 0,000
Tabla VII. Valores de
1
z

,
2
1
z

y
1
z

y ms frecuentemente utilizados.
Poder estadstico en funcin del tamao muestral y la magnitud del efecto
a detectar. Comparacin de dos proporciones p1 y p2.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 50 100 150 200 250 300 350 400 450 500
Nmero de casos por grupo
p1=40% p2=50% p1=40%; p2=55% p1=40%; p2=60%
Figura 5.
24
Poder estadstico en funcin del tamao muestral y el nmero de
controles por caso en un estudio de casos y controles. p2=40%; OR=2
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 50 100 150 200 250 300 350 400 450 500
Nmero de casos
c=1 c=2 c=3 c=4 c=5
Figura 6.
6. Bibliografa
1. Birnbaum I. Interpreting statistical significance. Teaching Statistics 1982;4(1):24-26.
2. Falk R. Misconceptions of statistical significance. J Struct Learn 1986;9:93-96.
3. Batanero C, Godino JD, Vallecillos A, Green DR, Holmes P. Errors and difficulties in understanding
elementary statistical concepts. Int J Math Ed Sci Tech 1994;25(4):527-547.
4. Vallecillos A. Estudio terico experimental de errores y concepciones sobre el contraste de hiptesis en
estudiantes universitarios . Granada: Universidad de Granada; 1994.
5. Vallecillos A. Comprensin de la lgica del contraste de hiptesis en estudiantes universitarios. Rech
Didac Math 1995; 15(3):5381.
6. Batanero C, Vallecillos A. Anlisis del aprendizaje de conceptos clave en el contraste de hiptesis
estadsticas mediante el estudio de casos. Rech Didac Math 1997; 17(1):29-48.
7. Fisher RA. Statistical methods for research workers. 1 ed. Edinburg: Oliver & Boyd; 1935.
8. Skipper JK, Guenther, A.S. y Nass, G. The sacredness of .05: a note concerning the uses of statistical
levels of significance in social science. Am Sociologist 1967;1:16-18.
9. Gardner MJ, Altman D. Confidence intervals rather than P values: estimation rather than hypothesis
testing. Br Med J 1986;292:746-750.
7. Bibliografa adicional
www3.uji.es/mateu/t6-ig12.doc
www.unizar,es/curso-ice/tomasmar/DocenciaMed.Tra/MT-5web.pdf
www.unizar,es/curso-ice/tomasmar/DocenciaMed.Tra/MT-6web.pdf
www.cead-laspalmas.net/inferencia/cuerpo.htm
25
www.um.es/estadempresa/estapli2/estapli2.htm
thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/28-l-u-i.html
cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/index.htm
www.udc.es/dep/mate/estadistica2/indice_gral.html
www.itch.edu.mx/academic/industrial/estadistca1/toc.html
www.medprev.uma.es/libro/node99.htm
www.sportsci.org/resource/stas/pvalues.html
myphliputil.pearsoncmg/student/levine4/chap06.ppt
myphliputil.pearsoncmg/student/levine4/chap07.ppt
www.ilir.uiuc.edu/courses/lir593/chap71999.ppt