Está en la página 1de 20

MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

INFERENCIA ESTADÍSTICA

Dra. C. San Luís Costas

Dr. A. López de la Llave

Inferencia Estadística: es un conjunto de procedimientos basados en los modelos


de probabilidad mediante los cuales se pueden realizar “validaciones” relativas a la
existencia, explicación y/o predicción de algún fenómeno de interés a nivel poblacional
con base en la información extraída de una muestra de cumple determinadas
características. Este conjunto de procedimientos se agrupan en dos categorías:
Estimación de parámetros y Técnicas de Contraste de Hipótesis (también llamadas
Contrastes de Significación). Sobre Estimación de Parámetros (tanto puntual como por
intervalos) nos remitimos al apartado anterior dedicando este a los denominados
contrastes de hipótesis o pruebas de significación.

En principio vamos a definir un modelo como una “aproximación a la


realidad” que permite comprender la estructura del sistema modelizado y,
consecuentemente, ser capaz de generar hipótesis contrastables (sobre esta cuestión
abundaremos en el Tema 3). La construcción de un modelo supone siempre una
simplificación de la realidad, no tiene sentido, pretender que un modelo acomode todos
los datos conocidos en la actualidad y en el futuro. El puente entre la realidad y el
modelo lo proporcionan los datos, a través de su estudio y análisis pormenorizado. Dado
que el modelo genera hipótesis constrastables debemos estudiar los procedimientos de
que disponemos en la metodología para llevar a cabo el contrastar tales de hipótesis.

Si plantemos la cuestión, validar las hipótesis derivadas de un modelo, en


términos de incertidumbre, tal y como hicimos en el caso de la estimación de
paramétros, el problema de “validación de hipótesis” hace referencia a la determinación
de procedimeintos que premitán valorar el riesgo en una tarea que hace referncia a
evaluar la congruencia de las hipótesis que genera o se deducen del modelo (tanto a sus
componentes como a las relaciones establecidas) y los datos que hemos obtenido de la
realidad.

1
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Como ya hemos comentado en el tema preliminar, existen al menos dos niveles


de hipótesis, las llamadas hipótesis de trabajo, que algunos autores denominan de
investigación o científicas y las hipótesis estadísticas.

Las primeras, hipótesis de trabajo, se explicitan de forma lingüística y se deriban


de la teoría o del modelo. Estas hipotésis se pueden caracterizar como afirmaciones
acerca de las supuestas relaciones entre constructos o variables implicadas. Deben
explicitarse de tal forma que el modelo que las genera pueda ser falsable y que los
modelos competidores puedan eliminarse (la razón de esta forma de proceder viene
impuesta desde la Filosofía de la Ciencia y concretamente del falsacianismo
popperiano). Su claridad es fundamental para determinar si el resultado obtenido es
similar o no al esperado desde el modelo y su finalidad es servir de guía en el proceso
de investigación.

Las segundas, hipótesis estadísticas, son conjeturas que realizamos sobre el


como ocurre un suceso (López Cachero, 1991) o, más claramente, “supuestos en los que
se basan algunas operaciones estadísticas y que hacen referencia al valor de un
parámetro, la forma de una distribución o la ley de probabilidad de un conjunto de
fenómenos” (Sierra Bravo, 1991). En otros términos una hipótesis estadística es
cualquier conjetura sobre una o varias características de interés de un modelo de
probabilidad.

La distinción entre hipótesis científicas y estadísticas es importante: las primeras


se refieren a resultados y relaciones entre los componentes del modelo (sea éste
formalizado o no), las segundas se refieren a subconjuntos de puntos en un espacio
paramétrico.

Las hipótesis estadísticas deben, por tanto, cumplir dos propiedades para
asegurar su correción:

1. Deben ser congruentes con las hipótesis de investigación.


2. Deben de ser lo suficientemente específicas como para determinar si los
resultados obtenidos son similares o no al resultado que se había supuesto.

La hipótesis estadística especifica que el punto del parámetro buscado se encuentra


en un lugar particular entre dos posibles. El procedimiento del contraste estadístico actúa
sobre la base de un conjunto de observaciones (datos) y permite, con ciertas salvedades,
validar o no tal hipótesis.

2
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Clasificaciones de hipótesis:
Las hipótesis pueden clasificarse, según diferentes criterios que hacen referencia
al número de parámetros o relaciones implicadas; al tipo de relación que se establece y a
la temporalidad de la relación, o referenciándolas a su formulación y papel dentro del
proceso de contraste. Así, atendiendo a la primara categoría podemos hablar de:

Hipótesis simple o compuesta:


Hipótesis Simple: es aquella que especifica completamente la distribución
(también se conoce como hipótesis de igualdad), o lo que es lo mismo es aquella que
asigna valores únicos a los parámetros ( = 1'5, = 10, X = Y ,...). Ej. El rendimiento
medio escolar de los estudiantes de bachillerato españoles medido mediante un test es
de 47.

Hipótesis compleja: Es la que asigna un rango de valores a los parámetros poblacionales


desconocidos ( > 1'5, 5 < < 10, X < Y ,...). Ej. “Los frecuencia del cáncer de
pulmón de mayor en los fumadores que en los fumadores, siendo la prevalecía en el
primer caso de 6 por mil y en el segundo de 4 por mil"

Hipótesis direccional o no direccional:

Hipótesis Direccional: La hipótesis direccional establece relaciones asimétricas


entre variables. Ej. "La práctica del deporte es beneficiosa para conseguir un patrón de
sueño satisfactorio en adolescentes entre 12 y 16 años."

Hipótesis no direccional: Es aquella que establece relaciones simétricas entre


variables. Ej. "Existe una relación entre el consumo de tabaco y el sueño".

Hipótesis de asociación o de causalidad:

Hipótesis de asociación: Es aquella que hace referencia a la variación conjunta


de las variables (son siempre relaciones simétricas por tanto no pueden establecer
antecedente y consecuente y por ende causalidad). Ej. "Existe una relación positiva
entre el número de accidentes de tráfico y el consumo de alcohol.

Hipótesis de causalidad: hacen referencia a variación conjunta entre variables


pero en la que una de ellas antecede a la ocurrencia de la otra, o lo que es lo mismo la

3
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

primera produce un efecto en la segunda (son siempre por tanto relaciones asimétricas).
Ej. " La aspirina infantil reduce el riesgo de infarto”

Atendiendo a la segunda de las categorías mencionadas, es decir al papel que


juegan en el proceso de contratación hablamos de Hipótesis nula e hipótesis
alternativa.

Hipótesis nula e Hipótesis alternativa:

Hipótesis nula: se denota por H0 y de forme general podemos decir que expresa
la ausencia de relación (comúnmente expresa y recoge la situación contraria a la
conjetura o hipótesis que la investigación propone como explicación del fenómeno en
estudio).

Hipótesis alternativa: Se denota por H1 y es la complementaria de la H0


(coincide generalmente con la propuesta de explicación). La excepción a esta
afirmación se presenta en el caso de los estudios llamados “diseños de equivalencia”.

Planteamiento del contraste de hipótesis.


El contraste de hipótesis estadístico se basa en las distribuciones muestrales, que
como sabemos son modelos probabilísticos, de ahí que el contraste sólo esté
circunscrito, y así debe entenderse, a un resultado estrictamente probabilístico, por lo
tanto no podrá nunca demostrarse su falsedad en términos absolutos, lo serán
únicamente en términos probabilísticos. La finalidad de las técnicas de contraste es
hacer que dicho soporte se mantenga dentro de unos límites racionales lógicamente
probabilísticos.

El planteamiento de las técnicas de contraste de hipótesis se debe a Fisher y a


Neyman y Pearson(como veremos inmediatamente a una mezcla entre el planteamiento
de Fisher y la propuesta de Neyman y Pearson) . Si bien todas ellas se fundamentan en
los mismos principios lógicos (modus tolendo tolens) existe un amplio elenco de
pruebas que responde a exigencias demarcadas por: especificidades del diseño
implicado, número de poblaciones , tipo de parámetro/s, carácterísitcas de las
distrisbuciones de las variables implicadas (supuestos que deben cumplir tales que
normalidad, homocedasticidas, etc.).

Podemos definir un contraste (test de hipótesis) como un conjunto de técnicas


que nos proporciona la Inferencia Estadística y que permiten comprobar si la

4
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

información que proporciona una muestra observada concuerda (o no) con la hipótesis
estadística formulada sobre el modelo de probabilidad y, por tanto, se puede validar (o
no) la hipótesis formulada. Esta hipótesis es la que hemos definido anteriormente como
hipótesis nula H0. Si se rechaza, en el sentido de no validación, la hipótesis nula
implícitamente se asume como “plausible” la hipótesis alternativa, H1.

El problema del contraste de hipótesis se puede definir:

Dado un punto del espacio muestral x = (x1 , x2, x3, ….; xn) ∈ conjunto de datos
obtenidos) se define una regla de decisión que siendo función de x, permita aceptar o
rechazar la H0 , dividiendo al espacio muestral en dos subconjuntos excluyentes C y Cc
tal forma que:

• Si x∈C rechazamos la H0 (consideramos probado que esa hipótesis


es falsa y por ende admitiendo como plausible la H1 propuesta) a
este subconjunto del espacio muestral se le denomina región crítica.

• .Sí x∈Cc entonces diremos que hipótesis (siempre refiriéndonos a


H0) es compatible con los datos.

Es decir, que el criterio que vamos a seguir para decidir si la hipótesis nula se
mantiene o se rechaza, se basa en la partición de la distribución muestral del
estadístico en dos zonas mutuamente exclusivas y excluyentes que denominamos región
crítica y región de aceptación y definimos:

Región Crítica (o de Rechazo): Es el área de la distribución muestral que


corresponde a los valores del estadístico de contraste que se encuentran tan alejados de
la afirmación establecida en H0 que es muy poco probable que ocurran, si la hipótesis
nula es correcta. Su probabilidad es α (o nivel de significación o riesgo).

Región de Aceptación: Es el área de la distribución muestral que corresponde a los


valores del estadístico de contraste próximos a la afirmación establecida en la hipótesis
nula. Su probabilidad es 1- α (o nivel de confianza).

El tamaño de las zonas de aceptación y rechazo se determinan fijando el valor de


(nivel de significación). Considerando que se trata de un nivel de error, su valor debe
ser pequeño, de ahí que valores para considerados en la literatura y utilizados en la
investigación empírica son habitualmente 0.01 y 0.05.

Dado que la H0 y H1 son complementarias es decir exhaustivas y excluyentes

5
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

dependiendo de cómo formulemos H1 y en relación a las regiones de rechazo y


aceptación de H0, los contrastes de hipótesis pueden ser bilaterales o unilaterales.

'
Se dice que un contraste es bilateral, cuando las H1 planteada es simple ( 5,
, X Y ,...), en tales casos la zona crítica se encuentra, generalmente repartida a
partes iguales entre las dos colas de la distribución muestral. Cuando la H1 compuesta
( < 1'5; 5 < < 10, X > Y ,...) los contraste se dicen unilaterales, en tales casos la
región crítica se encuentra en una de las colas de la distribución muestral. (Ver figura 1)

Figura 1

BILATERAL UNILATERAL
(derecha)

El procedimeinto general para el contraste de hipótesis estadísticas, tal y como


fue introducida por Fisher, se puede resumir en los siguientes pasos:

1) Plantear una hipótesis nula (H0). La hipótesis hace referencia, típicamente, al


valor de algún parámetro en la población de referencia.

2) Establecer una regla de muestreo. Generalmente, se trata de muestreo


aleatorio simple.

3) Determinar la distribución muestral del estadístico de interés en función de


la hipótesis nula y la regla de muestreo.

4) Determinar una medida de la discrepancia, que no es más que una diferencia

6
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

estandarizada, entre el estadítico correspondiente y el parámetro (en otros


términos entre el valor obtenido a partir de la muestra y lo establecido por la
hipótesis nula dividido por el error típico de la distribubión del estadístico). 1

El índice de discrepancia d se denomina “estadístico de contraste”

Es función de los datos muestrales

y de la información contenida en la hipótesis nula (H0).


5) Establecer un nivel de significación α, en otros términos especificar que
discrepancias se consideran inadmisibles cuando H0 es válida.

Tras todo ello, se selecciona la muestra y se calcula la medida de discrepancia; si


la probabilidad de obtener bajo H0 una discrepancia igual o mayor que la obtenida es
menor que α, se considerará que se debe rechazar la H0, entendiendo que el término
“hipótesis nula”, tal como fue introducido por Fisher, hace referencia a que es la
hipótesis cuya “nulidad” (falsedad) se pretende demostrar. Actualmente los paquetes
estadísticos para análisis de datos incluyen en los resultados el valor de p (probalidad
asociada) que no es más que la probabilidad de obtener un valor del estadístico de
contraste igual o más extremo que el obetendio con los datos de la meustra bajo la
condición de que H0 sea cierta. A los efectos se opera comparando el valor de p con el
nivel de significación ón :

Si p 0

Si p 0

Los dos enfoques del contraste de hipótesis: Fisher y Neyman - Pearson

Para Fisher, un contraste de significación puede llevar a una de las dos


decisiones siguientes: o bien la H0 se rechaza al nivel de significación α o bien el juicio
se reserva en ausencia de base suficiente. Este autor desarrolló los métodos de contraste

1 Importante tener presente en la definición del índice de discrepancia (Estadístico de Contraste) que se trata

de una variable aleatoria cuya distribucuón es, por lo ganeral, conocida y es precisamente este característica del índice
de discrepancia lo que permitirá llevar a cabo la toma de decisiones

7
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

de hipótesis estadísticas dentro de una perspectiva puramente popperiana: las únicas


decisiones posibles son rechazar la hipótesis nula o declarar que la evidencia no es
suficiente.

Este enfoque se centra de forma exclusiva en el resultado de la prueba estadística


y en concreto en la evaluación del valor p (probabilidad asociada) 2 en relación al
ón arbitrario y previamente fijado), es decir p
suficientes indicios para decartar H0, si p érminos de la H0 indica que
no es concordante con los datos disponibles. En otros términos, cuando se rechaza la H0
se puede admitir que el valor de la relación (el efecto) no es cero, pero cuando se acepta
H0 no se puede concluir que el valor de la relación (el efecto) sea cero (Cohen, 1988),
como ya advertimos en este contexto nulo no quiere cero.

Por su parte la metodología de Neyman y Pearson, en oposición a esto, está


orientada a la resolución de un tipo diferente de problema, una situación en la que se
debe tomar una decisión partiendo de información limitada y en la que se desea
minimizar los costes de una decisión errónea. Su campo de aplicación ideal es el control
de calidad, donde la situación típica consiste en controlar la producción de cierto tipo de
objetos, es pues un plateamiento centrado en la toma de decisiones, para lo cual
introducen algunas modificaciones en el esquema fisheriano, al considerar
explícitamente la hipótesis alternativa H1 (contrapuesta a la H0) e introducir los
conceptos de error tipo I y II, región crítica y potencia de la prueba y la necesidad de
ón) como garantia de de que las decisiones no
se toman “a posteriori”en virtud de los resultados.

Planteemos la cuestión desde el punto de vista de la toma de decisiones para


explicar los los conceptos introducidos en este planteamiento. Dado que existen dos
posibles hipótesis ( H0 y H1) las decisiones que podemos tomar serán: (cyadro 1 y

2 Probabilidad asociada

Se llama nivel crítico p a la probabilidad de obtener una discrepancia mayor o igual que la
observada en la muestra, cuando H0 es cierta. p = P (d ≥ d | H0)

Es importante reseñar que la probabilidad asociada p no es una medida de la magnitud de la


significación del contraste (tal y como muchas veces se interpreta) ni tampoco una medida de la magnitud
o relevancia del efecto detectado, en otros términos significación estadística no supone significación
teórica ni clínica.

8
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

figura 2)

Cuadro 1

H0 es correcta H0 es incorrecta

Aceptamos H0 Decisión correcta Error tipo II β

(1- α)

Rechazamos H0 Error tipo I α Decisión correcta

(1- β)

Figura 2

Error Tipo I: error cometido al rechazar H0 siendo verdadera. La probabilidad de


cometer este error es (nivel de significación que fija y controla el investigador).
Obviamente la probabilidad complementaria (1 –
(recuerdese lo visto al presentar la estimación por intervalos).

9
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Error tipo II: error cometido al aceptar H0 siendo falsa. La probabilidad de cometer
este error se designa por . La probabilidad complementaria (1- ) se denomina
potencia del contraste y corresponde a la probabilidad de rechazar una hipótesis nula
que es falsa. Indica la capacidad que tiene un contraste para detectar que una hipótesis
nula concreta es falsa, o bien, la capacidad de aceptar H1 siendo esta verdadera.. Es
obvio que una región crítica es la mejor o la mas potente cuando, para un dado, su
potencia es mayor que la de cualquier otra de las infinitas regiones que llevan asociadas
esa misma probabilidad .

La problemática del contraste de hipótesis.

Las pruebas de significación tal y como se aplican usualmente son el resultado


de un procedimiento híbrido en el que se mezclan las dos posturas (encontradas) de la
filosofía subyacente a los procedimientos de contraste que hemos expuesto.
Simplificando mucho se puede decir que la hibridación consiste en que se toma del
planteamiento fisheriano la concepción y el procedimiento de contraste de la hipótesis
nula (H0) pero introduciendo la hipotésis alternativa H1 (del enfoque Neyman
Pearson) como contrapuesta estadísticamente a la H0 ( cuesitón esta absolutamente
inaceptable para Fisher) y en consecuencia incluyendo también los conceptos de error
d ón y
fijación del error de Tipo I (
una toma de decisión entre dos contrarios complementarios y excluyentes.

Críticas al contraste Hipótesis

Son muchas y comprenden desde poner en “tela de juicio” los planteamientos


teóricos y su aplicación y considerarlas poco interesantes e incluso erróneas hasta los
que sólo se manifiestan en contra del uso inapropiado y de la mala enseñanza que se
hace de ellas fruto de las confusiones sobre algunos de sus elementos claves tales que el
concepto de hipótesis nula; el problema de la significación estadística y los factores que
la determinan y desde luego, y como el más destacable de todos los problemas, la
potencia estadística. Todo ello ha llevado a que actualmente y en ánimo a soslayar las
críticas y seguir las recomendaciones de la American Psychological Association
aparecidas en el American Psychology, 54, 594-604, se propone que para garantizar un
buen uso de estas técnicas se tomen como mínimo las siguientes precauciones:

• Determinación previa del tamaño muestral (n) necesario para

10
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

garantizar una determinada potencia, o informar de la potencia


obtenida.

• Completar los resultados obtenidos de la aplicación de las


técnicas de contraste de hipótesis con otros procedimientos
estadísticos que permitan extraer el sentido y la mayor
información posible de los datos muéstrales, desde el modelo de
la inferencia tal y como lo conocemos (intervalos de confianza y
tamaño del efecto).
Contraste de hipótesis desde la perspectiva actual

Conviene aclarar como afirma Frick (1995 y 96) el uso de los contrastes de
hipótesis, tal y como se venía haciendo (y aun se hace) puede ser válido cuando
planteamos leyes en sentido ordinal o cualitativo y únicamente pretendemos
comprender y estructurar los datos de la realidad (es decir, cuando el valor real de la
relación, es decir el efecto, no es trascendental) , más allá de este propósito, cuando se
pretenden predicciones cuantitativas o aplicaciones prácticas se hace necesario incluir
otros procedimientos estadísticos complementarios que informan sobre el grado,
dirección e importancia real de los resultados derivados de la aplicación de las pruebas
de significación.

Presentamos a continuación los estadísticos y procedimientos complementarios a


las técnicas de contrastes de hipótesis y que corresponden tanto a los planteamientos
teórico prácticos como a las exigencias que están imponiendo en las revistas al uso. A
tal efecto retomaremos algunos de los conceptos ya vistos que nos servirán de guía en
este planteamiento.

Comenzamos reproduciendo el cuadro de decisiones estadísticas posibles


relativas a la conclusión que se deriva de la prueba de hipótesis y obviamente
referenciadas a la población/es pero, de forma más concreta (reproducido de Lipsey,
1990), donde T representa al grupo de tratamiento y C el grupo control (ambos de forma
genérica).

11
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Referencia Poblacional

TyC TyC

Conclusión estadística difieren no difieren

Diferencias Significativas Conclusión correcta Error tipo I

Rechazo de H0 Probabilidad = 1-β Probabilidad α

POTENCIA

Diferencias no significativas Error tipo II Conclusión correcta

Aceptación de H0 Probabilidad β Probabilidad 1- α

(coeficiente de confianza)

Error tipo I: error cometido al rechazar H0 siendo verdadera. La probabilidad


de comenter un error Tipo I o riesgo de comenter este tipo de error α, que denominamos
“nivel de significación”, se define como la probabilidad de obtener en la distribución
muestral del estadístico de contraste valores de éste que se encuentran tan alejados de la
afirmación establecida en H0 que es muy poco probable que ocurran, si la hipótesis nula
es correcta.

Error tipo II: Aceptación de la hipótesis nula siendo falsa, su probabilidad que
. Estos dos errores (α y β) están inversamente relacionados. Para
una muestra determinada de tamaño n, si α disminuye β aumenta.
fijado por el investigador, por tanto, se puede decir que el rechazo de las H0 verdaderas
esta controlado. Ahora bien, El error tipo II no se puede conocer hasta que no se
conozca la H1 entendiendo que H1 indica el efecto que el investigador espera, este valor
(que en realidad constituye la hipótesis que le investigador desea evaluar).

12
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Relación entre α y β

A medida que aumenta α disminuye β

Potencia es la probabilidad de rechazar correctamente la hipótesis nula cuando debe ser


rechazada. Aunque la especificación alfa establece el nivel de significación estadística
aceptable, es la potencia la que dicta la probabilidad de «éxito» en la búsqueda de las
relaciones/diferencias si es que realmente existen. Es importante tener presente que es
posible, para un parámetro determinado obtener su curva de potencia. 3

Factores que influyen en la Potencia Estadística:


1. Dado que α y β están inversamente relacionados a medida que
alfa se vuelve más restrictivo (menor), la potencia decrece. Esto significa
que si reducimos la probabilidad de encontrar un efecto incorrecto
significativo, también reducimos la probabilidad de detectar un efecto
correcto.
2. El tamaño de la muestra: Para cualquier valor α dado, el incremento del
tamaño muestral incrementa también la Potencia del test estadístico. Pero,
un aumento excesivo del tamaño de la muestra puede producir
«demasiada» potencia en el sentido de se puede llegar a observar que
efectos (valores cuantificados de diferencias o relaciones mínimas pueden
llegar ser significativos, hasta que para muestras muy grandes casi
cualquier efecto es significativo. Así, el tamaño de la muestra puede
afectar a la prueba estadística tanto por hacerla insensible (para muestras

3 Curva de potencia: En el contexto que nos ocupa, es una gráfica que muestra, para todos los

valores posibles de un parámetro poblacional que contradice la hipótesis nula, la probabilidad, 1 -


rechazarla correctamente, dado el tamaño muestral y un riesgo a máximo especificado.

13
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

muy pequeñas) o demasiado sensible (para muestras muy grandes) 4.


3. Tamaño del Efecto: La probabilidad de conseguir significación
estadística se basa no sólo en consideraciones estadísticas sino también en
la magnitud real del efecto que nos interesa (por ejemplo, una diferencia
de medias entre dos grupos o la correlación entre variables) en la
población, denominado tamaño del efecto. Como cabría esperar, un efecto
grande es más probable de encontrar que un efecto pequeño y por tanto,
afecta a la potencia de la prueba estadística. Para evaluar la potencia de
cualquier prueba estadística, el investigador debe entender primero el
efecto examinado.

Relación entre β y el tamaño de la


muestra
n1 < n2
n1 n2

A medida que aumenta el tamaño de la muestra


disminuye el error estandar y por lo tanto el
riesgo de β

4. Si la hipótesis alternativa es simple, pro ejemplo H1:


valor prefijado de α habrá un único valor de
situación no es la común, lo que ocurre normalmente es que la H1 sea del
tipo < ó >, es decir hipótesis compuesta (más de una distribución posible)
lo cual supone que para cada posible valor del parámetro existe un valor
de áfico). Siendo estrictos deberíamos determinar la curva de
que contradicen la hipótesis
nula dado el tamaño muestral y α prefijado.

4 Es importante reseñar ahora que para la determinación del tamaño muestral necesario en un estudio se

debe considerar si el interés se centra en la estimación de parámetros (al respeto lo expuesto en los temas de relativos al
muestreo) o si el interés de la investigación lleva a planteamientos de contraste de hipótesis referidas a algún parámetro
(problemática que se plantea en este apartado). Para más información pueden acudir
http://masmatematicas.com/estadisticas/n.html

14
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Relación entre el riego β y el valor


verdadero de H1

Hay tantos valores de β como H1 se hayan enunciado

A continuación se presentan dos ejemplos sencillos para ilustrar los comentarios


anteriores. El primero implica la comprobación de la diferencia entre las medias de dos
grupos. Suponiendo que el tamaño de efecto sea entre pequeño (0,2) y moderado (0,5)
(siguiendo los criterios convencionales sugeridos pos Cohen (1992).

La Tabla 1.1 muestra el impacto tanto del tamaño de la muestra como del nivel
α sobre la potencia, reacuérdese que la potencia se ha definido como 1- . Como puede
verse, la potencia llega a ser aceptable para tamaños de muestra de 80 o más en
situaciones en las que el tamaño del efecto es mediano para ambos niveles de alfa
prefijados (.70 en el peor caso). Para un tamaño de efecto pequeño, obtenemos poca
potencia, incluso con niveles de α de 0.01 y muestras de 200 sujetos. Por ejemplo, una
muestra de 200 sujetos en cada grupo con un α de 0,05 tiene sólo un 50 por ciento de
posibilidades de encontrar diferencias significativas si el tamaño del efecto es pequeño.
Lo anterior indica que en el diseño del estudio, si anticipamos los efectos van a ser
pequeños, deberemos trabajar muestras mucho mayores y/o niveles de α menos
restrictivos (0,05 o 0,10).

TABLA 2. Niveles de potencia para la comparación entre dos medias: Tamaño de la muestra,
nivel de significación y tamaño del efecto.

15
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

α = 0.05 α = 0.01

Tamaño del Tamaño del

Tamaño efecto (TE) efecto (TE)

muestral

Pequeño Mediano Pequeño Mediano

(0.2) (0.5) (0.2) (0.5)

20 0.095 0.338 0.025 0.144

40 0.143 0.598 0.045 0.349

60 0.192 0.775 0.067 0.549

80 0.242 0.882 0.092 0.709

100 0.290 0.940 0.120 0.823

150 0.411 0.990 0.201 0.959

200 0.516 0.998 0.284 0.992

Grafico3

El Grafico 3 representa la curva de potencia para niveles de significación


de 0,01; 0,05 para distintos tamaños maestrales y un tamaño de efecto de .30.
Nótese que para lograr una potencia de .80 (recomendada por Cohen) para
α=.05 son necesarios tamaños muestrales inferiores que los necesarios para
α=.01.
Cohen ha examinado la potencia para la mayor parte de las pruebas de inferencia
estadística y ha proporcionado pautas para los niveles aceptables de potencia, sugiriendo

16
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

que los estudios deben diseñarse para conseguir niveles de alfa de al menos 0,05 con
niveles de potencia érminos mantener una relación
α de 4/1

Determinación de la Potencia

Existen dos formas: a prior y a posteriori

• A Priori: Se hace a partir de las Curvas de Potencia y permite determinar


el número de sujetos necesarios para alcanzar una potencia deseada. Si
bien, a partir de la propuesta de Cohen (1992) y por convención se da por
suficiente potencias de .80, no debe tomarse como un “criterio
inamovible”, el investigador debe plantear su compromiso con las
probabilidades de error α
relación inversa.

• A posteriori: Muy útiles cuando los resultados de un estudio son


negativos ya que en general se suele interpretar un resultado negativo
como que le fenómeno estudiado no existe cuando lo que puede estar
ocurriendo es que estemos ante un estudio de potencia baja) bien porque
el tamaño muestral sea insuficiente o el tamaño del efecto pequeño) de
tal forma que el procedimiento no es capaz de detectar la significación
estadística.

Como ya hemos visto los cuatro elementos centrales en inferencia


son n; α y el tamaño del efecto, todos ellos mutuamente
interrelacionados de tal forma que cada uno es función de los otros tres.
Así, y siguiendo a Cohen (1998) podemos plantear cuatro tipos de
análisis de la potencia:

1.- Potencia en función de α, TE5 (tamaño el efecto) y n. Es decir,


conocidos los tres elementos calculamos (normalmente se busca en las
tablas de potencia) la potencia (si la queremos aumentar cambiaremos las
especificaciones preestablecidas).

2.- Se estima el TE (bien a través del estudio de la literatura al caso o por


aproximación fundamentada en la propia experiencia), se establece el

5 A partir de ahora designaremos el tamaño del efecto por TE

17
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

valor de α y la potencia deseada y se calcula n. Este procedimiento es


especialmente relevante en estudios clínicos y en diseños experimentales
ya que permite determinar el número de sujetos necesario.

3.- Determinar el TE conocidos los otros elementos en juego (apenas se


utiliza).

4.- Determinación de α conocidos los otros tres, apenas tiene utilidad


ya que la convención de α: 0.05 ó 0.01, esta muy extendida e impuesta
por la convención.(En algunos estudios clínicos se toma α = .10)

A título de resumen:

En condiciones ideales los valores de α deberían ser especificados y


utilizados para fijar el valor de n para la prueba estadística seleccionada para el
análisis. En general lo común es fijar α y n lo cual determina la potencia. Cuando el
resultado da una potencia baja, la solución es incrementar n ya que es la única manera
de reducir los errores tipo I y II, si bien el criterio de incremento de n debe ser
matizado por criterios de coste tanto económico como de esfuerzo..

En los estudios en los que TE sea un elemento clave (estudios clínicos y algunos
experimentales) deberá tenerse presente y prefijado α n necesario,
para el TE postulado.6

Actualmente existe software gratuito que permite, para algunas pruebas


específicas determina n ó TE ó la potencia. Por ejemplo el SamplePower del SPSS
permite determinar los tamaños maestrales y ajustar los parámetros del diseño,
obteniendo las curvas de potencia para un amplio número de técnicas de análisis
(medias, proporciones, correlación, Anova, Ancova y Regresión). El documento
“SOFTWARE PARA CALCULAR TAMAÑOS MUESTRALES Y POTENCIA” incluido
en la carpeta COMPELMENTOS BLOUE 1 contiene direcciones web con software
disponible en la red para estos cálculos.

6 Para mayor información sobre estas cuestiones ver:

Bono, R.; Arnau, J.; (1995) “Consideraciones generales en torno a los estudios de potencia”. Anales de
Psicología, 11 (2), 193-202.
Cohen, J. (1988). Statiscal power análisis for the behavioral sciences. ( 2da ed.). Hillsdale, NJ: Erlbaum
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155- 159.

18
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

Algunos comentarios relacionados con el TAMAÑO DEL EFECTO

Cohen define este estadístico como el grado en que el fenómeno en estudio está
en la población. Responde a preguntas el tipo: ¿cual ha sido la magnitud del efecto de
un tratamiento?; ¿cómo de fuerte es la relación entre las variables?, en otros términos
facilita no sólo el que se conozca que un efecto ocurre, sino también su magnitud. Tal y
como ha sido definido (grado en que el fenómeno esta presente en la poblacional)
puede calcularse su intervalo de confianza que indicará el rango dentro del cual es
posible que se encuentre el efecto real en la población (se aplica todo lo visto sobre
intervalos confidenciales dado que se trata de un estadístico con su distribución
muestral) 7 .

Como ya se comento, para determinar la Potencia Estadística (ya sea a priori o a


posteriori) es necesario conocer el TE, aunque no esta todo dicho sobre cuales son las
medidas de TE y su interpretación 8 (cuestión que hoy constituye un campo de
investigación) Rosenthal (1994) clasifica las medidas del efecto en dos familias:

• Familia d: índices para diferencias entre medias y proporciones (en ambos casos
hay distintos índices relativos a puntuaciones brutas d de Cohen; la g de
Hedges; la delta de Glass ∆, tipificadas, estadístico CL de McGraw y Wong,
también llamado índice universal del TE; d Cox, para variables dicotomizadas o
trasformaciones a r, en concreto de la de d de Cohen), entre otros.

• Familia r: Coeficientes de correlación de Pearson y sus derivados (correlaciones


cuadráticas o proporciones de varianza explicada. ω2; η^2).

A la hora de realizar un estudio completo y, desde la perspectiva presentada, se


hacen una serie de recomendaciones que pueden encontrar en el documento
“sugerencias metodológicas”.

7 Importante destacar que las técnicas que calculan el TE para algunas de las diferentes pruebas estadísticas

de uso común (ejemplo, t; F) ofrecen una métrica común que posibilita la integración de resultados indispensable en el
Meta-análisis.

8 Los diferentes índices serán presentados asociados a las correspondientes pruebas de significación.

19
MASTER EN METODOLOGÍA DE LAS CIENCIAS DEL COMPORTAMIENTO Y DE LA SALUD

20

También podría gustarte