Está en la página 1de 9

Pruebas de significación.

En el tema anterior hemos estudiado la distribución muestral de un estadístico, su


esperanza matemática y su error típico, como elementos esenciales para cualquier
tipo de interferencia estadística. Aunque existen multitud de técnicas para eso
extrapolar los datos de la muestra a la población, por razones didácticas y de
sencillez, las vamos a englobar en dos grandes apartados: la prueba de significación
y la estimación de parámetros. En el primer grupo, el contraste de hipótesis, nos
llevará a preguntarnos acerca de la probabilidad de que un parámetro asuma un
valor. En este caso, nos podríamos plantear, por ejemplo: puesto que en la muestra he
construido un modelo matemático b1= 3, ¿ puedo pensar que esta relación
encontrada entre la variable dependiente y la independiente también existe en la
población o por el contrario, se debe únicamente al azar? La segunda categoría, la
estimación de parámetros, varía la cuestión y nuestra pregunta será sobre los valores,
desconocidos, de una estadística poblacional o de un parámetro o de una
combinación de los mismo, por ejemplo: ¿cuánto vale β1 de un modelo matemático,
dado el valor b1=3 obtenido en la muestra? Ambos tipos de preguntas se
responderán con márgenes de certeza y de error establecidos a priori por nosotros
mismos y aunque ambas técnicas de análisis comparten más similitudes que
diferencias en el procedimiento, sus peculiaridades y la interpretación que se deriva
de los resultados de cada una justificada en su estudio por separado. En este tema
hablaremos del contraste de hipótesis y dejaremos para el siguiente la estimación de
parámetros.
En relación con el tipo de inferencia que se plantea en la prueba de significación o
contraste de hipótesis, la pregunta que nos hacemos nos resulta familiar puesto que
este tipo de inferencia la hemos realizado sobre los valores poblacionales de los
resultados muestrales, a partir de la distribución muestral de los estadísticos y de su
función de distribución. Lo que haremos será aprender a articular la toma de
decisiones y a matizar nuestras conclusiones con algunos elementos nuevos y
fundamentales, de nuestras decisiones resoluciones más apropiadas.

1. El proceso en la prueba de significación.


El trabajo de la toma de decisiones comienza con un establecimiento de 2 niveles
de hipótesis: las hipótesis de trabajo también llamadas de investigación o
científica; y las hipótesis estadísticas. Las primeras expresan forma lingüística y
sin el proceso de investigación. Las segundas son conjeturas en las que se basan
algunos análisis estadísticos y hacen referencia al valor de un parámetro, a la
forma de distribución, etc.
Las hipótesis de trabajo se derivan del modelo ya era hora dos afirmaciones
acerca de las supuestas relaciones entre constructos o variables implicadas.
Deben explicitarse de tal forma que el modelo pueda contrastarse con la realidad
y que los modelos competidores puedan eliminarse. Su claridad es fundamental
para determinar si el resultado obtenido es similar o no al esperado desde el
modelo, por lo que son fundamentales en el desarrollo del proceso de
investigación.
Lo que se denomina hipótesis estadística es una predicción que se deriva de la
hipótesis de trabajo, por lo que debe cumplir los requisitos generales que
establece la filosofía de la ciencia para tales predicciones: ser lógicamente
deducible de las hipótesis teórica y de las condiciones iniciales.
- Debe ser congruentes con las hipótesis de investigación.
- Deben ser lo suficientemente específicas como para determinar si los
resultados obtenidos son similares o no, al resultado que se había predicho.
El procedimiento de la prueba de significación o contraste de hipótesis o
contraste estadístico actúa sobre la base de un conjunto de observaciones, es
decir, sobre la evidencia empírica y permite con ciertas salvedades, rechazar o no
la hipótesis estadística. Existen rutas posibles para contrastar una hipótesis:
- Confirmación. Se trata de buscar datos que apoyen la veracidad de nuestra
hipótesis. En la realidad no se utiliza este procedimiento porque por más
cantidad de datos que pudiéramos recoger y que la apoyen, siempre podrían
aparecer otros nuevos que no lo hicieran. De ahí que el contraste de hipótesis
se rige por la siguiente opción.
- Falsación. Se trata de encontrar de datos que nieguen o rechacen la
veracidad de nuestra hipótesis. Si ninguno de los datos recogidos va en
contra de lo que afirma nuestra hipótesis de trabajo, entonces estaremos en
disposición de pensar que no hay razones para considerarla incorrecta, es
decir, para rechazarla.
1. Formulación estadística de la hipótesis científica.
La prueba de significación comienza cuando planteamos una hipótesis
científica en términos estadísticos. Las hipótesis científicas como
elementos de arranque del proceso matemático de validación del modelo.
La mayoría de las ocasiones necesitaremos tomar decisiones acerca la
forma de distribución de las variables como parte de la prueba de
significación, lo que se realiza, a su vez, con otra prueba de significación.
Plantear hipótesis estadísticas no es un proceso complicado, siempre que
se sigua una regla de oro: sencillez y claridad en el establecimiento de las
hipótesis científicas. De otro modo, la prueba de significación se tornará
inviable.
2. Hipótesis nula e hipótesis alternativa.
¿Cómo sabemos que la edad de inicio del consumo realmente
disminuido? (ejemplo libro). La respuesta es sencilla: comparando la
hipótesis con la realidad. Antes de hacerlo debemos fragmentar la
hipótesis en otras dos:
Hipótesis nula: que es la que vamos a mantener como verdadera y
someterla comprobación experimental. Vamos a trabajar en todo
momento como si fuese verdadera hasta que la realidad nos demuestre lo
contrario a favor de la hipótesis alternativa, en la que se verá reflejada la
hipótesis estadística. En otras palabras, bajo la hipótesis alternativa
afirmamos que la edad de inicio del consumo ha disminuido, no
debiéndose este descenso al azar. hasta que toma la decisión vamos a
mantener la hipótesis nula como verdadera. Solo los datos empíricos nos
demostrarán su unidad.

3. Estadístico de contraste.
Para poner a prueba las hipótesis debemos recurrir a la realidad. Conviene
saber que el valor de Z obtenido se le denomina estadístico de contraste
en el contexto de las pruebas de significación. Su fórmula genérica coloca
en el numerador la media μ0 , establecida en la hipótesis nula, y la media
μ1 estimada mediante la media x

Todo estadístico que utilicemos para poner a prueba la hipótesis nula ya


sea media, varianza, proporción, mediana, coeficiente de correlación, etc.
se denomina estadístico de contraste y según las condiciones
poblacionales de partida y las características de la muestra analizada,
tendrá una distribución muestral que se ajustará a su distribución normal,
una distribución T de student, etc.

4. Toma de decisión acerca de H 0 .


Suponiendo que H 0es verdadero, es decir, que la edad de consumo de
alcohol no ha disminuido, la probabilidad de extraer una muestra
aleatoria cuya media de edad sea igual a 13,6 es muy pequeña. La
probabilidad es tan pequeña que los datos muestrales y la H 0 parecen
incompatibles por lo que debemos tomar una decisión. Teniendo en
cuenta que nuestro estudio lo hemos realizado bajo las óptimas
condiciones, parece que lo adecuado es rechazar la H 0 a favor del H 1 y
concluir que la edad de inicio de consumo a disminuido de la población.

2. Probabilidad asociada y nivel de significación.


La función de distribución que acabamos de obtener para decidir que la edad de
inicio del consumo de alcohol ha disminuido la población, suele denominarse
probabilidad asociada. Todos estos términos no indican nada más de lo que ya
sabemos, es decir, la probabilidad de que el estadístico sea igual o menor que un
valor, suponiendo unas condiciones poblacionales determinadas. Vamos a utilizar
la expresión probabilidad asociada al estadístico para referirnos a ella y
simplemente vamos a emplear la nomenclatura la letra p. Una pregunta
razonable que no sabemos es cuándo estas probabilidades quedan pequeñas
para tomar una decisión. Si en lugar de todo, hubiésemos obtenido una P=0.9,
también habríamos decidido qué es lo suficientemente grande como para pensar
que la diferencia entre la población y la muestra podemos considerar la debida al
azar. ¿Dónde está el límite para llegar a la resolución de que la probabilidad de
pequeña?
En un principio, esta cuestión debe decidirla el propio investigador a partir de sus
datos, de los obtenidos por otros analistas, etc. y esto sería sin lugar a duda la
decisión más cabal. Sin embargo, hay ocasiones en las que un experimento está
en sus fases iniciales y no disponemos de elementos de comparación. Para estos
casos en los que aún nos encontramos en la etapa exploratoria, puedes utilizar el
convenio de comunidad científica, que es comparar nuestra probabilidad
asociada con los valores 0’05 o 0’01, el nivel de significación α, para acordar si
es pequeña o grande.

3. Probabilidad asociada y tamaño de la muestra .


Todas las fórmulas que hemos aplicado para transformar los estadísticos, y
obtener así sus probabilidades asociadas, necesitan el error típico de la
distribución muestral de que se trate. La cuantía de este error está directamente
relacionada con el alejamiento del estadístico a su parámetro, de manera que
cuanto menor sea, será más probable extraer una muestra cuyo estadístico esté
más cerca del valor de su parámetro y, viceversa.

Por otro lado, el error típico de una distribución muestral está inversamente
relacionado con el tamaño de la muestra, tal como podemos observar en las
fórmulas para su obtención.

Las expresiones anteriores indican claramente que el error típico aumentará o


disminuirá, simplemente, aumentando o disminuyendo el tamaño de muestral.
La probabilidad asociada al estadístico transformado también se ve afectada, más
pequeña cuanto mayor sea el tamaño de la muestra. De este modo, si un
investigador quiere obtener resultados significativos, no tiene más que utilizar
muchos sujetos en sus análisis, aún cuando las diferencias entre lo observado y lo
esperado no tengan ningún valor.
La disminución en el tamaño de la muestra ha provocado que el error típico
aumente la probabilidad asociada también.
El tamaño muestral no es una cuestión baladí y puede conducirnos a un dilema
importante: si escogemos una muestra grande es más fácil obtener un resultado
significativo, que no quiere decir que necesariamente sea importante; sin
embargo, si extraemos una muestra pequeña, aun cuando el resultado fuese
trascendente, no sería estadísticamente significativo y en principio, podría
llevarnos a pensar que no se puede realizar la generalización a la población.

4. Error tipo I, error tipo II y potencia.


Cuando nos inclinamos a afirmar que I resultados son unos significativos a partir
del valor de Alfa que hemos escogido y de la probabilidad asociada que hemos
obtenido, estas decisiones tienen unas consecuencias que debemos analizar.
Si p es menor que Alfa decimos que nuestros resultados muestrales son
estadísticamente significativos, mientras que, al contrario, no lo son. Puede
ocurrir que la realidad sea precisamente al revés y que para el primer caso las
discrepancias se deben simplemente al azar, mientras que para el segundo no
hemos encontrado diferencias significativas cuando en realidad sí existe. En tales
circunstancias estaríamos cometiendo un error, tipo I y tipo II.
En función de lo que suceda realmente en la población podremos cometer un
tipo u otro de error, o no, según nuestros resultados muestrales estadísticamente
significativos o no significativos. El problema estriba en que, al no poder trabajar
con la población al completo, no sabemos con qué certeza acontece en ella y,
por lo tanto, tampoco sabemos en principio si nuestras decisiones son correctas
o erróneas.
Justamente el nivel de significación de Alfa que escojamos nos sirve para saber
el grado de error que podemos estar cometiendo en nuestra decisión. Ahora
podemos entender un poco mejor por qué se escogen valores bajos para el nivel
de significación: porque debido a sus consecuencias, queremos que la
probabilidad de cometer el error tipo I sea pequeña.
Por su parte, cuando nuestros resultados muestran no son estadísticamente
significativos, pero sí existe una discrepancia real con la población, también
estamos cometiendo un error, el error tipo II, llamado beta.
Así como la probabilidad de cometer el error tipo I la determinamos a priori, beta
no la conocemos, pero sabemos cuáles son los factores de los que depende: del
valor de Alfa que escojamos, del verdadero valor del parámetro en cuestión y del
error típico de la distribución muestral del estadístico. Ahora bien, la disminución
de uno de los dos significa el aumento del otro. Una posibilidad que se puede
hacer es decidir cuál de los dos tiene consecuencias más graves. Otra posibilidad,
a la cual todo investigador aspira, es aquella en la que decide que todos los
estadísticos son significativos porque de hecho ha habido un cambio en la
población. Esta decisión se denomina potencia de la prueba de significación y
siendo su probabilidad igual a 1-beta, cuanto mayor sea, más seguro estará en la
investigador de que sus resultados son estadísticamente significativos. En una
escala de 0 a 1, convencionalmente se asume que el nivel mínimo de potencia
requerido para una investigación debe ser igual o mayor que 0.80, lo que
significaría una beta= 0,2.
La mayoría de los paquetes estadísticos muestran los valores de potencia Alfa a
posteriori, con lo que calcular la probabilidad de cometer el error tipo II no tiene
dificultad alguna. Además de comunicar estas probabilidades, en nuestras
investigaciones debemos informar sobre la relevancia clínica de nuestra
investigación.

5. Tamaño del efecto.


Tras realizar una prueba de significación podemos encontrarnos con resultados
muestrales estadísticamente significativos, o no, a partir de los cuales tomamos
decisiones acerca de cambios que se han producido, o no, en la población. Según
hemos visto, ceñirnos únicamente a la probabilidad asociada, es muy arriesgado
y poco informativo, a la luz de sus inconvenientes inherentes.
Confundir la significación estadística con la importancia práctica es ciertamente
un error muy común y notorio. Más que considerar que una cosa es la
significación estadística y otra la significación práctica, el investigador realmente
desconoce qué es la primera y su relación con la segunda. En definitiva, está
mostrando un total desconocimiento del proceso de contraste de hipótesis y de
sus consecuencias.
Obtener resultados estadísticamente significativos no quiere decir que sean
clínicamente relevantes porque tenemos el problema de que la probabilidad
asociada a un estadístico, que determina la prueba de significación, está
directamente relacionada con el tamaño muestral escogido, con el error típico de
la distribución muestral, con el nivel de significación α que fijamos a priori, etc. y
puede variar nuestras decisiones. Por tanto, si queremos llegar a conclusiones
cabales e intachables en nuestras investigaciones deberemos realizar otros
análisis alternativos a la probabilidad asociada y que la eviten, o bien que la
acompañen. Podemos empezar observando los estadísticos tenidos y
compararlos con valores separados.

La interpretación de la significación estadística deja de tener sentido cuando el


tamaño de la muestra es tan grande que cualquier diferencia detectada, por
pequeña que sea, permite rechazar la hipótesis de nulidad de las diferencias.
Necesitamos alguna medida de cambio que sea independiente del tamaño
muestral. Tal medida es el tamaño del efecto, un concepto que nos dará una
dimensión de la importancia real y de la relevancia de un resultado estadístico.
También es conocido como impacto del tratamiento.
La idea del método es muy básica y trata de liberar al estadístico de contraste del
tamaño de la muestra utilizada en la investigación.
μ0 se refiere hay valor de μ propuesto en H0 ; μ1 a la media propuesta en H1 y
estimada mediante x y σ a la desviación típica poblacional, estimada mediante
cuando ~s x es desconocida.

Lo que realmente se calcula es una diferencia tipificada, que es la diferencia entre


las dos medias dividida por una desviación típica, lo que equivale a una
puntuación típica. Así pues, lo que nos dice es cuántas desviaciones típicas hay
entre las dos medias, por lo que se interpretación es sencilla y muy útil. Ej.
Ventajas del tamaño del efecto, son las mismas que las puntuaciones típicas:
- El valor obtenido es independiente de las puntuaciones originales. En otras
palabras, se trata de una magnitud que se puede comparar con otras
provenientes de otros estudios o instrumentos.
- Un resultado estadísticamente no significativo, sobre todo en muestras
pequeñas, pero clínicamente relevante, constituye una buena justificación
para proponer hipótesis que podríamos verificar con muestras grandes.
- Un resultado estadísticamente significativo puede deberse únicamente a los
grados de libertad utilizados. Una medida del tamaño del efecto nos indicará
si es o no relevante.
- Podemos comparar diferencias entre grupos en variables distintas.
- Como todos los valores del tamaño del efecto son comparables entre sí,
podemos promediar los obtenidos en estudios diferentes y resumir todos los
resultados en un único dato. En esto consiste el procedimiento cuantitativo
del metaanálisis, pero sin necesidad de llegar a él, cualquier investigador que
haya realizado varios estudios comparando diversas medias en la misma
variable con el mismo instrumento, puede calcular la media de los tamaños
del efecto para dar una síntesis de sus resultados, en lugar de limitarse a
señalar cuántas veces ha habido un resultado significativo.
A modo de recetario, algunos investigadores valoran la magnitud del tamaño del
efecto como grande, medio o pequeño siguiendo las indicaciones de Cohen que
han sido muy aceptadas por la comunidad científica.

El autor plantea interpretar como efecto mediano aquel detectable a ojo


desnudo o perceptible en la práctica diaria sin necesidad de pedirlo formalmente;
grande sería aquel de magnitud tal que probablemente no se justifique hacer
una investigación para demostrar algo tan evidente y, pequeño, aquel que, no
cumpliendo las condiciones de uno mediano, sí es lo suficientemente importante
para justificar el estudio y su continuidad. Lo que realmente es de gran utilidad es
la propia interpretación de d, y la comparación de los valores obtenidos por
nosotros con los otros investigadores en el mismo contexto variables, o bien, la
verificación de los resultados de diferentes estudios sobre el mismo constructo.
Lo que sí se debe mostrar de forma rutinaria es la proporción de sujetos del
grupo inferior superados por el sujeto medio del grupo con mayor media, ya que
este dato ancla cualquier otra valoración.
Según hemos visto, cuando la probabilidad asociada es mayor que el nivel de
significación, concluimos que los resultados no son estadísticamente
significativos, por lo que nos permiten rechazar la H0 y, por tanto, no podremos
considerar como válida la H1. No rechazar la hipótesis nula implica mantenerla, lo
que en ningún caso significa aceptarla. Aunque para algunos la región de rechazo
(α) y de no rechazo (1-α) son mutuamente excluyentes y, por tanto, el rechazo de
una implica la aceptación de la otra, el razonamiento del contraste es otro.
Por otra parte, otros manuales proponen contrastes bilaterales y unilaterales,
también llamados de dos colas y una cola, respectivamente. Llevar a cabo uno u
otro dependerá de las hipótesis estadísticas que se hayan planteado. Cuando
las hipótesis se conciben únicamente en términos de igualdad o desigualdad el
contraste será bilateral. Si las hipótesis se diseñan de forma que la hipótesis
alternativa se indica no solo desigualdad, sino cuál es su dirección, es decir, en
términos de mayor o menor, estaremos en un caso unilateral.

En la introducción del capítulo hemos hablado de la estimación de parámetros,


otra técnica de inferencia estadística, según la cual, deseábamos averiguar entre
qué valores se espera que se encuentre un parámetro desconocido a la luz de los
resultados muestrales obtenidos. Se trataría de obtener un intervalo de confianza
de esos valores. Este procedimiento supera la respuesta dicotómica que aporta el
contraste de hipótesis: además de decirnos si un parámetro es mayor o menor
que, también nos informa de su cuantía. Es una solución también eficaz a la
problemática de las pruebas de significación.

También podría gustarte