Está en la página 1de 6

Errores de Tipo I y II

Los errores tipo I y tipo II son conceptos estadísticos importantes en el análisis de pruebas de hipótesis:

• Error tipo I: Es el error de rechazar la hipótesis nula cuando ésta es verdadera. Es decir, encontrar un
efecto, diferencia o relación significativa cuando en realidad no la hay. También se conoce como
error falso positivo. El riesgo de cometer este error se denomina nivel de significación, representado
habitualmente por α.
P[RechazarH0/H0 es cierta]=α; 0≤α≤1

• Error tipo II: Es el error de no rechazar la hipótesis nula cuando ésta es falsa. Es decir, no encontrar
un efecto, relación o diferencia significativa cuando sí existe. También conocido como error falso
negativo. El riesgo de cometer este error se denomina β y está relacionado con la potencia
estadística.
P[NorechazarH0/H0 es falsa]=β; 0≤β≤1

La probabilidad de cometer cada tipo de error depende del tamaño de muestra, la magnitud del efecto y el
nivel de significación elegido. Se busca minimizar ambos, pero reducir uno implica aumentar el otro. Se trata
de encontrar un equilibrio entre ambos mediante un buen diseño experimental.

En resumen, el error tipo I nos lleva a afirmar diferencias inexistentes, mientras que el error tipo II nos hace
perder diferencias reales. Tener en cuenta ambos errores es clave en el correcto reporte e interpretación de
resultados estadísticos.

Por tanto,

• 1 – α es la probabilidad de tomar una decisión correcta cuando H0 es verdadera.


• 1 – β es la probabilidad de tomar una decisión correcta cuando H0 es falsa.

En la tabla siguiente presentamos las decisiones y posibles errores que se pueden cometer

• La dificultad al usar un procedimiento basado en datos muestrales es que debido a la variabilidad de


muestreo, puede resultar una muestra no representativa, y por tanto, resultaría un rechazo erróneo
de H0.
• La probabilidad de cometer un error de tipo I con nuestra decisión es una probabilidad conocida,
pues el valor de α lo fija el propio investigador.
• Sin embargo, la probabilidad de cometer un error de tipo II, β , es un valor desconocido que depende
de tres factores:

• La hipótesis H1 que consideremos verdadera.


• El valor de α .
• El tamaño del error típico (desviación típica) de la distribución muestral utilizada
para efectuar el contraste.
Figura: Zonas de rechazo y no rechazo

Relaciones entre los errores de Tipo I y II.

El estudio de las relaciones entre los errores lo realizamos mediante el contraste de hipótesis:
H0≡μ=μ0
H1≡μ=μ1

Expresión 1: Contraste de hipótesis

Para ello utilizamos la información muestral proporcionada por el estadístico media muestral (𝑥̅ )
Cualquier valor atribuido a μ1 en H1 (siempre mayor a μ0) generará distribuciones muestrales distintas para
la media muestral. Aunque todas tendrán la misma forma, unas estarán más alejadas que otras de la curva
de H0, es decir, unas serán distintas de otras únicamente en el valor asignado a μ1.

Cuanto más se aleje el valor μ1 de μ0, más hacia la derecha se desplazará la curva H1, y en consecuencia,
más pequeña se hará el área β. Por lo tanto, el valor de β depende del valor concreto de μ1 que
consideremos verdadero dentro de todos los afirmados por H1.

• Cuanto mayor es α, menor es β. Se relacionan de forma inversa.


• Para una distancia dada entre μ0 y μ1, el solapamiento entre las curvas correspondientes a uno y
otro parámetro será tanto mayor cuanto mayor sea el error típico de la distribución muestral
representada por esas curvas (cuanto mayor es el error típico de una distribución, más ancha es esa
distribución). Y cuanto mayor sea el solapamiento, mayor será el valor de β.

En lugar de buscar procedimientos libres de error, debemos buscar procedimientos para los que no sea
probable que ocurran ningún tipo de estos errores. Esto es, un buen procedimiento es aquel para el que es
pequeña la probabilidad de cometer cualquier tipo de error. La elección de un valor particular de corte de la
región de rechazo fija las probabilidades de errores tipo I y tipo II.

Debido a que H0 especifica un valor único del parámetro, hay un solo valor de α. Sin embargo, hay un valor
diferente de β por cada valor del parámetro recogido en H1.
En general, un buen contraste o buena regla de decisión debe tender a minimizar los dos tipos de
error inherentes a toda decisión. Como α queda fijado por el investigador, trataremos de elegir una región
donde la probabilidad de cometer el error de tipo II sea la menor .

Usualmente, se diseñan los contrastes de tal manera que la probabilidad a sea el 5% (0,05), aunque a veces
se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o más estrictas.
Potencia de un contraste.

Es la probabilidad de decidir H1 cuando ésta es cierta: P[decidirH1/H1esverdadera]=1−β

El concepto de potencia se utiliza para medir la bondad de un contraste de hipótesis. Cuanto más lejana se
encuentra la hipótesis H1 de H0 menor es la probabilidad de incurrir en un error tipo II y, por consiguiente,
la potencia tomará valores más próximos a 1.
Si la potencia en un contraste es siempre muy próxima a 1 entonces se dice que el estadístico de contraste
es muy potente para contrastar H0 ya que en ese caso las muestras serán, con alta probabilidad,
incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su sensibilidad o capacidad para detectar
una hipótesis alternativa. La potencia de un contraste cuantifica la capacidad del criterio utilizado para
rechazar H0 cuando esta hipótesis sea falsa

Es deseable en un contraste de hipótesis que las probabilidades de ambos tipos de error fueran tan pequeñas
como fuera posible. Sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error
de tipo I, α, conduce a incrementar la probabilidad del error de tipo II, β. El recurso para aumentar la potencia
del contraste, esto es, disminuir la probabilidad de error de tipo II, es aumentar el tamaño muestral lo que
en la práctica conlleva un incremento de los costes del estudio que se quiere realizar

El concepto de potencia nos permite valorar cual entre dos contrastes con la misma probabilidad de error de
tipo I, α, es preferible. Se trata de escoger entre todos los contrastes posibles con α prefijado aquel que tiene
mayor potencia, esto es, menor probabilidad β de incurrir en el error de tipo II. En este caso el Lema de
Neyman-Pearson garantiza la existencia de un contraste de máxima potencia y determina cómo construirlo.
La potencia estadística es la probabilidad de que un contraste de hipótesis rechace correctamente la hipótesis
nula cuando ésta es falsa. Es decir, es la probabilidad de no cometer un error tipo II o error beta.
Más formalmente, la potencia estadística es igual a 1 - β, donde β es la probabilidad de cometer un error tipo
II, no rechazar H0 cuando la hipótesis alternativa H1 es la verdadera.
Cuanto mayor sea el valor de la potencia estadística, menor será la probabilidad de no detectar un efecto que
realmente existe en la población. Es decir, la potencia indica la capacidad de la prueba para detectar un efecto
de una magnitud dada como estadísticamente significativo. Los factores que influyen en la potencia
estadística son:
• El nivel de significación o alfa (α). A menor alfa, menor potencia.
• El tamaño del efecto. A mayor tamaño del efecto, mayor potencia.
• El tamaño de la muestra (n). A mayor n, mayor potencia.
En el diseño experimental es importante calcular y tener suficiente potencia estadística antes de la realización
del estudio. Una potencia insuficiente puede llevar a no detectar diferencias importantes por falta de
muestra. Usualmente se busca una potencia de al menos 80%.
El valor que se asigna a la potencia estadística depende del campo de investigación, pero algunas
recomendaciones generales son:
Ejemplo para ilustrar el concepto de potencia estadística:
Supongamos que queremos evaluar si un nuevo método de enseñanza aumenta el rendimiento académico
de los estudiantes comparado con el método tradicional. Las hipótesis serían:
H0: No hay diferencias en el rendimiento académico entre el nuevo y el antiguo método.
H1: El nuevo método logra mejor rendimiento académico.
Se fija una significación α de 0.05 y se calcula el tamaño muestral necesario para tener una potencia del 80%,
para detectar como estadísticamente significativa una diferencia de 5 puntos sobre 100 en las calificaciones.
Luego de realizado el experimento con suficientes alumnos, se obtiene un valor p de 0.03 en la prueba
estadística al comparar notas con el nuevo y antiguo método. Como p es menor a α, se rechaza H0 y se
concluye que el nuevo método es más efectivo.
En este caso hay una probabilidad del 80% de que un efecto real de 5 puntos sea detectado como significativo,
gracias a haber planificado el experimento con una potencia adecuada. De lo contrario, con una potencia
insuficiente, podríamos habernos equivocado al no rechazar H0 y concluir erróneamente que el método
nuevo no funciona mejor.
➢ La potencia estadística nos ayuda a controlar la tasa de errores tipo II y nos permite tener confianza
en los resultados significativos que obtenemos.
✓ Por convención, en la mayoría de las disciplinas se recomienda una potencia de al menos el 80%
(0.80). Este valor brinda un buen equilibrio para reducir los errores tipo I y tipo II.
✓ En estudios de disciplinas como la salud, la vida o muy costosos, se prefiere potencias más altas como
90% (0.90) o 95% (0.95). Esto reduce los errores tipo II, priorizando detectar efectos aunque aumente
ligeramente los errores tipo I.
✓ En otras áreas como ciencias sociales a veces se aceptan potencias más bajas, como 70% (0.70)
cuando hay limitaciones de presupuesto o muestra. Pero no debería bajar mucho más.
Lo ideal es hacer un cálculo previo de la potencia que se puede alcanzar dado el tamaño de muestra
disponible y la magnitud mínima del efecto que se quiere poder detectar. Esto nos dirá la potencia real que
es viable.
También se pueden usar fórmulas específicas para cada contraste estadístico, que permiten calcular el
tamaño muestral necesario para una potencia deseada. En conclusión, lo recomendable es justificar la
potencia elegida en base al contexto y necesidades del estudio. Las pautas estándar son 80% o superiores,
dependiendo del campo y posibilidades.
La fórmula para calcular el tamaño muestral necesario dados un nivel de potencia deseado y otros
parámetros, se utiliza típicamente en las siguientes situaciones:
✓ Cuando vamos a realizar una comparación entre grupos (por ejemplo, grupo control vs grupo
experimental) mediante una prueba de hipótesis sobre medias (prueba T de Student) o proporciones
(prueba de diferencia de proporciones)
✓ Cuando queremos detectar una correlación o regresión como estadísticamente significativas entre
variables
✓ Cuando vamos a contratar hipótesis sobre parámetros en un modelo estadístico más complejo, como
modelos de regresión múltiple, análisis de varianza (ANOVA), etc.
Es decir, aplica cuando necesitamos garantizar que la muestra obtenida nos permita detectar, con una
potencia o probabilidad deseada, un efecto de una magnitud específica que consideramos mínimamente
importante desde el punto de vista aplicado.
Esto nos permite determinar cuántos participantes, cuántas observaciones o qué tamaño muestral total
requerimos como mínimo en nuestro experimento o estudio, de modo que podamos confiar que
encontraremos como significativos los efectos que nos interesan.
Por tanto, esta fórmula resulta clave antes de llevar a cabo cualquier estudio cuantitativo con hipótesis
definidas, donde la potencia estadística es un elemento primordial en el diseño.
Comparación de 2 medias
En respuesta continua, el análisis más común consiste en la comparación de la media entre dos grupos de
tratamiento. Un Ensayo Clínico Aleatorizado (ECA) pivote implica una decisión posterior. El entorno de
decisión de Neyman-Pearson permite limitar ambos riesgos de error. Ejemplo 2.1: Una agencia de regulación
que autoriza productos sanitarios desea un mecanismo de decisión que le garantice que: 1) sólo un 2.5% de
las intervenciones no eficaces alcanzan el mercado; pero 2) que sí lo hagan un 90% de las que tienen cierto
efecto positivo (al que llamarán Delta: ∆).
La metodología de decisión de Neyman-Pearson permite considerar simultáneamente los riesgos α, β y la
magnitud ∆ que se desea establecer. En la comparación de dos medias, se está interesado en tomar una
decisión entre dos valores concretos, por ejemplo 0 y ∆, que se sitúan en las hipótesis nula y alternativa:
𝐻0: 𝜇𝐴 − 𝜇𝐵 = 0
𝐻1: 𝜇𝐴 − 𝜇𝐵 = Δ
Ejemplo: Puede imaginarse, por ejemplo, que cierto tratamiento A tenga interés sanitario y comercial si,
respecto a la versión clásica B, ∆ representa aquella diferencia que hace rentable el desarrollo y la sustitución
de B por A. Como es habitual en la prueba de diferencias, el valor de la hipótesis nula indica la absoluta
igualdad entre ambos.
Supóngase que se conoce el grado de dispersión (σ) existente entre los resultados en varios pacientes
sometidos al mismo tratamiento. Supóngase también que se ha decidido que los riesgos de adoptar
decisiones erróneas sean exactamente α (bilateral) y β (unilateral). Para determinar el número “n” de
pacientes necesario en cada grupo, por simplicidad, se considera la situación (de máxima eficiencia) en la que
se dispone de exactamente el mismo número de casos en ambos grupos: nA = nB = n.
Fórmula: El tamaño muestral en cada grupo para la comparación de 2 medias es:
2 ∗ 𝜎 2 (𝑧𝛼 + 𝑧𝛽 )2
2
𝑛=
∆2
Recuerde
El cálculo del tamaño muestral depende de:
- los riesgos α y β que esté dispuesto a aceptar: cuanto menores, mayor tamaño.
- la dispersión σ del fenómeno estudiado: cuanto mayor, mayor tamaño.
- la magnitud ∆ de la diferencia que se desea demostrar: cuanto menor, mayor tamaño.
La potencia de un estudio para establecer una alternativa de interés es el complementario del riesgo β.
La potencia es la probabilidad de hallar diferencias entre dos tratamientos que realmente son diferentes

➢ Ejemplo: ¿Qué tamaño muestral sería necesario para detectar una diferencia en la altura
media de hombres y mujeres de 10 cm? Sea σ=8 cm y los riesgos habituales (α = 0.05 ; β=0.20).
2 ∗ 82 (1.96 + 0.84)2
𝑛= = 10.04
102
Se necesitan 11 casos por grupo (aunque con 10, prácticamente se alcanzaría el objetivo).
Note que también se puede hacer la pregunta a la inversa, es decir, preguntar por la diferencia que
se podría detectar dado un determinado tamaño muestral.

➢ Ejemplo (cont.): ¿Qué diferencia en la altura media de hombres y mujeres puede


detectar suponiendo que puede reclutar 40 pacientes en total?
Aislando Δ de la fórmula anterior se obtiene:

2 ∗ 𝜎 2 (𝑧𝛼 + 𝑧𝛽 )2
∆= √ 2
𝑛
Por lo tanto, suponiendo que puede reclutar 20 pacientes por grupo (40 en total):

2 ∗ 82 (1.96 + 0.84)2
∆= √ = 7.04
20

Con 20 pacientes por grupo se puede detectar una diferencia de 7.084 cm en la altura media
de hombres y mujeres.

También podría gustarte