Está en la página 1de 18

1

Tema 3: INTERVALOS DE CONFIANZA


1. Una buena forma de empezar la Inferencia estadística es hacerlo
mediante los Intervalos de confianza, porque aunque sean procedimientos
inferenciales, mantienen una importante conexión con la descriptiva. Por
esto lo planteo en este capítulo a modo de bisagra entre la Estadística
descriptiva y la Estadística inferencial.

2. En una buena parte de muestras, sabiendo la media y la Desviación


estándar podemos deducir todos los demás cálculos que podemos hacer a
una muestra. Por esto es tan habitual resumir una variable cuantitativa
mediante estos dos descriptores.

3. Cuanto más forma de campana de Gauss siga la distribución de los


valores de la muestra más será cierto lo dicho en el punto anterior.

4. Una muestra se distribuye de forma normal, o según una campana de


Gauss, básicamente cuando se cumplen dos condiciones: 1) Cerca de la
media está la mayoría de valores. 2) De forma progresiva y simétrica va
disminuyendo la densidad de valores al alejarse, por ambos lados, de la
media de la muestra. Hay formas precisas para comprobar la normalidad de
una muestra (como veremos en el Tema 14: Comparación de dos
poblaciones), y hay formas más aproximadas como son que la Asimetría
estandarizada y la Curtosis estandarizada de la muestra sean, ambos,
valores que estén entre -2 y 2, como hemos visto en el Tema 2.

5. La muestra (1, 4, 6, 6, 7, 7, 7, 8, 9, 11, 13) sigue bien el carácter de


normalidad. La muestra (3, 3, 3, 4, 11, 12, 12, 123) no lo sigue.

6. En la primera está claro que la mayor parte de valores están cercanos al


valor central de la muestra y a derecha e izquierda de ese valor central hay
más o menos el mismo número de valores; o sea, que hay simetría entre
ambos lados.

7. En la segunda, sin embargo, esto no es así. Observemos que hay como


tres focos en la muestra: uno próximo a 3, otro próximo a 12 y otro en torno
a 123. Esto no se ajusta al ritmo de la campana de Gauss.

8. Ante toda muestra que sigue bien una distribución normal podemos hacer
unas importantes afirmaciones acerca de la población:

9. Dentro del intervalo que va de la media menos una Desviación estándar


(DE) hasta la media más una DE tenemos aproximadamente el 68.5% de los
valores.
2

10. Esto lo escribimos normalmente así: M±DE. También escribiremos: (M-


DE, M+DE).

11. Ejemplo: Supongamos una muestra de alturas de personas, que sigue


bien una distribución normal, y que tiene una media de 170 y una DE de 8.

12. En esta población el 68.5% de las personas mide entre 162 y 178 cm, o
sea, dentro del intervalo (170-8, 170+8)= (162, 178).

13. De la misma forma, la media más menos dos DE cubre el 95% y la media
más menos tres DE cubre aproximadamente el 99.5%.

14. En el intervalo (154, 186) tenemos el 95% de individuos de la población y


en (146, 194) el 99.5%.

15. Media más menos una DE, más menos dos DE y más menos tres DE,
cubren, pues, el 68.5, el 95 y el 99.5%, respectivamente, de la población.

16. Muestra: (1, 2, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 10, 11, 15). Sigue la


distribución normal. La media es 6.75, la DE es 3.

17. Podemos decir que la población de donde hemos tomado esta muestra
es una Normal de media 6.75 y DE 3. Escrito así: N(6.75, 3).

18. Esta población queda modelizada por esa distribución. Lo que


calculemos a la N(6.75, 3) es como si le calculásemos a la población.

19. Por eso es un modelo, porque sustituye a una realidad, porque la


aproxima, porque la representa, porque, en cierto sentido, puede ocupar su
lugar.

20. La distribución normal, como modelo de la realidad, es muy usual porque


muchas variables se distribuyen de esta forma.

21. Gauss creó una maquinaria matemática (la campana de Gauss) que es
una buena maqueta de la variabilidad de muchas variables.

22. De Campanas de Gauss tenemos infinitas. El símbolo general de una de


ellas es N(μ, σ). ¿Qué significan la μ y la σ?

23. La μ y la σ son los llamados parámetros de la normal, son como las


tallas. Como cuando pedimos unos zapatos del 42.

24. Pero aquí pedimos dos números. Como si para los zapatos
necesitáramos pedir mediante dos números: uno para la longitud y otro para
la anchura.
3

25. La μ es el punto más alto de la campana de Gauss y la σ es una medida


del grosor de la campana, de su estilización.

26. He escrito ahora N(μ, σ) pero antes he usado la expresión N(M, DE), ¿por
qué?

27. Porque la media M, de una muestra, estima la media de la población que,


matemáticamente, es representada por la μ de la normal.

28. La DE de una muestra estima la σ, que es una medida de la dispersión


poblacional. Por eso M es a μ lo que DE es a σ.

29. Cuando decimos que utilizaremos una N(μ, σ) es como decir que
queremos comprar un determinado modelo de zapato.

30. Cuando decimos que utilizamos una N(M, DE) es como cuando pedimos
el número 42 de un determinado modelo de zapato, porque la M y la DE
siempre serán dos números concretos calculados a la muestra que
tengamos.

31. La M y la DE calculada a una muestra que se ajusta a una normal nos


eligen la talla de la campana de Gauss que se ajusta mejor a nuestro caso.

32. Una vez tenemos una normal concreta como modelo de una población lo
que calculemos al modelo es como si, en realidad, lo calculásemos a la
población.

33. Esta es la ventaja de tener modelos en ciencia: sustituyen a la realidad,


son maquetas matemáticas que podemos manejar.

34. Maquetas a las que les podemos preguntar cosas: lo que ellas nos
respondan es, aproximadamente, lo que nos respondería la población
modelizada.

35. Lo de media más menos una, dos y tres DE y los porcentajes vistos son
ejemplos de esas preguntas posibles.

36. Modelizar, crear modelos, sirve, pues, para representar una realidad con
piezas de otros materiales. Piezas y materiales que son mucho más
fácilmente manejables, a los que se les puede alterar cosas y ver su
comportamiento, su respuesta.

37. En matemáticas a los modelos se les puede calcular cosas con mucha
facilidad. En Estadística un modelo representa, dibuja una realidad
determinada, una población, por lo tanto, estos cálculos que hagamos en él
son como si les hiciésemos a estas poblaciones.
4

38. Al calcularle cosas al modelo es como si estuviéramos calculándole


cosas a algo que en realidad no tenemos. Este juego es importante
entenderlo bien. Es clave para comprender el proceder de la Estadística.

39. Veamos, ahora, un dibujo de la campana de Gauss y de los tres


intervalos (media más menos una, dos y tres desviaciones estándar)
asociados a los tres números (68.5%, 95% y 99.5%), respectivamente;
números que ya no debemos olvidar nunca para poder manejar con
propiedad estos dos básicos descriptores de una muestra que son la media
y la desviación estándar:

40. Si no hay ajuste a la distribución normal es más recomendable,


entonces, usar la mediana y el rango intercuartílico porque al usar la media
y la desviación estándar, con el más y el menos entre ellas, resulta una
invitación a una inferencia que en absoluto es correcta. Incluso pueden
resultar muy incorrectas las inferencias que hagamos a partir de estos dos
valores. Ver el importante artículo ¿La media y la desviación estándar o la
mediana y el rango intercuartílico? para aclarar cuándo resumir una
variable de una u otra forma.

41. Veamos, ahora, otra cuestión que lleva a muchos errores. Una de las
confusiones más frecuentes que cometen los usuarios de la Estadística se
da entre dos nociones de intervalo de confianza bien distintas que pueden
usarse y que, si no están claramente perfiladas, es fácil intercambiar y
mezclar. Vamos a intentar clarificar estas dos nociones de intervalo de
confianza porque hasta ahora hemos visto únicamente una de ellas:

42. Supongamos que un estudio dice que un intervalo del 95% de la media
de la altura de adultos en una población es (169, 171). ¿Significa esto que
el 95% de la gente de esa población mide entre 169 y 171?

43. Supongamos dos equipos de investigación que estudian las alturas de


una misma población: el equipo A y el equipo B.

44. El equipo A toma una muestra de tamaño 100 de esta población y la


media resulta que es 170 y la desviación estándar (DE) es 10.
5

45. El equipo B toma una muestra de tamaño 400 de la misma población y


resulta que al calcular la media y la DE obtiene los mismos valores: 170 y
10.

46. El que la media y la DE den lo mismo es porque estamos teorizando y me


va bien que sea así, pero no sería extraño que dieran valores muy parecidos.

47. Pensemos que ambos equipos están estudiando la misma población. Es


lógico que no haya mucha diferencia entre los descriptores calculados a sus
muestras.

48. Ambos equipos dirán que entre 150 y 190 tenemos el 95% de alturas
poblacionales, por todo lo dicho antes.

49. Para decir eso ambos equipos miran primero la normalidad de la muestra
y toman, luego, la media y le suman y restan dos veces la DE.

50. Estarían aplicando, ambos equipos, esta regla general que en toda
distribución normal la media más menos dos desviaciones estándar cubren
el 95% de los valores individuales.

51. Pero si ambos equipos nos dieran un intervalo del 95% de la media sería:
(168, 172) el del equipo A y (169, 171) el del equipo B.

52. Porque el intervalo es ahora “de la media”. Este intervalo no significa


que el 95% de alturas están entre sus límites.

53. Significa que tenemos una confianza del 95% de que la verdadera media
poblacional esté dentro del intervalo.

54. Y en este tipo de intervalo de la media el tamaño de la muestra es


determinante porque marca la precisión que tenemos para hacer una
predicción.

55. Cuanto mayor sea el tamaño de la muestra más precisión y, por lo tanto,
más estrecho será el intervalo.

56. Para entender esto hay que profundizar en la noción de variable en


Estadística.

57. Una variable cuantitativa es una medida que podemos evaluar a unas
entidades determinadas. El peso, la altura, la renta en 2010 son variables
que podemos medir a personas.

58. El número de sílabas es una variable que podemos medir a toda palabra
del castellano. El número de trabajadores lo es para empresas, etc.
6

59. Pues bien, algo muy importante: la media muestral es una variable que
se puede medir a toda muestra de un tamaño n en una población. Esto es
muy importante. Esta noción de media muestral, con su dualidad (el ser un
número para una muestra y el ser una variable para el conjunto de todas las
muestras posibles), es realmente uno de los temas esenciales de la
Estadística.

60. Cuando tomamos una muestra de una población la muestra que tenemos
es una de las muchísimas muestras que podríamos tener.

61. Claro que nosotros únicamente tenemos una, pero el número de


muestras que hubiéramos podido tener y no tenemos es enorme.

62. Es sorprendente pero en Estadística para sacarle provecho a una


muestra debemos pensar no únicamente en ella sino en todo el repertorio
de muestras que hubiéramos podido tener y no tenemos. Es como si el
significado de lo que tenemos quedara explicitado por todo lo que no
tenemos pero que hubiéramos podido tener.

63. Por lo tanto, la media muestral como variable que es tiene media y DE.
Si la media muestral es una variable, como toda variable tiene media y
desviación estándar, también las tendrá, evidentemente, la media muestral
o cualquier estadístico, cualquier descriptor, cualquier estimador que
calculemos a una muestra.

64. Media y DE que nunca tendremos realmente pero sí idealmente,


teóricamente, conceptualmente; que significa, en Estadística, algo así como
aproximadamente. Y no tendremos todas las muestras posibles nunca
porque para tenerlas necesitaríamos tener toda la población y si tuviéramos
toda la población, evidentemente, no nos haría falta para nada la
Estadística.

65. Pues aquí va un concepto muy importante: Si una variable sigue la N(M,
DE) la media de esta variable también es una normal.

66. Una normal también con su media y su desviación estándar. Su media


es, exactamente, la misma que la de la variable original; o sea: M.

67. Su DE es la de la variable original dividido por la raíz cuadrada del


tamaño de muestra: DE/raíz(n).

68. O sea, si una variable sigue una distribución N(M, DE) la media muestral
sigue una distribución N(M, DE/raíz(n)).

69. De ahí que la precisión a la hora de construir intervalos de confianza de


la media dependa del tamaño de muestra.
7

70. Cuanto mayor es el tamaño de la muestra, como la n está en el


denominador, el cociente DE/raíz(n) es menor.

71. Por lo tanto, los intervalos construidos a partir de esta desviación


estándar serán, así, más estrechos, más precisos.

72. Y es muy importante tener en cuenta que ahora el intervalo construido


es un intervalo de la media poblacional. Por esto hablamos de intervalo de
la media y no de intervalo a secas.

73. Cuando se habla de intervalo sin más, como lo hemos hecho al comienzo
de este tema, nos estaremos refiriendo habitualmente a intervalos de
valores individuales de la variable estudiada.

74. Es obvio que estamos hablando, pues, de dos tipos de intervalos


completamente distintos, aunque, como tales, funcionan igual: creando un
intervalo de un determinado nivel de confianza. Pero con objetivos
diametralmente distintos, evidentemente.

75. Volvamos al ejemplo de antes. Teníamos dos equipos: el A y el B,


estudiando las alturas de una misma población.

76. Los dos equipos trabajaban con distinto tamaño de muestra: el A con
tamaño 100 y el B con tamaño 400. Pero los dos tenían igual M y DE.

77. Como las M y las DE son las mismas en ambas muestras, decía antes
que el intervalo del 95% de valores que dan es el mismo.

78. Porque ambos equipos modelizan la población de la misma forma: con


una distribución normal N(170, 10).

79. Pero veíamos también que el intervalo de confianza del 95% de la media
que da cada equipo es distinto: (168, 172) y (169, 171).

80. Veamos cómo calcula cada equipo su intervalo de confianza del 95% de
la media.

81. Para el equipo A, DE/raíz(n) vale 10/raíz(100)=10/10=1. Por lo tanto, la


media muestral sigue una distribución N(170, 1).

82. Para el equipo B, DE/raíz(n) vale 10/raíz(400)=10/20=0.5. Por lo tanto, la


media muestral sigue una distribución N(170, 0.5).

83. Puede entenderse, pues, que si construyen un intervalo de confianza del


95% de la media tomen la media más menos dos DE/raíz(n).
8

84. El cociente DE/raíz(n) es la DE de la media muestral. A esta DE de la


media muestral, vista ésta como variable, se le denomina Error estándar
(EE). La relación entre el EE y la DE es la siguiente:

85. El Error estándar es, por lo tanto, una Desviación estándar, pero se le
denomina así para singularizarla. Es una Desviación estándar pero de una
predicción: en nuestro caso de la media poblacional, pero podría ser de otro
valor poblacional.

86. A toda Desviación estándar de una predicción se le denomina Error


estándar. Y lo que tienen todos esos Errores estándar en común es que se
trata de una operación donde en el numerador hay una medida de la
Desviación estándar de la variable estudiada y en el denominador está de
alguna forma contemplado el tamaño de muestra.

87. Por lo tanto, el tamaño de muestra condiciona completamente la


magnitud del Error estándar, en cambio no lo hace así con la Desviación
estándar de una variable, la cual se debe a las peculiaridades de la
distribución de valores de esa variable en la naturaleza.

88. El error estándar es, pues, una DE, pero una DE de la media muestral,
una DE que se construye a partir de la DE de la variable original.

89. Se entiende, pues, que el intervalo del 95% del equipo A sea (168, 172) y
el del B sea (169, 171), basta con sumar y restar dos errores estándar (EE).

90. El EE que tenía la media muestral del equipo A hemos visto que era 1, de
ahí el 170±2: (168, 172).

91. El EE que tenía la media muestral del equipo B hemos visto que era 0.5.
Dos veces ese EE nos lleva al intervalo 170±1: (169, 171). A continuación un
resumen en forma de tabla de este ejemplo:
9

92. Tener muestras más grandes, pues, nos permite construir intervalos más
estrechos a la hora de hacer predicciones.

93. Es básico tener en cuenta siempre en Estadística una cosa que es muy
importante: Cuando una muestra es grande habrá poca diferencia entre las
diferentes muestras que hubiéramos podido obtener pero que no tenemos.
Por lo tanto, es más fiable, estamos muy posiblemente más cerca de lo que
buscamos, de lo que pretendemos estimar, en estas circunstancia. Por lo
tanto, los intervalos que construyamos podrán ser relativamente estrechos.

94. Sin embargo, cuando una muestra es pequeña las diferentes muestras
que hubiéramos podido obtener pero que no tenemos son, ahora, muy
diversas entre ellas. Evidentemente, lo que calculemos a la que tenemos es,
ahora, menos fiable. Es muy posible que estemos considerablemente lejos
del valor que queremos pronosticar. Por lo tanto, los intervalos deben ser,
en estas circunstancias, mayores, porque tenemos mucha inseguridad en lo
que le calculemos a esta muestra.

95. Es, pues, muy importante diferenciar: En ocasiones se dan intervalos de


la variación de una variable, como cuando se daba el intervalo (150, 190).

96. En otras ocasiones se dan intervalos de la media como los (168, 172) o
(169, 171). Es básico ver esta diferencia. Es fundamental distinguir cuándo
tenemos un tipo de intervalo y cuándo tenemos el otro tipo, porque son
sustancialmente distintos.

97. Repito: aquí hablo de intervalos de la media, pero deberíamos hablar de


intervalos de una predicción. Cualquier predicción va asociada de un tipo de
intervalo que representa un intervalo de confianza sobre un determinado
valor poblacional y se construye mediante un Error estándar.
10

98. Iremos viendo, a lo largo de este curso, valores poblacionales que


suelen estimarse mediante intervalos de confianza de este tipo: la media, la
correlación de dos variables, la Odds ratio, los coeficientes de una regresión
entre dos o más variables, etc.

99. Los dos intervalos de confianza más usuales son el de la media y el de


una proporción. A continuación vemos cómo se construye un intervalo del
95% de ambos valores poblacionales:

100. Observemos cómo se aplicaría el segundo de estos intervalos. El


primero ya lo hemos visto a lo largo de la exposición del tema. Supongamos
que hemos hecho un estudio mediante el cual queremos estimar la
prevalencia de la diabetes en España. La muestra, supongamos, que es de
tamaño 10000 y que 700 tienen diabetes; o sea, un 7% ó un 0.07, hablando
en proporciones, en tanto por uno. Si queremos construir un intervalo de
confianza del 95% para estimar la proporción poblacional de diabéticos en
España aplicaríamos, entonces, la segunda formulación de la siguiente
forma:
11

101. Como puede observarse aunque el cálculo se haga en tanto por uno,
porque esta es la formulación habitual, al final el intervalo del 95% lo
expresamos en términos porcentuales. Estaríamos, pues diciendo que con
una confianza del 95% la proporción de diabéticos en España está entre el
6.49% y el 7.51%.

Tema 16: DETERMINACIÓN DEL


TAMAÑO DE MUESTRA
1. La pregunta que más se le hace a un estadístico es: “¿Qué tamaño de
muestra necesito?”.

2. El problema que tiene esta pregunta es que, así, sin más, no tiene
respuesta. Es una pregunta que engendra preguntas porque el estadístico,
sin más información, no puede decir nada, como veremos a continuación.

3. Es conveniente diferenciar dos ámbitos distintos en la determinación del


tamaño de muestra: a) Cuando hacemos una predicción. b) Cuando hacemos
un contraste de hipótesis. Empezaremos planteando el primer caso y, en
concreto, ejemplificado en la predicción de una media poblacional.

4. El radio (r) de un intervalo de confianza de la predicción de la media


poblacional, la Desviación estándar (DE) y el tamaño muestral (n) mantienen
una relación que puede expresarse en una ecuación muy importante en
Estadística:
12

5. Recordemos que un intervalos de confianza de la media como, por


ejemplo: (5, 15), tiene como radio 5 y como diámetro tendría 10. Y
recordemos, también, que estos intervalos tienen un porcentaje de
confianza. Recordemos, también, que esta expresión la podemos deducir de
todo lo visto en el Tema 3: Intervalos de confianza.

6. Esta constante k dependerá de ese porcentaje de confianza con el que


queramos expresar el pronóstico. En el caso de que estemos trabajando con
la media poblacional y en caso de seguir, nuestra variable, la distribución
normal, o, si no es así, que el tamaño muestral sea grande (superior a 30)
este valor de k, si el nivel de confianza es del 95%, es aproximadamente 2.

7. Por lo tanto, la ecuación quedaría así:

8. Vamos a reflexionar algunas cosas importantes que se desprenden de


esta importantísima igualdad.

9. Esta ecuación no aparece por arte de magia, surge de la fundamental


noción de Error estándar (EE), cuya expresión recordemos que, para el
pronóstico de la media poblacional, es EE=DE/raiz(n).

10. De hecho, ya lo hemos dicho en diferentes ocasiones, que en cualquier


estimación, en cualquier pronóstico, está implicado el Error estándar. El EE
es una DE, pero es la DE de una predicción. Esto es lo que lo caracteriza.

11. Pero, además, hemos visto también que la noción de EE era fundamental
para la construcción del intervalo de confianza del 95%.

12. Y en la ecuación r=2•DE/raiz(n) la parte derecha de la igualdad es esa


expresión de dos veces el error estándar.

13. Otra forma de expresar esa ecuación, despejando la n, es:


13

donde ya la tenemos en la forma deseada, porque lo que queremos es


determinar el tamaño de muestra, la n, en un estudio concreto.

14. Una vez tenemos la ecuación podemos hacer afirmaciones a partir de


ella. En una ecuación la posición relativa de los conceptos es muy
importante. Veamos: Si hay mucha dispersión necesitamos más n. Si hay
poca dispersión no necesitaremos tanto tamaño de muestra. La relación
entre n y la DE es directa. A más DE más n. A menos DE menos n.

15. Si necesitamos una precisión grande en nuestras predicciones; o sea, un


radio r pequeño, entonces deberemos tener una muestra grande. Si no
necesitamos mucha precisión; o sea, si no precisamos un radio r muy
pequeño, la muestra podrá ser menor. Por lo tanto, el tamaño de muestra
está relacionado de forma inversa con ese radio del intervalo.

16. O sea, a la hora de elegir un tamaño de muestra debemos saber qué


precisión necesitamos y qué dispersión podemos prever que tendremos en
la futura muestra. Necesitamos saber, pues, cómo será la muestra que aún
no tenemos.

17. Esta paradoja es importante: para elegir un tamaño de muestra ideal


necesitamos saber cómo será la dispersión de esa futura muestra.

18. El conocimiento de lo que todavía no conocemos lo debemos suplir por


información de otros estudios previos o por una muestra piloto, una pequeña
muestra previa, una premuestra, que nos permita hacer una previsión de la
dispersión que tenemos en el estudio.

19. Respecto a la precisión requerida en el estudio, expresada ésta por el


radio del intervalo (r), no siempre uno sabe lo que le interesa o lo que
necesita. En este caso lo que uno quiere es estar lo más cerca del valor que
estima. Pero es necesario especificar, de antemano, esa precisión porque
de ello depende el tamaño de muestra que hemos de tomar. Porque está en
la ecuación.
14

20. Un ejemplo: Estamos estudiando la media de altura de una población


adulta y queremos construir un intervalo de confianza del 95% de la media
poblacional cuyo radio no sea mayor que 1; o sea, queremos construir un
intervalo de confianza con el valor de la media muestral más menos 1.

21. Observemos que a partir de la ecuación n=4•DE 2/r2 sabemos r que vale 1,
pero nos falta saber DE. Si sabemos, por otros estudios, que la DE en estas
poblaciones es un valor cercano a 10 ya lo tenemos todo para determinar el
tamaño de muestra que necesitamos. Entonces el tamaño de muestra ideal
para trabajar es: n=4*100/1=400. Con este tamaño de muestra y con esta
dispersión podremos construir un intervalo de confianza del 95% de la
media poblacional a partir de la media muestral que calculemos a la
muestra con un radio de 1.

22. Observemos ahora lo mismo pero visto desde el otro lado: Tomamos una
muestra de tamaño 400 y calculamos la media que es, por ejemplo, 170 y la
DE que resulta ser, finalmente 10, como ya habíamos predicho por estudios
previos. Entonces, al calcular el intervalo de confianza de la media
poblacional lo haríamos sumando y restando dos veces el Error estándar. Y
el Error estándar, en esta muestra, sería 10/raíz(400)=0.5. El intervalo de
confianza sería, entonces, 170±1, que es del nivel de precisión que
queríamos.

23. Si la variable es dicotómica (una variable como hombre-mujer o tiene o


no diabetes) la fórmula es la misma pero ahora la DE es raíz cuadrada de
p(1-p), que es la Desviación estándar de una variable dicotómica. O sea,
debemos saber cuál debe ser, aproximadamente, el valor de p que
acabaremos estimando para ponerlo en la ecuación. Ante la duda se elige
como p el valor de 0.5 que nos daría el máximo valor posible de tamaño
muestral. Supongamos que queremos estimar la prevalencia de la diabetes
en un país y queremos determinar el tamaño de muestra. Sabemos por otros
estudios que debe estar en torno al 10% (0.1 en tanto por 1). Queremos
tener un radio del intervalo del 1%. Entonces la fórmula sería:
n=4*0,1*0,9/0,0001=3600. El 0,0001 es por el 0,01 al cuadrado. La fórmula
general en una variable dicotómica es, pues:

24. Con esto hemos visto que el tamaño de muestra n en un caso de


estimación de un valor poblacional, en un caso de un pronóstico
poblacional, es una función de la DE y de la precisión requerida, expresada
15

como el radio del intervalo de confianza. Sin estos dos valores no es posible
determinar el tamaño de muestra requerido; o sea, expresado en forma
funcional, podemos decir que n es función de DE y de r:

25. Sorprende mucho a todo no estadístico que consulta por el tamaño de


muestra que necesita (lo repito porque es muy importante que quede muy
claro) que precise de la DE antes de coger la muestra, porque es
precisamente la muestra la que le acabará dando esa DE. Es aparentemente
un círculo vicioso, pero es así. No hace falta tener un valor exacto pero sí
aproximado de cuál será la DE con la que se encontrará. Esto puede llegar a
saberlo por estudios previos equivalentes hechos por otros o mediante una
muestra piloto, o premuestra.

26. Cuando el problema es determinar el tamaño de muestra en un contraste


de hipótesis la situación es otra (Recordemos que en el punto 3 hemos visto
que la determinación del tamaño de muestra es conveniente verla en dos
ámbitos por separado). Entran en juego, ahora, muchos más elementos. En
el caso, por ejemplo, de un contraste de la diferencia de medias tendríamos
ahora una función de cuatro variables como la siguiente:

donde alfa es el nivel de significación, 1-beta es la potencia, DE es, como


antes, la Desviación estándar y d es la diferencia mínima que interesa
detectar.

27. Una función, pues, que depende de cuatro factores, de cuatro valores.
Necesitamos más cosas, pues, que antes. Veámoslas una a una: La
primera, la alfa, es la menos problemática, es el nivel de significación, es el
error de tipo I (Ver el artículo La noción de potencia estadística), solemos
fijarla siempre en el valor 0.05.
28. La 1-beta es la potencia estadística (Ver, de nuevo, también, el
artículo La noción de potencia estadística). Interesa que sea un valor alto.
La beta es, como se puede ver también en ese artículo citado, el
denominado error de tipo II, un error que no está fijado de antemano, como
sí sucede con el error de tipo I, y que, por lo tanto, conviene conocerlo,
puesto que para que el procedimiento de decisión sea bueno deben ser
pequeños los dos tipos de error que se pueden cometer. La potencia suele
16

aceptarse que a partir de 0.8 es ya una potencia considerable. Lo ideal, no


obstante, sería tenerla de 0.95.

29. Con la DE pasa lo de antes, necesitamos buscar información de estudios


similares o tomar una premuestra para saber aproximadamente cuál es su
valor.

30. La d suele ser compleja. Al estadístico es lo que le cuesta más


conseguir del profesional que necesita de la Estadística. Es, en el caso de
tratarse de una comparación de medias, la diferencia mínima que interesa
detectar, la diferencia mínima relevante desde el punto de vista médico,
económico, lingüístico, etc. (Ver el Tema 9: Significación formal versus
Significación material). Podríamos decir que esa d es el valor mínimo por el
que tendría valor haber hecho la propia comparación. Un ejemplo, si se
trabaja con pacientes hipertensos con media 160 y se ensaya un
antihipertensivo se puede fijar una diferencia mínima a detectar de 20 (que
baja a 140 la presión, como mínimo), puesto que si es menos de eso no será
un buen antihipertensivo.

31. Existen fórmulas para casos específicos, como sucede con la siguiente
fórmula para el Test de la t de Student de una muestra:
17

32. Observemos que esta fórmula es interesante para entender todos los
conceptos de los que estamos hablando en este tema. Hay en el numerador
del cociente interior al paréntesis dos constantes: una que depende de la
alfa y otra que depende de la beta. Dependen, pues, ambas constantes, del
error que estemos dispuestos a cometer en el proceso de decisión. Cuanto
menor sea alfa y beta más grandes serán esas constantes y, por lo tanto,
mayor será el tamaño de muestra. Además, como puede verse
perfectamente en esta fórmula, en un contraste de hipótesis la
determinación del tamaño de muestra es una función de cuatro variables.

33. Existen aplicaciones diferentes muy bien diseñadas para poder elegir el
tamaño muestral necesario para un estudio determinado. Pero es
fundamental entender todo lo comentado en este Tema para poder usar
esas aplicaciones y saber interpretar lo que obtenemos con ellas. Y es
básico, además, porque en esta aplicaciones lo primero que te piden es
elegir qué tipo de estudio (si comparación de proporciones, de medias, de
Odds ratio, etc) y después qué DE tienes, la diferencia mínima a detectar, la
potencia que quieres tener, etc.

34. Un enlace excelente para practica todo esto es el siguiente:

http://www.imim.es/ofertadeserveis/software-public/granmo/

35. Unos comentarios para el uso de este enlace. Cuando se comparan dos
poblaciones se pide la relación entre los tamaños de muestra. Si es que
conviene o es inevitable tener más muestra en una u otra población. Si no
es así se añade un 1, que simboliza que puede ser el mismo tamaño
muestra. También pide una previsión de los valores que pueden perderse al
ir analizando. Esto está pensando para casos donde sea previsible perder un
porcentaje de muestra más o menos previsible. Si no se prevé pérdida se
pone un 0 en esta opción. Por otro lado el manejo es bastante sencillo. La
alfa suele elegirse 0.05, la beta 0.2 ó menos (por lo tanto, potencia 0.8 ó
más), la DE la que podamos saber o prever y la diferencia a detectar la
mínima que uno está dispuesto a aceptar como relevante antes de empezar
el trabajo.

36. Y ahora un breve comentario final a las situaciones de muestras de


poblaciones finitas. Nos referimos a situaciones donde la población es
pequeña y puede modificar el tamaño de muestra. Hasta ahora estábamos
bajo el supuesto de poblaciones lo suficientemente grandes como para
considerarlas infinitas.

37. Veamos una fórmula usual que nos ayudará a aclarar las cosas:
18

38. Como puede verse es una modificación de una que hemos visto al iniciar
este tema. La N es el tamaño de la población. Evidentemente si este valor
es muy grande los dos cocientes donde participa se hacen tan pequeños
que son insignificantes. Si, por el contrario, esta N es pequeña estos
cocientes pueden modificar la n necesaria para tener un determinado tipo
de precisión y deberemos tenerla en cuenta.

39. A continuación muestro una tabla donde se expresan los cálculos de


estas n en condiciones diferentes (en función del radio r y del tamaño
poblacional):

También podría gustarte