Documentos de Académico
Documentos de Profesional
Documentos de Cultura
8. Ante toda muestra que sigue bien una distribución normal podemos hacer
unas importantes afirmaciones acerca de la población:
12. En esta población el 68.5% de las personas mide entre 162 y 178 cm, o
sea, dentro del intervalo (170-8, 170+8)= (162, 178).
13. De la misma forma, la media más menos dos DE cubre el 95% y la media
más menos tres DE cubre aproximadamente el 99.5%.
15. Media más menos una DE, más menos dos DE y más menos tres DE,
cubren, pues, el 68.5, el 95 y el 99.5%, respectivamente, de la población.
17. Podemos decir que la población de donde hemos tomado esta muestra
es una Normal de media 6.75 y DE 3. Escrito así: N(6.75, 3).
21. Gauss creó una maquinaria matemática (la campana de Gauss) que es
una buena maqueta de la variabilidad de muchas variables.
24. Pero aquí pedimos dos números. Como si para los zapatos
necesitáramos pedir mediante dos números: uno para la longitud y otro para
la anchura.
3
26. He escrito ahora N(μ, σ) pero antes he usado la expresión N(M, DE), ¿por
qué?
29. Cuando decimos que utilizaremos una N(μ, σ) es como decir que
queremos comprar un determinado modelo de zapato.
30. Cuando decimos que utilizamos una N(M, DE) es como cuando pedimos
el número 42 de un determinado modelo de zapato, porque la M y la DE
siempre serán dos números concretos calculados a la muestra que
tengamos.
32. Una vez tenemos una normal concreta como modelo de una población lo
que calculemos al modelo es como si, en realidad, lo calculásemos a la
población.
34. Maquetas a las que les podemos preguntar cosas: lo que ellas nos
respondan es, aproximadamente, lo que nos respondería la población
modelizada.
35. Lo de media más menos una, dos y tres DE y los porcentajes vistos son
ejemplos de esas preguntas posibles.
36. Modelizar, crear modelos, sirve, pues, para representar una realidad con
piezas de otros materiales. Piezas y materiales que son mucho más
fácilmente manejables, a los que se les puede alterar cosas y ver su
comportamiento, su respuesta.
37. En matemáticas a los modelos se les puede calcular cosas con mucha
facilidad. En Estadística un modelo representa, dibuja una realidad
determinada, una población, por lo tanto, estos cálculos que hagamos en él
son como si les hiciésemos a estas poblaciones.
4
41. Veamos, ahora, otra cuestión que lleva a muchos errores. Una de las
confusiones más frecuentes que cometen los usuarios de la Estadística se
da entre dos nociones de intervalo de confianza bien distintas que pueden
usarse y que, si no están claramente perfiladas, es fácil intercambiar y
mezclar. Vamos a intentar clarificar estas dos nociones de intervalo de
confianza porque hasta ahora hemos visto únicamente una de ellas:
42. Supongamos que un estudio dice que un intervalo del 95% de la media
de la altura de adultos en una población es (169, 171). ¿Significa esto que
el 95% de la gente de esa población mide entre 169 y 171?
48. Ambos equipos dirán que entre 150 y 190 tenemos el 95% de alturas
poblacionales, por todo lo dicho antes.
49. Para decir eso ambos equipos miran primero la normalidad de la muestra
y toman, luego, la media y le suman y restan dos veces la DE.
50. Estarían aplicando, ambos equipos, esta regla general que en toda
distribución normal la media más menos dos desviaciones estándar cubren
el 95% de los valores individuales.
51. Pero si ambos equipos nos dieran un intervalo del 95% de la media sería:
(168, 172) el del equipo A y (169, 171) el del equipo B.
53. Significa que tenemos una confianza del 95% de que la verdadera media
poblacional esté dentro del intervalo.
55. Cuanto mayor sea el tamaño de la muestra más precisión y, por lo tanto,
más estrecho será el intervalo.
57. Una variable cuantitativa es una medida que podemos evaluar a unas
entidades determinadas. El peso, la altura, la renta en 2010 son variables
que podemos medir a personas.
58. El número de sílabas es una variable que podemos medir a toda palabra
del castellano. El número de trabajadores lo es para empresas, etc.
6
59. Pues bien, algo muy importante: la media muestral es una variable que
se puede medir a toda muestra de un tamaño n en una población. Esto es
muy importante. Esta noción de media muestral, con su dualidad (el ser un
número para una muestra y el ser una variable para el conjunto de todas las
muestras posibles), es realmente uno de los temas esenciales de la
Estadística.
60. Cuando tomamos una muestra de una población la muestra que tenemos
es una de las muchísimas muestras que podríamos tener.
63. Por lo tanto, la media muestral como variable que es tiene media y DE.
Si la media muestral es una variable, como toda variable tiene media y
desviación estándar, también las tendrá, evidentemente, la media muestral
o cualquier estadístico, cualquier descriptor, cualquier estimador que
calculemos a una muestra.
65. Pues aquí va un concepto muy importante: Si una variable sigue la N(M,
DE) la media de esta variable también es una normal.
68. O sea, si una variable sigue una distribución N(M, DE) la media muestral
sigue una distribución N(M, DE/raíz(n)).
73. Cuando se habla de intervalo sin más, como lo hemos hecho al comienzo
de este tema, nos estaremos refiriendo habitualmente a intervalos de
valores individuales de la variable estudiada.
76. Los dos equipos trabajaban con distinto tamaño de muestra: el A con
tamaño 100 y el B con tamaño 400. Pero los dos tenían igual M y DE.
77. Como las M y las DE son las mismas en ambas muestras, decía antes
que el intervalo del 95% de valores que dan es el mismo.
79. Pero veíamos también que el intervalo de confianza del 95% de la media
que da cada equipo es distinto: (168, 172) y (169, 171).
80. Veamos cómo calcula cada equipo su intervalo de confianza del 95% de
la media.
85. El Error estándar es, por lo tanto, una Desviación estándar, pero se le
denomina así para singularizarla. Es una Desviación estándar pero de una
predicción: en nuestro caso de la media poblacional, pero podría ser de otro
valor poblacional.
88. El error estándar es, pues, una DE, pero una DE de la media muestral,
una DE que se construye a partir de la DE de la variable original.
89. Se entiende, pues, que el intervalo del 95% del equipo A sea (168, 172) y
el del B sea (169, 171), basta con sumar y restar dos errores estándar (EE).
90. El EE que tenía la media muestral del equipo A hemos visto que era 1, de
ahí el 170±2: (168, 172).
91. El EE que tenía la media muestral del equipo B hemos visto que era 0.5.
Dos veces ese EE nos lleva al intervalo 170±1: (169, 171). A continuación un
resumen en forma de tabla de este ejemplo:
9
92. Tener muestras más grandes, pues, nos permite construir intervalos más
estrechos a la hora de hacer predicciones.
93. Es básico tener en cuenta siempre en Estadística una cosa que es muy
importante: Cuando una muestra es grande habrá poca diferencia entre las
diferentes muestras que hubiéramos podido obtener pero que no tenemos.
Por lo tanto, es más fiable, estamos muy posiblemente más cerca de lo que
buscamos, de lo que pretendemos estimar, en estas circunstancia. Por lo
tanto, los intervalos que construyamos podrán ser relativamente estrechos.
94. Sin embargo, cuando una muestra es pequeña las diferentes muestras
que hubiéramos podido obtener pero que no tenemos son, ahora, muy
diversas entre ellas. Evidentemente, lo que calculemos a la que tenemos es,
ahora, menos fiable. Es muy posible que estemos considerablemente lejos
del valor que queremos pronosticar. Por lo tanto, los intervalos deben ser,
en estas circunstancias, mayores, porque tenemos mucha inseguridad en lo
que le calculemos a esta muestra.
96. En otras ocasiones se dan intervalos de la media como los (168, 172) o
(169, 171). Es básico ver esta diferencia. Es fundamental distinguir cuándo
tenemos un tipo de intervalo y cuándo tenemos el otro tipo, porque son
sustancialmente distintos.
101. Como puede observarse aunque el cálculo se haga en tanto por uno,
porque esta es la formulación habitual, al final el intervalo del 95% lo
expresamos en términos porcentuales. Estaríamos, pues diciendo que con
una confianza del 95% la proporción de diabéticos en España está entre el
6.49% y el 7.51%.
2. El problema que tiene esta pregunta es que, así, sin más, no tiene
respuesta. Es una pregunta que engendra preguntas porque el estadístico,
sin más información, no puede decir nada, como veremos a continuación.
11. Pero, además, hemos visto también que la noción de EE era fundamental
para la construcción del intervalo de confianza del 95%.
21. Observemos que a partir de la ecuación n=4•DE 2/r2 sabemos r que vale 1,
pero nos falta saber DE. Si sabemos, por otros estudios, que la DE en estas
poblaciones es un valor cercano a 10 ya lo tenemos todo para determinar el
tamaño de muestra que necesitamos. Entonces el tamaño de muestra ideal
para trabajar es: n=4*100/1=400. Con este tamaño de muestra y con esta
dispersión podremos construir un intervalo de confianza del 95% de la
media poblacional a partir de la media muestral que calculemos a la
muestra con un radio de 1.
22. Observemos ahora lo mismo pero visto desde el otro lado: Tomamos una
muestra de tamaño 400 y calculamos la media que es, por ejemplo, 170 y la
DE que resulta ser, finalmente 10, como ya habíamos predicho por estudios
previos. Entonces, al calcular el intervalo de confianza de la media
poblacional lo haríamos sumando y restando dos veces el Error estándar. Y
el Error estándar, en esta muestra, sería 10/raíz(400)=0.5. El intervalo de
confianza sería, entonces, 170±1, que es del nivel de precisión que
queríamos.
como el radio del intervalo de confianza. Sin estos dos valores no es posible
determinar el tamaño de muestra requerido; o sea, expresado en forma
funcional, podemos decir que n es función de DE y de r:
27. Una función, pues, que depende de cuatro factores, de cuatro valores.
Necesitamos más cosas, pues, que antes. Veámoslas una a una: La
primera, la alfa, es la menos problemática, es el nivel de significación, es el
error de tipo I (Ver el artículo La noción de potencia estadística), solemos
fijarla siempre en el valor 0.05.
28. La 1-beta es la potencia estadística (Ver, de nuevo, también, el
artículo La noción de potencia estadística). Interesa que sea un valor alto.
La beta es, como se puede ver también en ese artículo citado, el
denominado error de tipo II, un error que no está fijado de antemano, como
sí sucede con el error de tipo I, y que, por lo tanto, conviene conocerlo,
puesto que para que el procedimiento de decisión sea bueno deben ser
pequeños los dos tipos de error que se pueden cometer. La potencia suele
16
31. Existen fórmulas para casos específicos, como sucede con la siguiente
fórmula para el Test de la t de Student de una muestra:
17
32. Observemos que esta fórmula es interesante para entender todos los
conceptos de los que estamos hablando en este tema. Hay en el numerador
del cociente interior al paréntesis dos constantes: una que depende de la
alfa y otra que depende de la beta. Dependen, pues, ambas constantes, del
error que estemos dispuestos a cometer en el proceso de decisión. Cuanto
menor sea alfa y beta más grandes serán esas constantes y, por lo tanto,
mayor será el tamaño de muestra. Además, como puede verse
perfectamente en esta fórmula, en un contraste de hipótesis la
determinación del tamaño de muestra es una función de cuatro variables.
33. Existen aplicaciones diferentes muy bien diseñadas para poder elegir el
tamaño muestral necesario para un estudio determinado. Pero es
fundamental entender todo lo comentado en este Tema para poder usar
esas aplicaciones y saber interpretar lo que obtenemos con ellas. Y es
básico, además, porque en esta aplicaciones lo primero que te piden es
elegir qué tipo de estudio (si comparación de proporciones, de medias, de
Odds ratio, etc) y después qué DE tienes, la diferencia mínima a detectar, la
potencia que quieres tener, etc.
http://www.imim.es/ofertadeserveis/software-public/granmo/
35. Unos comentarios para el uso de este enlace. Cuando se comparan dos
poblaciones se pide la relación entre los tamaños de muestra. Si es que
conviene o es inevitable tener más muestra en una u otra población. Si no
es así se añade un 1, que simboliza que puede ser el mismo tamaño
muestra. También pide una previsión de los valores que pueden perderse al
ir analizando. Esto está pensando para casos donde sea previsible perder un
porcentaje de muestra más o menos previsible. Si no se prevé pérdida se
pone un 0 en esta opción. Por otro lado el manejo es bastante sencillo. La
alfa suele elegirse 0.05, la beta 0.2 ó menos (por lo tanto, potencia 0.8 ó
más), la DE la que podamos saber o prever y la diferencia a detectar la
mínima que uno está dispuesto a aceptar como relevante antes de empezar
el trabajo.
37. Veamos una fórmula usual que nos ayudará a aclarar las cosas:
18
38. Como puede verse es una modificación de una que hemos visto al iniciar
este tema. La N es el tamaño de la población. Evidentemente si este valor
es muy grande los dos cocientes donde participa se hacen tan pequeños
que son insignificantes. Si, por el contrario, esta N es pequeña estos
cocientes pueden modificar la n necesaria para tener un determinado tipo
de precisión y deberemos tenerla en cuenta.