Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Caldwell-Statistics Unplugged-Caps. 4 y 5
Caldwell-Statistics Unplugged-Caps. 4 y 5
4
La curva normal
ÿ Antes Nosotros
Empezar
ÿ Capítulo Problemas
Anteriormente dije que hay momentos en los que es mejor acercarse al campo de la estadística
sin pensar mucho a dónde vas. Éste es uno de esos momentos.
De hecho, les voy a pedir que den un paso adelante, que desarrollen una sólida comprensión de
cierta información y que lo hagan todo sin pensar en dónde.
nos dirigimos Sé que es mucho pedir, pero como dice la frase: Confía en mí;
hay un método para todo esto.
Comenzaremos nuestra discusión donde la dejamos en el último capítulo preguntando a un
pregunta central: ¿Por qué tanto alboroto sobre las curvas normales? Resulta que, hace mucho
tiempo, los científicos notaron que muchos fenómenos se distribuyen de manera normal. En otras
palabras, las distribuciones de muchas variables diferentes, cuando se grafican
como gráficos, producen curvas normales. La altura y el peso, por ejemplo, son frecuentemente
citadas como variables que hace mucho tiempo se reconocieron como normalmente distribuidas.
Habiendo observado que muchas variables producen una distribución normal o curva,
era natural que los estadísticos centraran cada vez más su atención
71
Machine Translated by Google
en curvas normales. Y así fue como finalmente se formuló un caso muy especial de
una curva normal. Este caso bastante especial finalmente se conoció como la curva
normal estandarizada.
En cierto sentido, la curva normal estandarizada es solo otra curva normal. Sin
embargo, en otro sentido, es un caso muy especial de una curva normal, tanto que
los estadísticos a menudo se refieren a ella como la curva normal. Los estadísticos
también usan expresiones como distribución normal estandarizada. Independientemente
del nombre (curva normal estandarizada, curva normal o distribución normal
estandarizada), la idea es la misma.
Como pronto descubrirá, la curva normal estandarizada es una curva teórica que
sirve como base o modelo de comparación. Es un punto de referencia, un estándar
contra el cual se puede juzgar la información o los datos. En el mundo de las
estadísticas inferenciales, volverá a la curva normal estandarizada una y otra vez, por
lo que es imperativo una comprensión sólida. Sin embargo, para comprender mejor
esta curva especial, comencemos por echar un vistazo a otras distribuciones normales,
que podría encontrar en el mundo real.
Antes de comenzar, déjame pedirte que pienses en dos conceptos. Primero, quiero
que pienses en el concepto de porcentaje. Entonces quiero que pienses en el concepto
de un dólar. Lo sé, puede sonar muy extraño, pero déjame instarte a que sigas con
esto. Hay una lección que aprender.
Comencemos con la idea de un porcentaje. Piense en lo que le dice un porcentaje
y con qué frecuencia confía en ese concepto cuando se comunica.
Por ejemplo, tal vez alguien le diga que hubo una caída del 15 % en las ventas en el
supermercado local el mes pasado. Otra persona le dice que la inscripción en la
universidad local aumentó un 6%. El uso de un porcentaje para expresar una cantidad
le permite evocar una imagen mental de una disminución o un aumento.
Debido a que un porcentaje representa un estándar, por así decirlo, a menudo es
muy útil cuando desea hacer comparaciones. Por ejemplo, supongamos que su
profesor le dice que el 14 % de su clase obtuvo una calificación de B, pero el 22 % de
la clase de la tarde obtuvo una calificación de B. Realmente no importa cuántos
estudiantes estén matriculados en cada clase; las cifras porcentuales le permiten
evocar una imagen mental sobre el desempeño relativo de los estudiantes en las dos clases.
En cierto modo, puedes pensar en un dólar en los mismos términos. Para
entender esto, permítanme pedirles que piensen en el concepto de un dólar, pero no
piensen en un billete de un dólar que está en su bolsillo. En su lugar, piense en la
noción de dólar como algo en lo que confía como base de comparación. Por ejemplo,
supongamos que ha estado navegando por la red en busca de una ganga en un
televisor. Encuentras dos televisores que te interesan, pero hay un problema. El precio
de un juego (fabricado en Japón) se da en moneda japonesa (yen), mientras que el
precio del otro juego (fabricado en Alemania) se da en moneda europea (el euro).
Cualquier confusión inicial que pueda experimentar se borra rápidamente a medida
que comienza a trabajar en la situación. Es una simple cuestión de convertir cada
Machine Translated by Google
moneda (yen y euro) a dólares. Una vez que haya hecho eso, estará en condiciones de
hacer una comparación. Y ese es el punto. Un dólar, al menos en ese ejemplo, no es algo
tangible. En cambio, es algo abstracto. Pero un dólar, en un sentido abstracto, se vuelve
esencial para su capacidad de comparar un precio con otro.
Aunque los ejemplos sobre porcentajes y dólares pueden parecerle extraños, son
relevantes para el material que está a punto de encontrar. Demuestran la importancia de
tener un medio de comparación, algún tipo de estándar o base que podamos usar como
base para nuestra comparación. Y eso, en pocas palabras, es hacia donde vamos en este
capítulo.
Las curvas normales ordinarias, curvas como algunas de las que consideramos en el último
capítulo, siempre están vinculadas a datos empíricos u observados. Un ejemplo podría ser
una recopilación de datos de un programa de rehabilitación de drogas. Digamos, por ejemplo,
que alguien le brinda información resumida sobre la cantidad de tiempo que los participantes
dedican a las sesiones de consejería grupal voluntaria. Suponga que solo conoce información
resumida, que no tiene datos detallados. Supongamos también que le han dicho que los
datos se distribuyen normalmente, con una media de 14,25 horas por semana y una
desviación estándar de 2,10 horas.
Debido a que sabe que los datos reflejan una distribución normal, está en condiciones
de averiguar muchas cosas, incluso si no tiene los datos reales. Por ejemplo, utilizando parte
de la información que aprendió en el último capítulo, podría determinar rápidamente que
aproximadamente el 68% de los participantes del programa pasan entre 12:15 y 16:35 horas
en consejería grupal voluntaria. Para refrescar tu memoria sobre cómo podrías hacer eso,
simplemente sigue la lógica:
1. Sabes que la media es 14,25 horas.
2. Sabes que la desviación estándar es de 2,10 horas.
3. Sabes que los datos están distribuidos normalmente (la distribución es normal).
4. Sabes que el 68% del área o los casos bajo una curva normal se encuentran
entre una desviación estándar por encima y por debajo de la media.
Aproximadamente
el 68%
entre ±1
desviación estándar de la media
68%
Una desviación estándar por debajo Media Una desviación estándar por encima
de la media (–2,10) (14.25) de la media (+2,10)
68%
Aproximadamente el 68% del área bajo una curva normal está entre una desviación
estándar por encima y por debajo de la media.
95%
Aproximadamente el 95% del área bajo una curva normal está entre dos desviaciones
estándar por encima y por debajo de la media.
99%
Más del 99% del área bajo una curva normal está entre tres desviaciones estándar
por encima y por debajo de la media.
Esto en cuanto a las curvas normales que puedes encontrar en la vida real. Ahora
llegamos al tema de la curva normal estandarizada, una curva teórica. Permítanme
instarles de antemano a que tengan la mente abierta a medida que avanzamos. De
hecho, déjame advertirte que no esperes ninguna aplicación directa de inmediato. Las
aplicaciones llegarán a tiempo.
ÿ ÿ VERIFICACIÓN DE APRENDIZAJE
Aquí hay una manera de entender ese punto. Imagina una curva normal con una
línea en el medio que indica la posición de la media. Ahora imagina cada lado de la curva
moviéndose más y más hacia afuera: el lado derecho moviéndose más hacia la derecha
y el lado izquierdo moviéndose más hacia la izquierda. Imagine algo como la curva que
se muestra en la Figura 4-3.
Debido a que la curva normal estandarizada se basa en un número infinito de casos,
nunca hay un final en ninguno de los lados. Al igual que con otras distribuciones normales,
la mayor parte de los casos se encuentran en el centro de la distribución (agrupados).
Machine Translated by Google
–3 –2 –1 0 +1 +2 +3
alrededor de la media), y los casos se desvanecen a partir de ahí. A medida que los casos
se van desvaneciendo a ambos lados de la distribución, la curva cae muy gradualmente
hacia la línea de base. Pero (y este es un pero importante), la curva normal estandarizada
nunca toca la línea de base. ¿Por qué? La curva normal estandarizada nunca toca la línea
de base porque siempre hay más casos a considerar. (Recuerde: la curva se basa en un
número infinito de casos).
ÿ ÿ VERIFICACIÓN DE APRENDIZAJE
Como con cualquier curva normal, la media, la mediana y la moda de la curva normal
estandarizada comparten el mismo valor; están ubicados en el mismo punto.
Si dibujara una línea a través de la mitad exacta de la curva normal estandarizada, la línea
reflejaría la ubicación de la media, la mediana y la moda. Dado que esa línea atravesaría
exactamente el centro de la curva, las dos mitades de la curva serían iguales entre sí. Al
igual que en cualquier curva normal que pueda encontrar, el 50 % del área bajo la curva
normal estandarizada se encuentra a la derecha de la media y el 50 % se encuentra a la
izquierda de la media.
Ahora llegamos a la parte de la discusión que explica por qué nos referimos a la curva
normal estandarizada como la curva normal. Para comprender completamente este punto,
piense en el ejemplo que involucra a los participantes del programa de rehabilitación de drogas.
En ese ejemplo, la media fue de 14,25 horas dedicadas a asesoramiento grupal voluntario
y la desviación estándar fue de 2,10 horas. Podrías encontrarte con otro
Machine Translated by Google
distribución normal, sin embargo, con una media de 700 y una desviación estándar
de 25. En este punto, no debería preocuparle lo que representan 700 y 25; podrían
ser dólares o libras o puntajes de exámenes o cualquier número de otras variables.
La idea es llevar tu pensamiento a un nivel más abstracto. Cada distribución tiene una
media y una desviación estándar. Estos valores pueden ser expresiones de montos
de ingresos, puntajes de exámenes, cantidad de tareas completadas, tasas de
crecimiento o cualquier otra variable.
Sin embargo, en el caso de la curva normal estandarizada, la media siempre es
igual a 0 y la desviación estándar siempre es igual a 1. No es el caso que la media
sea, digamos, 16 y la desviación estándar sea 2. Es No es el caso que la media sea
2378 y la desviación estándar sea 315. Es posible que tenga medias y desviaciones
estándar como las de algunas distribuciones normales, pero lo que estamos
considerando aquí es la curva normal estandarizada .
Repito: en el caso de la curva normal estandarizada, la media es igual a 0 y la
desviación estándar es 1. Estas dos propiedades, una media de 0 y una desviación
estándar de 1, son las propiedades que realmente dan lugar a la término estandarizado.
También son las propiedades que hacen que la curva normal estandarizada sea tan
útil en el análisis estadístico.
Empezamos con la noción de que la media es igual a 0 (vea la figura 4-4). Debido
a que la media es igual a 0, cualquier punto a lo largo de la línea de base de una
curva normal que esté por encima de la media se considera un valor positivo.
Asimismo, cualquier valor por debajo de la media sería un valor negativo. Como ya
sabes, los dos lados de cualquier curva normal son iguales. Por tanto, el área
comprendida entre la media y cierta distancia por encima de la media (en el lado
derecho de la curva) es igual al área entre la media y esa misma distancia en el lado
izquierdo de la curva (por debajo de la media).
Segmento Segmento
B A
Significar
En cierto sentido, no es la propia curva normal estandarizada la que es tan útil en el análisis
estadístico. Más bien es la Tabla de áreas bajo la curva normal la que resulta ser una
herramienta realmente útil. Encontrará una copia de la Tabla de áreas bajo la curva normal en
el Apéndice A, pero no la mire todavía. En su lugar, siga con un poco más de la discusión
primero.
Para comprender cuán útil puede ser la Tabla de áreas bajo la curva normal, recuerde
nuestra discusión anterior. Anteriormente aprendiste la regla 1-2-3 y eso te dio información
sobre las áreas bajo una curva normal.
Pero, ¿qué pasa con las áreas bajo la curva que caen, digamos, entre la media y 1,25
desviaciones estándar por encima de la media? ¿O qué pasa con el área bajo la curva que se
encuentra entre la media y 2,17 desviaciones estándar por debajo de la media? En otras
palabras, todo está bien si se trata de 1, 2 o 3 desviaciones estándar de la media de una
distribución normal, pero ¿qué pasa con otras situaciones?
Con un poco de cálculo, podrías lidiar con todo tipo de situaciones. Podrías calcular el
área bajo la curva entre dos puntos, o la porción bajo la curva entre la media y cualquier punto
por encima o por debajo de la media.
Afortunadamente, sin embargo, no tienes que recurrir al cálculo. Gracias a la Tabla de áreas
bajo la curva normal, el trabajo ya está hecho.
Existe la posibilidad de que estés murmurando algo como: ¿Qué trabajo? ¿Qué se supone
que debo estar haciendo? Relax; aligerar. Recuerde cuál es el objetivo en este momento:
aprender algún material fundamental sin preocuparse por su aplicación directa. Concéntrate en
el material básico ahora mismo; las aplicaciones llegarán a su debido tiempo.
Antes de pedirle que pase a la Tabla de áreas bajo la curva normal (Apéndice A), déjeme
decirle unas palabras sobre lo que encontrará y lo que tendrá que saber para hacer un uso
adecuado de la tabla. Primero, debe tomarse un momento de cuarto oscuro para imaginar una
vez más cómo se ve la curva normal estandarizada. Imagina que te enfrentas a una curva
normal estandarizada. Observa el valor de 0 en el medio de la línea de base, junto con un
número infinito de marcas de sombreado que salen a la derecha y a la izquierda. Además,
imagine que el área bajo la curva está llena de casos (tal como lo hizo antes cuando se le
presentó la noción de que el área bajo la curva no es solo un espacio en blanco).
–3 –2 –1 0 +1 +2 +3
–3 –2 –1 0 +1 +2 +3
Valor Z de 1.0
1. Lo que está viendo es simplemente un formato para presentar áreas bajo la curva
normal. Diferentes libros de estadística utilizan diferentes formatos para presentar
el mismo material.
2. Preste atención a la nota debajo del título de la tabla: Área entre la media (0) y Z.
Piense en lo que eso le dice, es decir, que la tabla le da la cantidad de área bajo
la curva que se encontrará entre la media y diferentes valores de Z.
3. Siéntase cómodo con la forma en que se expresan los valores, como proporciones
en formato decimal. Estas proporciones se pueden convertir fácilmente a
porcentajes. Por ejemplo, el valor de .4686 es igual a 46.86%.
4. Probablemente esté mejor si inmediatamente comienza a pensar en los valores
en términos del porcentaje de casos u observaciones entre la media y Z. En otras
palabras, todos y cada uno de los valores de Z tienen asociado algún porcentaje de
casos u observaciones.
5. Tome nota del final de la tabla: nunca llega a un valor de 0,5000 (o 50 %). Sale a
un valor Z de 3,9 (con un porcentaje asociado del 49,99%), pero luego se acaba.
Eso es porque la tabla se basa en un número infinito de casos. Tenga en cuenta que
cada vez que hay un cambio de unidad en el valor Z (a medida que avanza en la
tabla), el cambio de unidad correspondiente en el área asociada se vuelve cada vez
más pequeño. Esto se debe a que la cola de la curva se acerca cada vez más a la
línea de base a medida que avanza en la curva.
Ahora comencemos a usar la tabla: primero haga algunas cosas para familiarizarse
con la tabla y luego haga algunas aplicaciones. Comenzaremos con algunos problemas
que implican buscar un valor Z y el porcentaje asociado.
Recuerda siempre que la tabla solo trata la mitad del área bajo la curva. Todo lo que es
cierto en un lado de la curva es cierto en el otro, ¿verdad?
Ahora considere las siguientes preguntas.
Si pudo responder a estas preguntas con éxito, podemos pasar a las siguientes
preguntas. En este punto, déjame recordarte nuevamente lo que ya sabes de
discusiones anteriores: la tabla con la que estás trabajando refleja solo un lado de la
curva normal estandarizada. Ahora veamos algunas preguntas más, esta vez
concentrándonos en el área entre dos valores Z.
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +1,41
y –1,41?
Respuesta: 84,14 % (doble 42,07 % para tener en cuenta el hecho de que
se trata de ambos lados de la curva).
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +.78
y –.78?
Respuesta: 56,46 % (Doble 28,23 % para tener en cuenta el hecho de que
estás tratando con ambos lados de la curva).
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +1,96
y –1,96?
Respuesta: 95 % (doble 47,50 % para tener en cuenta el hecho de que se trata
de ambos lados de la curva).
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +2,58
y –2,58?
Respuesta: 99,02 % (doble 49,51 % para tener en cuenta el hecho de que
se trata de ambos lados de la curva).
Respuesta: 7,49%.
De media a Z es 42.51%. Toda la mitad = 50%.
50 – 42,51 = 7,49.
Respuesta: 1,66%.
De media a Z es 48.34%. Toda la mitad = 50%. 50 –
48,34 = 1,66.
Respuesta: 95%.
De media a Z es 47.50%. Considere ambos lados; el doble del valor.
47,50 % × 2 = 95 %.
Respuesta: 99%.
De media a Z es 49.51%. Considere ambos lados; el doble del valor.
49,51% × 2 = Aproximadamente 99%.
¿Cuánta área queda fuera de (por encima y por debajo) de los valores
Z de ±1,96?
Respuesta: 5%.
El área entre los valores Z de ±1,96 es del 95 %. La totalidad
el área es 100%. 100% – 95% = 5% (dividido uniformemente en
ambos lados de la curva).
¿Cuánta área queda fuera (por encima y por debajo) de los valores Z
de ±2,58?
Respuesta 1%.
El área entre los valores Z de ±2,58 es del 99 %. Toda la zona está
al 100%. 100% – 99% = 1% (dividido uniformemente en ambos lados
de la curva).
diagrama puede ser muy poco sofisticado, siempre y cuando le permita poner algo
en un papel que expresa la pregunta que se plantea y lo que está pasando en tu
mente cuando te acercas a la pregunta. Debo advertirle que resista cualquier tentación de
desarrollar sus propios atajos en función de la forma en que se formula una pregunta. Siempre toma la
tiempo para pensar en la pregunta. Usa un diagrama para convencerte de que estás
abordando la pregunta de la manera correcta.
Ahora eche un vistazo a las preguntas presentadas en la Figura 4-8, junto con los
diagramas y comentarios. Estas preguntas son muy similares a algunas de las
te encontraste antes. Para estas preguntas, sin embargo, concéntrese en qué tan útil es el
Los diagramas sirven para explicar la lógica subyacente del proceso.
A estas alturas, deberías haber notado que un par de valores han aparecido en el momento
y otra vez, es decir, los valores de 95% y aproximadamente 99%. Que
no fue por accidente. Resulta que los estadísticos muy a menudo hablan en formas que directa
o indirectamente hacen referencia al 95% o al 99%. Están particularmente interesados en
valores, casos o eventos extremos, los que se encuentran más allá del 95% o más.
rango del 99%. Otra forma de pensar en esos valores es pensar en ellos como
tan extremos que solo pueden ocurrir menos de 5 de cada 100 veces o menos
de 1 vez de cada 100. Es por eso que los valores Z de ±1.96 y ±2.58 toman
un significado especial para los estadísticos.
Como aprendió anteriormente, el área entre los valores Z de ±1.96 en un
curva o distribución abarcará el 95% de los casos o valores. Por lo tanto,
sólo el 5% de los casos o valores superan los valores Z de ±1,96 en una curva normal
estandarizada. De manera similar, el área entre los valores de Z de ±2.58 tomará
en poco más del 99% de los casos o valores. Por lo tanto, menos del 1% de los
casos o valores están más allá de los valores Z de ±2.58.
Esas áreas, el 5% y el 1%, son las áreas del extremo (improbable)
valores, y esas son las áreas que finalmente captan la atención de los estadísticos. Tendré
mucho más que decir sobre eso más adelante. En este momento, sin embargo, supongo
es que se te acaba la paciencia y estás ansioso por llegar a una aplicación.
No esperes más. Avanzaremos con un ejemplo, uno que puede sorprenderte.
como extrañamente familiar.
Matemáticas 82 6 80
Verbal 75 3 75
Ciencias 60 5 70
Lógica 70 7 77
Machine Translated by Google
x 2 metros
Z5
s
No entrar en pánico. Solo piensa en lo que representan los símbolos. Primero, eres
lidiando con los resultados de una clase de estudiantes, y estás asumiendo
que la clase es una población. En otras palabras, se trata de una población,
por lo tanto, la media en el examen de ciencias está etiquetada como m o mu. De la misma manera, el
desviación estándar es la desviación estándar de la población (recuerde, estamos
tratando la clase como una población), por lo que la desviación estándar está simbolizada por s.
El símbolo X representa un puntaje bruto, en este caso, su puntaje de prueba de 70.
La fórmula simplemente lo dirige a encontrar la diferencia entre un puntaje bruto
y la media, y luego divide esa diferencia por la desviación estándar. Para
ejemplo, esto es lo que involucró la conversión de su puntaje de ciencias (puntaje bruto)
a una puntuación estandarizada:
x 2 metros
Z5
s
70 2 60
5
5
10
5
5
52
Machine Translated by Google
–3 –2 –1 0 +1 +2 +3
Language Ability Test en el escenario actual, su puntaje en esa prueba encontraría el lugar
que le corresponde a lo largo de la línea de base que se muestra en la Figura 4-9. Más
específicamente, estaría en el punto correspondiente a un valor negativo de Z , un Z de -2. El
puntaje de la Prueba de Habilidad en Idiomas Extranjeros se colocaría justo donde debería
estar, justo allí a lo largo de la línea de base, al igual que los valores Z de los otros cuatro
puntajes de la prueba. Cada prueba tendría su propio lugar a lo largo de la misma línea de
base, aunque cuatro de las pruebas eran pruebas de 100 puntos y una de las pruebas (la
prueba de habilidad en idiomas extranjeros) era una prueba de 250 puntos.
Pero tiene que haber algo más que eso, es probable que estés diciendo ahora mismo. A
decir verdad, lo hay. Pero ahora se requiere paciencia.
Recuerde cuál es el objetivo, es decir, desarrollar una comprensión sólida de los conceptos
fundamentales. Si te sirve de algo, solo piensa en todo lo que has aprendido hasta ahora.
Digamos, por ejemplo, que alguien está mirando un valor de puntaje bruto de 62.
Entonces digamos que el 62 equivale a un valor Z de –2,13. A estas alturas, debería saber
automáticamente que un valor Z de –2,13 es extremo, al menos en el sentido de que estaría
ubicado hacia el extremo izquierdo de una curva normal. Podría buscarlo en la Tabla de áreas
bajo la curva normal y averiguar qué tan extremo es, pero debe saber intuitivamente que es
extremo. Después de todo, sabe que un valor Z de -1,96 es extremo y un valor Z de -2,13
sería aún más extremo.
Si ha memorizado solo una pequeña cantidad de información (en este caso, el porcentaje
asociado con un valor Z de ±1,96), podría decir algo bastante importante sobre ese valor de –
2,13. Sin ni siquiera mirar la Tabla de áreas bajo la curva normal, podría afirmar que un valor
de –2.13 es tan extremo que es probable que ocurra menos de 5 veces de cada 100 (vea la
Figura 4-10).
Valor Z de –2,13
–3 –2 –1 0 +1 +2 +3
Solo alrededor del 5% del área estaría más allá de los valores Z ±1,96.
En otras palabras, solo alrededor del 5 % de las veces esperaría encontrar un valor Z
que fuera más extremo que ±1,96. El valor AZ de –2,13 sería más extremo; por lo tanto,
esperaría encontrarlo menos de 5 veces de cada 100. De hecho, el 5 % del área más allá
de una Z de ±1,96 se dividiría uniformemente, con un 2,5 % a cada lado de la curva. Por lo
tanto, un valor de -2.13 es un valor que esperaría que ocurra menos de 2.5 veces de cada
100.
Este capítulo fue un hito en el sentido de que se le presentó uno de los conceptos más
teóricos pero esenciales de la inferencia estadística: la curva normal estandarizada.
Presumiblemente, aprendió sobre la naturaleza fundamentalmente teórica de la curva
normal estandarizada y aprendió a navegar alrededor de ella (con el uso de la Tabla de
áreas bajo la curva normal).
Lo que es más, avanzó en un acto de fe, aprendiendo muchas cosas sobre la curva
normal estandarizada con poca noción de adónde conduciría el conocimiento.
Sospecho que todo eso hizo un plato bastante completo y mucho para digerir de una
sola vez. Debido a que todo lo que sigue depende tanto de lo que acaba de cubrir,
permítame instarle a que haga una evaluación honesta de su comprensión hasta este
punto. Si cree que necesita volver a leer el material una o dos veces, haga el esfuerzo.
En muchos aspectos, es una de las llaves que abre la puerta.
Capítulo Problemas 91
Términos clave
Rellene los espacios en blanco, calcule los valores solicitados o, de otro modo, suministre los
respuesta correcta.
1. ¿Cuánta área bajo la curva normal hay entre la media y un valor Z de 1,63?
2. ¿Cuánta área bajo la curva normal hay entre la media y un valor Z de 2,35?
8. ¿Qué porcentaje del área bajo la curva normal está por encima de un valor Z de
+1.53?
9. ¿Qué porcentaje del área bajo la curva normal está por debajo de un valor Z de
–1.12?
10. ¿Qué valor de Z corresponde al 20% más bajo del área bajo la superficie normal ?
¿curva?
11. ¿Qué valor de Z corresponde al 35% superior del área bajo la superficie normal ?
¿curva?
12. ¿Qué valores de Z corresponden al 60% medio del área bajo la normal ?
¿curva?
Machine Translated by Google
5
Cuatro conceptos fundamentales
ÿ Antes Nosotros
Empezar
ÿ Capítulo Problemas
Este capítulo trata sobre cuatro conceptos fundamentales, algunos de los cuales han sido
aludido antes. Todo lo que hemos cubierto hasta este punto tiene poca importancia si
pasas por alto el material de este capítulo, así que déjame instarte a que lo hagas.
dedica un tiempo serio al material que te estás preparando para cubrir. Si usted
tienes que leer y releer y releer de nuevo, haz eso. El tiempo invertido valdrá la pena.
Primero, trataremos el tema del muestreo aleatorio. A partir de ese momento, vamos
retomar el tema del error de muestreo, una noción esencial que subyace a la lógica
de estadística inferencial. Luego, centraremos nuestra atención en la idea de una muestra
distribución, y más específicamente, veremos la noción de una distribución muestral de
medias muestrales. Finalmente, centraremos nuestra atención en el límite central.
Teorema: un principio fundamental que será importante en nuestro primer gran
aplicación de la inferencia estadística.
93
Machine Translated by Google
A medida que avanza en el material, es probable que tenga que tomarse el tiempo para
uno o dos momentos de cuarto oscuro, sin duda más de lo que ha tenido hasta este momento.
Como dije antes, no asuma que un momento de cuarto oscuro está por debajo de su dignidad
intelectual. De hecho, puede resultar ser la clave del éxito a la hora de comprender el material.
Permítanme plantear dos preguntas. Primero, ¿cuántas veces has escuchado o leído la
expresión muestreo aleatorio? A continuación, ¿qué pasa con la expresión, el error de
muestreo, o su primo, por así decirlo, el margen de error? ¿Cuántas veces te has encontrado
con eso?
Supongo que ha escuchado frases como muestreo aleatorio o error de muestreo, pero
es posible que no tenga una comprensión sólida de lo que significa cada expresión. Está bien;
no es frecuente que la gente tenga motivos para pensar en tales nociones. Por otro lado, esas
expresiones están ligadas a algunas de las nociones y suposiciones fundamentales que
acompañan a la inferencia estadística. Desde mi perspectiva, es virtualmente imposible
comprender la lógica fundamental de la inferencia estadística sin una cierta comprensión de
esos conceptos. Permítanme repetir: es prácticamente imposible comprender la lógica
fundamental de la inferencia estadística sin una cierta comprensión de esos conceptos.
Esos conceptos (muestreo aleatorio y error de muestreo) son dos de los conceptos
tratados en este capítulo. Los otros conceptos, la distribución muestral y el teorema del límite
central, no son menos importantes. Soy de la opinión de que los cuatro conceptos, tomados
en conjunto, forman la base de una buena cantidad de inferencias estadísticas. Por lo tanto,
es primordial que desarrolle una comprensión firme de cada uno.
Dicho esto, también sé que probablemente te preguntarás por qué tienes que aprender
cada concepto. Lamentablemente, no creo que te vaya a gustar mi respuesta. Todo lo que
puedo decirle es que está muy cerca de ingresar al mundo de la estadística inferencial, y los
conceptos que está a punto de encontrar son fundamentales para abrir la puerta.
En una nota positiva, te has ganado un descanso cuando terminas este capítulo. Implica
una gran cantidad de material: material conceptual y teórico que requiere pensar de manera
abstracta. El capítulo también hace referencia a conceptos que cubriste anteriormente (por
ejemplo, la desviación estándar, las poblaciones y las muestras). Si tiene alguna dificultad
para recordar de qué se tratan los conceptos presentados anteriormente, vuelva a los capítulos
anteriores para refrescar su memoria. Una sólida comprensión de esos conceptos es esencial.
POBLACIÓN MUESTRA
y una lectura rápida del material sobre muestreo aleatorio le proporcionará un procedimiento
paso a paso para seleccionar una muestra aleatoria simple. De hecho, la mayoría de los
textos sobre métodos de investigación incluyen información sobre una variedad de diseños
de muestreo, desde el muestreo aleatorio sistemático hasta el muestreo aleatorio estratificado.
Sin embargo, para nuestros propósitos, simplemente debería haber fijado en su mente de
qué se trata el término muestreo aleatorio y qué es necesario si va a afirmar que está
trabajando con una muestra seleccionada de manera aleatoria.
POBLACIÓN
tiempo de nuevo Puede que no quieras hacer algo así, pero podrías. Y ese es el punto: es posible
un número infinito de muestras. Este punto es extremadamente importante, así que permítame
sugerirle que dedique uno o dos momentos en el cuarto oscuro. Solo piense en la noción de tomar
muestra tras muestra tras muestra de la misma población. Por ridículo que parezca, piensa en lo
que implicaría el proceso.
Suponiendo que haya pensado un poco en la noción de que es posible un número infinito de
muestras, consideremos ahora el mundo real. En realidad, solo tendrá uno con el que esté
trabajando. Es posible una cantidad infinita de muestras, pero trabajará solo con una de esas
muestras. Cuando llega el momento de recopilar información y realizar algunos cálculos, puede
pensar que está trabajando con la mejor muestra del mundo (lo que sea que eso signifique) y que
de alguna manera es una muestra muy especial, pero en realidad no lo es. en absoluto. En realidad,
está trabajando con una muestra, solo una de un número infinito de muestras posibles, y su muestra
puede o no ser un reflejo exacto de la población de la que se tomó.
¿Qué pasa si, por casualidad, terminas con una muestra que está algo sobrecargada con
estudiantes extremadamente jóvenes? Como probablemente sepa, la posibilidad de que suceda
algo así puede ser pequeña, pero es posible. De hecho, se podría terminar con, digamos, 150 de
los 200 casos provenientes de alguna manera de la parte de la distribución de la población que
contenía a los estudiantes realmente jóvenes. Como dije, las posibilidades son escasas, pero la
posibilidad está ahí. De la misma manera, es posible que termine con una muestra aleatoria
sobrecargada de estudiantes extremadamente antiguos. ¿Probable? ¿No es posible? Sí.
Probablemente esté empezando a entender el sentido de todo esto, pero es importante que
comprenda el concepto de error de muestreo a un nivel casi intuitivo.
Por esta razón, permítame sugerirle que analice seriamente el ejemplo que se muestra en la figura
5-3. Ilustra lo que podría obtener en el camino de varias medias de muestra diferentes de una
población. Incluso si crees que entiendes todo esto, déjame sugerirte que prestes atención a los
detalles del ejemplo.
Requiere muy poco esfuerzo, pero puede ayudarlo a comprender el punto de una manera que
permanecerá con usted para siempre.
Si estás empezando a tener una pequeña conversación contigo mismo, si te dices a ti mismo,
está bien, lo entiendo; Esto tiene sentido; por supuesto, esperaría ver alguna diferencia, entonces
está en el camino correcto en cuanto a comprender uno de los conceptos centrales involucrados en
la inferencia estadística. Lo que acaba de tratar es el concepto de error de muestreo: la diferencia
entre una estadística de muestra y un parámetro de población que se debe simplemente al azar.
Machine Translated by Google
POBLACIÓN DE ESTUDIANTES
23.8
22.6
23.5
21.5
26.2
23.4 19.9
La diferencia podría estar relacionada con una media, un rango o cualquier otra estadística.
Por ejemplo, una diferencia entre la media de la muestra y la media de la población (mu) que se
deba simplemente al azar equivaldría a un error de muestreo (de la media). Una diferencia de
probabilidad entre el rango de la muestra y el rango de la población también equivaldría a un
error de muestreo (del rango). En ambos casos, clasificaríamos la diferencia como error de
muestreo: la diferencia entre una estadística muestral y un parámetro poblacional que se debe
al azar.
Podría estar lidiando con una gran cantidad de errores de muestreo (particularmente si, por
casualidad, se le ocurrió una muestra bastante extrema), o podría estar lidiando con solo una
pequeña cantidad (si se le ocurrió una muestra altamente representativa) .
Cómo los estadísticos manejan todo eso es un tema de discusión en el futuro.
Por el momento, sin embargo, avancemos al siguiente concepto.
que está realizando el ejercicio, tomando muestra tras muestra tras muestra.
Digamos que cada vez que tomas una muestra seleccionas 50 estudiantes.
Ahora imagine que cada vez que selecciona una muestra, pregunta a los estudiantes sus
edad y registrar la información. Podrías calcular fácilmente la edad media de
cada muestra, ¿verdad? Por supuesto que podrías. Sin embargo, como aprendió en la sección
anterior, es probable que la edad media de cualquiera de esas muestras sea ligeramente
diferente de la media de la población, simplemente por casualidad (o debido a un error de muestreo).
Digamos que pasó por el proceso 1000 veces, cada vez que seleccionaba
50 estudiantes, recopilando información sobre las edades de los estudiantes y calculando
la edad media de esa muestra. Si registró la media para cada uno de los 1000
muestras, entonces tendría lo que se conoce como una distribución de muestreo de
medios muestrales.
En este punto, déjame sugerirte que no vayas más allá a menos que estés absolutamente
seguro de que tienes esa última noción firmemente fijada en tu mente. Aquí está
otra vez: podría tomar muestra tras muestra, seleccionando 50 estudiantes cada vez.
Podría repetir este proceso hasta que haya seleccionado 1000 muestras. Si calculó la media de
cada muestra, entonces tendría una distribución de 1000
medios muestrales. Esta distribución sería conocida como una distribución de muestreo
de medias muestrales.
No hay duda al respecto, esa frase es un bocado. Así que vamos a desarmarlo,
elemento por elemento.
El resultado de su ejercicio sería una distribución, como cualquier otra distribución (de ingreso,
peso, altura o cualquier otra variable). Sólo en este caso sería
sea una distribución de medias tomadas de diferentes muestras, de ahí la expresión
distribución de medias muestrales. Podrías tener fácilmente una distribución de
rangos de muestra. Todo lo que tendría que hacer es tomar muestra tras muestra, registrar el rango
de cada muestra e informar esos rangos en una distribución.
Por lo general, sin embargo, los estadísticos manejan el concepto de una distribución muestral de
medias muestrales, en lugar de una distribución muestral de rangos muestrales.
La expresión distribución de muestreo simplemente significa una distribución que es
el resultado de muestreos repetidos. Una vez más, se trata de un concepto bastante abstracto, y
muy pocas personas se molestarían en construir una distribución muestral de cualquier cosa. Pero
aquí está el punto: podría construir una distribución de muestreo si
quería. De hecho, es muy fácil construir una distribución muestral de medias muestrales. Todo lo
que tomaría es un poco de tiempo. una vez que lo hiciste
eso, usted podría muy fácilmente desarrollar un gráfico o diagrama de la distribución de muestreo
de medias muestrales. Y eso nos lleva al último de los conceptos fundamentales.
muestra. Para cada muestra, calculó y registró una edad media y, finalmente, colocó todas
las edades medias en una distribución.
Ahora imagina que desarrollaste un gráfico o diagrama de todas esas medias,
produciendo una curva. ¿Tienes alguna idea de cómo se vería esa curva?
Antes de responder, piense en la pregunta por un momento. Piense en cómo produciría el
gráfico o la curva y qué tipo de valores estaría trazando. Solo para ayudarlo en su
pensamiento, considere lo siguiente:
1. Estás tomando muestra tras muestra tras muestra (hasta que tengas 1000
muestras).
2. Cada vez que toma una muestra, calcula una edad media para la muestra
(una media muestral basada en 50 casos).
3. Debido al error de muestreo, es probable que la media de su muestra difiera de la
media real de la población.
4. A veces, la media de su muestra será menor que la verdadera media de la
población.
5. A veces, la media de tu muestra será mayor que la verdadera media de la
población.
A estas alturas, debería tener una imagen en su mente de todas estas medias
muestrales (o valores medios muestrales): algunas más altas que otras, algunas más bajas
que otras, algunos valores realmente altos, algunos valores realmente bajos, y así sucesivamente. en.
Si tiene la idea de que la distribución de las medias de la muestra se graficaría como una
curva normal, está en el camino correcto. Ahora eche un vistazo a la Figura 5-4. ¿Cómo
sabemos que una distribución muestral de medias muestrales parecería una curva normal?
Lo sabemos porque está demostrado. La idea ha sido probada; la idea se sostiene.
Resulta que los estadísticos saben bastante acerca de lo que sucedería si se dispusiera
a construir una distribución muestral de medias muestrales. Además, saben bastante acerca
de cómo se relacionaría la distribución muestral de las medias muestrales con la población
de la que se extrajeron las muestras. De hecho, esta relación —la relación entre la distribución
muestral de las medias muestrales y la población de la que se extrajeron las muestras—
tiene un nombre. Es conocido como el Teorema del Límite Central. Sin embargo, antes de
abordar el teorema del límite central y lo que dice, permítanme hacer tres puntos más sobre
una distribución muestral de medias muestrales.
En primer lugar, cualquier distribución muestral de medias muestrales tendrá una media
propia, ¿verdad? Para convencerse de eso, imagine un gráfico de todas las diferentes
medias que obtendría si tomara 1000 muestras y trazara las medias de esas 1000 muestras.
La trama o gráfico representaría una distribución subyacente, y esa distribución (como
cualquier distribución) tendría una media. En el caso que estamos discutiendo, sería la media
de una distribución muestral de medias muestrales.
En segundo lugar, esa distribución (la distribución muestral de las medias muestrales)
tendría, como cualquier distribución, una desviación estándar, ¿verdad? Recuerda el
Machine Translated by Google
POBLACIÓN
Distribución de
medias muestrales
Media de la muestra 1
Media de la muestra 2
Media de la muestra 3
Media de la muestra 4
Media de la muestra 5
…
La distribución muestral de las medias muestrales es, en cierto sentido, simplemente otra distribución.
Todas las distribuciones tienen una desviación estándar. En este caso, estamos considerando una
distribución muestral de medias muestrales. No es diferente. Tendría una desviación estándar.
En tercer lugar, los estadísticos tienen un término especial para la desviación estándar de una
distribución muestral de medias muestrales. Se refieren a él como el error estándar de la media.
Ese término o frase, error estándar de la media, en realidad tiene mucho sentido si te tomas un
momento o dos para pensarlo. Tiene sentido, en parte, porque una distribución muestral de medias
muestrales es en realidad una distribución de error muestral. La distribución de muestreo se basa en
muchas medias, y muchas de esas medias en realidad variarán de la verdadera media de la población.
Como aprendiste antes, nos referimos a esa diferencia de probabilidad entre una media muestral y
una media poblacional como error de muestreo ; de ahí el término error en el
Machine Translated by Google
En el próximo capítulo, haremos una aplicación directa de todo este material, pero
no le servirá de nada avanzar al próximo capítulo.
Machine Translated by Google
La media de la población es mu o m.
La desviación estándar de la población es s.
aleatorio repetido
muestras, cada una produciendo
Población
un medio, voluntad, a su vez,
producir una muestra
distribución de la muestra
medio.
La distribución
La distribución muestral de las
muestral de las medias
medias muestrales tendrá una
muestrales se basa en
desviación estándar
muestras repetidas de
tamaño n, cada una tomada (conocido como el error
estándar de la media). Será
de la población que se
muestra arriba. igual a la desviación estándar
de la población (s) dividida por la
raíz cuadrada de n (n = tamaño de
Las medias se trazan para
la muestra).
formar la distribución muestral
de la muestra.
medio. La distribución muestral de las
medias muestrales se aproximará
a una distribución normal
curva.
Términos clave
Rellene los espacios en blanco, calcule los valores solicitados o, de otro modo, suministre los
respuesta correcta.
8. Una distribución muestral de medias muestrales se basa en tomar muestras repetidas (de
tamaño n) de la misma población y graficar la de
las diferentes muestras.
9. De acuerdo con el Teorema del Límite Central, la media de una distribución muestral de la
ución de las medias de la muestra será igual a población de
la que se extrajeron las muestras.
10. La desviación estándar de una distribución muestral de medias muestrales es
referido como el .
Machine Translated by Google
11. Según el Teorema del Límite Central, y dada una distribución muestral
de las medias muestrales, el error estándar de la media será igual al
de la población dividido por el del tamaño de la muestra.
12. La forma de una distribución muestral de medias muestrales se aproximará a la
forma de un curva.
1. Una población tiene una media (m) de 24,12 y una desviación estándar (s) de 4.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 100 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
2. Una población tiene una media (m) de 30 y una desviación estándar (s) de 6.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 225 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
3. Una población tiene una media (m) de 120 y una desviación estándar (s) de 30.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 100 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
4. Una población tiene una media (m) de 615 y una desviación estándar (s) de 90.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 400 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
5. Una población tiene una media (m) de 55 y una desviación estándar (s) de 17.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 100 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?