Está en la página 1de 37

Machine Translated by Google

4
La curva normal

ÿ Antes Nosotros
Empezar

ÿ Curvas normales del mundo real

ÿ Dentro la Mundo Teórico


ÿ los Mesa de Áreas Bajo la Curva normal
ÿ Finalmente, un Solicitud
ÿ Capítulo Resumen
ÿ Alguno Otro Cosas Tú Debe saber
ÿ Llave Términos

ÿ Capítulo Problemas

Anteriormente dije que hay momentos en los que es mejor acercarse al campo de la estadística
sin pensar mucho a dónde vas. Éste es uno de esos momentos.
De hecho, les voy a pedir que den un paso adelante, que desarrollen una sólida comprensión de
cierta información y que lo hagan todo sin pensar en dónde.
nos dirigimos Sé que es mucho pedir, pero como dice la frase: Confía en mí;
hay un método para todo esto.
Comenzaremos nuestra discusión donde la dejamos en el último capítulo preguntando a un
pregunta central: ¿Por qué tanto alboroto sobre las curvas normales? Resulta que, hace mucho
tiempo, los científicos notaron que muchos fenómenos se distribuyen de manera normal. En otras
palabras, las distribuciones de muchas variables diferentes, cuando se grafican
como gráficos, producen curvas normales. La altura y el peso, por ejemplo, son frecuentemente
citadas como variables que hace mucho tiempo se reconocieron como normalmente distribuidas.
Habiendo observado que muchas variables producen una distribución normal o curva,
era natural que los estadísticos centraran cada vez más su atención

71
Machine Translated by Google

72 CAPÍTULO 4 La curva normal

en curvas normales. Y así fue como finalmente se formuló un caso muy especial de
una curva normal. Este caso bastante especial finalmente se conoció como la curva
normal estandarizada.
En cierto sentido, la curva normal estandarizada es solo otra curva normal. Sin
embargo, en otro sentido, es un caso muy especial de una curva normal, tanto que
los estadísticos a menudo se refieren a ella como la curva normal. Los estadísticos
también usan expresiones como distribución normal estandarizada. Independientemente
del nombre (curva normal estandarizada, curva normal o distribución normal
estandarizada), la idea es la misma.
Como pronto descubrirá, la curva normal estandarizada es una curva teórica que
sirve como base o modelo de comparación. Es un punto de referencia, un estándar
contra el cual se puede juzgar la información o los datos. En el mundo de las
estadísticas inferenciales, volverá a la curva normal estandarizada una y otra vez, por
lo que es imperativo una comprensión sólida. Sin embargo, para comprender mejor
esta curva especial, comencemos por echar un vistazo a otras distribuciones normales,
que podría encontrar en el mundo real.

Antes de que comencemos

Antes de comenzar, déjame pedirte que pienses en dos conceptos. Primero, quiero
que pienses en el concepto de porcentaje. Entonces quiero que pienses en el concepto
de un dólar. Lo sé, puede sonar muy extraño, pero déjame instarte a que sigas con
esto. Hay una lección que aprender.
Comencemos con la idea de un porcentaje. Piense en lo que le dice un porcentaje
y con qué frecuencia confía en ese concepto cuando se comunica.
Por ejemplo, tal vez alguien le diga que hubo una caída del 15 % en las ventas en el
supermercado local el mes pasado. Otra persona le dice que la inscripción en la
universidad local aumentó un 6%. El uso de un porcentaje para expresar una cantidad
le permite evocar una imagen mental de una disminución o un aumento.
Debido a que un porcentaje representa un estándar, por así decirlo, a menudo es
muy útil cuando desea hacer comparaciones. Por ejemplo, supongamos que su
profesor le dice que el 14 % de su clase obtuvo una calificación de B, pero el 22 % de
la clase de la tarde obtuvo una calificación de B. Realmente no importa cuántos
estudiantes estén matriculados en cada clase; las cifras porcentuales le permiten
evocar una imagen mental sobre el desempeño relativo de los estudiantes en las dos clases.
En cierto modo, puedes pensar en un dólar en los mismos términos. Para
entender esto, permítanme pedirles que piensen en el concepto de un dólar, pero no
piensen en un billete de un dólar que está en su bolsillo. En su lugar, piense en la
noción de dólar como algo en lo que confía como base de comparación. Por ejemplo,
supongamos que ha estado navegando por la red en busca de una ganga en un
televisor. Encuentras dos televisores que te interesan, pero hay un problema. El precio
de un juego (fabricado en Japón) se da en moneda japonesa (yen), mientras que el
precio del otro juego (fabricado en Alemania) se da en moneda europea (el euro).
Cualquier confusión inicial que pueda experimentar se borra rápidamente a medida
que comienza a trabajar en la situación. Es una simple cuestión de convertir cada
Machine Translated by Google

Curvas normales del mundo real 73

moneda (yen y euro) a dólares. Una vez que haya hecho eso, estará en condiciones de
hacer una comparación. Y ese es el punto. Un dólar, al menos en ese ejemplo, no es algo
tangible. En cambio, es algo abstracto. Pero un dólar, en un sentido abstracto, se vuelve
esencial para su capacidad de comparar un precio con otro.

Aunque los ejemplos sobre porcentajes y dólares pueden parecerle extraños, son
relevantes para el material que está a punto de encontrar. Demuestran la importancia de
tener un medio de comparación, algún tipo de estándar o base que podamos usar como
base para nuestra comparación. Y eso, en pocas palabras, es hacia donde vamos en este
capítulo.

Curvas normales del mundo real

Las curvas normales ordinarias, curvas como algunas de las que consideramos en el último
capítulo, siempre están vinculadas a datos empíricos u observados. Un ejemplo podría ser
una recopilación de datos de un programa de rehabilitación de drogas. Digamos, por ejemplo,
que alguien le brinda información resumida sobre la cantidad de tiempo que los participantes
dedican a las sesiones de consejería grupal voluntaria. Suponga que solo conoce información
resumida, que no tiene datos detallados. Supongamos también que le han dicho que los
datos se distribuyen normalmente, con una media de 14,25 horas por semana y una
desviación estándar de 2,10 horas.
Debido a que sabe que los datos reflejan una distribución normal, está en condiciones
de averiguar muchas cosas, incluso si no tiene los datos reales. Por ejemplo, utilizando parte
de la información que aprendió en el último capítulo, podría determinar rápidamente que
aproximadamente el 68% de los participantes del programa pasan entre 12:15 y 16:35 horas
en consejería grupal voluntaria. Para refrescar tu memoria sobre cómo podrías hacer eso,
simplemente sigue la lógica:
1. Sabes que la media es 14,25 horas.
2. Sabes que la desviación estándar es de 2,10 horas.

3. Sabes que los datos están distribuidos normalmente (la distribución es normal).
4. Sabes que el 68% del área o los casos bajo una curva normal se encuentran
entre una desviación estándar por encima y por debajo de la media.

5. Agregue una desviación estándar a la media para encontrar el límite superior:


14,25 + 2,10 = 16,35 horas.
6. Reste una desviación estándar de la media para encontrar el límite inferior: 14,25 –
2,10 = 12,15 horas.

7. Recordando el punto importante de que el área bajo la curva realmente


representa casos (participantes del programa, por ejemplo), exprese su resultado de
la siguiente manera: Aproximadamente el 68% de los participantes del programa
pasan entre 12.15 y 16.35 horas por semana en consejería grupal voluntaria.

Para comprender mejor la lógica de este proceso, considere la ilustración de la Figura


4-1.
Machine Translated by Google

74 CAPÍTULO 4 La curva normal

Aproximadamente
el 68%
entre ±1
desviación estándar de la media

68%

Una desviación estándar por debajo Media Una desviación estándar por encima
de la media (–2,10) (14.25) de la media (+2,10)

14.25 – 2.10 14,25 + 2,10


12.15 16,35

Figura 4-1 Lógica detrás de la solución del problema

Esto en cuanto a una distribución de datos sobre el asesoramiento grupal voluntario.


Usted podría estudiar la participación voluntaria en el asesoramiento, pero otro
investigador podría estudiar los pesos al nacer de cierto tipo de perro. Es probable que
descubra que la variable del peso al nacer (como la participación voluntaria en consejería)
está normalmente distribuida. Por supuesto, los valores de la media y la desviación
estándar serían diferentes, tal vez un peso medio al nacer de 10,3 onzas con una
desviación estándar de 1,4 onzas, pero la lógica subyacente sería la misma. Si está
dispuesto a dar un pequeño salto aquí, sin duda verá rápidamente hacia dónde vamos
con todo esto.
Un investigador podría haber distribuido normalmente datos medidos en horas y
minutos, pero el siguiente investigador podría haber distribuido normalmente datos
medidos en libras y onzas. Alguien más podría estar mirando una variable que se
distribuye normalmente y se expresa en dólares y centavos, mientras que otro mira datos
distribuidos normalmente expresados en años o partes de un año. Diferentes
investigadores estudian diferentes variables. Es tan simple como eso.
La lista podría seguir y seguir: una serie interminable de distribuciones normales.
Las diferentes distribuciones tendrían diferentes medias, diferentes desviaciones estándar
y diferentes escalas subyacentes de medición (libras, dólares, años, etc.), pero cada
distribución normal se ajustaría a la misma relación subyacente entre la media y la
desviación estándar de la distribución y la forma de la curva.
Machine Translated by Google

Curvas normales del mundo real 75

Siempre se aplicaría la Regla 1-2-3: Aproximadamente el 68% de los casos se encontrarían


±1 desviación estándar de la media; aproximadamente el 95% de los casos se encontrarían ±2
desviaciones estándar de la media; y más del 99% de los casos se encontrarían ±3 desviaciones
estándar de la media.
Para revisar la Regla 1-2-3, vea la Figura 4-2.
De la misma manera, aproximadamente el 32% de los casos (o valores) bajo una curva
normal se encontrarían más allá de un valor de ±1 desviación estándar de la media. (Si
aproximadamente el 68 % del área total cae dentro de ±1 desviación estándar, entonces la
cantidad restante, el 32 %, debe estar más allá de esos puntos).
De manera similar, solo alrededor del 5% de los casos (o valores) bajo una curva normal serían

68%

Aproximadamente el 68% del área bajo una curva normal está entre una desviación
estándar por encima y por debajo de la media.

95%

Aproximadamente el 95% del área bajo una curva normal está entre dos desviaciones
estándar por encima y por debajo de la media.

99%

Más del 99% del área bajo una curva normal está entre tres desviaciones estándar
por encima y por debajo de la media.

Figura 4-2 Revisión de la regla 1-2-3


Machine Translated by Google

76 CAPÍTULO 4 La curva normal

encontrado más allá de un punto ±2 desviaciones estándar de la media (100% - 95% =


5%). En cuanto a los extremos reales de la curva, solo alrededor del 1 % del área bajo la
curva se encontraría más allá de los puntos ±3 desviaciones estándar de la media (100
% – 99 % = 1 %).
Parte de lo que hace que la Regla 1-2-3 sea tan útil es el hecho de que puede usarla
independientemente de la escala de medida subyacente. Sabe qué porcentaje de
puntajes o valores caerá entre o más allá de ciertas partes de la curva, independientemente
de la unidad de medida en cuestión. No importa si se trata de libras, onzas, dólares, años
o cualquier otra cosa. Sabe qué porcentaje de casos se encontrarán dónde, siempre que
la curva sea una curva normal. Tampoco hace ninguna diferencia si la media y la
desviación estándar son números grandes (digamos, miles de dólares) o números
pequeños (digamos, valores entre 4 y 15 onzas). Suponiendo una distribución normal, se
aplica la regla 1-2-3. La regla 1-2-3 es útil porque se expresa en unidades de desviación
estándar.

Esto en cuanto a las curvas normales que puedes encontrar en la vida real. Ahora
llegamos al tema de la curva normal estandarizada, una curva teórica. Permítanme
instarles de antemano a que tengan la mente abierta a medida que avanzamos. De
hecho, déjame advertirte que no esperes ninguna aplicación directa de inmediato. Las
aplicaciones llegarán a tiempo.

Hacia el mundo teórico


En primer lugar, la curva normal estandarizada es una curva teórica. Es una curva teórica
porque se basa en un número infinito de casos. Incluso si está dispuesto a seguir
adelante con la discusión, permítame sugerirle que se tome un momento para reflexionar
sobre el último punto: la curva normal estandarizada es una curva teórica; se basa en un
número infinito de casos.

ÿ ÿ VERIFICACIÓN DE APRENDIZAJE

Pregunta: ¿Por qué la curva normal estandarizada se considera una


curva teórica?
Respuesta: Se basa en un número infinito de casos.

Aquí hay una manera de entender ese punto. Imagina una curva normal con una
línea en el medio que indica la posición de la media. Ahora imagina cada lado de la curva
moviéndose más y más hacia afuera: el lado derecho moviéndose más hacia la derecha
y el lado izquierdo moviéndose más hacia la izquierda. Imagine algo como la curva que
se muestra en la Figura 4-3.
Debido a que la curva normal estandarizada se basa en un número infinito de casos,
nunca hay un final en ninguno de los lados. Al igual que con otras distribuciones normales,
la mayor parte de los casos se encuentran en el centro de la distribución (agrupados).
Machine Translated by Google

Hacia el mundo teórico 77

Hasta el infinito Hasta el infinito

–3 –2 –1 0 +1 +2 +3

La media, la mediana y la moda coinciden en 0; desviación estándar = 1.

La curva normal estandarizada se


basa en un número infinito de casos.

Figura 4-3 Naturaleza teórica de la curva normal estandarizada

alrededor de la media), y los casos se desvanecen a partir de ahí. A medida que los casos
se van desvaneciendo a ambos lados de la distribución, la curva cae muy gradualmente
hacia la línea de base. Pero (y este es un pero importante), la curva normal estandarizada
nunca toca la línea de base. ¿Por qué? La curva normal estandarizada nunca toca la línea
de base porque siempre hay más casos a considerar. (Recuerde: la curva se basa en un
número infinito de casos).

ÿ ÿ VERIFICACIÓN DE APRENDIZAJE

Pregunta: ¿Cuál es el efecto de un número infinito de casos en


la curva y la línea base?
Respuesta: La curva nunca toca la línea de base porque siempre
hay más casos a considerar.

Como con cualquier curva normal, la media, la mediana y la moda de la curva normal
estandarizada comparten el mismo valor; están ubicados en el mismo punto.
Si dibujara una línea a través de la mitad exacta de la curva normal estandarizada, la línea
reflejaría la ubicación de la media, la mediana y la moda. Dado que esa línea atravesaría
exactamente el centro de la curva, las dos mitades de la curva serían iguales entre sí. Al
igual que en cualquier curva normal que pueda encontrar, el 50 % del área bajo la curva
normal estandarizada se encuentra a la derecha de la media y el 50 % se encuentra a la
izquierda de la media.
Ahora llegamos a la parte de la discusión que explica por qué nos referimos a la curva
normal estandarizada como la curva normal. Para comprender completamente este punto,
piense en el ejemplo que involucra a los participantes del programa de rehabilitación de drogas.
En ese ejemplo, la media fue de 14,25 horas dedicadas a asesoramiento grupal voluntario
y la desviación estándar fue de 2,10 horas. Podrías encontrarte con otro
Machine Translated by Google

78 CAPÍTULO 4 La curva normal

distribución normal, sin embargo, con una media de 700 y una desviación estándar
de 25. En este punto, no debería preocuparle lo que representan 700 y 25; podrían
ser dólares o libras o puntajes de exámenes o cualquier número de otras variables.
La idea es llevar tu pensamiento a un nivel más abstracto. Cada distribución tiene una
media y una desviación estándar. Estos valores pueden ser expresiones de montos
de ingresos, puntajes de exámenes, cantidad de tareas completadas, tasas de
crecimiento o cualquier otra variable.
Sin embargo, en el caso de la curva normal estandarizada, la media siempre es
igual a 0 y la desviación estándar siempre es igual a 1. No es el caso que la media
sea, digamos, 16 y la desviación estándar sea 2. Es No es el caso que la media sea
2378 y la desviación estándar sea 315. Es posible que tenga medias y desviaciones
estándar como las de algunas distribuciones normales, pero lo que estamos
considerando aquí es la curva normal estandarizada .
Repito: en el caso de la curva normal estandarizada, la media es igual a 0 y la
desviación estándar es 1. Estas dos propiedades, una media de 0 y una desviación
estándar de 1, son las propiedades que realmente dan lugar a la término estandarizado.
También son las propiedades que hacen que la curva normal estandarizada sea tan
útil en el análisis estadístico.
Empezamos con la noción de que la media es igual a 0 (vea la figura 4-4). Debido
a que la media es igual a 0, cualquier punto a lo largo de la línea de base de una
curva normal que esté por encima de la media se considera un valor positivo.
Asimismo, cualquier valor por debajo de la media sería un valor negativo. Como ya
sabes, los dos lados de cualquier curva normal son iguales. Por tanto, el área
comprendida entre la media y cierta distancia por encima de la media (en el lado
derecho de la curva) es igual al área entre la media y esa misma distancia en el lado
izquierdo de la curva (por debajo de la media).

Segmento Segmento
B A

Significar

Figura 4-4 Igualdad de áreas en ambos lados del


Curva normal estandarizada
Machine Translated by Google

La tabla de áreas bajo la curva normal 79

En cierto modo, la información que acabas de digerir reduce tu aprendizaje a la mitad. La


única diferencia entre los dos lados de la curva normal estandarizada es que nos referimos a
los puntos a lo largo de la línea de base como positivos o negativos: positivos para los puntos
por encima de la media y negativos para los puntos por debajo de la media.
Muy bien, pero ¿qué se supone que debo aprender? Tu puedes preguntar. ¡Paciencia!
Llegaremos a eso. Recuerda: La idea es digerir bien la información.

La tabla de áreas bajo la curva normal

En cierto sentido, no es la propia curva normal estandarizada la que es tan útil en el análisis
estadístico. Más bien es la Tabla de áreas bajo la curva normal la que resulta ser una
herramienta realmente útil. Encontrará una copia de la Tabla de áreas bajo la curva normal en
el Apéndice A, pero no la mire todavía. En su lugar, siga con un poco más de la discusión
primero.
Para comprender cuán útil puede ser la Tabla de áreas bajo la curva normal, recuerde
nuestra discusión anterior. Anteriormente aprendiste la regla 1-2-3 y eso te dio información
sobre las áreas bajo una curva normal.
Pero, ¿qué pasa con las áreas bajo la curva que caen, digamos, entre la media y 1,25
desviaciones estándar por encima de la media? ¿O qué pasa con el área bajo la curva que se
encuentra entre la media y 2,17 desviaciones estándar por debajo de la media? En otras
palabras, todo está bien si se trata de 1, 2 o 3 desviaciones estándar de la media de una
distribución normal, pero ¿qué pasa con otras situaciones?

Con un poco de cálculo, podrías lidiar con todo tipo de situaciones. Podrías calcular el
área bajo la curva entre dos puntos, o la porción bajo la curva entre la media y cualquier punto
por encima o por debajo de la media.
Afortunadamente, sin embargo, no tienes que recurrir al cálculo. Gracias a la Tabla de áreas
bajo la curva normal, el trabajo ya está hecho.
Existe la posibilidad de que estés murmurando algo como: ¿Qué trabajo? ¿Qué se supone
que debo estar haciendo? Relax; aligerar. Recuerde cuál es el objetivo en este momento:
aprender algún material fundamental sin preocuparse por su aplicación directa. Concéntrate en
el material básico ahora mismo; las aplicaciones llegarán a su debido tiempo.

Antes de pedirle que pase a la Tabla de áreas bajo la curva normal (Apéndice A), déjeme
decirle unas palabras sobre lo que encontrará y lo que tendrá que saber para hacer un uso
adecuado de la tabla. Primero, debe tomarse un momento de cuarto oscuro para imaginar una
vez más cómo se ve la curva normal estandarizada. Imagina que te enfrentas a una curva
normal estandarizada. Observa el valor de 0 en el medio de la línea de base, junto con un
número infinito de marcas de sombreado que salen a la derecha y a la izquierda. Además,
imagine que el área bajo la curva está llena de casos (tal como lo hizo antes cuando se le
presentó la noción de que el área bajo la curva no es solo un espacio en blanco).

Ahora, en lugar de pensar en un montón de marcas de sombreado que marcan puntos a


lo largo de la línea de base, comience a pensar en las marcas de sombreado como algo llamado
Machine Translated by Google

80 CAPÍTULO 4 La curva normal

–3 –2 –1 0 +1 +2 +3

Valores Z a lo largo de toda la línea de base.

Figura 4-5 Distribución de valores Z a lo largo de la


Línea Base de la Estandarizada
Curva Normal

Desviación estándar de 1.0

–3 –2 –1 0 +1 +2 +3

Valor Z de 1.0

Los valores Z son simplemente puntos a lo largo de la


línea base de una curva normal estandarizada.

Figura 4-6 Valores Z como desviaciones estandarizadas a lo largo del


Línea base de la curva normal estandarizada

valores Z. El término Z, o puntaje Z , es la expresión que usan los estadísticos para


referirse a puntos o valores a lo largo de la línea base de la curva normal estandarizada.
El punto en el medio de la curva tiene un valor Z de 0; otros valores de Z se encuentran
a la derecha ya la izquierda de ese punto cero. Los valores Z de la derecha se consideran
valores Z positivos ; los valores Z de la izquierda se consideran valores Z negativos
(consulte la Figura 4-5).
Dado que la desviación estándar de la curva normal estandarizada es igual a 1, los
valores Z a lo largo de la línea de base son en realidad expresiones de las desviaciones
estándar a lo largo de la línea de base. Por ejemplo, un valor Z de +2 realmente equivale
a 2 unidades de desviación estándar por encima de la media. Un valor Z de –1,3
equivaldría a 1,3 unidades de desviación estándar por debajo de la media. Un valor Z de
0 estaría a 0 desviaciones estándar de la media porque sería igual a la media. Considere
la ilustración en la Figura 4-6.
Machine Translated by Google

La tabla de áreas bajo la curva normal 81

Ahora eche un vistazo al Apéndice A: Tabla de áreas bajo la curva normal.


También se conoce como la distribución de Z. Primero, concéntrese en los gráficos de
la ilustración de la página 308. La ilustración le permite saber que la tabla le brinda
información sobre la cantidad de área bajo la curva normal que se encuentra entre la
media y cualquier punto a lo largo de la línea base de la curva. En segundo lugar,
concéntrese en diferentes columnas. Verá el símbolo Z en la parte superior de varias columnas.
También verá columnas marcadas como Área entre la media y Z.

El cuerpo de la tabla está lleno de proporciones (expresadas como valores


decimales). Estos se pueden traducir fácilmente a valores porcentuales al multiplicar
por 100. Por ejemplo, el valor de .4922 en el cuerpo de la tabla debe leerse como
49.22%. El valor porcentual de 49,22% está asociado con un valor Z de 2,42. ¿Como
sabes eso? Basta con echar un vistazo a la tabla. El valor de .4922 aparece junto al
valor Z de 2.42. La mejor manera de entender todo esto es saltar directamente y echar
un vistazo a la tabla.
Supongamos que desea encontrar el valor de proporción o porcentaje asociado
con un valor Z de 1,86. Primero debe ubicar el valor Z de 1.86 (vea la Figura 4-7).
Luego mira a la derecha de ese valor Z para la proporción asociada. El valor de la
proporción correspondiente es .4686, lo que se traduce en 46.86%. Ahora preguntas,
¿46,86% de qué? Aquí está la respuesta: el 46,86% del área bajo la curva normal se
encuentra entre la media y un valor Z de 1,86. No importa si es un valor Z de +1,86 o
un valor Z de –1,86; el valor de la proporción (o porcentaje) asociado es el mismo.

Área entre Área entre Área entre Área entre


Z Media y Z Z Media y Z Z Media y Z Z Media y Z

0.00 0.0000 0.50 0.1915 1.00 0.3413 1.50 0,4332


0.01 0.0040 0.51 0.1950 1.01 0.3438 1.51 0,4345

0,29 0.1141 0.79 0.2852 1.29 0.4015 1.79 0.4633


0,30 0,1179 0,80 0.2881 1.30 0.4032 1.80 0.4641
0,31 0,1217 0,81 0.2910 1.31 0,4049 1.81 0,4649
0.32 0,1255 0.82 0.2939 1.32 0,4066 1.82 0,4656
0.33 0.1293 0.83 0.2967 1.33 0.4082 1.83 0,4664
Z = 1,86
0.34 0.1331 0.84 0.2995 1.34 0.4099 1.84 0.4671
0.35 0.1368 0.85 0.3023 1.35 0.4115 1.85 0.4678
0,36 0.1406 0.86 0.3051 1.36 0.4131 1.86 0.4686
.4686
0,37 0.1443 0,87 0,3078 1.37 0,4147 1.87 0.4693
o
0.38 0.1480 0,88 0,3106 1.38 0,4162 1.88 0,4699
0.3133 1.39 0,4177 1.89 0,4706
46,86%
0.39 0.1517 0.89

Localice el valor Z de 1,86. El valor correspondiente (expresado como una proporción) se


puede convertir en un porcentaje al multiplicarlo por 100. Por lo tanto, el 46,86 % del área bajo
la curva normal se ubica entre la media y un valor Z de 1,86 (ya sea +1,86 o –1,86) .

Figura 4-7 Un segmento de la tabla de áreas bajo la curva normal


Machine Translated by Google

82 CAPÍTULO 4 La curva normal

Mientras estamos en eso, permítanme señalar un par de cosas sobre la mesa.

1. Lo que está viendo es simplemente un formato para presentar áreas bajo la curva
normal. Diferentes libros de estadística utilizan diferentes formatos para presentar
el mismo material.
2. Preste atención a la nota debajo del título de la tabla: Área entre la media (0) y Z.
Piense en lo que eso le dice, es decir, que la tabla le da la cantidad de área bajo
la curva que se encontrará entre la media y diferentes valores de Z.

3. Siéntase cómodo con la forma en que se expresan los valores, como proporciones
en formato decimal. Estas proporciones se pueden convertir fácilmente a
porcentajes. Por ejemplo, el valor de .4686 es igual a 46.86%.
4. Probablemente esté mejor si inmediatamente comienza a pensar en los valores
en términos del porcentaje de casos u observaciones entre la media y Z. En otras
palabras, todos y cada uno de los valores de Z tienen asociado algún porcentaje de
casos u observaciones.
5. Tome nota del final de la tabla: nunca llega a un valor de 0,5000 (o 50 %). Sale a
un valor Z de 3,9 (con un porcentaje asociado del 49,99%), pero luego se acaba.
Eso es porque la tabla se basa en un número infinito de casos. Tenga en cuenta que
cada vez que hay un cambio de unidad en el valor Z (a medida que avanza en la
tabla), el cambio de unidad correspondiente en el área asociada se vuelve cada vez
más pequeño. Esto se debe a que la cola de la curva se acerca cada vez más a la
línea de base a medida que avanza en la curva.

Ahora comencemos a usar la tabla: primero haga algunas cosas para familiarizarse
con la tabla y luego haga algunas aplicaciones. Comenzaremos con algunos problemas
que implican buscar un valor Z y el porcentaje asociado.
Recuerda siempre que la tabla solo trata la mitad del área bajo la curva. Todo lo que es
cierto en un lado de la curva es cierto en el otro, ¿verdad?
Ahora considere las siguientes preguntas.

Pregunta: ¿Cuál es el valor porcentual asociado con un valor Z de +1,12 y


cómo lo interpreta?
Respuesta: El valor de la proporción es .3686 o 36.86%. Esto significa que el
36,86% del área bajo la curva normal se encuentra entre la media y un valor Z de
+1,12.
Pregunta: ¿Cuál es el valor porcentual asociado con un valor Z de -1,50 y
cómo lo interpreta?
Respuesta: El valor de la proporción es .4332 o 43.32%. Esto significa que el
43,32% del área bajo la curva normal se encuentra entre la media y un valor Z de
–1,50.
Pregunta: ¿Cuál es el valor porcentual asociado con un valor Z de +0,75 y
cómo lo interpreta?
Machine Translated by Google

La tabla de áreas bajo la curva normal 83

Respuesta: El valor de la proporción es .2734 o 27.34%. Esto significa que


el 27,34% del área bajo la curva normal se encuentra entre la media y un valor
Z de +,75.
Pregunta: ¿Cuál es el valor porcentual asociado con un valor Z de -2,00 y
cómo lo interpreta?
Respuesta: El valor porcentual es .4772 o 47.72%. Esto significa que el
47,72% del área bajo la curva normal se encuentra entre la media y un valor Z
de –2,0.
Pregunta: ¿Cuál es el valor porcentual asociado con un valor Z de +2,58 y
cómo lo interpreta?
Respuesta: El valor de la proporción es .4951 o 49.51%. Esto significa que
el 49,51% del área bajo la curva normal se encuentra entre la media y un valor
Z de +2,58.

Si pudo responder a estas preguntas con éxito, podemos pasar a las siguientes
preguntas. En este punto, déjame recordarte nuevamente lo que ya sabes de
discusiones anteriores: la tabla con la que estás trabajando refleja solo un lado de la
curva normal estandarizada. Ahora veamos algunas preguntas más, esta vez
concentrándonos en el área entre dos valores Z.

Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +1,41
y –1,41?
Respuesta: 84,14 % (doble 42,07 % para tener en cuenta el hecho de que
se trata de ambos lados de la curva).
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +.78
y –.78?
Respuesta: 56,46 % (Doble 28,23 % para tener en cuenta el hecho de que
estás tratando con ambos lados de la curva).
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +1,96
y –1,96?
Respuesta: 95 % (doble 47,50 % para tener en cuenta el hecho de que se trata
de ambos lados de la curva).
Pregunta: ¿Cuánta área bajo la curva se encuentra entre los valores Z de +2,58
y –2,58?
Respuesta: 99,02 % (doble 49,51 % para tener en cuenta el hecho de que
se trata de ambos lados de la curva).

Las respuestas a estas preguntas fueron bastante sencillas porque simplemente


requerían que duplicara un valor porcentual para obtener la respuesta correcta. Es
posible que ya haya adquirido suficiente conocimiento sobre las áreas bajo la curva
normal para seguir adelante, pero me gustaría asegurarme de que haya desarrollado
esa comprensión instintiva y natural que mencioné anteriormente. Para hacerlo, les
pido que consideren otra ronda de preguntas.
Con cualquier pregunta sobre áreas bajo la curva normal, generalmente es una
buena idea dibujar un diagrama aproximado para ilustrar la pregunta que se plantea. Su
Machine Translated by Google

84 CAPÍTULO 4 La curva normal

¿Cuánta área bajo la curva está por encima de un valor Z de +1.44?

Respuesta: 7,49%.
De media a Z es 42.51%. Toda la mitad = 50%.
50 – 42,51 = 7,49.

¿Cuánta área bajo la curva está por debajo de un valor Z de -2.13?

Respuesta: 1,66%.
De media a Z es 48.34%. Toda la mitad = 50%. 50 –
48,34 = 1,66.

¿Cuánta área bajo la curva hay entre valores Z de ±1.96?

Respuesta: 95%.
De media a Z es 47.50%. Considere ambos lados; el doble del valor.
47,50 % × 2 = 95 %.

Aproximadamente, ¿cuánta área bajo la curva hay entre los


valores Z de ±2,58?

Respuesta: 99%.
De media a Z es 49.51%. Considere ambos lados; el doble del valor.
49,51% × 2 = Aproximadamente 99%.

¿Cuánta área queda fuera de (por encima y por debajo) de los valores
Z de ±1,96?

Respuesta: 5%.
El área entre los valores Z de ±1,96 es del 95 %. La totalidad
el área es 100%. 100% – 95% = 5% (dividido uniformemente en
ambos lados de la curva).

¿Cuánta área queda fuera (por encima y por debajo) de los valores Z
de ±2,58?

Respuesta 1%.
El área entre los valores Z de ±2,58 es del 99 %. Toda la zona está
al 100%. 100% – 99% = 1% (dividido uniformemente en ambos lados
de la curva).

Figura 4-8 Problemas basados en áreas bajo la curva normal estandarizada


Machine Translated by Google

Finalmente, una aplicación 85

diagrama puede ser muy poco sofisticado, siempre y cuando le permita poner algo
en un papel que expresa la pregunta que se plantea y lo que está pasando en tu
mente cuando te acercas a la pregunta. Debo advertirle que resista cualquier tentación de
desarrollar sus propios atajos en función de la forma en que se formula una pregunta. Siempre toma la
tiempo para pensar en la pregunta. Usa un diagrama para convencerte de que estás
abordando la pregunta de la manera correcta.
Ahora eche un vistazo a las preguntas presentadas en la Figura 4-8, junto con los
diagramas y comentarios. Estas preguntas son muy similares a algunas de las
te encontraste antes. Para estas preguntas, sin embargo, concéntrese en qué tan útil es el
Los diagramas sirven para explicar la lógica subyacente del proceso.
A estas alturas, deberías haber notado que un par de valores han aparecido en el momento
y otra vez, es decir, los valores de 95% y aproximadamente 99%. Que
no fue por accidente. Resulta que los estadísticos muy a menudo hablan en formas que directa
o indirectamente hacen referencia al 95% o al 99%. Están particularmente interesados en
valores, casos o eventos extremos, los que se encuentran más allá del 95% o más.
rango del 99%. Otra forma de pensar en esos valores es pensar en ellos como
tan extremos que solo pueden ocurrir menos de 5 de cada 100 veces o menos
de 1 vez de cada 100. Es por eso que los valores Z de ±1.96 y ±2.58 toman
un significado especial para los estadísticos.
Como aprendió anteriormente, el área entre los valores Z de ±1.96 en un
curva o distribución abarcará el 95% de los casos o valores. Por lo tanto,
sólo el 5% de los casos o valores superan los valores Z de ±1,96 en una curva normal
estandarizada. De manera similar, el área entre los valores de Z de ±2.58 tomará
en poco más del 99% de los casos o valores. Por lo tanto, menos del 1% de los
casos o valores están más allá de los valores Z de ±2.58.
Esas áreas, el 5% y el 1%, son las áreas del extremo (improbable)
valores, y esas son las áreas que finalmente captan la atención de los estadísticos. Tendré
mucho más que decir sobre eso más adelante. En este momento, sin embargo, supongo
es que se te acaba la paciencia y estás ansioso por llegar a una aplicación.
No esperes más. Avanzaremos con un ejemplo, uno que puede sorprenderte.
como extrañamente familiar.

Finalmente, una aplicación

Lo cierto es que ya te has ocupado de una solicitud parcial


del material que acaba de cubrir. Hiciste eso antes cuando trabajaste
el ejemplo en el último capítulo relacionado con los puntajes de sus exámenes. Piensa en un
momento a lo que implicaba ese ejemplo. Aquí está de nuevo, repetido tal como estaba
presentado anteriormente:

Prueba Significar Desviación Estándar Tu puntuación

Matemáticas 82 6 80
Verbal 75 3 75
Ciencias 60 5 70
Lógica 70 7 77
Machine Translated by Google

86 CAPÍTULO 4 La curva normal

A modo de revisión, esta es la situación que encontró anteriormente: estaba


parte de una clase bastante grande (200 estudiantes); hiciste cuatro pruebas; entonces te pregunte
algunas preguntas sobre su desempeño relativo en las diferentes pruebas.
Se supuso que la distribución de las puntuaciones en cada prueba era normal. Además,
el número de casos involucrados en cada prueba fue bastante grande (200
casos). En situaciones como esa, situaciones que involucran una gran cantidad de casos y
distribuciones que se supone que están distribuidas normalmente, puede convertir
puntuaciones a puntuaciones Z y hacer uso de la tabla de áreas bajo la curva normal.
Para comprender todo esto, piense en cómo finalmente llegó a ver
su desempeño en el examen de ciencias. La media en la Prueba de Ciencias fue 60,
con una desviación estándar de 5. Tu puntaje fue 70. Eventualmente pensaste que
y determinó que su puntaje era igual a dos desviaciones estándar
unidades por encima de la media. Su puntuación estuvo 10 puntos por encima de la media; el estandar
desviación igualó 5 puntos; dividiste los 10 puntos entre 5 puntos (la desviación estándar).
Como resultado, determinó que su puntuación era igual a dos
unidades de desviación estándar por encima de la media.

En esencia, lo que hizo fue convertir su puntaje bruto en un puntaje Z. si hubiera


introdujo la fórmula para una puntuación Z anteriormente, podría haber causado cierta confusión
o pánico. Ahora la fórmula debería tener más sentido. Echa un vistazo a la
fórmula para una puntuación Z , y piénselo en términos de lo que estaba pasando en su
mente mientras evaluaba su desempeño en la Prueba de Ciencias.

x 2 metros
Z5
s

No entrar en pánico. Solo piensa en lo que representan los símbolos. Primero, eres
lidiando con los resultados de una clase de estudiantes, y estás asumiendo
que la clase es una población. En otras palabras, se trata de una población,
por lo tanto, la media en el examen de ciencias está etiquetada como m o mu. De la misma manera, el
desviación estándar es la desviación estándar de la población (recuerde, estamos
tratando la clase como una población), por lo que la desviación estándar está simbolizada por s.
El símbolo X representa un puntaje bruto, en este caso, su puntaje de prueba de 70.
La fórmula simplemente lo dirige a encontrar la diferencia entre un puntaje bruto
y la media, y luego divide esa diferencia por la desviación estándar. Para
ejemplo, esto es lo que involucró la conversión de su puntaje de ciencias (puntaje bruto)
a una puntuación estandarizada:

x 2 metros
Z5
s
70 2 60
5

5
10
5

5
52
Machine Translated by Google

Finalmente, una aplicación 87

–3 –2 –1 0 +1 +2 +3

Prueba de matemáticas Puntaje Z de –.33


Prueba de ciencias Puntaje Z de +2.0

Prueba verbal puntuación Z de 0 Prueba de lógica Z puntuación de +1.0

Figura 4-9 Conversión de puntajes de prueba (puntajes brutos) a puntajes Z

Cuando determinó que obtuvo dos desviaciones estándar por encima de la


significa que simplemente estabas haciendo exactamente lo que la fórmula te indica que hagas. Tú
encontraste la diferencia entre tu puntuación (70) y la media (60), y dividiste
esa diferencia por la desviación estándar (5). El resultado es una relación Z. es una proporción de
la diferencia entre una puntuación bruta y la media, expresada en estándar
unidades de desviación.

Como se muestra en la figura 4-9, su puntaje de 70 en el examen de ciencias equivalía a


una puntuación Z , o relación Z , de +2. De la misma manera, sus otros puntajes también
representaban puntajes Z o proporciones Z.
En cada caso, convirtió el puntaje de su prueba en un puntaje Z o una relación Z al superponer
la distribución de puntajes para cada prueba en un solo estándar: la curva normal estandarizada.
El resultado fue que eventualmente podrías dar un paso atrás y
revise todos los rendimientos de sus pruebas en términos de lo que fueron como puntajes Z o
proporciones Z. Los resultados son exactamente los mismos que cuando el escenario se presentó
originalmente en el Capítulo 2. Su mejor desempeño fue en la Prueba de Ciencias;
tu peor desempeño fue en el examen de matemáticas.
Y en caso de que esté interesado, en caso de que hayamos incluido el
Prueba de Habilidad de Idioma Extranjero (como hicimos en el Capítulo 2)—también tendría su
colóquelo en la ilustración que se muestra en la Figura 4-9. Solo para refrescar tu memoria,
Piense en cómo se presentó el problema original en el Capítulo 2. Hay
Había cuatro pruebas de 100 puntos a considerar. Después de haber tratado con cada uno de ellos,
estabas en condiciones de determinar cuál era tu mejor y peor actuación. Pero luego, al final y
después de que pensaras que el asunto estaba resuelto, yo
Le pedí que considerara un último escenario. Te pedí que consideraras una situación en
que también había tomado una prueba de habilidad de idioma extranjero de 250 puntos. Además,
le dije que la media de la prueba era 120 con una desviación estándar
de 15, y te dije que habías sacado 90 en el examen. Si recuerda lo que sucedió cuando hicimos
eso antes (es decir, cuando agregamos una quinta prueba a la mezcla, pero
fue una prueba de 250 puntos), luego recuerdas que tuviste un nuevo peor desempeño. Era la
puntuación de la Prueba de Habilidad en Idiomas Extranjeros, una puntuación de dos
desviaciones estándar por debajo de la media. En definitiva, si hubiésemos tirado el Extranjero
Machine Translated by Google

88 CAPÍTULO 4 La curva normal

Language Ability Test en el escenario actual, su puntaje en esa prueba encontraría el lugar
que le corresponde a lo largo de la línea de base que se muestra en la Figura 4-9. Más
específicamente, estaría en el punto correspondiente a un valor negativo de Z , un Z de -2. El
puntaje de la Prueba de Habilidad en Idiomas Extranjeros se colocaría justo donde debería
estar, justo allí a lo largo de la línea de base, al igual que los valores Z de los otros cuatro
puntajes de la prueba. Cada prueba tendría su propio lugar a lo largo de la misma línea de
base, aunque cuatro de las pruebas eran pruebas de 100 puntos y una de las pruebas (la
prueba de habilidad en idiomas extranjeros) era una prueba de 250 puntos.
Pero tiene que haber algo más que eso, es probable que estés diciendo ahora mismo. A
decir verdad, lo hay. Pero ahora se requiere paciencia.
Recuerde cuál es el objetivo, es decir, desarrollar una comprensión sólida de los conceptos
fundamentales. Si te sirve de algo, solo piensa en todo lo que has aprendido hasta ahora.

Ha recorrido los fundamentos de la estadística descriptiva y las formas de las


distribuciones en general. Además, acaba de tener una sólida introducción a la curva normal
estandarizada, las puntuaciones Z y la Tabla de áreas bajo la curva normal. En el proceso,
has cubierto bastante.
Al aprender sobre la curva normal estandarizada y la tabla de áreas bajo la curva normal,
ha solidificado su pensamiento sobre curvas, distribuciones y porcentajes asociados de casos
o probabilidades de ocurrencia. Más importante aún, ha aprendido a pensar en abstracto,
suponiendo que se haya tomado el tiempo de visualizar mentalmente la curva normal
estandarizada y las puntuaciones Z o puntos a lo largo de la línea de base. En otras palabras,
ha aprendido a interpretar las puntuaciones Z de forma fundamental.

Digamos, por ejemplo, que alguien está mirando un valor de puntaje bruto de 62.
Entonces digamos que el 62 equivale a un valor Z de –2,13. A estas alturas, debería saber
automáticamente que un valor Z de –2,13 es extremo, al menos en el sentido de que estaría
ubicado hacia el extremo izquierdo de una curva normal. Podría buscarlo en la Tabla de áreas
bajo la curva normal y averiguar qué tan extremo es, pero debe saber intuitivamente que es
extremo. Después de todo, sabe que un valor Z de -1,96 es extremo y un valor Z de -2,13
sería aún más extremo.
Si ha memorizado solo una pequeña cantidad de información (en este caso, el porcentaje
asociado con un valor Z de ±1,96), podría decir algo bastante importante sobre ese valor de –
2,13. Sin ni siquiera mirar la Tabla de áreas bajo la curva normal, podría afirmar que un valor
de –2.13 es tan extremo que es probable que ocurra menos de 5 veces de cada 100 (vea la
Figura 4-10).

Además de conocer automáticamente la posición relativa de ese valor Z , ahora


probablemente tenga una comprensión sólida de cómo se calculó el valor Z de -2.13 en primer
lugar. En otras palabras, comprende que el proceso comenzó al encontrar la diferencia entre
un puntaje bruto y la media de una distribución (en este caso, la diferencia entre la media y
62). Luego, esa diferencia se dividió por la desviación estándar de la distribución. El resultado
fue una relación Z , una relación de la diferencia entre una puntuación bruta y la media,
expresada en unidades de desviación estándar.
Machine Translated by Google

Finalmente, una aplicación 89

Valor Z de –2,13

–3 –2 –1 0 +1 +2 +3

Z de ±1,96 incluye aproximadamente el 95% del área total.

Solo alrededor del 5% del área estaría más allá de los valores Z ±1,96.

En otras palabras, solo alrededor del 5 % de las veces esperaría encontrar un valor Z
que fuera más extremo que ±1,96. El valor AZ de –2,13 sería más extremo; por lo tanto,
esperaría encontrarlo menos de 5 veces de cada 100. De hecho, el 5 % del área más allá
de una Z de ±1,96 se dividiría uniformemente, con un 2,5 % a cada lado de la curva. Por lo
tanto, un valor de -2.13 es un valor que esperaría que ocurra menos de 2.5 veces de cada
100.

Figura 4-10 Localización de un valor Z de –2,13

Ahora aquí está la belleza de todo esto: no hace ninguna diferencia si


estás estudiando pesos, alturas, ingresos, niveles de educación, niveles de agresión
en presos, resultados de exámenes, o cualquier otra cosa. no hace ninguna diferencia
ya sea que esté tratando con valores que representan dólares, años, libras o
puntos o cualquier otra cosa. Un valor Z (proporción Z) puede servir como su estándar, solo para que
siempre que se trate de una distribución que tenga un número bastante grande de casos
y puede suponer legítimamente que se distribuye normalmente.
Si su distribución cumple con esos supuestos, está en condiciones de saber
mucho sobre su distribución. Lo más importante, usted está en condiciones de
identificar los valores extremos en la distribución. Como mencioné antes, es el
valores extremos que suelen llamar la atención de los estadísticos. De hecho, suele ser
un resultado extremo que un estadístico está mirando cuando anuncia que
los resultados son significativos.
Eventualmente entraremos en todo eso, cómo determinar si los resultados son o no
estadísticamente significativos, pero aún tenemos que cubrir algunos aspectos restantes.
conceptos. Para eso, vamos al siguiente capítulo.
Machine Translated by Google

90 CAPÍTULO 4 La curva normal

Resumen del capítulo

Este capítulo fue un hito en el sentido de que se le presentó uno de los conceptos más
teóricos pero esenciales de la inferencia estadística: la curva normal estandarizada.
Presumiblemente, aprendió sobre la naturaleza fundamentalmente teórica de la curva
normal estandarizada y aprendió a navegar alrededor de ella (con el uso de la Tabla de
áreas bajo la curva normal).
Lo que es más, avanzó en un acto de fe, aprendiendo muchas cosas sobre la curva
normal estandarizada con poca noción de adónde conduciría el conocimiento.

Sin embargo, si el enfoque funcionó, eventualmente descubrió lo suficiente como


para abrirse camino a través de algunas aplicaciones básicas. Idealmente, se movió a
través de esas aplicaciones con un cierto nivel de comprensión intuitiva. Si esa es la
forma en que se desarrolló para usted, bienvenido al mundo del razonamiento estadístico:
está en el camino correcto. Sí, todavía quedan muchas más aplicaciones por venir. Pero
al menos estás en el camino correcto.
Más allá de eso, se le presentó la utilidad fundamental de la curva normal
estandarizada: cómo nos permite trabajar con un lenguaje estadístico común, por así
decirlo. Aprendió que los estadísticos suelen estar interesados en sucesos extremos.
Más importante aún, aprendió lo que es una ocurrencia extrema para un estadístico.

Sospecho que todo eso hizo un plato bastante completo y mucho para digerir de una
sola vez. Debido a que todo lo que sigue depende tanto de lo que acaba de cubrir,
permítame instarle a que haga una evaluación honesta de su comprensión hasta este
punto. Si cree que necesita volver a leer el material una o dos veces, haga el esfuerzo.
En muchos aspectos, es una de las llaves que abre la puerta.

Algunas otras cosas


Usted debe saber

Merece saber que la suposición de una distribución normal de una población (o


poblaciones, para el caso) es fundamental para muchas aplicaciones estadísticas.
También debes saber que es un supuesto que no siempre se cumple. Como habrá
sospechado, los estadísticos tienen métodos para manejar situaciones en las que no se
puede cumplir con esta suposición central, pero esos enfoques están más allá del alcance
de este texto. Incluso si está ansioso por aprender más sobre estos asuntos, vale la pena
recordar el viejo adagio, lo primero es lo primero. Dado que una parte sustancial de las
estadísticas inferenciales se basa en la suposición de que está trabajando con datos de
una población que está normalmente distribuida, es esencial que consolide completamente
su comprensión de la curva normal estandarizada.
Más allá de eso, debe saber que hay algunas formas relativamente fáciles de
determinar si una distribución se distribuye normalmente: reglas generales, por así decirlo,
en las que puede confiar como una alternativa rápida a análisis más sofisticados. Por
ejemplo, con una distribución normal, ya sabes que la media, la mediana y
Machine Translated by Google

Capítulo Problemas 91

el modo coincidirá. Si hiciera una comprobación rápida de los valores de la media,


mediana y moda en una distribución, una diferencia sustancial entre
los valores serían una señal inmediata de que la distribución no es normal.
De manera similar, en una distribución normal, esperaría que el rango dividido por 6 fuera
muy cerca del valor de la desviación estándar. ¿Por qué? Es de esperar que porque tres
desviaciones estándar a cada lado de la media deberían tomar más
del 99% del área (o casos). Dado que la media de una distribución normal sería
estar en el medio de la distribución, esperaría tres desviaciones estándar
por encima y por debajo de la media para abarcar algo cercano al área total.
Esto en cuanto a algunas otras cosas que debe saber en este momento. Aún
tenemos una última información que cubrir antes de que realmente nos pongamos manos a la obra
de estadísticas inferenciales, así que ahí es donde nos dirigiremos a continuación.

Términos clave

curva normal estandarizada Z ( puntuación Z)


Tabla de áreas bajo la curva normal relación Z

Problemas del capítulo

Rellene los espacios en blanco, calcule los valores solicitados o, de otro modo, suministre los
respuesta correcta.

Preguntas generales de pensamiento

1. La curva normal estandarizada se basa en un(a) número de


casos.

2. La media de la curva normal es igual a la desviación es , y el estándar


igual a .

Preguntas/ problemas de la aplicación

1. ¿Cuánta área bajo la curva normal hay entre la media y un valor Z de 1,63?

2. ¿Cuánta área bajo la curva normal hay entre la media y un valor Z de 2,35?

3. ¿Cuánta área bajo la curva normal hay entre la media y un


¿Valor Z de –1,22?

4. ¿Qué porcentaje de área (casos u observaciones) está por encima de un valor Z de


+1.96?

5. ¿Qué porcentaje de área (casos u observaciones) está por debajo de un valor Z de


–1,96?

6. ¿Qué porcentaje de área (casos u observaciones) está por encima de un valor Z de


+2.58?
Machine Translated by Google

92 CAPÍTULO 4 La curva normal

7. ¿Qué porcentaje de área (casos u observaciones) está por debajo de un valor Z de


–2.58?

8. ¿Qué porcentaje del área bajo la curva normal está por encima de un valor Z de
+1.53?

9. ¿Qué porcentaje del área bajo la curva normal está por debajo de un valor Z de
–1.12?

10. ¿Qué valor de Z corresponde al 20% más bajo del área bajo la superficie normal ?
¿curva?

11. ¿Qué valor de Z corresponde al 35% superior del área bajo la superficie normal ?
¿curva?

12. ¿Qué valores de Z corresponden al 60% medio del área bajo la normal ?
¿curva?
Machine Translated by Google

5
Cuatro conceptos fundamentales

ÿ Antes Nosotros
Empezar

ÿ Concepto Fundamental #1: Muestreo aleatorio


ÿ Concepto Fundamental #2: Muestreo Error
ÿ los Distribución de muestreo
Concepto fundamental #3: de
Muestra Medio
ÿ Concepto fundamental #4: los Central LímiteTeorema
ÿ Capítulo Resumen
ÿ Alguno Otro Cosas Tú Debe saber
ÿ Llave Términos

ÿ Capítulo Problemas

Este capítulo trata sobre cuatro conceptos fundamentales, algunos de los cuales han sido
aludido antes. Todo lo que hemos cubierto hasta este punto tiene poca importancia si
pasas por alto el material de este capítulo, así que déjame instarte a que lo hagas.
dedica un tiempo serio al material que te estás preparando para cubrir. Si usted
tienes que leer y releer y releer de nuevo, haz eso. El tiempo invertido valdrá la pena.
Primero, trataremos el tema del muestreo aleatorio. A partir de ese momento, vamos
retomar el tema del error de muestreo, una noción esencial que subyace a la lógica
de estadística inferencial. Luego, centraremos nuestra atención en la idea de una muestra
distribución, y más específicamente, veremos la noción de una distribución muestral de
medias muestrales. Finalmente, centraremos nuestra atención en el límite central.
Teorema: un principio fundamental que será importante en nuestro primer gran
aplicación de la inferencia estadística.

93
Machine Translated by Google

94 CAPÍTULO 5 Cuatro conceptos fundamentales

A medida que avanza en el material, es probable que tenga que tomarse el tiempo para
uno o dos momentos de cuarto oscuro, sin duda más de lo que ha tenido hasta este momento.
Como dije antes, no asuma que un momento de cuarto oscuro está por debajo de su dignidad
intelectual. De hecho, puede resultar ser la clave del éxito a la hora de comprender el material.

Antes de que comencemos

Permítanme plantear dos preguntas. Primero, ¿cuántas veces has escuchado o leído la
expresión muestreo aleatorio? A continuación, ¿qué pasa con la expresión, el error de
muestreo, o su primo, por así decirlo, el margen de error? ¿Cuántas veces te has encontrado
con eso?
Supongo que ha escuchado frases como muestreo aleatorio o error de muestreo, pero
es posible que no tenga una comprensión sólida de lo que significa cada expresión. Está bien;
no es frecuente que la gente tenga motivos para pensar en tales nociones. Por otro lado, esas
expresiones están ligadas a algunas de las nociones y suposiciones fundamentales que
acompañan a la inferencia estadística. Desde mi perspectiva, es virtualmente imposible
comprender la lógica fundamental de la inferencia estadística sin una cierta comprensión de
esos conceptos. Permítanme repetir: es prácticamente imposible comprender la lógica
fundamental de la inferencia estadística sin una cierta comprensión de esos conceptos.

Esos conceptos (muestreo aleatorio y error de muestreo) son dos de los conceptos
tratados en este capítulo. Los otros conceptos, la distribución muestral y el teorema del límite
central, no son menos importantes. Soy de la opinión de que los cuatro conceptos, tomados
en conjunto, forman la base de una buena cantidad de inferencias estadísticas. Por lo tanto,
es primordial que desarrolle una comprensión firme de cada uno.

Dicho esto, también sé que probablemente te preguntarás por qué tienes que aprender
cada concepto. Lamentablemente, no creo que te vaya a gustar mi respuesta. Todo lo que
puedo decirle es que está muy cerca de ingresar al mundo de la estadística inferencial, y los
conceptos que está a punto de encontrar son fundamentales para abrir la puerta.
En una nota positiva, te has ganado un descanso cuando terminas este capítulo. Implica
una gran cantidad de material: material conceptual y teórico que requiere pensar de manera
abstracta. El capítulo también hace referencia a conceptos que cubriste anteriormente (por
ejemplo, la desviación estándar, las poblaciones y las muestras). Si tiene alguna dificultad
para recordar de qué se tratan los conceptos presentados anteriormente, vuelva a los capítulos
anteriores para refrescar su memoria. Una sólida comprensión de esos conceptos es esencial.

Concepto Fundamental #1: Muestreo Aleatorio


Muchos procedimientos estadísticos se basan en la suposición de que está trabajando con
una muestra que se seleccionó al azar. La expresión muestra aleatoria es común, pero
también suele malinterpretarse. Contrariamente a la opinión popular,
Machine Translated by Google

Concepto fundamental #1: Muestreo aleatorio 95

una muestra aleatoria no es lo que obtienes cuando simplemente te paras en la acera y


entrevistas a las personas que pasan. Y una muestra aleatoria no es lo que obtienes
cuando usas un grupo de estudiantes para temas de investigación solo porque están
disponibles o accesibles. Afirmar que está trabajando con una muestra aleatoria de
casos (o casos seleccionados al azar) significa que ha cumplido con ciertos criterios de
selección.
Primero, una muestra aleatoria es una muestra seleccionada de tal manera que
cada unidad o caso de la población tiene la misma probabilidad de ser seleccionado.
Hay un punto muy importante en ese requisito, a saber, que tiene en mente la población
a la que pretende generalizar. Si, por ejemplo, dice que está trabajando con una muestra
aleatoria de votantes registrados, presumiblemente tiene en mente una población de
votantes registrados que existe en alguna parte. Puede ser una población de votantes
registrados en una ciudad, condado, estado o nación.
Pero tienes que tener fijada en tu mente una población más grande en la que tengas
interés.
El segundo requisito es que la selección de cualquier caso o unidad individual no
puede afectar de ninguna manera la selección de cualquier otra unidad o caso.
Supongamos que ideó un plan de muestreo que se basó en seleccionar primero a un
republicano y luego a un demócrata y luego a un republicano y luego a un demócrata.
Si la idea de alternar deliberadamente una y otra vez en su selección de republicanos y
demócratas es parte de su plan de muestreo, no está utilizando una técnica de muestreo aleatorio
Recuerda el criterio: La selección de una unidad o estuche no afecta en modo alguno la
selección de otra unidad o estuche.
El tercer requisito del muestreo aleatorio es que los casos o unidades se
seleccionen de tal manera que todas las combinaciones sean posibles. Este requisito
es el que realmente va al corazón de las estadísticas inferenciales, y es el que debe
tener en cuenta. La noción de que todas las combinaciones son posibles en realidad
significa que algunas combinaciones pueden ser altamente improbables, pero todas las
combinaciones son posibles. De hecho, el matemático y filósofo británico Bertrand
Russell (1955) ilustró el punto con un poco de humor. Al describir una aventura en un
infierno mítico mientras se encontraba en un estado de delirio inducido por la fiebre, Russell obser

Hay un departamento especial en el infierno para estudiantes de probabilidad. En este


departamento hay muchas máquinas de escribir y muchos monos. Cada vez que un mono
camina sobre una máquina de escribir, escribe por casualidad uno de los sonetos de
Shakespeare. (pág. 30)

Dejando el infierno mítico de Russell y volviendo al mundo más práctico del


muestreo, he aquí una ilustración a tener en cuenta. Si confía en una técnica de
muestreo que es verdaderamente aleatoria, y la población de votantes registrados se
divide de manera bastante uniforme entre republicanos y demócratas, probablemente
terminará con una muestra que se divide aproximadamente por igual entre republicanos
y demócratas. Es posible que su muestra no refleje la división entre republicanos y
demócratas en la población con precisión exacta, pero probablemente estará bastante
cerca. Es muy poco probable que termine con una muestra que sea 100 % republicana
o 100 % demócrata. Ambos resultados (todos republicanos o todos demócratas) son muy improba
Machine Translated by Google

96 CAPÍTULO 5 Cuatro conceptos fundamentales

posible, y ese es el punto. Si la técnica de muestreo es verdaderamente aleatoria, todas las


combinaciones son posibles. Para ver algunos ejemplos adicionales, consulte la Figura 5-1.
El proceso de selección de casos o unidades de forma aleatoria suele comenzar con la
identificación de un marco de muestreo o representación física de la población. Por ejemplo, su
capacidad para hacer una declaración sobre la población de votantes registrados en un
determinado condado comienza con su identificación de una lista de todos los votantes registrados
en ese condado. La lista, ya sea que exista en páginas impresas o en algún formato electrónico,
constituiría su marco de muestreo. Si, por el contrario, estuviera interesado en hacer una
declaración sobre todos los estudiantes matriculados durante seis horas o más en una determinada
universidad, tendría que comenzar su muestreo localizando alguna lista de todos los estudiantes
que cumplieron con los criterios.
Presumiblemente, obtendrá dicha lista de la oficina del registrador. Esa lista, a su vez, serviría
como marco de muestreo, una representación de su población.
En el caso de una muestra aleatoria simple, cada caso o unidad en el marco muestral estaría
numerado y luego se usaría una tabla de números aleatorios para seleccionar los casos
individuales para la muestra. La mayoría de los textos de métodos de investigación tienen una
tabla de números aleatorios incluida como apéndice del libro,

POBLACIÓN MUESTRA

La población es 60% masculina y La muestra será aproximadamente un 60%


40% femenina. de hombres y un 40% de mujeres. Podría, por
ejemplo, ser un 85 % de hombres y un 15 % de
mujeres, pero eso no es probable.

La mayoría de los trabajadores han sido La mayoría de los trabajadores de la muestra


trabajando para la empresa habrán trabajado para la empresa menos de
menos de cinco años. cinco años. Es posible que todos en la muestra
hayan trabajado para la empresa durante más de
cinco años, pero eso no es probable.

La población se divide La muestra se dividirá aproximadamente por


aproximadamente por igual en igual en clase baja, media y alta. Es posible que
clase baja, media y alta. toda la muestra provenga de una sola clase,
pero no es probable.

Figura 5-1 Relación entre una población y una muestra aleatoria


Machine Translated by Google

Concepto fundamental #2: Error de muestreo 97

y una lectura rápida del material sobre muestreo aleatorio le proporcionará un procedimiento
paso a paso para seleccionar una muestra aleatoria simple. De hecho, la mayoría de los
textos sobre métodos de investigación incluyen información sobre una variedad de diseños
de muestreo, desde el muestreo aleatorio sistemático hasta el muestreo aleatorio estratificado.
Sin embargo, para nuestros propósitos, simplemente debería haber fijado en su mente de
qué se trata el término muestreo aleatorio y qué es necesario si va a afirmar que está
trabajando con una muestra seleccionada de manera aleatoria.

Concepto Fundamental #2: Error de Muestreo


Suponiendo que ahora comprenda lo que significa el concepto de muestreo aleatorio, es
hora de pasar al concepto de error de muestreo , algo que se mencionó anteriormente, pero
solo brevemente. Ahora es el momento de echar un vistazo más de cerca. Para ilustrar el
concepto, comenzaremos con un ejemplo simple.
Supongamos que trabaja como administrador de una universidad y se le pide que
proporcione una estimación de la edad promedio de los estudiantes que están matriculados
durante seis horas o más. Digamos también que, por todas las razones que hemos discutido
antes (factores como el tiempo y el costo), ha decidido confiar en una muestra para hacer su
estimación: una muestra aleatoria de 200 estudiantes de una población de 25,000 estudiantes
( todos matriculados durante al menos seis horas de trabajo de curso).
La población total de estudiantes probablemente incluye un rango considerable de
edades. Algunos estudiantes pueden ser extremadamente jóvenes, estudiantes que se
saltearon algunos años en la escuela secundaria porque eran excepcionalmente brillantes.
Puede que no haya muchos estudiantes así en la población, pero podría haber un número
notable. De la misma manera, podría haber un número pequeño pero notable de estudiantes
muy antiguos, jubilados que decidieron regresar a la escuela. Al igual que los estudiantes
muy jóvenes, los estudiantes mayores representarían una porción extrema de la distribución.
La idea del error de muestreo entra en juego con el reconocimiento de que es posible
un número infinito de muestras. Puede tomar una muestra, luego otra y luego otra (vea la
Figura 5-2). Podría continuar el tiempo del proceso y

POBLACIÓN

Muestras repetidas (individuales)

Figura 5-2 Representación de muestras repetidas de la misma población


Machine Translated by Google

98 CAPÍTULO 5 Cuatro conceptos fundamentales

tiempo de nuevo Puede que no quieras hacer algo así, pero podrías. Y ese es el punto: es posible
un número infinito de muestras. Este punto es extremadamente importante, así que permítame
sugerirle que dedique uno o dos momentos en el cuarto oscuro. Solo piense en la noción de tomar
muestra tras muestra tras muestra de la misma población. Por ridículo que parezca, piensa en lo
que implicaría el proceso.

Suponiendo que haya pensado un poco en la noción de que es posible un número infinito de
muestras, consideremos ahora el mundo real. En realidad, solo tendrá uno con el que esté
trabajando. Es posible una cantidad infinita de muestras, pero trabajará solo con una de esas
muestras. Cuando llega el momento de recopilar información y realizar algunos cálculos, puede
pensar que está trabajando con la mejor muestra del mundo (lo que sea que eso signifique) y que
de alguna manera es una muestra muy especial, pero en realidad no lo es. en absoluto. En realidad,
está trabajando con una muestra, solo una de un número infinito de muestras posibles, y su muestra
puede o no ser un reflejo exacto de la población de la que se tomó.

¿Qué pasa si, por casualidad, terminas con una muestra que está algo sobrecargada con
estudiantes extremadamente jóvenes? Como probablemente sepa, la posibilidad de que suceda
algo así puede ser pequeña, pero es posible. De hecho, se podría terminar con, digamos, 150 de
los 200 casos provenientes de alguna manera de la parte de la distribución de la población que
contenía a los estudiantes realmente jóvenes. Como dije, las posibilidades son escasas, pero la
posibilidad está ahí. De la misma manera, es posible que termine con una muestra aleatoria
sobrecargada de estudiantes extremadamente antiguos. ¿Probable? ¿No es posible? Sí.

Si su muestra tuviera una sobrerrepresentación extrema de estudiantes realmente jóvenes, la


edad media de la muestra se reduciría (el efecto de valores extremadamente bajos en la distribución).
Como resultado, la edad media de la muestra no sería un fiel reflejo de la media de la población (m).
Si hubiera seleccionado una muestra que tuviera una sobrerrepresentación de estudiantes mucho
mayores, la media de su muestra sería más alta que la media real de la población. Una vez más,
habría una diferencia entre la media de la muestra y la media real de la población, solo por
casualidad.

Probablemente esté empezando a entender el sentido de todo esto, pero es importante que
comprenda el concepto de error de muestreo a un nivel casi intuitivo.
Por esta razón, permítame sugerirle que analice seriamente el ejemplo que se muestra en la figura
5-3. Ilustra lo que podría obtener en el camino de varias medias de muestra diferentes de una
población. Incluso si crees que entiendes todo esto, déjame sugerirte que prestes atención a los
detalles del ejemplo.
Requiere muy poco esfuerzo, pero puede ayudarlo a comprender el punto de una manera que
permanecerá con usted para siempre.
Si estás empezando a tener una pequeña conversación contigo mismo, si te dices a ti mismo,
está bien, lo entiendo; Esto tiene sentido; por supuesto, esperaría ver alguna diferencia, entonces
está en el camino correcto en cuanto a comprender uno de los conceptos centrales involucrados en
la inferencia estadística. Lo que acaba de tratar es el concepto de error de muestreo: la diferencia
entre una estadística de muestra y un parámetro de población que se debe simplemente al azar.
Machine Translated by Google

Concepto fundamental #3: La distribución muestral de las medias muestrales 99

POBLACIÓN DE ESTUDIANTES

Edad media verdadera (mu o m) = 23,4 años de edad.

23.8
22.6

23.5
21.5
26.2
23.4 19.9

Siete muestras y siete medias muestrales diferentes

La media de una muestra es igual a la media de la población, pero


las otras medias de la muestra son ligeramente más altas o más
bajas que la verdadera media de la población (mu o m).

Figura 5-3 Ilustración del error de muestreo

La diferencia podría estar relacionada con una media, un rango o cualquier otra estadística.
Por ejemplo, una diferencia entre la media de la muestra y la media de la población (mu) que se
deba simplemente al azar equivaldría a un error de muestreo (de la media). Una diferencia de
probabilidad entre el rango de la muestra y el rango de la población también equivaldría a un
error de muestreo (del rango). En ambos casos, clasificaríamos la diferencia como error de
muestreo: la diferencia entre una estadística muestral y un parámetro poblacional que se debe
al azar.

Podría estar lidiando con una gran cantidad de errores de muestreo (particularmente si, por
casualidad, se le ocurrió una muestra bastante extrema), o podría estar lidiando con solo una
pequeña cantidad (si se le ocurrió una muestra altamente representativa) .
Cómo los estadísticos manejan todo eso es un tema de discusión en el futuro.
Por el momento, sin embargo, avancemos al siguiente concepto.

Concepto Fundamental #3:


La distribución muestral de las medias muestrales
Para comenzar nuestra discusión de este concepto, le pediré que regrese a nuestro ejemplo
anterior. Imagine por un momento que está tomando muestra tras muestra tras muestra de la
población de estudiantes. El hecho de que nadie excepto un estadístico sea apto para hacer
algo así no debería preocuparte. Solo imagina por un momento
Machine Translated by Google

100 CAPÍTULO 5 Cuatro conceptos fundamentales

que está realizando el ejercicio, tomando muestra tras muestra tras muestra.
Digamos que cada vez que tomas una muestra seleccionas 50 estudiantes.
Ahora imagine que cada vez que selecciona una muestra, pregunta a los estudiantes sus
edad y registrar la información. Podrías calcular fácilmente la edad media de
cada muestra, ¿verdad? Por supuesto que podrías. Sin embargo, como aprendió en la sección
anterior, es probable que la edad media de cualquiera de esas muestras sea ligeramente
diferente de la media de la población, simplemente por casualidad (o debido a un error de muestreo).
Digamos que pasó por el proceso 1000 veces, cada vez que seleccionaba
50 estudiantes, recopilando información sobre las edades de los estudiantes y calculando
la edad media de esa muestra. Si registró la media para cada uno de los 1000
muestras, entonces tendría lo que se conoce como una distribución de muestreo de
medios muestrales.
En este punto, déjame sugerirte que no vayas más allá a menos que estés absolutamente
seguro de que tienes esa última noción firmemente fijada en tu mente. Aquí está
otra vez: podría tomar muestra tras muestra, seleccionando 50 estudiantes cada vez.
Podría repetir este proceso hasta que haya seleccionado 1000 muestras. Si calculó la media de
cada muestra, entonces tendría una distribución de 1000
medios muestrales. Esta distribución sería conocida como una distribución de muestreo
de medias muestrales.
No hay duda al respecto, esa frase es un bocado. Así que vamos a desarmarlo,
elemento por elemento.
El resultado de su ejercicio sería una distribución, como cualquier otra distribución (de ingreso,
peso, altura o cualquier otra variable). Sólo en este caso sería
sea una distribución de medias tomadas de diferentes muestras, de ahí la expresión
distribución de medias muestrales. Podrías tener fácilmente una distribución de
rangos de muestra. Todo lo que tendría que hacer es tomar muestra tras muestra, registrar el rango
de cada muestra e informar esos rangos en una distribución.
Por lo general, sin embargo, los estadísticos manejan el concepto de una distribución muestral de
medias muestrales, en lugar de una distribución muestral de rangos muestrales.
La expresión distribución de muestreo simplemente significa una distribución que es
el resultado de muestreos repetidos. Una vez más, se trata de un concepto bastante abstracto, y
muy pocas personas se molestarían en construir una distribución muestral de cualquier cosa. Pero
aquí está el punto: podría construir una distribución de muestreo si
quería. De hecho, es muy fácil construir una distribución muestral de medias muestrales. Todo lo
que tomaría es un poco de tiempo. una vez que lo hiciste
eso, usted podría muy fácilmente desarrollar un gráfico o diagrama de la distribución de muestreo
de medias muestrales. Y eso nos lleva al último de los conceptos fundamentales.

Concepto fundamental #4:


El teorema del límite central
Imagine por un momento que en realidad ha construido la distribución muestral de medias muestrales
descrita en el ejemplo anterior. En otras palabras, usted
se tomó la molestia de tomar 1000 muestras diferentes con 50 sujetos en cada
Machine Translated by Google

Concepto fundamental #4: El teorema del límite central 101

muestra. Para cada muestra, calculó y registró una edad media y, finalmente, colocó todas
las edades medias en una distribución.
Ahora imagina que desarrollaste un gráfico o diagrama de todas esas medias,
produciendo una curva. ¿Tienes alguna idea de cómo se vería esa curva?
Antes de responder, piense en la pregunta por un momento. Piense en cómo produciría el
gráfico o la curva y qué tipo de valores estaría trazando. Solo para ayudarlo en su
pensamiento, considere lo siguiente:

1. Estás tomando muestra tras muestra tras muestra (hasta que tengas 1000
muestras).
2. Cada vez que toma una muestra, calcula una edad media para la muestra
(una media muestral basada en 50 casos).
3. Debido al error de muestreo, es probable que la media de su muestra difiera de la
media real de la población.
4. A veces, la media de su muestra será menor que la verdadera media de la
población.
5. A veces, la media de tu muestra será mayor que la verdadera media de la
población.

A estas alturas, debería tener una imagen en su mente de todas estas medias
muestrales (o valores medios muestrales): algunas más altas que otras, algunas más bajas
que otras, algunos valores realmente altos, algunos valores realmente bajos, y así sucesivamente. en.
Si tiene la idea de que la distribución de las medias de la muestra se graficaría como una
curva normal, está en el camino correcto. Ahora eche un vistazo a la Figura 5-4. ¿Cómo
sabemos que una distribución muestral de medias muestrales parecería una curva normal?
Lo sabemos porque está demostrado. La idea ha sido probada; la idea se sostiene.

Resulta que los estadísticos saben bastante acerca de lo que sucedería si se dispusiera
a construir una distribución muestral de medias muestrales. Además, saben bastante acerca
de cómo se relacionaría la distribución muestral de las medias muestrales con la población
de la que se extrajeron las muestras. De hecho, esta relación —la relación entre la distribución
muestral de las medias muestrales y la población de la que se extrajeron las muestras—
tiene un nombre. Es conocido como el Teorema del Límite Central. Sin embargo, antes de
abordar el teorema del límite central y lo que dice, permítanme hacer tres puntos más sobre
una distribución muestral de medias muestrales.

En primer lugar, cualquier distribución muestral de medias muestrales tendrá una media
propia, ¿verdad? Para convencerse de eso, imagine un gráfico de todas las diferentes
medias que obtendría si tomara 1000 muestras y trazara las medias de esas 1000 muestras.
La trama o gráfico representaría una distribución subyacente, y esa distribución (como
cualquier distribución) tendría una media. En el caso que estamos discutiendo, sería la media
de una distribución muestral de medias muestrales.

En segundo lugar, esa distribución (la distribución muestral de las medias muestrales)
tendría, como cualquier distribución, una desviación estándar, ¿verdad? Recuerda el
Machine Translated by Google

102 CAPÍTULO 5 Cuatro conceptos fundamentales

POBLACIÓN

Distribución de
medias muestrales

Media de la muestra 1
Media de la muestra 2
Media de la muestra 3
Media de la muestra 4
Media de la muestra 5

1000 muestras diferentes, cada una Media de la muestra 1000


de tamaño n, con una media muestral

Grafique las 1000 medias


diferentes para formar una
distribución de medias
muestrales; refiérase a la
distribución como distribución
muestral de medias
muestrales.

Figura 5-4 Construcción de una distribución muestral de medias muestrales

La distribución muestral de las medias muestrales es, en cierto sentido, simplemente otra distribución.
Todas las distribuciones tienen una desviación estándar. En este caso, estamos considerando una
distribución muestral de medias muestrales. No es diferente. Tendría una desviación estándar.

En tercer lugar, los estadísticos tienen un término especial para la desviación estándar de una
distribución muestral de medias muestrales. Se refieren a él como el error estándar de la media.
Ese término o frase, error estándar de la media, en realidad tiene mucho sentido si te tomas un
momento o dos para pensarlo. Tiene sentido, en parte, porque una distribución muestral de medias
muestrales es en realidad una distribución de error muestral. La distribución de muestreo se basa en
muchas medias, y muchas de esas medias en realidad variarán de la verdadera media de la población.

Como aprendiste antes, nos referimos a esa diferencia de probabilidad entre una media muestral y
una media poblacional como error de muestreo ; de ahí el término error en el
Machine Translated by Google

Concepto fundamental #4: El teorema del límite central 103

expresión error estándar de la media. En lugar de decir desviación estándar de una


distribución muestral de medias muestrales, los estadísticos usan la expresión error
estándar de la media.
Con todo eso como trasfondo, ahora echemos un vistazo al Teorema del Límite
Central y lo que nos dice. Primero presentaré el teorema; luego traduzco.
Aquí está el teorema del límite central:

Si se toman muestras aleatorias repetidas de tamaño n de una población con una


media o mu (m) y una desviación estándar (s), la distribución muestral de medias
muestrales tendrá una media igual a mu (m) y un error estándar igual a . Además,
s
a medida que n aumenta, la distribución muestral será 2n

acercarse a una distribución normal.

Ahora viene la traducción: imagine una población y piense un poco en el hecho de


que esta población tendrá una media (mu o m) y una desviación estándar (s ). Ahora
imagine una distribución muestral de medias muestrales construida a partir de esa
población: una distribución de medias muestrales, basada en muestra aleatoria tras
muestra aleatoria tras muestra aleatoria, tomadas de la misma población. Esa distribución
de muestreo tendrá una media y será igual a la media de la población (mu o m). La
distribución muestral de las medias muestrales también tendrá una desviación estándar,
algo a lo que nos referimos como el error estándar de la media. El error estándar de la
media (la desviación estándar de la distribución muestral de las medias muestrales) será
igual a la desviación estándar de la población (s ) dividida por la raíz cuadrada de n
(donde n es el número de casos en cada muestra) .

En otras palabras, una distribución muestral de medias muestrales eventualmente


se verá como una curva normal (vea la figura 5-5). Además de eso, existe una relación
muy definida y predecible entre una población y una distribución muestral de medias
muestrales basada en muestras repetidas de esa población. Sabemos que la relación
entre los dos es predecible porque los matemáticos han demostrado que es predecible.

No es el caso que la media de una distribución muestral de medias muestrales


finalmente sea bastante cercana o se aproxime a la media de la población (mu o m). En
cambio, la media de la distribución muestral de las medias muestrales será igual a la
media de la población (mu o m).
Del mismo modo, no es cierto que la desviación estándar de la distribución muestral
de las medias muestrales (el error estándar) esté relacionada con la desviación estándar
de la población. Más bien, el error estándar será igual a la desviación estándar de la
población (s) dividida por la raíz cuadrada de n (o el número de casos en la muestra).

En el próximo capítulo, haremos una aplicación directa de todo este material, pero
no le servirá de nada avanzar al próximo capítulo.
Machine Translated by Google

104 CAPÍTULO 5 Cuatro conceptos fundamentales

La media de la población es mu o m.
La desviación estándar de la población es s.

aleatorio repetido
muestras, cada una produciendo
Población
un medio, voluntad, a su vez,
producir una muestra
distribución de la muestra
medio.

La distribución muestral de las


medias muestrales tendrá una
Muestreo distribución de
media. Será igual a la media de la
medios de muestreo
población.

La distribución
La distribución muestral de las
muestral de las medias
medias muestrales tendrá una
muestrales se basa en
desviación estándar
muestras repetidas de
tamaño n, cada una tomada (conocido como el error
estándar de la media). Será
de la población que se
muestra arriba. igual a la desviación estándar
de la población (s) dividida por la
raíz cuadrada de n (n = tamaño de
Las medias se trazan para
la muestra).
formar la distribución muestral
de la muestra.
medio. La distribución muestral de las
medias muestrales se aproximará
a una distribución normal
curva.

Figura 5-5 El teorema del límite central

Correr hacia adelante sin comprender a fondo lo que acabamos de cubrir


sólo te hará retroceder a largo plazo. De hecho, correr adelante probablemente te hará
para golpear lo que yo llamo la "pared de ladrillos de la incomprensión", una experiencia que
hace que sea imposible entender todo lo que está por venir.
Desde mi punto de vista, solo hay una forma de pasar por encima, por debajo, alrededor o a través
la pared de ladrillos de la incomprensión, y eso es para centrarse en lo fundamental
conceptos hasta que finalmente entiendas cada uno de ellos. No servirá para decir
tú mismo entiendes cuando no lo haces. En su lugar, vuelva a leer todo este capítulo,
si usted tiene que. Léalo y vuelva a leerlo hasta que comprenda el material en un
nivel casi intuitivo. Una vez que haya hecho eso, estará en posición de más
delantero.
Machine Translated by Google

Algunas otras cosas que debe saber 105

Resumen del capítulo


En este punto, te mereces un descanso. Acabas de pasar por algo bastante
territorio abstracto y teórico. Si encuentra el material un poco difícil de
digerir al principio, eso es normal. El material es nuevo por todos los razonables.
estándares: nuevos conceptos, nuevas ideas y nuevas formas de ver el mundo.
¿Nuevo material? tu apuesta Material dificil? Realmente no. Todo es cuestión de pensar en
cada elemento hasta tener una comprensión sólida. En cuanto a lo que tu
recién cubierto, fue significativo.
Por ejemplo, le presentaron una definición técnica de muestreo aleatorio, de una manera
que enfatizó lo que es y lo que no es una muestra aleatoria. También
aprendido que la suposición de una muestra aleatoria es fundamental para muchas estadísticas
aplicaciones Igualmente importante, se le presentó con cierto detalle el concepto de error de
muestreo. Idealmente, aprendió que es el error de muestreo lo que impide un salto directo de
las estadísticas de la muestra a los parámetros de la población. Más allá de todo
de eso, se le presentó el concepto de distribución muestral de medias muestrales y el teorema
del límite central. En el proceso, encontraste tu camino
en el corazón de la inferencia estadística (al menos en lo que se refiere a ciertas aplicaciones).
Mucho material, por cierto.
Al cerrar este capítulo, permítanme subrayar cuán beneficioso es un cuarto oscuro
momento podría ser para comprender algunos de los conceptos que acaba de cubrir.
Estos conceptos merecen toda su atención, y eso es lo que un momento de cuarto oscuro
se trata de la oportunidad de llevar toda su atención a la pregunta en cuestión.

Algunas otras cosas


Usted debe saber

Normalmente, uso esta sección de cada capítulo para indicarle la dirección de


temas relevantes dejados sin explorar en aras de una presentación sucinta. los
capítulo que acaba de leer justifica una desviación de ese enfoque. En lugar de señalarte
temas inexplorados o dirigirte a recursos adicionales, voy a
para contarte un pequeño secreto. Aquí está.
El material que acaba de cubrir es, para muchos estudiantes, la fuente del ladrillo.
pared. Es la colección de conceptos que finalmente separan a las mujeres de las
las niñas y los hombres de los niños. Mi experiencia en la enseñanza de la estadística me dice
que muchos estudiantes dicen que "lo entienden" cuando, de hecho, no es así. El problema de
claro, no es lo que me dicen los alumnos; es lo que se dicen a sí mismos.
Los cuatro conceptos fundamentales presentados en este capítulo se vincularán
eventualmente para usted en forma de aplicaciones prácticas. Pero la lógica de esos
aplicaciones siempre vuelve a los conceptos fundamentales, y es por eso que
son tan esenciales.
No hay duda de que algunos de los conceptos son muy abstractos. Por cierto,
es esta colección de conceptos que siempre vienen a mi mente cuando hago hincapié en el
importancia de tomarse un tiempo para un momento de cuarto oscuro. queda mucho material
Machine Translated by Google

106 CAPÍTULO 5 Cuatro conceptos fundamentales

cubrirse, así que no obstaculice su aprendizaje avanzando sin preparación.


Si necesita tomarse un descanso por unos momentos en la habitación oscura, ahora es el momento.
para hacerlo. Refuerce los momentos con una segunda o tercera lectura del material, si
necesario.

Términos clave

Teorema del límite central error de muestreo


muestra aleatoria muestreo marco de muestreo
distribución de la muestra Error estandar de la media
medio

Problemas del capítulo

Rellene los espacios en blanco, calcule los valores solicitados o, de otro modo, suministre los
respuesta correcta.

Preguntas generales de pensamiento

1. En una muestra aleatoria, cada unidad de la población tiene una probabilidad


de ser seleccionada.
2. En una muestra aleatoria, la selección de cualquier unidad afectar el
selección de cualquier otra unidad.
3. En una muestra aleatoria, las combinaciones son posibles.
4. Al seleccionar una muestra, la representación física de la población es
conocido como el .

5. Una muestra representativa es aquella en la que características importantes en el


6. La diferencia entre una muestra .

estadística y un parámetro de población que


se debe al azar se conoce como .

7. La media de una población (m) = 54,72, y la media de una muestra


de esa población ( X ) = 54,92. Suponiendo la diferencia entre el
dos valores se debe al azar, podemos referirnos a la diferencia como muestreo
.

8. Una distribución muestral de medias muestrales se basa en tomar muestras repetidas (de
tamaño n) de la misma población y graficar la de
las diferentes muestras.
9. De acuerdo con el Teorema del Límite Central, la media de una distribución muestral de la
ución de las medias de la muestra será igual a población de
la que se extrajeron las muestras.
10. La desviación estándar de una distribución muestral de medias muestrales es
referido como el .
Machine Translated by Google

Capítulo Problemas 107

11. Según el Teorema del Límite Central, y dada una distribución muestral
de las medias muestrales, el error estándar de la media será igual al
de la población dividido por el del tamaño de la muestra.
12. La forma de una distribución muestral de medias muestrales se aproximará a la
forma de un curva.

Preguntas/ problemas de la aplicación

1. Una población tiene una media (m) de 24,12 y una desviación estándar (s) de 4.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 100 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
2. Una población tiene una media (m) de 30 y una desviación estándar (s) de 6.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 225 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
3. Una población tiene una media (m) de 120 y una desviación estándar (s) de 30.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 100 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
4. Una población tiene una media (m) de 615 y una desviación estándar (s) de 90.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 400 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?
5. Una población tiene una media (m) de 55 y una desviación estándar (s) de 17.
Suponga que se ha construido una distribución muestral de medias muestrales,
con base en muestras repetidas de n = 100 de esta población.
una. ¿Cuál sería el valor de la media de la distribución muestral?
b. ¿Cuál sería el valor del error estándar de la media?

También podría gustarte