Está en la página 1de 35

UNIDAD I

Distribución muestral,
estimaciones e
intervalos de confianza

M. Sc. Santos Maydana Quispe


1

Introducción

La estadística inferencial es una rama de la estadística que brinda una serie de


métodos e instrumentos de análisis, los cuales facilitan una mejor toma de
decisiones a través de la inferencia de los datos. Precisamente, uno de los
elementos que permiten describir los parámetros de una población (a partir de
los datos de una muestra) son los estimadores estadísticos en conjunción al
teorema del límite central y la distribución de los datos.

Objetivo de la unidad

Comprender el concepto de la estadística inferencial en el campo de la


investigación científica, incluyendo los conceptos inmersos en ella, tales como las
estimaciones y los intervalos de confianza.
2

CONTENIDO

La distribución normal......................................................................................................................... 3
1. Ejemplos de distribuciones normales ..................................................................................... 3
2. Gráfica de la distribución normal ............................................................................................ 4
3. Características de la distribución normal ................................................................................ 5
La distribución normal estándar ......................................................................................................... 5
1. Puntuaciones Z ........................................................................................................................ 6
2. La regla empírica ..................................................................................................................... 7
3. Distribución normal tipificada ................................................................................................. 8
4. Manejo de la tabla de distribución normal estándar ............................................................ 10
El teorema del límite central ............................................................................................................. 12
1. Propiedades del teorema del límite central.......................................................................... 12
La estimación..................................................................................................................................... 13
1. Estimación puntual ............................................................................................................ 15
2. Estimación por intervalos ...................................................................................................... 17
Estimación de la media de una población mediante intervalos de confianza .................................. 19
1. Estimación de intervalos para muestras grandes ................................................................. 20
2. Estimación de la diferencia entre dos medias poblacionales ............................................... 26
Estimación de una proporción poblacional....................................................................................... 28
1. Estimación puntual de una proporción ................................................................................. 29
2. Estimación por intervalo de confianza de una proporción ................................................... 31
REFERENCIAS BIBLIOGRÁFICAS ......................................................................................................... 34
3

La distribución normal
La distribución normal es una distribución de probabilidad continua cuya gráfica
tiene forma de campana y es simétrica respecto a su media. En estadística, la
distribución normal sirve para modelizar fenómenos de características muy
diferentes, por eso es tan importante esta distribución.

De hecho, en estadística la distribución normal se considera, por mucho, la


distribución más importante de todas las distribuciones de probabilidad, ya que
no solo permite modelizar un gran número de fenómenos reales, sino que
además la distribución normal se puede usar para aproximar otros tipos de
distribuciones bajo ciertas condiciones.

El símbolo de la distribución normal es la letra mayúscula N. Así pues, para indicar


que una variable sigue una distribución normal se indica con la letra N y se añade
entre paréntesis los valores de su media aritmética y su desviación estándar.

La distribución normal recibe muchos nombres diferentes, entre ellos destacan


distribución de Gauss, distribución gaussiana y distribución de Laplace-Gauss.

Normalmente, los conjuntos de datos que siguen una distribución normal tienen
un gran número de observaciones y tratan de temas muy generales. A
continuación, puedes ver varios ejemplos de muestras estadísticas que
típicamente se pueden modelar con una distribución normal.
- La estatura de los alumnos de un curso.
- El coeficiente intelectual de los trabajadores de una empresa.
- El número de piezas defectuosas producidas en una fábrica durante un día.
4

- Las notas obtenidas en un examen por los alumnos de un curso.


- La rentabilidad de las acciones de las empresas que cotizan en bolsa.

Una vez hemos visto en qué consiste la distribución normal y varios ejemplos de
este tipo de distribución de probabilidad, vamos a ver cómo es su gráfica para
entender mejor el concepto.

En el siguiente gráfico puedes ver cómo varia la función de densidad de la


distribución normal dependiendo de los valores de su media aritmética y de su
desviación típica.

Al tener forma de campana centrada en la media aritmética, si una variable tiene


una distribución normal significa que el valor más repetido es la media y que los
valores alrededor de la media se repiten con más frecuencia que los valores de
los extremos. Asimismo, cuanto mayor sea la desviación típica de la distribución
normal, más aplastada es la forma de su representación gráfica.
5

La distribución normal tiene las siguientes características:

- La distribución normal depende de dos parámetros característicos que son


su media aritmética (μ) y su desviación típica (σ).

- La distribución normal puede tomar tanto valores positivos como


negativos, por lo tanto, el dominio de la distribución normal son todos los
números reales.

- La mediana y la moda de la distribución normal son iguales a la media


aritmética de la distribución.

La distribución normal estándar

La distribución normal estándar es una distribución normal de valores


estandarizados llamados puntuaciones z. Una puntuación z se mide en unidades
de la desviación típica.

La media de la distribución normal estándar es cero y la desviación típica es uno.


Lo que hace esto es simplificar drásticamente el cálculo matemático de las
probabilidades. Tómese un momento y sustituya el cero y el uno en los lugares
apropiados de la fórmula anterior y podrá ver que la ecuación se reduce a una
que puede resolverse mucho más fácilmente utilizando el cálculo integral. La
𝑥−𝜇
transformación 𝑍 = produce la distribución Z ~ N(0, 1). El valor x en la
𝜎

ecuación dada proviene de una distribución normal conocida con media


6

conocida μ y desviación típica conocida σ. La puntuación indica cuántas


desviaciones típicas se aleja una determinada x de la media.

Si X es una variable aleatoria normalmente distribuida y X ~ N(μ, σ), entonces la


puntuación z para una determinada x es:
𝑥−𝜇
𝑍=
𝜎
La puntuación z indica cuántas desviaciones típicas tiene el valor x por encima (a
la derecha) o por debajo (a la izquierda) de la media, μ. Los valores de x que son
mayores que la media tienen puntuaciones z positivas, y los valores de x que son
menores que la media tienen puntuaciones z negativas. Si x es igual a la media,
entonces x tiene una puntuación z de cero.

Ejemplo
Supongamos que X ~ N (5, 6). Esto dice que X es una variable aleatoria
normalmente distribuida, con media μ = 5 y desviación típica σ = 6. Supongamos
que x =17. Entonces:
𝑥−𝜇 17−5
𝑍= = = 2
𝜎 6

Esto significa que x = 17 está dos desviaciones típicas (2σ) por encima o a la
derecha de la media μ = 5.

𝑥−𝜇 1−5
Supongamos ahora que x = 1. Entonces: 𝑍 = = = −0,67
𝜎 6

(redondeado a dos decimales)

Esto significa que x = 1 está 0,67 desviaciones típicas (–0,67σ) por debajo o a la
izquierda de la media μ = 5
7

Si X es una variable aleatoria y tiene una distribución normal con media µ y


desviación típica σ, la regla empírica dice lo siguiente:
- Aproximadamente el 68 % de los valores de x se sitúan entre –1σ y +1σ de
la media µ (dentro de una desviación típica de la media).
- Aproximadamente el 95 % de los valores de x se sitúan entre –2σ y +2σ de
la media µ (dentro de dos desviaciones típicas de la media).
- Aproximadamente el 99,7 % de los valores de x se sitúan entre –3σ y +3σ
de la media µ (dentro de las tres desviaciones típicas de la media). Observe
que casi todos los valores de x están dentro de las tres desviaciones típicas
de la media.
- Las puntuaciones z para +1σ y –1σ son +1 y –1, respectivamente.
- Las puntuaciones z para +2σ y –2σ son +2 y –2, respectivamente.
- Las puntuaciones z para +3σ y –3σ son +3 y –3, respectivamente.

Es rentable, ya que es más barato que los métodos tradicionales, como las
encuestas, y no requiere tanto tiempo ni recursos para realizar el estudio. Otra
ventaja es que puede utilizarse para muestrear una variedad de poblaciones,
incluyendo grupos que son difíciles o imposibles de encuestar, lo cual hace que
los costes y los recursos utilizados sean muy eficientes.
8

Otro nombre para la distribución normal estándar es distribución normal


tipificada. Una gran ventaja de esto es que está estandarizada y existe una tabla
que nos indica los valores que la probabilidad acumulada tiene en cada punto de
la curva para los valores positivos de la curva. Esto hace más fácil cualquier
cálculo, ya que solo debes leer la siguiente tabla:
9

La tabla debe de leerse de las líneas a columnas. Si queremos obtener la


probabilidad acumulada para los valores entre X=0 y X=0.1, debemos ir a la
columna de la extrema izquierda, que tiene el valor de 0.1; debido a que no
tenemos decimales, tenemos ahora que leer la columna superior que tiene el
valor de 0.0.
10

Caso 1. Cuando la probabilidad pedida se encuentra directamente en la tabla.

Hallar la probabilidad p (z ≤ 0,45)

En la tabla podemos leer directamente la probabilidad de valores menores o


iguales que un número positivo.

En la 1ª columna z buscamos el valor de las unidades y las décimas.


En la fila correspondiente al valor de la columna buscamos el valor de
las centésimas.

Basta buscar 0,4 en la columna y 0,05 en la fila. Su intersección nos da la


probabilidad.

Leemos y nos da 0,6736. La probabilidad p (z ≤


0,45) = 0,6736
11

Caso 2. Probabilidad de un valor positivo p ( z >1,24 )

En este caso, la probabilidad pedida no está en las tablas. Sin embargo, si


tenemos en cuenta que el área total bajo la gráfica ha de ser 1, deducimos de la
figura que: p(z>1,24) = 1-p (z1,24) = 1-0,8925 = 0,1075

En la tabla leemos p (z  1,24) = 0,8925

Caso 3. Probabilidad entre dos valores negativos p (-1,76  Z  -0,5)

Por simetría cambiamos los dos valores negativos a positivos y calculamos sus
probabilidades.

p (- 1,76 ≤ z ≤ -0,5) = p (0,5 ≤ z ≤ 1,76) = 0,9608 - 0,6915 = 0,2693


12

El teorema del límite central

El teorema central del límite es uno de los resultados fundamentales de la


estadística. Este teorema nos dice que si una muestra es lo bastante grande
(generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la
distribución de la media muestral, seguirá aproximadamente una distribución
normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de
tamaño n (n>30) y calculamos los promedios muestrales, dichos promedios
seguirán una distribución normal. Además, la media será la misma que la de la
variable de interés, y la desviación estándar de la media muestral será
aproximadamente el error estándar.

La mayoría de valores observados sobre variables continuas a nuestro alrededor


suelen aproximarse a una distribución normal. Esta es una función de
distribución que ofrece un gran interés por las múltiples aplicaciones que
presenta. Por ejemplo, el área bajo la curva normal está tabulado y se interpreta
en términos de probabilidad, proporción o porcentaje. Los manuales de
estadística suelen incluir tablas estadísticas de las distribuciones más importantes,
a pesar de aparecer tanto los valores de los test, como los de su probabilidad
asociada en cualquier programa de análisis estadístico que facilitan su
computación e interpretación.

El teorema central del límite tiene una serie de propiedades de gran utilidad en
el ámbito estadístico y probabilístico. Las principales son:
- Si el tamaño de la muestra es suficientemente grande, la distribución de las
medias muestrales seguirá aproximadamente una distribución normal. El
TLC considera una muestra como grande cuando el tamaño de la misma
13

es superior a 30. Por tanto, si la muestra es superior a 30, la media muestral


tendrá una función de distribución próxima a una normal. Y esto se cumple
independientemente de la forma de la distribución con la que estamos
trabajando.
- La media poblacional y la media muestral serán iguales. Es decir, la media
de la distribución de todas las medias muestrales será igual a la media del
total de la población.
- La varianza de la distribución de las medias muestrales será σ²/n. Que es la
varianza de la población dividido entre el tamaño de la muestra.

Que la distribución de las medias muestrales se parezca a una normal es


tremendamente útil. Porque la distribución normal es muy fácil de aplicar para
realizar contrastes de hipótesis y construcción de intervalos de confianza. En
estadística que una distribución sea normal es bastante importante, dado que
muchos estadísticos requieren este tipo de distribución. Además, el TLC nos
permitirá hacer inferencia sobre la media poblacional a través de la media
muestral. Y esto es de gran utilidad cuando por falta de medios no podemos
recolectar datos de toda una población.

La estimación

La estimación es un procedimiento que forma parte de la vida cotidiana en un


sinnúmero de lugares y en los distintos campos del conocimiento, por ejemplo,
en la administración de las impresas, en las finanzas, en la economía, en las
ciencias de la comunicación, en la contabilidad, en la mercadotecnia o en la
administración de la información.
14

La estimación es un procedimiento de la estadística inferencial mediante el cual


se realizan cálculos con los datos de una muestra para obtener valores o
resultados que describan las características de la población.

La estimación tiene el objetivo de obtener estadísticos, es decir, fórmulas


matemáticas que permitan conocer, a partir de ellos y de manera resumida, las
características más relevantes de una población, utilizando la información
contenida en una muestra. Al estadístico también se le conoce con el nombre de
estimador.

Recuerda que la inferencia estadística es el proceso mediante el cual una muestra


es analizada y, con base en su información, se infiere, se deduce o se concluye
sobre lo que está sucediendo en una población. El propósito de la estimación es
proveer los estimadores o expresiones matemáticas que proporcionen un valor o
un conjunto de valores que reflejen el valor del parámetro poblacional. Una
buena estimación proporcionará técnicas correctas para encontrar los verdaderos
parámetros poblacionales.

Es necesario denotar que existe una diferencia significativa entre un estimador y


un estimado. El estimador es una fórmula o representación matemática que
conduce a obtener un resultado y el estimado es el resultado que se obtiene al
emplear datos de una muestra en la fórmula o expresión matemática definida por
el estimador que se emplea.

Frecuentemente el problema de la estimación suele abordarse a través de dos


enfoques: la estimación puntual y la estimación por intervalos.
15

La estimación puntual es un procedimiento de la estadística inferencial mediante


el cual se realizan cálculos con los datos de una muestra cuyo resultado es un valor
numérico único empleado para estimar el valor de un parámetro poblacional.
Una estimación es puntual cuando se usa un solo valor extraído de la muestra para
estimar el parámetro desconocido de la población. Al valor usado se le llama
estimador.

- La media de la población se puede estimar puntualmente mediante la


media de la muestra: 𝑥̅ = 𝜇
- La proporción de la población se puede estimar puntualmente mediante la
proporción de la muestra: 𝑝̂ = 𝑝
- La desviación típica de la población se puede estimar puntualmente
mediante la desviación típica de la muestra, aunque hay mejores
estimadores: S = 

Las diferencias y el uso de símbolos en estimación estadística pueden


diferenciarse de la siguiente manera:
16

En este entendido, las ecuaciones utilizadas en la estimación puntual serían las


siguientes:
Parámetro poblacional que se desea estimar Estimación puntual

Recuerda que el resultado que se obtiene en estos tres tipos de estimadores es


un valor numérico único que es utilizado para describir la información contenida
en una muestra, pero que también puede ser utilizado para inferir sobre la
información contenida en una población.

Los estimadores puntuales se utilizan con frecuencia en muchos casos prácticos,


por ejemplo: se desea conocer la talla estándar exacta de los pantalones para los
estudiantes de una secundaria; una empresa que produce detergente desea
saber el peso promedio preciso que deben contener las bolsas de detergente; la
Secretaría de Salud de una entidad federativa necesita conocer la estatura
promedio exacta de los habitantes de una región para realizar un balance sobre
nutrición; una empresa productora de cerveza necesita determinar el promedio
exacto de botes de cerveza que la población consume en su presentación de 355
ml.

Desventajas de la estimación puntual


Los estimadores puntuales tienen algunas desventajas o limitaciones; por
ejemplo, cuando la información utilizada en el estimador fue colectada de una
17

muestra que no es representativa, el resultado de la estimación será equivocado


o sesgado del verdadero parámetro poblacional.

Sin embargo, la principal limitación de un estimador puntual es que su resultado


varía de muestra en muestra, a pesar de que éstas sí sean representativas de la
población. Recuerda que de una población es posible obtener varias muestras y
cada una de éstas tiene una media determinada que no
necesariamente tiene que ser de la misma magnitud que las demás y a la
poblacional.

Además, los estimadores puntuales no proporcionan una medida de referencia o


un nivel de confianza que permita conocer cuánto le podemos creer o tener
confianza al resultado obtenido de la estimación.
En otras palabras, la limitante más importante que presenta la estimación puntual
es que el resultado obtenido sólo representará un punto y no se puede apreciar
si existe un posible rango de valores que pueda tomar el parámetro poblacional
con un determinado nivel de confianza.

Ante las limitaciones que presenta la estimación puntual se puede hacer uso de
otro método de estimación, la estimación por intervalos, éste es un
procedimiento alternativo cuando la estimación puntual no es capaz de
proporcionar información eficiente para describir el comportamiento de una
característica de la población.

La estimación por intervalos es un procedimiento de la estadística inferencial


mediante el cual se realizan cálculos de una muestra cuyo resultado son dos
18

valores numéricos que definen un rango, intervalo o conjunto numérico que


servirá para estimar el parámetro poblacional.

Existe una gama de fenómenos donde la estimación puntual cuenta con ciertos
inconvenientes, por lo que es preferible utilizar intervalos para realizar una
estimación apropiada de los parámetros. En el caso de la estimación por
intervalos de la media poblacional se utiliza la información contenida en una
muestra de la que se obtienen dos valores numéricos que definen un rango
donde se encuentra la media poblacional.

Por ejemplo, si se desea estimar el promedio de edad de la población estudiantil


de una universidad y para ello elegimos una muestra, utilizando la estimación por
intervalos se obtienen dos valores, por ejemplo 22.5 y 24.5, lo que quiere decir
que el verdadero valor del promedio de edad de esa población estudiantil se
encontrará dentro del rango de 22.5 a 24.5 años de edad, aunque nunca se sabrá
con exactitud su verdadero valor. Una manera de expresar formalmente este
resultado es utilizando corchetes: [22.5, 24.5].
La estimación por intervalos tiene varias ventajas; una es que no ofrece un valor
único, sino un rango donde es muy posible o muy probable que el parámetro
poblacional se encuentre incluido. De esta manera se supera la limitación de los
estimadores puntuales de que su resultado único varía de muestra en muestra; es
decir, con la estimación por intervalos tenemos más probabilidad de acertar al
verdadero valor poblacional.

La principal ventaja de la estimación por intervalos es que su resultado ofrece un


nivel de confianza que permite conocer en cuánto le podemos creer o tenerle
confianza al resultado obtenido de la estimación. Por esta razón, la estimación por
intervalos también es conocida como estimación por intervalos de confianza,
19

pues su nivel de confianza señala qué tan posible o qué tan probable es que el
parámetro poblacional se encuentre incluido dentro del rango definido.

El concepto de nivel de confianza se encuentra muy relacionado con el de


probabilidad, pero en lugar de estimar la posibilidad de que un evento suceda,
el nivel de confianza señala qué tanta confianza le podemos tener o le podemos
creer a un resultado obtenido de un intervalo.

Un nivel de confianza generalmente se mide en porcentajes y tiene un rango entre


0% y 100% de confianza. Un nivel alto de confianza, por ejemplo, 95% implica que
se tiene mucha confianza en el resultado del intervalo; mientras que un nivel bajo
de confianza, por ejemplo 40%, implica que se tiene poca confianza en el
resultado proporcionado por el intervalo.

Estimación de la media de una población


mediante intervalos de confianza

Como se ha señalado uno de los métodos para estimar la media de una población
es a través de intervalos de confianza.

Existen dos fórmulas para poder estimar la media de una población a través de
intervalos de confianza y el uso de cada una de ellas depende del caso que se
examine. En este caso abordaremos el método generalmente utilizado cuando se
dispone de muestras grandes, es decir, para aquellas muestras compuestas de 30
o más datos. Este método también puede ser utilizado para muestras menores a
30 datos, siempre y cuando se tenga pleno conocimiento que la distribución de
los datos de la población sea normal y que se conozca el valor de la varianza
poblacional o de la desviación estándar poblacional.
20

Además, se presentará un método para estimar la diferencia que existe entre las
medias poblacionales de dos conjuntos de datos distintos. Este método ofrece
grandes ventajas cuando se desea conocer si existen diferencias significativas en
la forma en que se concentran los datos de dos poblaciones distintas.

El método de estimación de la media para muestras iguales o mayores a 30 datos


se fundamenta en el teorema del límite central en la unidad anterior, el cual señala
que conforme se incremente el tamaño n de cada muestra posible que se extrae
de una población de tamaño N, la distribución muestral de la media irá
adquiriendo la forma de una distribución normal.

Cuando se conoce la desviación estándar poblacional, la fórmula para estimar la


media de una población a través de intervalos de confianza, con la información
contenida en una muestra con 30 o más datos es:

Cuando no se conoce la desviación estándar poblacional, la fórmula para estimar


la media de una población a través de intervalos de confianza, con la información
contenida en una muestra grande es:

Es decir, la única diferencia radica en que la primera fórmula utiliza la desviación


estándar poblacional, mientras que en la segunda fórmula se utiliza la desviación
estándar que se obtiene de la muestra.
21

Observa que ambas fórmulas proporcionan dos valores que definen un intervalo
en el que se encuentra contenida la verdadera media poblacional, con un nivel
de confianza que se traduce en la probabilidad de que la media poblacional se
encuentre dentro de nuestro intervalo de confianza. El intervalo de confianza
también puede expresarse como:

Observa que el intervalo se encuentra acotado por los dos valores resultantes. Al
valor que se encuentra en la parte izquierda del intervalo se le conoce como la
cota inferior, la cual señala el valor mínimo que puede adquirir la media
poblacional. Al valor que se encuentra en la parte derecha de la fórmula se le
conoce como la cota superior, la cual señala el valor máximo que puede adquirir
la media de la población.
Los elementos que conforman el intervalo de confianza son:

x̅ = Media de la muestra
Z ∝/2 = Es el valor de Z situado bajo la curva normal estandarizada.
𝜎/√𝑛 = 𝐸𝑠 𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙

El primer componente es el estadístico puntual x̅ para la media poblacional, el


cual sirve como referencia para establecer el intervalo de confianza. El segundo
componente Z ∝/2 es un valor que se encuentra estrechamente relacionado con
el nivel de confianza del intervalo y se obtiene de la tabla de la distribución normal
estandarizada. El último componente, 𝜎/√n o 𝑠/√n, es el error estándar de la
media muestral o la desviación estándar de la distribución de x̅.

El nivel de confianza sirve para determinar el valor de 𝑍 ∝/2. Para esto, uno
determina un nivel de confianza considerable, por ejemplo, 90%, 95%, 98% o
22

99%. Este nivel de confianza se define como (1 – ∝)% y señala el porcentaje de


todos los intervalos que se pueden construir con todas las medias muestrales
posibles que contendrán al verdadero valor de la media poblacional. Cabe
señalar que ∝ se define como el nivel de significancia y representa la probabilidad
de que el parámetro µ no se encuentre considerado dentro del intervalo
estimado. Los niveles de confianza más comunes y sus respectivos valores de 𝑍 ∝
/2 son:

Nivel de confianza más utilizados

Esto quiere decir que, si se está trabajando con un nivel de confianza de (1 – ∝)%
= 90%, el valor de 𝑍 ∝/2 que se debe utilizar en la fórmula del intervalo de
confianza es 1.645. Lo mismo sucede para los niveles de confianza de 95%, 98%
y de 99%, cuyos valores de 𝑍 ∝/2 son 1.96, 2.326 y 2.576, respectivamente.

Recuerda que este método de estimación está basado en el teorema central del
límite, el cual permite asegurar que, al extraer una muestra grande para realizar
inferencias sobre el comportamiento de la población, la media muestral tiene una
distribución normal, sin importar cómo sea la distribución original de los datos de
la población. En ese sentido, el error que se puede cometer al utilizar a 𝑥̅ como
estimador de será de una magnitud aproximada al valor de 𝐸 = [𝑍 ∝/2][𝜎/√𝑛] , al
que se le conoce como el error máximo de la estimación.

De una manera más formal, a continuación, se expondrá el procedimiento para


obtener la fórmula de intervalos de confianza para muestras grandes utilizando el
23

teorema del límite central. Para ello se utilizará el estadístico Z de la distribución


muestral estandarizada de la media.

Si se sabe que, en general, 𝑥̅ es la media de una muestra de tamaño n  30, tomada de


una población con media  y desviación estándar , la distribución de la media muestral
estandarizada es aproximadamente una normal con media uno y varianza cero, cuyo
estadístico se representa por:

Ahora bien, recordemos que el valor Z señala a qué distancia se encuentra alejado
un valor específico de la media de una distribución. La relación que existe entre
dos valores de Z y el porcentaje de datos de la población que se encuentra
incluido entre esos dos valores de Z, (1 – ∝)%, viene dado por:

La fórmula anterior establece que la variable aleatoria “Z” puede adquirir un valor
comprendido en el intervalo que va de – Z ∝/2 a Z∝/2, con una probabilidad de
1 –∝ , o un porcentaje de (1 – ∝)% de los valores de una población.
24

Sustituyendo el valor de la normal estandarizada en “Z” se tiene que:

Al realizar las operaciones algebraicas correspondientes se obtiene el intervalo


de confianza para la media poblacional:

Observa que conforme se exija un mayor nivel de confianza, el valor de Z ∝/2 y el


error máximo de la estimación (E) también se incrementarán, por lo que el
intervalo se hará más ancho y se perderá precisión en la estimación de la media
poblacional µ. Por el contrario, si se exige menos nivel de confianza, el valor de
Z ∝/2 y el error máximo de la estimación (E) también se reducirán, por lo que el
intervalo se hará más estrecho y se ganará precisión en la estimación de la media
poblacional µ. Esto se convierte en un dilema para la persona que desea estimar
la media poblacional µ. Por un lado, se desea un nivel alto de confianza en el
resultado del intervalo, pero también se requiere ganar precisión en la estimación
deµ, es decir, intervalos de confianza que sean de preferencia muy estrechos.

Cabe señalar que este método también puede ser utilizado para estimar
intervalos de confianza para muestras pequeñas menores a 30 datos, siempre y
cuando se tenga pleno conocimiento de que la distribución de los datos de la
población sea normal y que se conozca el valor de la varianza poblacional o de la
desviación estándar poblacional.
25

Ejemplo:
Una máquina de refrescos está ajustada de tal manera que la cantidad de líquido
despachada se distribuye aproximadamente en forma normal con una desviación
estándar igual a 0.15 litros. Si se toma una muestra de 25 refrescos cuya media
fue de 2.25 litros, ¿cuál sería el intervalo de confianza de 95% para la media de
todos los refrescos que sirva esta máquina?

En este caso se tiene una muestra pequeña. No obstante, se sabe que la


distribución de refrescos es normal y se conoce la desviación estándar
poblacional  = 0.15 litros, por lo que se utiliza la siguiente fórmula del intervalo
de confianza:

Si tenemos un nivel de confianza de 95%, el valor que tomará Z ∝/2 (de acuerdo
con la tabla de nivel de confianza) es de 1.96, por lo que los datos que utilicemos
en la fórmula del intervalo de confianza son:

n = 25
𝑥̅ = 2.25
𝑍 ∝/2 = 1.96
𝜎 = 0.15

Sustituyendo los datos de la fórmula se obtiene:


26

En conclusión, con un nivel de confianza de 95%, la media del contenido neto de


los refrescos que esta máquina envasa se encuentra entre 2.1912 y 2.3088 litros.

Existen casos en los que es necesario estimar la diferencia entre dos medias, con
la finalidad de comparar dos poblaciones, por ejemplo:
- Cuando se requiere comparar la productividad de los empleados de dos
sucursales bancarias.
- En los casos en que se quiere hacer una comparación entre los niveles
salariales de dos empresas.
- Cuando un inversionista quiere comparar el rendimiento de dos carteras
distintas de instrumentos de inversión.
- Cuando se desea comparar el rating o nivel de audiencia de dos
programas de televisión transmitidos a la misma hora en diferentes canales.
- En situaciones donde se quiere conocer los gustos y preferencias sobre un
refresco, haciendo publicidad en dos ciudades diferentes.

El estimador puntual de la diferencia entre µ1 y µ2, lo da el estimador X1 – X2. Por


lo tanto, para obtener una estimación puntual de µ1 y µ2 se seleccionarán dos
muestras aleatorias independientes, una para cada población, de tamañosn1 y
n2, y se calculará la diferencia entre sus medias muestrales. En el caso de trabajar
con muestras grandes de cualquier tipo o que se conozca que la población tiene
una distribución normal y la desviación estándar poblacional sea conocida, la
normal estandarizada estaría dada por:
27

El intervalo de confianza correspondiente estará comprendido entre –Z / 2 y Z / 2,


sustituyendo en la fórmula de la normal estandarizada se tiene:

Esta fórmula conduce al siguiente intervalo de confianza para 1 – 2, el cual


también puede ser utilizado para muestras pequeñas siempre y cuando se
conozca que la distribución de la población sea normal y su desviación estándar
poblacional también sea conocida:

Ejemplo:

Una empresa de alimentos realizó un experimento para comparar dos dietas para
adelgazar: 1 y 2. Se seleccionan al azar dos grupos de 36 personas con
sobrepeso, el primer grupo se somete a la dieta 1 y el otro a la dieta 2. Se observa
que durante un determinado número de días el promedio de pérdida de peso y
las desviaciones estándar de ambos grupos son las siguientes: 𝑥1 = 21.3; S1 =
2.6; 𝑥2 = 13.4; S2 = 1.9 ¿Cuál es el intervalo de 95% de confianza para la diferencia
entre las pérdidas de peso promedio de las dos dietas?

El valor para el nivel de confianza de 95% es de 1.96


Datos:
28

Al sustituir los datos en la fórmula se obtiene:

Por tanto, la diferencia entre las pérdidas de peso promedio de las dos dietas se
encuentra en un intervalo comprendido de 6.848 a 8.952. En este caso, tanto la
cota inferior como la cota superior son positivas, lo que refleja que el promedio
de pérdida de peso de la dieta 1 siempre es mayor que el de la dieta 2. Por esta
razón se puede aseverar que la dieta 1 tiene mayor efectividad que la dieta 2.

Estimación de una proporción poblacional

Existe una gran cantidad de situaciones donde lo que interesa es conocer la


proporción o el porcentaje de una población, pues este concepto se encuentra
estrechamente relacionado con las probabilidades de ciertos eventos. Por
ejemplo, si se tiene la proporción de las personas que tienen Internet en su casa,
ésta también puede ser utilizada para calcular la probabilidad de que una persona
cuente con Internet al ser seleccionada aleatoriamente de una población.

Por esta razón, la estimación de las proporciones poblacionales constituye una


parte esencial en muchos estudios donde se busca calcular la probabilidad de
éxito o de fracaso con que puede ocurrir un evento.

Una proporción es una parte, fracción o porcentaje de los elementos que


constituyen a una población o una muestra.
29

El concepto de proporción poblacional se utiliza en muchos campos relacionados


con los negocios y las ciencias sociales. Algunos ejemplos donde frecuentemente
tiene aplicación son:

- A una casa de bolsa le interesa conocer la proporción de inversionistas que


desearán invertir sus recursos en un cierto tipo de acciones.
- A un proveedor de automóviles le resulta importante determinar la
proporción de personas que prefieren los autos de dos puertas.
- El jefe de RR.HH. de una empresa está interesado en calcular la proporción
de empleados que pudieran faltar al trabajo a causa de problemas
familiares.
- El departamento de producción de una empresa que fabrica calculadoras
desea conocer la proporción de artículos que saldrán defectuosos en cada
proceso de producción.

La proporción de elementos de la muestra que presentan la característica en


estudio se puede considerar como éxitos “p̂”, mientras que la proporción de
elementos de la muestra que no presenten la característica en estudio pueden ser
considerados como fracasos “q̂”. La fórmula para obtener una proporción de los
éxitos o elementos que se observan en una muestra es la siguiente:

Donde:
p̂: proporción de los éxitos observados en la muestra.
X: número de éxitos que se puede obtener de la muestra.
n: tamaño de la muestra
30

Si se conoce el valor de p̂, es decir, la proporción de éxitos en una muestra,


automáticamente se sabe el porcentaje de fracasos
q̂ de la muestra. La fórmula para obtener una proporción de los fracasos
𝑞̂ que se observa en una muestra es la siguiente:

Ejemplo:
Una empresa desea determinar la proporción de empleados que toma cursos de
capacitación los sábados. La empresa elige en forma aleatoria una muestra de 80
empleados, de los cuales 62 toman cursos de capacitación los sábados.

Datos
n = 80
X = 62

Al sustituir en la fórmula de proporciones se obtiene:

Por lo tanto, a partir de la muestra tomada, la empresa puede concluir que, 77.5%
de la población de empleados toma cursos de capacitación los sábados. El
porcentaje de empleados que no toma cursos de capacitación se puede obtener
a partir de:

Por lo que, 22.5% de la población no toma cursos de capacitación los sábados.


31

Sin embargo, este método de estimación no resulta muy atractivo ante las
limitaciones que se observan en todo tipo de estimadores puntuales; por
ejemplo, su resultado varía de muestra en muestra y no proporciona una medida
de referencia que permita conocer cuánto le podemos tener confianza al
resultado obtenido de la estimación puntual.

El concepto de la proporción poblacional está íntimamente ligado con la


distribución binomial, pues en un experimento binomial el estimador puntual de
la proporción poblacional p̂ es:

Si se utiliza el muestreo aleatorio, entonces la variable X, que representa el


número de éxitos que se pueden obtener en una muestra, es una variable
binomial, pues permite definir la probabilidad de obtener cierto número de éxitos
al estudiar una muestra en experimentos independientes.

Lo anterior resulta de gran trascendencia ya que, cuando se busca estimar una


proporción poblacional a partir de una muestra, en la que se conoce el número
de éxitos y fracasos, se debe hacer uso de variables binomiales; de éstas, al igual
que en apartados anteriores, el teorema del límite central permite hacer
inferencias de las proporciones poblacionales mediante intervalos de confianza.

El teorema central del límite señala que, si se tiene una variable con distribución
binomial X que representa el número de éxitos que se pueden obtener en una
32

muestra, con una distribución muestral del estadístico p̂, en las que cada una de
las posibles muestras tiene un tamaño n lo suficientemente grande de tal manera
que n multiplicada por el estadístico p̂ sea mayor o igual a 5, n p̂  5, y multiplicada
por el estadístico q̂ también sea mayor o igual a 5, n
q̂  5, entonces la distribución muestral del estadístico p̂ tendrá una distribución
normal.

En este sentido, la fórmula es el siguiente:

Ejemplo:
El departamento de recursos humanos de una empresa tiene interés en conocer
el porcentaje de trabajadores que tienen estudios de bachillerato, para esto
seleccionó una muestra de 200 trabajadores y detectó que 114 tienen al menos
estudios de bachillerato. Con un nivel de confianza de 90%, ¿cuál es el intervalo
para la proporción de trabajadores que tienen estudios de bachillerato?

En primera instancia se debe buscar el valor de p̂, que representa la proporción


de trabajadores que tienen estudios de bachillerato en la muestra seleccionada.

Que representa la proporción de éxitos.

Para obtener la proporción de fracasos tenemos que:

q̂ = 1 − p̂ = 1 − 0.57 = 0.43

Tenemos que el porcentaje de éxitos representa 57% de la muestra y el


porcentaje de fracasos representa 43%.
33

Luego establecemos los datos:

Sustituyendo los valores en la fórmula tenemos:

En conclusión, la proporción de trabajadores que tienen estudios de bachillerato


se encuentra en un intervalo comprendido entre 51.3% y 62.7%.
34

REFERENCIAS
BIBLIOGRÁFICAS

Canal, N. (3 de 12 de 2006). Distribuciones de probabilidad.

Openstax.org. (16 de mayo de 2023). La distribución normal estándar. Obtenido de

https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-

empresarial/pages/6-1-la-distribucion-normal-estandar

ProbabilidadyEstadística.net. (20 de mayo de 2023). Distribución normal. Obtenido de

https://www.probabilidadyestadistica.net/distribucion-normal/

StudySmarter. (20 de mayo de 2023). Distribución normal estándar. Obtenido de

https://www.studysmarter.es/resumenes/matematicas/estadistica-y-

probabilidad/distribucion-normal/

vadenumeros.es. (10 de mayo de 2023). Ejemplo uso tabla normal estándar. Obtenido

de https://www.vadenumeros.es/sociales/manejo-tabla-normal.htm

Domenech, J. M. (s.f.). Introducción a la teoría de la estimación y a la teoría de la

decisión estadística. Departamento de Psicología. Universidad de Barcelona.

Manzano, V. (2014). Estimación estadística.

También podría gustarte