Está en la página 1de 17

REPÚBLICA BOLIVARIANA DE VENEZUELA

MINISTERIO DEL PODER POPULAR PARA LA EDUCACIÓN


UNIVERSIDAD PRIVADA DR. RAFAEL BELLOSO CHACÍN
ESCUELA DE ELETRÓNICA
PROFESORA: ANGELA GALBÁN
SECCIÓN: N513

ESTADÍSTICA

UNIDAD IV

Diego Vera
27.237.750

Maracaibo, Julio de 2021.


UNIDAD IV
INFERENCIA ESTADÍSTICA
ESQUEMA – Tema Nº1: Distribuciones muestrales.
1. Error Típico (o estándar).

2. Distribuciones muestrales:

2.1. Para una media.

2.2. Para diferencia entre dos medias.

ESQUEMA – Tema Nº2: Estimación.


3. Diferencia entre estimación y estimador.

4. Estimador puntual.

 Ejemplos de estimaciones puntuales.

 Propiedades deseables de un estimador.

4.1. Intervalo de Confianza.

 Factores dependientes de un intervalo de confianza.

5. Estimación por intervalos:

5.1. Para una media

5.2. Para diferencia entre dos medias.


Tema Nº1: Distribuciones muestrales.
Desarrollo

1. Error Típico (o estándar)

Es el valor que cualifica cuanto se apartan los valores de la media de la


población. Es decir, el error estándar de la media cuantifica las oscilaciones de
la media muestral (media obtenida en base a los datos medidos en la muestra
utilizada) alrededor de la media poblacional (verdadero valor de la media). Es
una medida del error que se comete al tomar la media calculada en una muestra
como estimación de la media de la población total.

A partir del error estándar se construye el intervalo de confianza de la medida


correspondiente.

1) El error estándar de la media estimado en la muestra del ejemplo es


1,47. Se calcula dividiendo la desviación estándar por la raíz cuadrada
del tamaño muestral 14,7/√100=14,7/10.

2) Calculado a partir de él, el intervalo de confianza al 95% para la media va


desde 43,3 a 49,1.

 Límite inferior = media - 1,96 veces el error estándar = 46,2 – 1,96 *


1,47 = 43,3 (límite inferior).

 Límite superior = media + 1,96 veces el error estándar = 46,2 + 1,96 *


1,47 = 49,1 (límite superior).

Este es uno de los métodos estadísticos que exige normalidad de la


población. Quiere decir que podemos afirmar, con una confianza del 95%,
que la media poblacional está incluida en dicho intervalo.
2. Distribución Muestral

En cada una de las distintas muestras que pueden ser extraídas de una
población se pueden calcular estadísticos como la media aritmética o la
proporción de elementos que presentan cierta característica; por ejemplo, la
media de estaturas o la proporción de licenciados universitarios. Cuando los
elementos son escogidos de manera aleatoria, los estadísticos pueden tomar
distintos valores en cada una de las muestras, cada uno de ellos con distinta
probabilidad. Los valores de la media en diferentes muestras aleatorias se
encuentran con mayor probabilidad cerca del valor de la media poblacional, y
son menos probable que se encontrasen muy alejados de ella.

La probabilidad de cada uno de los posibles valores que puede tomar un


estadístico en muestras extraídas al azar viene dada por una función matemática
denominada distribución muestral, que depende del estadístico en cuestión.
Se habla así, por ejemplo, de la distribución muestral de la media aritmética o de
la distribución muestral de la proporción.

Una distribución muestral es una función de probabilidad, ya que asigna a


cada posible valor de un estadístico su probabilidad de aparecer en una muestra
extraída al azar. En realidad, esta definición es estrictamente cierta solo cuando
la variable toma valores discretos; por ejemplo, cuando procede de un contaje y
sus posibles valores son 0, 1, 2, 3, etc. Cuando el valor del estadístico muestral
es una variable continua, la distribución muestral correspondiente se
denomina función de densidad de probabilidad. La probabilidad en este caso
corresponde gráficamente a un área bajo la curva de esa función, delimitada por
un cierto intervalo de la variable. Analíticamente, esa área se calcula como la
integral de la función entre los límites del intervalo de la variable, que en la
práctica se obtiene con un ordenador o se consulta en una tabla. El área total
bajo la curva, que se extiende a todos los posibles valores de la variable, es
siempre uno, que corresponde a la probabilidad de un suceso seguro.

Para una variable aleatoria x se define su variable tipificada como:


𝑥− 𝜇
𝑧=
𝜎
Si la variable x sigue una distribución N(μ,σ2), su variable tipificada
correspondiente sigue una distribución N(0,1), que se denomina distribución
normal estándar, con media 0 y varianza 1 (es la representada en la figura de
arriba). Existen infinitas distribuciones normales distintas, tantas como posibles
valores de la media y la varianza, pero las áreas bajo la curva normal estándar
son las únicas que se pueden encontrar en tablas para su consulta.

La siguiente figura recoge la representación gráfica de distribuciones normales


con distintos valores de media y de varianza, según la notación N(μ,σ2); la curva
negra más gruesa es la distribución normal estándar. Se puede observar cómo
la posición del máximo coincide con la media y cómo la anchura de las campanas
es proporcional a la desviación; el área total bajo cualquiera de las curvas es
siempre uno.
2.1. Distribución muestral para una media:

La media m de las muestras extraídas al azar de una población con media μ y


varianza σ2 es una variable aleatoria que sigue una distribución de probabilidad
normal caracterizada por:

- Su media, que coincide con la media poblacional μ.


- Su varianza, que viene dada por la varianza de la población σ2 dividida
entre el tamaño de la muestra n, es decir, σ2/n.

Así pues, la distribución muestral de la media m es N(μ, σ2/n). La media


muestral tipificada sigue una distribución normal estándar, N(0,1), y se calcula
como:

𝑚− 𝜇
𝑚∗ =
𝜎 / √𝑛

Con estos resultados se puede calcular fácilmente la probabilidad de que la


media de una muestra extraída al azar se encuentre en un cierto intervalo,
conociendo la media y la varianza de la población de la que se ha extraído la
muestra. Para ello, se calcula el área bajo la curva de la distribución
normal N(μ, σ2/n) entre los límites del intervalo, o bien se consulta en una tabla
el área bajo la curva de la distribución normal estándar N(0,1) entre los límites
tipificados del intervalo.

Ejemplo

Si los individuos de una población tienen un peso medio de 70 kg, con una
desviación típica de 10 kg, ¿cuál es la probabilidad de que la media de peso de
los 121 pasajeros de un avión, que se supone que representan una muestra al
azar, esté entre 72 y 73 kg?

Se puede suponer que la media muestral sigue una distribución normal de


media 70 kg y varianza 102/121 = 0,826 kg2, es decir, N(70, 0,826). Los
valores tipificados de los límites del intervalo de la variable son:
𝑚∗ 𝐴 = (72 − 70)/√0,826 = 2,20

𝑚∗ 𝐵 = (73 − 70)/√0,826 = 3,30

La variable tipificada sigue una distribución N(0,1) cuyas áreas bajo la curva se
encuentran tabuladas.

las áreas bajo la curva que quedan a la izquierda de un cierto valor de la variable.
El área bajo la curva comprendida entre m*A y m*B es entonces el área a la
izquierda de m*B menos el área a la izquierda de m*A.

la cifra de las unidades de la variable se encuentra en la primera fila y las cifras


del primer y segundo decimal se encuentran en la primera columna. Una vez
localizada la fila y la columna que corresponde al valor buscado, la casilla en la
que se cruzan contiene el área bajo la curva normal tipificada que queda a la
izquierda de ese valor. Se procede entonces de la siguiente manera:

- Para m*A = 2,20 se localiza la columna 2,00 y la fila 0,20, en cuya


intersección aparece el área 0,986096.

- Para m*B = 3,30 se localiza la columna 3,00 y la fila 0,30, en cuya


intersección aparece el área 0,999516.

La diferencia entre ambas áreas es 0,01342, que corresponde al área bajo la


curva delimitada entre m*A y m*B. Por tanto, la probabilidad de que la media
de peso de los pasajeros del avión se encuentre entre 72 y 73 kg es de 0,013
aproximadamente, o de 1,3 %.

Cuando la varianza de la población σ2 no se conoce, que es lo más habitual,


ha de estimarse a partir de la varianza de la propia muestra que se ha
extraído, s2. La media muestral tipificada se obtiene entonces sustituyendo
la varianza poblacional por la muestral:

𝑚− 𝜇
𝑚𝑡∗ =
𝑠 / √𝑛
Este nuevo estadístico t contiene la media muestral m y la varianza muestral
s2, esta última con su propia distribución muestral. El cociente entre ambas
ya no sigue la distribución normal estándar, sino otra distribución denominada
t de Student, que depende de los grados de libertad de la muestra (número
de elementos que contiene menos uno, n−1). Cuanto mayor es el tamaño de
la muestra, más se parece esta distribución a la normal estándar, por lo que
a menudo se emplea esta última en muestras grandes incluso si la varianza
poblacional es desconocida.

La siguiente gráfica recoge la representación gráfica de distribuciones t de


Student con distintos grados de libertad; la curva negra, que corresponde a
infinitos grados de libertad, coincide con la distribución normal estándar
N(0,1):
2.2. Diferencia muestral entre dos medias:

También se puede analizar la distribución muestral de la diferencia entre dos


medias, m1−m2, obtenidas de muestras extraídas al azar de dos poblaciones
distintas, una de ellas con media μ1 y varianza σ12 y otra con media μ2 y
varianza σ22. La distribución muestral de la diferencia de medias sigue una
distribución normal caracterizada por:

- Su media, que coincide con la diferencia de las medias poblacionales


μ1−μ2.

- Su varianza, que depende de las varianzas de ambas poblaciones y del


tamaño de ambas muestras, n1 y n2, y que viene dada por σ12/n1 +
σ22/n2.

Así pues, la distribución muestral de la diferencia de medias m1−m2 es


N(μ1−μ2, σ12/n1+σ22/n2). La diferencia de medias muestrales tipificada
sigue una distribución normal estándar, N(0,1), y se calcula como:


(𝑚1 − 𝑚2 ) − (𝜇1 − 𝜇2 )
(𝑚1 − 𝑚2 ) =
√𝜎12 /𝑛1 + 𝜎22 /𝑛2
Ejemplo

Se tienen dos poblaciones distintas, una con media de edad de 20 años y


desviación típica 1,5 años y la otra con media 25 años y desviación típica 1,7
años. Se reúnen en un aula 50 individuos escogidos al azar de la primera
población y en otra aula, 60 individuos de la segunda población. ¿Cuál es la
probabilidad de que la diferencia entre las medias de edad de ambas aulas
esté entre 4,5 y 5,5 años?

Se puede suponer que la diferencia de medias muestrales sigue una


distribución normal de media 25−20 = 5 años y varianza 1,52/50+1,72/60 =
0,0932 años2, es decir, N(5, 0,0932). Los valores tipificados de los límites del
intervalo de la variable son:

(m1−m2) * A = (4,5−5) / √0,0932 = −1,64 años

(m1−m2) * B = (5,5−5) / √0,0932 = 1,64 años

Una manera análoga para la resolución del ejemplo anterior, para (m1−m2) *
B = 1,64 se localiza en la tabla la columna 1,00 y la fila 0,64, en cuya
intersección aparece el área 0,949497. En la tabla no aparecen valores
negativos de la variable, pero como la curva normal estándar es simétrica
respecto al valor 0, se deduce que el área a la izquierda de (m1−m2) * A =
−1,64 es igual al área a la derecha del valor +1,64; esta última se puede
obtener como el área total bajo la curva, que es 1, menos el área a la
izquierda de +1,64, es decir, 1−0,949497 = 0,050503.

El área bajo la curva delimitada entre (m1−m2) * A y (m1−m2) * B


corresponde entonces a la diferencia 0,949497−0,050503 = 0,898994. Por
tanto, la probabilidad de que la diferencia entre las medias de edad de las
personas de ambas aulas se encuentre entre 4,5 y 5,5 años es de casi 0,9,
o del 90%.
Tema Nº1: Estimación.
Desarrollo
3. Diferencia entre Estimación y Estimador

Suponemos que una familia de leyes, que depende de un parámetro


desconocido , ha sido seleccionada. Ahora es de la muestra, y sólo de ella,
que se puede extraer la información. Se llama estimador del parámetro a
toda función de la muestra, que toma valores en el conjunto de los valores
posibles de . Evidentemente esta definición, un poco vaga, esconde la idea
que los valores que tome el estimador estarán cercanos al valor que se
busca, el cual es, y continuará siendo, desconocido.

Decimos que hemos realizado una estimación cuando hemos asignado un


valor 𝜃̂ al parámetro de la distribución. Como puede verse, resulta práctico
designar la estimación del parámetro con su mismo símbolo, acompañado de
una marca (una tilde, un acento circunflejo, un asterisco, etc.) para distinguir
ambos entre sí.

Aunque existen diferentes métodos para realizar una de estas asignaciones,


suele ser conveniente utilizar la información proporcionada por la realización de
la muestra. Una estimación sería entonces una aplicación que envía cada
realización 𝑋1 , 𝑋2 , … , 𝑋𝑛 de la muestra en un valor del parámetro 𝜃̂ =
𝜃̂ (𝑋1 , … , 𝑋𝑛 ).

Para estimar , se propone un estimador en función de la muestra:

𝑇 = 𝜏(𝑋1 , 𝑋2 , … , 𝑋𝑛 )

es también una variable aleatoria. La selección del modelo y del


estimador está desconectada de la recolección de los datos. Es, en cierta
forma, una planificación que se hace antes de realizar las observaciones y que
podrá servir a varias muestras que se recojan del mismo fenómeno.

Una vez que se selecciona el modelo, se considerará a una -tupla de datos


(𝑋1 , … , 𝑋𝑛 ) como una realización de las variables aleatorias (𝑋1 , … , 𝑋𝑛 ). El valor
(real) que toma :

𝜃̂ = 𝜏(𝑋1 , … , 𝑋𝑛 )
Tomemos el ejemplo simple de una moneda de la cual ignoramos si está
adulterada o no. La probabilidad de caer sobre ''cara'' es el parámetro
desconocido . Nos proponemos realizar lanzamientos de la moneda,
lo que modelaremos por una muestra de tamaño de la ley de Bernoulli de
parámetro . El número de ''caras'' obtenido en los lanzamientos es una
variable aleatoria que sigue la ley binomial . El cociente entre esta
variable aleatoria y (la frecuencia) es un estimador de . Realicemos ahora
los lanzamientos de la moneda denotando cada vez por si ha salido
''cara'', y 0 si no. Una realización de la muestra es por ejemplo:

0, 1, 1, 0, 1, 1, 1, 0, 0, 1.
Para esta realización, la frecuencia empírica toma el valor 0.6, el cual
propondremos como estimación de . Evidentemente, 10 nuevos lances de la
misma moneda podrán conducir a una realización diferente de la muestra y a
otra estimación de .

La teoría de la estimación se ocupará, dentro del marco de la perspectiva clásica,


de estudiar las características deseables de los estimadores permitiéndonos
escoger aquel estimador que reúna más propiedades ventajosas para que
realicemos buenas estimaciones.

4. Estimador Puntual

Una estimación puntual de un parámetro poblacional es cuando se utiliza un


único valor para estimar ese parámetro, es decir, se usa un punto en concreto
de la muestra para estimar el valor deseado.

Cuando estimamos un parámetro de forma puntual, podemos saber con certeza,


cual es ese valor. Imaginemos una población de 30 personas de las que
seleccionamos una muestra de 20 para las que conocemos sus edades. Estimar
de forma puntual la media de edad, sería tan sencillo como sumar esos 20 datos
y dividirlos entre el total de la muestra estadística.

Pensemos ahora en que queremos estimar la altura media de esa muestra. Al


contrario que antes, no tenemos el valor de la altura de cada persona. En este
caso no podríamos realizar una estimación puntual, es decir, no podríamos hallar
un valor concreto de esa altura media. En este caso tendríamos que realizar una
estimación por intervalos, es decir, podríamos acotar el valor más alto y más
bajo de las alturas de las personas con cierta seguridad o lo que en estadística
se conoce como cierto nivel de confianza.
Ejemplo de estimaciones Puntuales

Para obtener una estimación puntual se usa un estadístico que recibe el nombre
de estimador o función de decisión. Algunos ejemplos de estadísticos son:

 La media muestral que sirve como estimación puntual de la media


poblacional.

̅= 𝝁
𝑿
 La desviación típica muestral que sirve de estimación para la desviación
típica de la población.

𝑺=𝟔

Propiedades deseables de un estimador

Las propiedades deseables de un estimador son las siguientes:

 Insesgadez: Un estimador es insesgado cuando la esperanza matemática


del este es igual al parámetro que se desea estimar. Por tanto, la diferencia
entre el parámetro a estimar y la esperanza de nuestro estimador tendría que
ser 0.

 Eficiente: Un estimador es más eficiente o tiene la capacidad de estimar de


forma precisa cuando su varianza es reducida. Por lo tanto, ante 2
estimadores, siempre elegiremos el que tenga una varianza menor.

 Consistencia: Un estimador consistente es aquel que a medida que la


medida que la muestra crece se aproxima cada vez más al valor real del
parámetro. Por lo tanto, cuantos más y valores entran en la muestra, el
parámetro estimado será más preciso.
4.1. Intervalo de Confianza

Un intervalo de confianza es una técnica de estimación utilizada en inferencia


estadística que permite acotar un par o varios pares de valores, dentro de los
cuales se encontrará la estimación puntual buscada (con una determinada
probabilidad).

Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una


media muestral (uno superior y otro inferior). Estos valores van a acotar un rango
dentro del cual, con una determinada probabilidad, se va a localizar el parámetro
poblacional.

Intervalo de confianza = media +- margen de error

Conocer el verdadero poblacional, por lo general, suele ser algo muy


complicado. Pensemos en una población de 4 millones de personas.
¿Podríamos saber el gasto medio en consumo por hogar de esa
población? En principio sí. Simplemente tendríamos que hacer una encuesta
entre todos los hogares y calcular la media. Sin embargo, seguir ese proceso
sería tremendamente laborioso y complicaría bastante el estudio.

Ante situaciones así, se hace más factible seleccionar una muestra estadística.
Por ejemplo, 500 personas. Y sobre dicha muestra, calcular la media. Aunque
seguiríamos sin saber el verdadero valor poblacional, podríamos suponer que
este se va a situar cerca del valor muestral. A esa media le sumamos el margen
de error y tenemos un valor del intervalo de confianza. Por otro lado, le restamos
a la media ese margen de error y tendremos otro valor. Entre esos dos valores
estará la media poblacional.

En conclusión, el intervalo de confianza no sirve para dar una estimación puntual


del parámetro poblacional, si nos va a servir para hacernos una idea aproximada
de cuál podría ser el verdadero de este. Nos permite acotar entre dos valores en
dónde se encontrará la media de la población.
Factores de los que depende un intervalo de confianza

El cálculo de un intervalo de confianza depende principalmente de los siguientes


factores:

 Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos


que se hayan utilizado para calcular el valor muestral, este se acercará más
o menos al verdadero parámetro poblacional.

 Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra


estimación acierta. Los niveles habituales son el 95% y el 99%.

 Margen de error de nuestra estimación: Este se denomina como alfa y nos


informa de la probabilidad que existe de que el valor poblacional esté fuera
de nuestro intervalo.

 Lo estimado en la muestra (media, varianza, diferencia de medias…): De


esto va a depender el estadístico pivote para el cálculo del intervalo.

5. Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de valores


donde es más probable se encuentre el parámetro. La obtención del intervalo
se basa en las siguientes consideraciones:

a) Si conocemos la distribución muestral del estimador podemos


obtener las probabilidades de ocurrencia de los estadísticos
muéstrales.

b) Si conociéramos el valor del parámetro poblacional, podríamos


establecer la probabilidad de que el estimador se halle dentro de los
intervalos de la distribución muestral.

c) El problema es que el parámetro poblacional es desconocido, y por


ello el intervalo se establece alrededor del estimador. Si repetimos el
muestreo un gran número de veces y definimos un intervalo
alrededor de cada valor del estadístico muestral, el parámetro se
sitúa dentro de cada intervalo en un porcentaje conocido de
ocasiones. Este intervalo es denominado "intervalo de confianza".
5.1. Estimación por intervalos de la media:

o Intervalo de confianza para la media µ de una población normal con


desviación típica conocida σ:

Si partimos de una población que sigue una distribución Z ~ N(0,1)


bastará con encontrar el punto crítico zα/2 para tener un intervalo que
contenga la media poblacional con probabilidad c.

𝑝(−𝑧𝛼/2 < 𝑍 < 𝑧𝛼/2) = 𝑐

Si en el caso general tomamos:

bastará con hacer unas sencillas operaciones para llegar a que el


intervalo de confianza para la media μ de una población normal con
desviación típica conocida σ es:

o Intervalo de confianza para la media μ de una población con


desviación típica conocida σ:

En el caso de poblaciones que no son normales, o que simplemente no


sabemos si lo son o no, necesitamos que el tamaño de la muestra sea
suficientemente grande (n > 30) para poder aplicar el Teorema central
del límite para obtener que el intervalo de confianza para la media μ de
una población con desviación típica conocida σ es:
o Intervalo de confianza para la media μ de una población con
desviación típica desconocida:

Cuando se desconoce la desviación típica poblacional se usa como


estimador la desviación típica de la muestra con lo que el intervalo de
confianza para la media μ de una población con desviación típica
desconocida es:

5.2. Estimación por intervalos para diferencia entre dos medias:

Si 𝑋̅1 , 𝑋̅2 , 𝑠1 2 𝑦 𝑠2 2 son las medias y las varianzas de dos muestras aleatorias
de tamaño n1 y n2, respectivamente, tomadas de dos poblaciones normales e
independientes con varianzas desconocidas pero iguales, entonces un
intervalo de confianza del 100(1 - ∞) por ciento para la diferencia entre medias
es:

1 1
𝜇1 − 𝜇2 = ( 𝑋̅1 − 𝑋̅2 ) ± 𝑡𝑠 √ +
𝑛1 𝑛2

En donde:

𝑠12 (𝑛1 − 1) + 𝑠22 (𝑛2 − 1)


𝑠𝜏2 =
𝑛1 + 𝑛2 − 2

es el estimador combinado de la desviación estándar común de la población con


n1+n2 – 2 grados de libertad.

PARA OBTENER UNA MEJOR VISTA DEL MAPA CONCEPTUAL CLICK AQUÍ:
https://www.mindomo.com/mindmap/fd3a47e8989a47b2abee8b87772d07dd

También podría gustarte