INFERENCIA

PROBABILIDADES Y
ESTADÍSTICA
ESTADÍSTICA INFERENCIAL
PROF. NANCY NAVA DE BOSCÁN

INFERENCIA ESTADÍSTICA
ESTADÍSTICA INFERENCIAL.-
 Es la rama de la estadística que permite tomar una decisión acerca de
una población en particular, basándose en las conclusiones obtenidas
de una parte representativa de ella.
POBLACIÓN.-
 Se refiere a la recolección de mediciones de todos los elementos del
universo con respecto al cual se quieren obtener conclusiones o tomar
decisiones.
MUESTRA.-
 Es sólo un subconjunto de observaciones seleccionadas de una
población.
 Se puede hacer inferencia estadística mediante estimación de
parámetros y pruebas de hipótesis.
ESTIMACIÓN DE PARÁMETROS.-
 Se trata de determinar los valores de los parámetros poblacionales a
partir de los estadísticos de las muestras seleccionadas de esa
población. Se puede hacer estimación de dos maneras:
ESTIMACIÓN PUNTUAL.-
 Un estimado de un parámetro dado por un solo valor numérico se
llama estimado por punto del parámetro.
ESTIMACIÓN POR INTERVALOS.-
 Cuando el estimado de un parámetro viene dado por dos números
entre los cuales se puede considerar que queda el parámetro, se dice
que la estimación es por intervalos.
Ejemplo: Si decimos que una distancia se mide como150 m. estamos
dando un estimado por punto. Si decimos que ésta es de 150 ±3,67 m.
estamos dando un estimado por intervalos.
PRUEBAS DE HIPÓTESIS O SIGNIFICANCIA O REGLAS DE DECISIÓN
 Cuando interesa tomar decisiones basadas en conjeturas o supuestos

acerca de las poblaciones involucradas estamos utilizando las pruebas
de hipótesis. Las hipótesis estadísticas (afirmativas, nulas o
alternativas) se formulan para determinar si una característica o un
resultado que se espera pueda ser verdadero, en cuyo caso se acepta
la hipótesis.
 Cuando formulamos una hipótesis y encontramos que los resultados
observados en una muestra aleatoria difieren marcadamente de los
resultados esperados bajo la hipótesis, se puede concluir que las
diferencias observadas son significativas y podría rechazarse la
hipótesis.
MUESTREO ALEATORIO: CONCEPTOS BÁSICOS
MUESTRA ALEATORIA.-
 Una muestra aleatoria de tamaño “n” extraída de una población de
tamaño “N”, con distribución de probabilidad “f (x)”, es una colección de
“n” variables aleatorias independientes (x 1, x2,…,xn), teniendo cada una
la misma distribución poblacional.
PARÁMETRO.-
 Es una característica medible de una población. Es una constante.
ESTADÍSTICO (A) O ESTADÍGRAFO.-
 Característica medible de una muestra. Es una variable aleatoria y puede
ser un estimador del parámetro poblacional respectivo.
MEDIA MUESTRAL.-
 Sea (x1, x2,…,xn) una muestra aleatoria de tamaño “n” extraída de una
población con función de probabilidad “f (x)”. Se define la media muestral
como: ,
VARIANZA MUESTRAL.-
 Es una medida de la variabilidad de los diferentes elementos de la
muestra con respecto a la media muestral. Simbólicamente se puede
expresar como:
s2 = Σ(x i – X )2 / n - 1 o bien, s2 = [Σ x i2 – n. X2] / n - 1
DISTRIBUCIÓN DE LA MEDIA MUESTRAL (de muestreo de la media).-

 Son distribuciones de probabilidad de un estadístico, esto es, de una
variable aleatoria que depende de los resultados obtenidos en cada
muestra particular.
 Esta distribución está basada en una muestra aleatoria de tamaño “n”
de las medias de varias muestras, cada una con su probabilidad de
ocurrencia, y tiene como esperanza matemática o valor esperado
muestral a “μ” y varianza muestral a V (x) = σ2 / n.
ERROR ESTÁNDAR DE UN ESTADÍSTICO.

 Es la desviación estándar de su distribución de muestreo. Si el error
estándar involucra parámetros desconocidos cuyos valores pueden
estimarse, la sustitución de estas estimaciones en el error estándar da
como resultado un error estándar estimado. Ejemplo:
y ^ S
ESTIMADOR.-
 Es un estadístico que mide el parámetro poblacional respectivo.
Ejemplo: ^ es una función de las observaciones de la muestra.
ESTIMADOR IMPARCIAL O INSESGADO.-
 Es aquel cuya media de su distribución muestral iguala al
correspondiente parámetro poblacional. Si no lo iguala se le denomina
parcial o sesgado.
ESTIMACIÓN PUNTUAL
PROPIEDADES DE UN BUEN ESTIMADOR

1. Insesgado.- Un estimador es insesgado cuando el valor del estimado
coincide con el valor verdadero del parámetro desconocido.
El estimador puntual es un estimador insesgado para el parámetro θ
si E ( ) = θ.
2. Eficiente.- Un estimador 1 es más eficiente que otro estimador 2 si
tiene una varianza menor. Es decir:
E ( 1 – θ)2 < E ( 2 – θ)2 .
3. Consistente.- Un estimador es consistente si la probabilidad de
dicho estimador cuando tiende al parámetro, tiende a 1 cuando n
tiende a infinito. Es decir:
P( →θ) → 1 cuando n → ∞
4. Suficiente.- Si aporta tanta información como sea posible acerca del
parámetro que está estimando.
ESTIMACIÓN PUNTUAL
Ejemplo:
 Si se supone que la variable aleatoria X tiene una distribución normal
con media no conocida μ. La media muestral es un estimador puntual
de la media poblacional (μ = ). Después de tomar la muestra, el valor
numérico es la estimación puntual de μ. Por tanto,
x1 = 25; x2 = 30; x3 = 29; y x4 = 31.
 Entonces, la estimación puntual de μ es:
= (25+30+29+31)/4= 28,75.
 En consecuencia, = 28,75.
Si: s2 = [(25-28,75)2+(30-28,75)2+(29-28,75)2+(31-28,75)2]/3= 6,9
 Al calcular la varianza muestral s2 = 6,9 podemos estimar σ2 cuando
éste es desconocido, resultando:
σ2 = 6,9
ESTIMACIÓN PUNTUAL
MÉTODO DE MÁXIMA VEROSIMILITUD.

 Uno de los mejores métodos de estimación puntual. Establece que el
estimador será aquel valor del parámetro que maximice la función de
verosimilitud
 Sea X una variable aleatoria discreta o continua, con distribución de
probabilidad “f (x,θ), donde θ es un parámetro desconocido. Sean x1,
x2,…, xn, los valores observados en una muestra aleatoria de tamaño
“n”. La función de verosimilitud de la muestra es:
L(θ) = f (x1,θ)* f (x2,θ)* f (x3,θ)* … f (xn,θ)
La función de verosimilitud es ahora una función del parámetro

desconocido θ. El estimador de máxima verosimilitud de θ es el valor
del mismo que maximiza la función de verosimilitud “L (θ)”.
DISTRIBUCIONES DE MUESTREO
 Son distribuciones de probabilidad de un estadístico muestral, como
por ejemplo la media muestral; ésta se considera una variable aleatoria
que depende de los resultados obtenidos en cada muestra particular, y
tiene una distribución de probabilidad.
DISTRIBUCIÓN DE MUESTREO DE LA MEDIA.

 Si se supone una muestra aleatoria de tamaño “n”, tomada de una
población normal con media μ y varianza σ2 . Cada observación de
esta muestra es una variable aleatoria distribuida normal e
independientemente, con media “μ ” y varianza “σ 2”.
μ=μ = y σ2 = σ 2
= σ2 / n
TEOREMA DEL LÍMITE CENTRAL: Estimación puntual.
 Si x1, x2,…, xn es una muestra aleatoria de tamaño “n” tomada de una

población finita o infinita, con media μ y varianza σ2, y si es la media
muestral entonces la forma límite de la distribución de Z cuando n →
∞ es la distribución normal estándar:
( X  )
Z=
x / n
 En muchos casos de interés práctico, si n ≥ 30, la aproximación

normal será satisfactoria sin importar cuál sea la forma de la
población. Si n < 30 el teorema del límite central funciona si la
distribución de la población no está muy alejada de una distribución
normal.
Ejemplos:
 1. Una compañía de electrónica fabrica resistores que tienen una
resistencia promedio de 100 Ω y una desviación estándar de 10 Ω. La
distribución de la resistencia es normal. Encuéntrese la probabilidad de
que al tomar una muestra de n = 25 resistores, la resistencia promedio
de éstos será menor de 95 Ω.
Solución:
Datos: μ = μ = 100 Ω; σ = 10 Ω. Por tanto, σ = 10 / = 2 Ω.
P( < 95 Ω) = ¿?
 Estandarizamos x: Z = ( 95 – 100 ) / 2 = -2,5
 Buscamos en la tabla de distribución normal y corresponde a un área
bajo la curva de 0,0062. Por tanto, la probabilidad buscada es:
P ( < 95) = 0,0062.
2. Se describe un nuevo método para medir la conductividad térmica

del hierro ARMCO. A temperatura de 100° F y potencia de entrada de
550 W, se obtienen las 10 mediciones siguientes de conductividad
térmica (en Btu/hr-ft-° F):
41,6 – 41,48 – 42,34 – 41,95 – 41,86 – 42,18 – 41,72 – 42,26 – 41,8 – 42,04
Determínese la media muestral y el error estándar de muestreo.
 Una estimación puntual de la conductividad térmica promedio bajo las
mismas condiciones es la media muestral:
= (41,6+41,48+ … + 42,04) / 10 = 41,92
 El error estándar de la media muestral es σ = σ / n . Dado que σ es
desconocido, lo reemplazamos por la desviación estándar muestral “S”
S2= [(41,6-41,92)2 + (41,48-41,92)2 + … + (42,04-41,92)2 / 9 = 0,08
2
S = s = 0,283. El error estándar estimado es: = 0,283 / 10 =
= 0,0898
Caso de dos poblaciones:

 La primera población tiene una media μ1 y una varianza σ12, mientras
que la segunda tiene μ2 y una varianza σ22. Supóngase que ambas
poblaciones están normalmente distribuidas y, por tanto, la distribución
de muestreo es normal con media:
1 - 2 = μ( 1) - μ( 2) = μ1 - μ2
 Y varianza:
σ2( 1 - ) = σ(x1)2 + σ(x2)2 = σ12/n1 + σ22/n2.
2
 Cuando las dos poblaciones no siguen la distribución normal, pero el

tamaño de ambas muestras es mayor que 30, puede emplearse el
teorema del límite central y suponer que ambas poblaciones siguen
una distribución independiente aproximadamente normal, pudiendo
utilizarse las fórmulas dadas anteriormente.
 Cuando se tienen dos poblaciones con las condiciones dadas

anteriormente, la distribución de muestreo de
 12  2 2
Z=[ 1 - 2 – (μ1 - μ2)] /. 
n1 n2
 Es aproximadamente normal estándar, si se aplican las condiciones del

teorema del límite central.
 Si las dos poblaciones son normales, entonces la distribución de

muestreo de Z es, más exactamente, normal estándar.
Ejemplo:
 La vida eficaz de un componente de una turbina de una aeronave es
una variable aleatoria con media 5000 horas y desviación estándar 40
horas. La distribución es cercana a la normal. Se introduce una mejora
en su fabricación, aumentando el tiempo de vida útil promedio a 5050
horas y disminuyendo la desviación estándar a 30 horas. Si se
consideran ambas poblaciones independientes y se toma del primer
proceso una muestra aleatoria de 16 componentes y del mejorado 25
componentes, ¿cuál es la probabilidad de que la diferencia entre las
dos medias muestrales sea al menos 25 horas?
Datos:.
 μ1=5000; σ( ) = σ1 / n1 = 40 / 16 = 10 horas.
1
n2 25
 μ2=5050; σ( ) = σ2 /
2 = 30 / = 6 horas.
 P[( 2 - 1 ) ≥ 25 horas] = ¿?
(μ2 – μ1)=5050-5000 = 50 h.
σ22/n2 + σ12/n1 = (6)2 + (10)2 =136 horas.
 El valor Z para la diferencia de las medias de

2
252horas es:
1  2
Z=[ 2 - 1 – (μ2 – μ1)] /  =
n1 n2
136
Z = (25 – 50) / = -2,14
 Valor que corresponde a un área bajo la curva de 0, 0162. Este valor

coincide con la probabilidad de la diferencia menor de 25 horas. Por
diferencia:
 P[( 2 - 1 ) ≥ 25 horas] = 1 – 0,0162 = 0,9838.
Distribución de la varianza muestral: Distribución ji–cuadrada.
 Está definida en términos de variables aleatorias normales (Z21, Z22,

hasta Zk2). Donde μ=k y σ2 = 2k.
 La variable aleatoria ji- cuadrada es no negativa y su distribución tiene
un sesgo hacia la derecha, pero en la medida en que k (grados de
libertad) aumenta, la misma se vuelve más simétrica.
 Por tanto, conforme k → ∞, la forma límite de la distribución ji-
cuadrada es la distribución normal.
 Se define X2(α,k) como el punto o valor crítico de la variable aleatoria ji-
cuadrada con k grados de libertad tal que la probabilidad de que X sea
mayor que este valor es α.
P (X > X2(α,k)) = ∫ f(u)du = α.
 La función de la varianza muestral (n-1).S2 / σ2 tiene esta distribución.
Distribución de la media muestral cuando la varianza de la población es

desconocida: Distribución t de Student.
 Dada una muestra tomada de una población normal con media μ y

varianza σ2. Si –x es el promedio de las n observaciones en la muestra
aleatoria, entonces la distribución Z = ( – μ ) / ( σ / n ) es una
distribución normal estándar. Si no se conoce la varianza de la
población, y en la fórmula de Z reemplazamos la desviación estándar σ
por S, obtenemos la distribución t.
 Si Z es una variable aleatoria con distribución N (0,1) y V una variable
aleatoria ji- cuadrada con k grados de libertad, ambas independientes,
entonces la variable aleatoria T = Z / ( v k).
 La media y la varianza de esta distribución son: μ=0 y σ2= k/(k-2) para
k > 2, respectivamente.
 La curva es simétrica, unimodal y su altura máxima se alcanza en

μ=0.
 Finalmente, si en la fórmula de Z reemplazamos la desviación
estándar σ por S, vamos a obtener:
T = ( – μ ) / ( S / n ),
 La cual sigue una distribución t con n-1 grados de libertad.
 La variable aleatoria F se define como el cociente de dos variables

aleatorias ji- cuadrada independientes, dividida cada una entre sus
respectivos grados de libertad, donde W y Y son las variables con u y v
grados de libertad, respectivamente
F = (W / u) / (Y / v).
 La media de esta distribución es: μ = v / (v – 2), para v > 2, y varianza:
σ2 = 2v2(u+v-2) / u (v-2)2 (v-4)’ para v > 4.
 La variable f es no negativa, con un sesgo hacia la derecha, de forma
similar a la ji- cuadrada pero centrada respecto a 1.
 Los dos parámetros, u y v, proporcionan una flexibilidad adicional con
respecto a la forma de la distribución.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Intervalo de confianza.
 Sea 1 – α una probabilidad especificada, L y U funciones de X1 , X2 ,
… , Xn, tal que: P (L < θ < U) = 1 – α.
 El intervalo (L , U) es llamado intervalo de confianza del 100(1– α)
por ciento para el parámetro θ, y 1 – α es llamado nivel de confianza
asociado con el intervalo.
 Caso I: Intervalo de confianza para la media μ de una población con

distribución normal con varianza σ2 conocida.
 Los parámetros corresponden a los de una distribución normal
 El intervalo de confianza se calcula con un nivel de confianza (1 – α) a
través de la fórmula:
[ – σ/ n* Z(1 – α/2) < μ < + σ/ n * Z(1 – α/2)]
 Caso II. Intervalo de confianza para la media μ de una distribución

normal con varianza σ2 desconocida.
 Los parámetros corresponden a una distribución t de Student.
 El intervalo se determina mediante la siguiente fórmula al (1 – α)% de
confianza:
[ – t (n-1; α/2) * S/ n < μ < + t (n-1; α/2) * S/ ]n
 Caso III. Intervalo de confianza para la varianza de una distribución

normal.
 Los parámetros corresponden a una distribución ji- cuadrada cuando la
varianza poblacional es desconocida. El intervalo es calculado por:
[(n-1) *S2 / X2(n-1;α/2) < σ2 < (n-1) *S2 / X2(n-1;1-α/2)]
 Caso IV. Intervalo de confianza para la diferencia entre dos medias

poblacionales con varianzas iguales y conocidas
 La distribución es normal y el intervalo para la diferencia de las medias
poblacionales se determina por la fórmula:
[ 1 - 2 )– Z(1-α/2)* < μ1 – μ2 < [ 1 - 2 ) + Z(1+α/2)* ]
 Caso V. Intervalo de confianza para la proporción p de una población.

 Los parámetros son los de la distribución ji- cuadrada, cuyo intervalo
de confianza se determina en x número de éxitos y ^p = x/n:
 Caso VI.- Intervalo de confianza para la diferencia entre dos medias

poblacionales con varianzas iguales y desconocidas.
 Donde Sa=
 Sa= desviación estándar amalgamada

INFERENCIA

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

INFERENCIA

Cargado por

Copyright:

Formatos disponibles

PROBABILIDADES Y

PROF. NANCY NAVA DE BOSCÁN

PRUEBAS DE HIPÓTESIS O SIGNIFICANCIA O REGLAS DE DECISIÓN

 Cuando interesa tomar decisiones basadas en conjeturas o supuestos

DISTRIBUCIÓN DE LA MEDIA MUESTRAL (de muestreo de la media).-

ERROR ESTÁNDAR DE UN ESTADÍSTICO.

PROPIEDADES DE UN BUEN ESTIMADOR

MÉTODO DE MÁXIMA VEROSIMILITUD.

L(θ) = f (x1,θ)* f (x2,θ)* f (x3,θ)* … f (xn,θ)

La función de verosimilitud es ahora una función del parámetro

DISTRIBUCIÓN DE MUESTREO DE LA MEDIA.

TEOREMA DEL LÍMITE CENTRAL: Estimación puntual.

 Si x1, x2,…, xn es una muestra aleatoria de tamaño “n” tomada de una

 En muchos casos de interés práctico, si n ≥ 30, la aproximación

2. Se describe un nuevo método para medir la conductividad térmica

Caso de dos poblaciones:

 Cuando las dos poblaciones no siguen la distribución normal, pero el

 Cuando se tienen dos poblaciones con las condiciones dadas

 Es aproximadamente normal estándar, si se aplican las condiciones del

 Si las dos poblaciones son normales, entonces la distribución de

 El valor Z para la diferencia de las medias de

 Valor que corresponde a un área bajo la curva de 0, 0162. Este valor

Distribución de la varianza muestral: Distribución ji–cuadrada.

 Está definida en términos de variables aleatorias normales (Z21, Z22,

Distribución de la media muestral cuando la varianza de la población es

 Dada una muestra tomada de una población normal con media μ y

 La curva es simétrica, unimodal y su altura máxima se alcanza en

 La variable aleatoria F se define como el cociente de dos variables

 Caso I: Intervalo de confianza para la media μ de una población con

 Caso II. Intervalo de confianza para la media μ de una distribución

 Caso III. Intervalo de confianza para la varianza de una distribución

 Caso IV. Intervalo de confianza para la diferencia entre dos medias

 Caso V. Intervalo de confianza para la proporción p de una población.

 Caso VI.- Intervalo de confianza para la diferencia entre dos medias

 Sa= desviación estándar amalgamada

También podría gustarte