Está en la página 1de 26

PROBABILIDADES Y

ESTADÍSTICA

ESTADÍSTICA INFERENCIAL

PROF. NANCY NAVA DE BOSCÁN


INFERENCIA ESTADÍSTICA

ESTADÍSTICA INFERENCIAL.-
 Es la rama de la estadística que permite tomar una decisión acerca de
una población en particular, basándose en las conclusiones obtenidas
de una parte representativa de ella.
POBLACIÓN.-
 Se refiere a la recolección de mediciones de todos los elementos del
universo con respecto al cual se quieren obtener conclusiones o tomar
decisiones.
MUESTRA.-
 Es sólo un subconjunto de observaciones seleccionadas de una
población.
 Se puede hacer inferencia estadística mediante estimación de
parámetros y pruebas de hipótesis.
INFERENCIA ESTADÍSTICA

ESTIMACIÓN DE PARÁMETROS.-
 Se trata de determinar los valores de los parámetros poblacionales a
partir de los estadísticos de las muestras seleccionadas de esa
población. Se puede hacer estimación de dos maneras:
ESTIMACIÓN PUNTUAL.-
 Un estimado de un parámetro dado por un solo valor numérico se
llama estimado por punto del parámetro.
ESTIMACIÓN POR INTERVALOS.-
 Cuando el estimado de un parámetro viene dado por dos números
entre los cuales se puede considerar que queda el parámetro, se dice
que la estimación es por intervalos.
Ejemplo: Si decimos que una distancia se mide como150 m. estamos
dando un estimado por punto. Si decimos que ésta es de 150 ±3,67 m.
estamos dando un estimado por intervalos.
INFERENCIA ESTADÍSTICA

PRUEBAS DE HIPÓTESIS O SIGNIFICANCIA O REGLAS DE DECISIÓN

 Cuando interesa tomar decisiones basadas en conjeturas o supuestos


acerca de las poblaciones involucradas estamos utilizando las pruebas
de hipótesis. Las hipótesis estadísticas (afirmativas, nulas o
alternativas) se formulan para determinar si una característica o un
resultado que se espera pueda ser verdadero, en cuyo caso se acepta
la hipótesis.
 Cuando formulamos una hipótesis y encontramos que los resultados
observados en una muestra aleatoria difieren marcadamente de los
resultados esperados bajo la hipótesis, se puede concluir que las
diferencias observadas son significativas y podría rechazarse la
hipótesis.
MUESTREO ALEATORIO: CONCEPTOS BÁSICOS

MUESTRA ALEATORIA.-
 Una muestra aleatoria de tamaño “n” extraída de una población de
tamaño “N”, con distribución de probabilidad “f (x)”, es una colección de
“n” variables aleatorias independientes (x 1, x2,…,xn), teniendo cada una
la misma distribución poblacional.
PARÁMETRO.-
 Es una característica medible de una población. Es una constante.
ESTADÍSTICO (A) O ESTADÍGRAFO.-
 Característica medible de una muestra. Es una variable aleatoria y puede
ser un estimador del parámetro poblacional respectivo.
MEDIA MUESTRAL.-
 Sea (x1, x2,…,xn) una muestra aleatoria de tamaño “n” extraída de una
población con función de probabilidad “f (x)”. Se define la media muestral
como: ,
MUESTREO ALEATORIO: CONCEPTOS BÁSICOS

VARIANZA MUESTRAL.-
 Es una medida de la variabilidad de los diferentes elementos de la
muestra con respecto a la media muestral. Simbólicamente se puede
expresar como:
s2 = Σ(x i – X )2 / n - 1 o bien, s2 = [Σ x i2 – n. X2] / n - 1

DISTRIBUCIÓN DE LA MEDIA MUESTRAL (de muestreo de la media).-


 Son distribuciones de probabilidad de un estadístico, esto es, de una
variable aleatoria que depende de los resultados obtenidos en cada
muestra particular.
 Esta distribución está basada en una muestra aleatoria de tamaño “n”
de las medias de varias muestras, cada una con su probabilidad de
ocurrencia, y tiene como esperanza matemática o valor esperado
muestral a “μ” y varianza muestral a V (x) = σ2 / n.
MUESTREO ALEATORIO: CONCEPTOS BÁSICOS

ERROR ESTÁNDAR DE UN ESTADÍSTICO.


 Es la desviación estándar de su distribución de muestreo. Si el error
estándar involucra parámetros desconocidos cuyos valores pueden
estimarse, la sustitución de estas estimaciones en el error estándar da
como resultado un error estándar estimado. Ejemplo:
y ^ S
ESTIMADOR.-
 Es un estadístico que mide el parámetro poblacional respectivo.
Ejemplo: ^ es una función de las observaciones de la muestra.
ESTIMADOR IMPARCIAL O INSESGADO.-
 Es aquel cuya media de su distribución muestral iguala al
correspondiente parámetro poblacional. Si no lo iguala se le denomina
parcial o sesgado.
ESTIMACIÓN PUNTUAL

PROPIEDADES DE UN BUEN ESTIMADOR


1. Insesgado.- Un estimador es insesgado cuando el valor del estimado
coincide con el valor verdadero del parámetro desconocido.
El estimador puntual es un estimador insesgado para el parámetro θ
si E ( ) = θ.
2. Eficiente.- Un estimador 1 es más eficiente que otro estimador 2 si
tiene una varianza menor. Es decir:
E ( 1 – θ)2 < E ( 2 – θ)2 .
3. Consistente.- Un estimador es consistente si la probabilidad de
dicho estimador cuando tiende al parámetro, tiende a 1 cuando n
tiende a infinito. Es decir:
P( →θ) → 1 cuando n → ∞
4. Suficiente.- Si aporta tanta información como sea posible acerca del
parámetro que está estimando.
ESTIMACIÓN PUNTUAL

Ejemplo:
 Si se supone que la variable aleatoria X tiene una distribución normal
con media no conocida μ. La media muestral es un estimador puntual
de la media poblacional (μ = ). Después de tomar la muestra, el valor
numérico es la estimación puntual de μ. Por tanto,
x1 = 25; x2 = 30; x3 = 29; y x4 = 31.
 Entonces, la estimación puntual de μ es:
= (25+30+29+31)/4= 28,75.
 En consecuencia, = 28,75.
Si: s2 = [(25-28,75)2+(30-28,75)2+(29-28,75)2+(31-28,75)2]/3= 6,9
 Al calcular la varianza muestral s2 = 6,9 podemos estimar σ2 cuando
éste es desconocido, resultando:
σ2 = 6,9
ESTIMACIÓN PUNTUAL

MÉTODO DE MÁXIMA VEROSIMILITUD.


 Uno de los mejores métodos de estimación puntual. Establece que el
estimador será aquel valor del parámetro que maximice la función de
verosimilitud
 Sea X una variable aleatoria discreta o continua, con distribución de
probabilidad “f (x,θ), donde θ es un parámetro desconocido. Sean x1,
x2,…, xn, los valores observados en una muestra aleatoria de tamaño
“n”. La función de verosimilitud de la muestra es:

L(θ) = f (x1,θ)* f (x2,θ)* f (x3,θ)* … f (xn,θ)

La función de verosimilitud es ahora una función del parámetro


desconocido θ. El estimador de máxima verosimilitud de θ es el valor
del mismo que maximiza la función de verosimilitud “L (θ)”.
DISTRIBUCIONES DE MUESTREO

DISTRIBUCIONES DE MUESTREO
 Son distribuciones de probabilidad de un estadístico muestral, como
por ejemplo la media muestral; ésta se considera una variable aleatoria
que depende de los resultados obtenidos en cada muestra particular, y
tiene una distribución de probabilidad.

DISTRIBUCIÓN DE MUESTREO DE LA MEDIA.


 Si se supone una muestra aleatoria de tamaño “n”, tomada de una
población normal con media μ y varianza σ2 . Cada observación de
esta muestra es una variable aleatoria distribuida normal e
independientemente, con media “μ ” y varianza “σ 2”.

μ=μ = y σ2 = σ 2
= σ2 / n
DISTRIBUCIONES DE MUESTREO

TEOREMA DEL LÍMITE CENTRAL: Estimación puntual.

 Si x1, x2,…, xn es una muestra aleatoria de tamaño “n” tomada de una


población finita o infinita, con media μ y varianza σ2, y si es la media
muestral entonces la forma límite de la distribución de Z cuando n →
∞ es la distribución normal estándar:

( X  )
Z=
x / n

 En muchos casos de interés práctico, si n ≥ 30, la aproximación


normal será satisfactoria sin importar cuál sea la forma de la
población. Si n < 30 el teorema del límite central funciona si la
distribución de la población no está muy alejada de una distribución
normal.
DISTRIBUCIONES DE MUESTREO

Ejemplos:
 1. Una compañía de electrónica fabrica resistores que tienen una
resistencia promedio de 100 Ω y una desviación estándar de 10 Ω. La
distribución de la resistencia es normal. Encuéntrese la probabilidad de
que al tomar una muestra de n = 25 resistores, la resistencia promedio
de éstos será menor de 95 Ω.
Solución:
Datos: μ = μ = 100 Ω; σ = 10 Ω. Por tanto, σ = 10 / = 2 Ω.
P( < 95 Ω) = ¿?
 Estandarizamos x: Z = ( 95 – 100 ) / 2 = -2,5
 Buscamos en la tabla de distribución normal y corresponde a un área
bajo la curva de 0,0062. Por tanto, la probabilidad buscada es:
P ( < 95) = 0,0062.
DISTRIBUCIONES DE MUESTREO

2. Se describe un nuevo método para medir la conductividad térmica


del hierro ARMCO. A temperatura de 100° F y potencia de entrada de
550 W, se obtienen las 10 mediciones siguientes de conductividad
térmica (en Btu/hr-ft-° F):
41,6 – 41,48 – 42,34 – 41,95 – 41,86 – 42,18 – 41,72 – 42,26 – 41,8 – 42,04
Determínese la media muestral y el error estándar de muestreo.
 Una estimación puntual de la conductividad térmica promedio bajo las
mismas condiciones es la media muestral:
= (41,6+41,48+ … + 42,04) / 10 = 41,92
 El error estándar de la media muestral es σ = σ / n . Dado que σ es
desconocido, lo reemplazamos por la desviación estándar muestral “S”
S2= [(41,6-41,92)2 + (41,48-41,92)2 + … + (42,04-41,92)2 / 9 = 0,08
2
S = s = 0,283. El error estándar estimado es: = 0,283 / 10 =
= 0,0898
DISTRIBUCIONES DE MUESTREO

Caso de dos poblaciones:


 La primera población tiene una media μ1 y una varianza σ12, mientras
que la segunda tiene μ2 y una varianza σ22. Supóngase que ambas
poblaciones están normalmente distribuidas y, por tanto, la distribución
de muestreo es normal con media:
1 - 2 = μ( 1) - μ( 2) = μ1 - μ2

 Y varianza:
σ2( 1 - ) = σ(x1)2 + σ(x2)2 = σ12/n1 + σ22/n2.
2

 Cuando las dos poblaciones no siguen la distribución normal, pero el


tamaño de ambas muestras es mayor que 30, puede emplearse el
teorema del límite central y suponer que ambas poblaciones siguen
una distribución independiente aproximadamente normal, pudiendo
utilizarse las fórmulas dadas anteriormente.
DISTRIBUCIONES DE MUESTREO

 Cuando se tienen dos poblaciones con las condiciones dadas


anteriormente, la distribución de muestreo de

 12  2 2
Z=[ 1 - 2 – (μ1 - μ2)] /. 
n1 n2

 Es aproximadamente normal estándar, si se aplican las condiciones del


teorema del límite central.

 Si las dos poblaciones son normales, entonces la distribución de


muestreo de Z es, más exactamente, normal estándar.
DISTRIBUCIONES DE MUESTREO

Ejemplo:
 La vida eficaz de un componente de una turbina de una aeronave es
una variable aleatoria con media 5000 horas y desviación estándar 40
horas. La distribución es cercana a la normal. Se introduce una mejora
en su fabricación, aumentando el tiempo de vida útil promedio a 5050
horas y disminuyendo la desviación estándar a 30 horas. Si se
consideran ambas poblaciones independientes y se toma del primer
proceso una muestra aleatoria de 16 componentes y del mejorado 25
componentes, ¿cuál es la probabilidad de que la diferencia entre las
dos medias muestrales sea al menos 25 horas?
Datos:.
 μ1=5000; σ( ) = σ1 / n1 = 40 / 16 = 10 horas.
1
n2 25
 μ2=5050; σ( ) = σ2 /
2 = 30 / = 6 horas.
 P[( 2 - 1 ) ≥ 25 horas] = ¿?
DISTRIBUCIONES DE MUESTREO

(μ2 – μ1)=5050-5000 = 50 h.
σ22/n2 + σ12/n1 = (6)2 + (10)2 =136 horas.

 El valor Z para la diferencia de las medias de


2
252horas es:
1  2
Z=[ 2 - 1 – (μ2 – μ1)] /  =
n1 n2

136
Z = (25 – 50) / = -2,14

 Valor que corresponde a un área bajo la curva de 0, 0162. Este valor


coincide con la probabilidad de la diferencia menor de 25 horas. Por
diferencia:
 P[( 2 - 1 ) ≥ 25 horas] = 1 – 0,0162 = 0,9838.
DISTRIBUCIONES DE MUESTREO

Distribución de la varianza muestral: Distribución ji–cuadrada.

 Está definida en términos de variables aleatorias normales (Z21, Z22,


hasta Zk2). Donde μ=k y σ2 = 2k.
 La variable aleatoria ji- cuadrada es no negativa y su distribución tiene
un sesgo hacia la derecha, pero en la medida en que k (grados de
libertad) aumenta, la misma se vuelve más simétrica.
 Por tanto, conforme k → ∞, la forma límite de la distribución ji-
cuadrada es la distribución normal.
 Se define X2(α,k) como el punto o valor crítico de la variable aleatoria ji-
cuadrada con k grados de libertad tal que la probabilidad de que X sea
mayor que este valor es α.
P (X > X2(α,k)) = ∫ f(u)du = α.
 La función de la varianza muestral (n-1).S2 / σ2 tiene esta distribución.
DISTRIBUCIONES DE MUESTREO

Distribución de la media muestral cuando la varianza de la población es


desconocida: Distribución t de Student.

 Dada una muestra tomada de una población normal con media μ y


varianza σ2. Si –x es el promedio de las n observaciones en la muestra
aleatoria, entonces la distribución Z = ( – μ ) / ( σ / n ) es una
distribución normal estándar. Si no se conoce la varianza de la
población, y en la fórmula de Z reemplazamos la desviación estándar σ
por S, obtenemos la distribución t.
 Si Z es una variable aleatoria con distribución N (0,1) y V una variable
aleatoria ji- cuadrada con k grados de libertad, ambas independientes,
entonces la variable aleatoria T = Z / ( v k).
 La media y la varianza de esta distribución son: μ=0 y σ2= k/(k-2) para
k > 2, respectivamente.
DISTRIBUCIONES DE MUESTREO

 La curva es simétrica, unimodal y su altura máxima se alcanza en


μ=0.
 Finalmente, si en la fórmula de Z reemplazamos la desviación
estándar σ por S, vamos a obtener:
T = ( – μ ) / ( S / n ),
 La cual sigue una distribución t con n-1 grados de libertad.
DISTRIBUCIONES DE MUESTREO

 La variable aleatoria F se define como el cociente de dos variables


aleatorias ji- cuadrada independientes, dividida cada una entre sus
respectivos grados de libertad, donde W y Y son las variables con u y v
grados de libertad, respectivamente
F = (W / u) / (Y / v).
 La media de esta distribución es: μ = v / (v – 2), para v > 2, y varianza:
σ2 = 2v2(u+v-2) / u (v-2)2 (v-4)’ para v > 4.
 La variable f es no negativa, con un sesgo hacia la derecha, de forma
similar a la ji- cuadrada pero centrada respecto a 1.
 Los dos parámetros, u y v, proporcionan una flexibilidad adicional con
respecto a la forma de la distribución.
ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Intervalo de confianza.
 Sea 1 – α una probabilidad especificada, L y U funciones de X1 , X2 ,
… , Xn, tal que: P (L < θ < U) = 1 – α.
 El intervalo (L , U) es llamado intervalo de confianza del 100(1– α)
por ciento para el parámetro θ, y 1 – α es llamado nivel de confianza
asociado con el intervalo.

 Caso I: Intervalo de confianza para la media μ de una población con


distribución normal con varianza σ2 conocida.
 Los parámetros corresponden a los de una distribución normal
 El intervalo de confianza se calcula con un nivel de confianza (1 – α) a
través de la fórmula:
[ – σ/ n* Z(1 – α/2) < μ < + σ/ n * Z(1 – α/2)]
ESTIMACIÓN POR INTERVALOS DE CONFIANZA

 Caso II. Intervalo de confianza para la media μ de una distribución


normal con varianza σ2 desconocida.
 Los parámetros corresponden a una distribución t de Student.
 El intervalo se determina mediante la siguiente fórmula al (1 – α)% de
confianza:
[ – t (n-1; α/2) * S/ n < μ < + t (n-1; α/2) * S/ ]n

 Caso III. Intervalo de confianza para la varianza de una distribución


normal.
 Los parámetros corresponden a una distribución ji- cuadrada cuando la
varianza poblacional es desconocida. El intervalo es calculado por:
[(n-1) *S2 / X2(n-1;α/2) < σ2 < (n-1) *S2 / X2(n-1;1-α/2)]
ESTIMACIÓN POR INTERVALOS DE CONFIANZA

 Caso IV. Intervalo de confianza para la diferencia entre dos medias


poblacionales con varianzas iguales y conocidas
 La distribución es normal y el intervalo para la diferencia de las medias
poblacionales se determina por la fórmula:
[ 1 - 2 )– Z(1-α/2)* < μ1 – μ2 < [ 1 - 2 ) + Z(1+α/2)* ]

 Caso V. Intervalo de confianza para la proporción p de una población.


 Los parámetros son los de la distribución ji- cuadrada, cuyo intervalo
de confianza se determina en x número de éxitos y ^p = x/n:
ESTIMACIÓN POR INTERVALOS DE CONFIANZA

 Caso VI.- Intervalo de confianza para la diferencia entre dos medias


poblacionales con varianzas iguales y desconocidas.

 Donde Sa=

 Sa= desviación estándar amalgamada

También podría gustarte