Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INFERENCIA ESTADÍSTICA
Conceptos Fundamentales
Uno de los objetivos principales de la estadística es extraer
conclusiones e información sobre una determinada población.
Recordando que se denomina población al conjunto completo de
elementos, con alguna característica común, objeto de nuestro
estudio (personas, objetos, experimentos, etc.).
MUESTRA
El tamaño de una muestra que se representa con la letra “N”, es el
número de elementos de la muestra. Una muestra puede ser de
cualquier tamaño, desde N= 1, hasta el número total de elementos
del universo.
TEORIA DE MUESTREO
La Teoría de Muestreo estudia la relación entre una población y
las muestras tomadas de ella. Por ejemplo, para estimar
magnitudes desconocidas de una población, tales como la media
y varianza que se conocen como parámetros.
DECISIONES ESTADÍSTICAS
En la práctica es común tomar decisiones relativas a una
población, a partir de información que proviene de muestras.
Tales decisiones se llaman “decisiones estadísticas”.
La idea básica
Parece razonable que una buena estimación del parámetro
desconocido 𝜃, podría ser el valor de 𝜃 que maximiza la
probabilidad, es decir, la probabilidad ... que se obtiene de los
datos observamos. Pero, ¿cómo implementaría el método en la
práctica? Bien, suponga que se tiene una muestra aleatoria 𝑋 , 𝑋 ,
𝑋 , … 𝑋 para la cual, la función de densidad de probabilidad de
cada 𝑋 es 𝑓(𝑥 ; 𝜃). Entonces, la función de probabilidad conjunta
de 𝑋 , 𝑋 , 𝑋 , … 𝑋 , al cual llamaremos 𝐿( 𝜃) es:
𝐿 ( 𝜃 ) = 𝑃 (𝑋 = 𝑥 , 𝑋 = 𝑥 , 𝑋 = 𝑥 , … 𝑋 = 𝑥 )
= 𝑓 (𝑥 ; 𝜃 ) ∗ 𝑓 (𝑥 ; 𝜃 ) ∗ 𝑓 (𝑥 ; 𝜃 ) ∗ … ∗ 𝑓 (𝑥 ; 𝜃 )
= 𝑓 (𝑥 ; 𝜃 )
EJEMPLO
Supongamos que tenemos una muestra aleatoria 𝑋 , 𝑋 , 𝑋 , … 𝑋
donde:
Solución
Si los 𝑋 son variables independientes de Bernoulli con el
parámetro desconocido p, entonces la función de densidad de
probabilidad de cada 𝑋 es
𝑓 (𝑥 ; 𝑝) = 𝑝 (1 − 𝑝)
Para 𝑥 = 0 o 1 y 0 < 𝑝 < 1, por lo tanto, la función de máxima
probabilidad 𝐿(𝑝) esta definida por
𝐿 ( 𝑝) = 𝑓 (𝑥 ; 𝑝 )
= 𝑝 (1 − 𝑝) ∗ 𝑝 (1 − 𝑝 ) ∗ … ∗ 𝑝 (1 − 𝑝)
𝐿( 𝑝) = 𝑝∑ (1 − 𝑝) ∑
𝜕 log 𝐿 ( 𝑝) (∑ 𝑥 ) (𝑛 − ∑ 𝑥 )
= − =0
𝜕𝑝 𝑝 (1 − 𝑝 )
Ahora, multiplicándolo por p (1-p), obtenemos:
(∑ 𝑥 ) (𝑛 − ∑ 𝑥 ) (∑ 𝑥 )(1 − 𝑝) − (𝑛 − ∑ 𝑥 )𝑝
− =0=
𝑝 (1 − 𝑝 )
Al distribuir, vemos que dos de los términos resultantes se
cancelan entre sí:
𝑥 − 𝑥 𝑝 − 𝑛𝑝 + 𝑥 𝑝=0
𝑥 − 𝑛𝑝 = 0
∑ 𝑥
𝑝=
𝑛
Eso todo lo que se tiene que hace para resolver 𝑝. Se agrega un
gorrito ("^") en el parámetro, en este caso a 𝑝, para indicar que
es una estimación
∑ 𝑥
𝑝^ =
𝑛
EJEMPLO
Supongamos que se hace un experimento de Bernoulli (por
ejemplo, en el control de calidad de 3 artículos para ver sin son
defectuosos) y encontramos dos éxitos y un fracaso. Queremos
estimar el parámetro p (probabilidad de éxito) de la distribución
binomial. Si consideramos X = 1 como éxito y X = 0 como fracaso,
la función de 𝐿( 𝑝) podrá calcularse como
𝐿( 𝑝) = 𝑓 (𝑥 ; 𝑝) ∗ 𝑓 (𝑥 ; 𝑝) ∗ 𝑓 (𝑥 ; 𝑝) ∗ … ∗ 𝑓 (𝑥 ; 𝑝)
𝐿( 𝑝) = 𝑃(𝑋 = 1; 𝑝) ∗ 𝑃(𝑋 = 1; 𝑝) ∗ 𝑃(𝑋 = 0; 𝑝) = 𝑝𝑝𝑞
= 𝑝 (1 − 𝑝) = 𝑝 − 𝑝
𝜕 𝐿( 𝑝)
= 2𝑝 − 3𝑝 = 0
𝜕𝑝
(2 − 3𝑝)𝑝 = 0
𝑝 = 2/3
cuyas soluciones son 𝑝 = 2/3 (no nos vale) y 𝑝 = 2/3. Así que p =
2/3 es la estimación de máxima
probabilidad de p y coincide, además, con lo que se esperaría de
forma natural como probabilidad de éxito (número de éxitos
dividido por el número de ensayos).
Ejemplo
Se tienen 5 papeletas, unas llevan marcada una cruz y otras un
asterisco. Se desconoce la proporción (p) de cruces (+) (esto es,
cuantas hay de cada clase). Se tomará una muestra de tamaño 3,
independientes e idénticamente distribuidas (es decir. cada vez
que se realiza una extracción, se devuelve la papeleta a la urna
(independientes) y se mezclan muy bien antes de la siguiente
extracción (idénticamente distribuidas). El resultado de las tres
extracciones sucesivas han sido (+,*,*)
𝑑 ln 𝐿 1 𝑑𝐿
= =0
𝑑𝜃 𝐿 𝑑𝜃
y se resuelve esta ecuación para encontrar 𝜃. En el caso de que la
distribución de probabilidad tenga más de un parámetro
poblacional, se hacen las derivadas parciales respecto a cada
parámetro y se resuelve el sistema de ecuaciones.
𝑛−𝑓
𝐿= 𝑓(𝑥 ; 𝑝) = 𝑝𝑓 (1 − 𝑝)
𝑙𝑛𝐿 = 𝑓 ln(𝑝) + (𝑛 − 𝑓) ln(1 − 𝑝)
𝑑 ln 𝐿 𝑓 (𝑛 − 𝑓)
= − =0
𝑑𝑝 𝑝 ( 1 − 𝑝)
𝑓 ( 1 − 𝑝) = ( 𝑛 − 𝑓 ) 𝑝
𝑓 − 𝑓𝑝 = 𝑛𝑝 − 𝑓𝑝
𝑓
𝑝=
𝑛
Por lo tanto, el estimador de máxima probabilidad del parámetro
𝑝 es la frecuencia relativa de éxitos.
(𝑥 − 𝜇)
𝑙𝑛𝐿 = −𝑙𝑛𝜎 − 𝑙𝑛√2𝜋 −
2𝜎 2
1/2 1
𝑙𝑛𝐿 = −𝑛𝑙𝑛 𝜎2 − 𝑛𝑙𝑛2𝜋1/2 − 2 (𝑥 − 𝜇)
2𝜎
𝑛 𝑛 1
𝑙𝑛𝐿 = − 𝑙𝑛𝜎2 − 𝑙𝑛2𝜋 − 2 (𝑥 − 𝜇)
2 2 2𝜎
A continuación, se hacen las derivadas parciales respecto a los
dos parámetros poblacionales para calcular sus estimadores
𝑑 ln 𝐿 2
= 2 (𝑥 − 𝜇) = 0
𝑑𝜇 2𝜎
𝑥 = 𝑛𝜇
∑𝑛𝑖=1 𝑥𝑖
𝜇=
𝑛
Por lo tanto, el estimador de función de máxima probabilidad
para μ coincide con la media muestra, es decir, con el estimador
puntual usado hasta ahora. Similarmente, para la varianza
𝑑 ln 𝐿 𝑛 1 1
= − + (𝑥 − 𝜇) = 0
𝑑 𝜎2 2 𝜎 2 2𝜎 4
1 𝑛 1
(𝑥 − 𝜇) =
2 𝜎4 2 𝜎2
∑ (𝑥 − 𝜇)
(𝑥 − 𝜇) = 𝑛𝜎2 , 𝑒𝑠𝑡𝑜 𝑒𝑠 𝜎2 =
𝑛
Ejemplo
Supongamos que los pesos de estudiantes universitarias
seleccionadas al azar se distribuyen normalmente con media
desconocida 𝜇 y desviación estándar 𝜎.
Una muestra aleatoria de 10 estudiantes universitarias
estadounidenses arrojó los siguientes pesos (en libras):
115 122 130 127 149 160 152 138 149 180
115 + 122 + 130 + 127 + 149 + 160 + 152 + 138 + 149 + 180
𝜇=
10
= 142.2
𝜎
(115 − 142.2)2 + (122 − 142.2)2 + (130 − 142.2)2 + (127 − 142.2)2
=
10
+(149 − 142.2) + (160 − 142.2) + (152 − 142.2) + (138 − 142.2)
3479.6
(149 − 142.2) + (180 − 142.2) =
10
𝜎 = 347.96
𝜎 =18.6536
𝜆𝑥 𝑒 −𝜆
𝑓 (𝑥; 𝜆) =
𝑥!
𝜆 𝑒
𝐿=
𝑥!
𝑙𝑛𝐿 = (𝑥 𝑙𝑛𝜆 − 𝑙𝑛(𝑥 !) − 𝜆) = 𝑙𝑛𝜆 𝑥 − 𝑙𝑛(𝑥 !) − 𝑛𝜆
𝑑 ln 𝐿 1
= 𝑥 −𝑛 =0
𝑑𝜆 𝜆
1
𝑥 = 𝑛 𝑒𝑠𝑡𝑜 𝑒𝑠 𝑥 = 𝜆𝑛
𝜆
∑ 𝑥
𝜆=
𝑛
EJEMPLO
Una fuente radiactiva emite partículas según un proceso de
Poisson con media λ desconocida. Durante 10 minutos se han
contado el número de partículas emitidas:
12, 6, 11, 3, 8, 5, 3, 9, 7, 5
12 + 6 + 11 + 3 + 8 + 5 + 3 + 9 + 7 + 5 69
𝜆= = = 6.9
10 10
ESTIMACIÓN POR INTERVALOS DE CONFIANZA
𝐿 = 𝑓 (𝑋 , 𝑋 , … , 𝑋 ); 𝐿 = 𝑓 (𝑋 , 𝑋 , … , 𝑋 );
EJEMPLO
Consideremos una caja con tarjetas, cada una con un número.
Suponemos que la población tiene 𝜇 = 10 y 𝜎 = 4. Extraemos
muestras de tamaño 𝑛 = 9 (con reemplazamiento):
𝐼 = (7.2867,12.513)
4
𝐼 = 𝑋±𝑧 / 𝜎 = 9.3 ± 1.96 = 9.3 ± 2.6133
√9
𝐼 = (6.6867,11.9133)
Ejemplo.
Una muestra aleatoria de 200 alumnos de la ESIME-ZAC tiene un
puntaje de Coeficiente Intelectual (CI) medio de 112 y una
desviación típica de 10.
Solución
a)
10
𝐼 = 112 ± 1.96 = [112 ± 1.38]
√200
El Intervalo de Confianza
𝐼 = ( 110.62,113.38)
(b)
10
𝐼 = 112 ± 2.58 = [112 ± 1.82]
√200
El Intervalo de Confianza
𝐼 = ( 110.18,113.82)
EJEMPLO
Calcular los intervalos de confianza para la media del ejemplo
anterior, suponiendo que la varianza es desconocida.
𝑆 3.72
𝐼= 𝑋± 𝑡 / , = 9.9 ± 2.306 = [9.9 ± 2.859]
√𝑛 √9
𝐼 = (7.041,12.759)
𝑆 5
𝐼= 𝑋± 𝑡 / , = 9.3 ± 2.306 = [9.3 ± 3.8433]
√𝑛 √9
𝐼 = (5.45,13.14)
𝑃(1 − 𝑃) 𝑃(1 − 𝑃)
𝑃(𝑃 − 𝑧 <𝑝< 𝑃+ 𝑧 / ) = (1 − 𝛼)
𝑛 𝑛
𝑃(1 − 𝑃)
𝐼= 𝑃± 𝑧
𝑛
EJEMPLO
Un jugador de baloncesto lanza 100 tiros libres y anota 85.
Calcular el intervalo de confianza para la proporción de aciertos.
Como 𝑛 = 100 es claramente mayor que 30, podemos aproximar
por la distribución normal. La proporción de éxitos será entonces
𝑃= = 0.85 Usando un nivel de confianza 1 − 𝛼 = 0.95
0.85 ∗ 0.15
𝐼 = 0.85 ± 1.96 = [0.85 ± 0.0699]
100
Lo que conduce a un intervalo
𝐼 = (0.78,0.92)
DECISIONES ESTADÍSTICAS
HIPÓTESIS ESTADÍSTICAS
Cuando se trata de tomar una decisión, es útil hacer suposiciones
(o conjeturas) acerca de la población de estudio. A estas
suposiciones, que pueden ser ciertas o no, se les llama hipótesis
estadísticas. Estas hipótesis estadísticas son por lo general
afirmaciones acerca de las distribuciones de probabilidad de las
poblaciones.
Hipótesis nula
En muchas ocasiones se formula una hipótesis estadística con la
única finalidad de refutarla (rechazar la validez) o anularla. Por
ejemplo, cuando se quiere decidir si una moneda está cargada o
no, se formula “la hipótesis de que no está cargada” (es decir, 𝑝 =
0.5, donde p es la probabilidad de cara). También, si se quiere
decidir si un método es mejor que otro, se formula “la hipótesis
de que no hay diferencia entre los dos” (es decir, que cualquier
diferencia que se observe se debe sólo a las fluctuaciones del
muestreo de una misma población). A estas hipótesis se les llama
hipótesis nula y se denota 𝐻
Hipótesis alternativa
A toda hipótesis que difiera de una hipótesis dada se le llama
hipótesis alternativa. Por ejemplo, si en una hipótesis es 𝑝 = 0.5,
entonces la hipótesis alternativa puede ser 𝑝 = 0.7, 𝑝 ≠ 0.7 o 𝑝 >
0.7. La hipótesis alternativa a la hipótesis nula se denota 𝐻 .
PRUEBAS DE HIPÓTESIS Y DE SIGNIFICANCIA O REGLAS DE
DECISIÓN
Suponga que una hipótesis es verdadera, pero los resultados
observados en una muestra aleatoria difieren consideradamente
de lo esperado, de acuerdo con la hipótesis (aquellos que se
esperan con base sólo en la casualidad, empleando la teoría del
muestreo), entonces se dice que las diferencias observadas son
significativas y se estará inclinado a rechazar la hipótesis (o por
lo menos a no aceptarla de acuerdo con la evidencia obtenida).
NIVEL DE SIGNIFICANCIA
Cuando se prueba una determinada hipótesis, a la probabilidad
máxima con la que se está dispuesto a cometer un error tipo I se
le llama nivel de significancia de la prueba. Esta probabilidad
acostumbra denotarse 𝛼, y por lo general se especifica antes de
tomar cualquier muestra para evitar que los resultados obtenidos
influyan sobre la elección del valor de esta probabilidad.
(𝑥 , 𝑦 ), (𝑥 , 𝑦 ),. . . , (𝑥 , 𝑦 )
𝑦 ∗ = 𝑎 + 𝑏𝑥
𝑑 = 𝑦∗ − 𝑦
𝑀= |𝑑 | = |𝑦 ∗ − 𝑦 |
𝑀= |𝑎 + 𝑏𝑥 − 𝑦 |
⎨𝜕𝑀
⎪ = 2(𝑎 + 𝑏𝑥 − 𝑦 )(𝑥 ) = 0
⎩ 𝜕𝑏
⎧ (𝑎 + 𝑏𝑥 − 𝑦 ) = 0 ⎧ 𝑎𝑛 + 𝑏 𝑥 = 𝑦
⎪ ⎪
⇒
⎨ ⎨
⎪ (𝑎𝑥 + 𝑏𝑥 −𝑦 𝑥 )=0 ⎪𝑎 𝑥 +𝑏 𝑥 = 𝑥𝑦
⎩ ⎩
⎡ 𝑛 𝑥 ⎤
⎢ ⎥
∆= ⎢ ⎥=𝑛 𝑥 − 𝑥
⎢ ⎥
⎢ 𝑥 𝑥 ⎥
⎣ ⎦
⎡ 𝑛 𝑦 ⎤
1⎢ ⎥ 𝑛∗∑ 𝑥 𝑦 −∑ 𝑥 ∗∑ 𝑦
𝑏= ⎢ ⎥=
∆⎢ ⎥ 𝑛∑ 𝑥 − ∑ 𝑥
⎢ 𝑥 𝑥𝑦⎥
⎣ ⎦
∑ 𝑥 ∑ 𝑦
𝑥= 𝑦𝑦=
𝑛 𝑛
1
∑ 𝑥 𝑦 − 𝑥𝑦
𝑏= 𝑛
1
∑ 𝑥 −𝑥
𝑛
𝑦 = 𝑎 + 𝑏𝑥
𝑎 = 𝑦 − 𝑏𝑥
Ejemplo
Construir una recta que aproxime los datos y hallar su ecuación:
x 3 4 6 6 8 9
y 2 4 8 10 14 16
Corresponde a las coordenadas (3, 2), (4,4), (6,8), (8, 14), (9, 16),
Una forma aproximada y rápida, es tomar los datos extremos y
presentar dos ecuaciones, para calcular las incógnitas a y b
2 = a + b3
16 = a + b9
𝑥 3 4 6 6 8 9 ∑ 𝑥
𝑥= =6
𝑛
𝑦 2 4 8 10 14 16 ∑ 𝑦
𝑦= =9
𝑛
1
∑ 𝑥 𝑦 − 𝑥𝑦 64.3333 − 6 ∗ 9 10.3333
𝑏= 𝑛 = = = 2.3846
1 40.3333 − 36 4.3333
∑ 𝑥 −𝑥
𝑛
1 1
𝑦∗ ∑ 𝑥 − ∑ 𝑥 𝑦 ∗𝑥
𝑎= 𝑛 𝑛
1
∑ 𝑥 −𝑥
𝑛
9 ∗ 40.3333 − 64.3333 ∗ 6 −23.0001
= = = −5.3077
40.3333 − 36 4.3333
O bien 𝑎 = 𝑦 − 𝑏𝑥
𝑎 = 9 − 2.3846 ∗ 6 = −5.3076
Entonces la expresión de la line recta queda como
𝑦 = −5.3077 + 2.3846𝑥
𝑦 =𝑎 +𝑎 𝑥+𝑎 𝑥
𝐷 =𝑎 +𝑎 𝑥 +𝑎 𝑥 −𝑦
𝑆 = [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 − 𝑦 ] + [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 −𝑦 ]
+ [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 − 𝑦 ] …
+ [𝑎 + 𝑎 𝑥 + 𝑎 𝑥 − 𝑦 ]
𝑎 𝑛+𝑎 𝑥 +𝑎 𝑥 = 𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥 𝑦
𝑥 0 1 2 3 4 5 6
𝑦 2.4 2.1 3.2 5.6 9.3 14.6 21.9
𝑎 𝑛+𝑎 𝑥 +𝑎 𝑥 = 𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥𝑦
𝑎 𝑥 +𝑎 𝑥 +𝑎 𝑥 = 𝑥 𝑦
𝑥 0 1 2 3 4 5 6 𝑥 = 21
𝑥 ^2 0 1 4 9 16 25 36 𝑥 ^2 = 91
SOLUCIÓN
7 21 91 𝑎 59.1
21 91 441 𝑎 = 266.9
91 441 2275 𝑎 1367.5
𝑎 7 21 91 59.1 2.50952
𝑎 = 21 91 441 266.9 = −1.2000
𝑎 91 441 2275 1367.5 0.73333