Está en la página 1de 45

ESTADÍSTICA Y

CONFIABILIDAD

MUESTREO PROBABILÍSTICO

ESPECIALIZACIÓN EN GERENCIA DE
MANTENIMIENTO Y CONFIABILIDAD
MUESTREO PROBABILÍSTICO
Población. O universo estadístico, es el conjunto de elementos de
cualquier naturaleza (personas, objetos, animales, plantas, pueblos,
familias, países) que se pretende analizar o investigar.

Marco Muestral
Todo material o dispositivo usado para obtener acceso a los elementos
de la población de interés. Delimita, identifica y permite tener acceso a
los elementos de la población objetivo. En una encuesta las unidades
del marco son las unidades a las cuales se le aplica la selección por
muestreo probabilístico.

Muestreo. Procedimiento lógico, y en ocasiones matemático, dirigido a


definir un subconjunto denominado MUESTRA, que arroje información
valiosa sobre el conjunto total denominado POBLACIÓN (Objeto de
estudio).

Papel del Muestreo. Determinar y controlar las fuentes de variación de


los procesos de medición.
POBLACIÓN
¿Cuántos Son?

universo ideal
 MUESTRA
Población x
 2
Muestreo
?
Objetivo s
4
s 2

P4 de
Marco 11
Muestra
p
4
Muestreo (grupo de
T4 t
1
estudio)
4 x  x
1   2
Población Generalización 1

p  p
2

susceptible de 1 2

P 1  P2
Observar
Tamaño de la Muestra en Muestreo
Criterios a considerar

 Recursos disponibles: fijan el tamaño máximo de la muestra.


 Requerimientos del plan de análisis: fijan el tamaño mínimo de
la muestra.

 A mayor tamaño de muestra menor probabilidad de error.


 A mayor homogeneidad de la población menor tamaño de
muestra y viceversa.

 En poblaciones pequeñas tomar el 100%


MUESTRAS REPRESENTATIVAS Reflejan las
características esenciales del TODO Permiten hacer
juicios sobre el todo

MUESTRAS NO REPRESENTATIVAS. Reflejan


características de las partes, pero no siempre
compartidas por el TODO. No permite hacer juicios
sobre la población

El Tamaño de la muestra y la Representatividad de


la muestra son cosas separadas. Una muestra
grande no garantiza una muestra representativa.
Tipos de Muestreo

Probabilístico
Probabilístico No probabilístico
probabilístico

Aleatorio simple Por conveniencia

Sistematico Por cuotas


• Con
Reposición
Estratificado Por Bola de Nieve
• Sin
Reposición Crítico o por Juicio o
Conglomerado
Deliberado
Mixto
Muestreo probabilístico
Un muestreo probabilístico garantiza la representatividad de la muestra y por lo tanto
asegura confiabilidad al proceso.
Seleccionar una muestra aleatoria, implica el uso de algún mecanismo aleatorio, por lo
tanto la selección de una muestra es un experimento aleatorio, y así, cada observación de
la muestra es el valor observado (una realización) de una variable aleatoria.

Se denomina Muestreo probabilístico a Un proceso de selección de una muestra que


satisface las siguientes condiciones:

1. Se puede definir el conjunto de muestras, S = {s1, ..., sM}, posibles que se derivan del
proceso de muestreo.

2. A cada muestra posible, s, le corresponde una probabilidad de selección p(s) conocida.

3. El proceso de selección garantiza que todo elemento de la población tenga una


probabilidad de selección distinta de cero.

4. El proceso de selección propuesto consiste en un mecanismo aleatorio que garantiza que


cada muestra s reciba exactamente la probabilidad p(s) de ser seleccionada.
Ejemplo.
Considere una población de N = 10 elementos, de la que se desea extraer una muestra de
n = 3 elementos sin reemplazo y de manera aleatoria. ¿cómo hacerlo?, sin reposición?;
con reposición?
Sin Reposición
Población
1. Extraer una de las 10 bolas

2. De las nueve restantes, la otra


? ? ?
muestra 3. De las ocho restantes, la otra
.
.
¿Se puede identificar el espacio muestral del total de muestras
. de tamaño 3 que se pueden
sacar (S)?
¿Cuántas muestras de tamaño 3 se pueden sacar?
¿Qué probabilidad de ocurrencia de ser seleccionada tiene asociada cada muestra de
tamaño 3, (p(s))?
  Diseño muestral
Función p(·) tal que p(s) denota la probabilidad de selección de la muestra s.

Se llamará diseño de muestreo al conjunto de probabilidades de selección de todas las


muestras posibles.

Para un diseño muestral dado p(·), se puede considerar a cada muestra s como el resultado
de una variable aleatoria S, con distribución de probabilidad especificada por p(·). Así, si S es
el conjunto de todas las muestras posibles s, entonces Pr(S = s) = p(s) para cada s ϵ S.

Debido a que p(s) es una distribución de probabilidad en S, se tiene que


p(s) , para todo s ϵ S
y
Ejemplo.
Dada la población U={1,2,3,4,5}, en la siguiente tabla se define un diseño muestral asociado
con la población U
S {1,3} {1,4} {1,5} {2,4} {2,5} {3,5} {1,3,5}
P(s) 0,1 0,1 0,1 0,1 0,1 0,1 0,4
¿QUÉ SE HACE CON LA INFORMACIÓN
PROPORCIONADA POR UNA MUESTRA
PROBABILÍSTICA?

RTA.
INFERENCIAS
•ESTIMACIONES

• PRUEBAS DE HIPÓTESIS
INFERENCIA ESTADÍSTICA
Herramienta que permite, con base en la
INFORMACIÓN proporcionada por una
MUESTRA DE TAMAÑO n sobre una variable de
naturaleza cuantitativa o cualitativa, PROYECTAR
el comportamiento de la variable a la TOTALIDAD
DE LA POBLACIÓN asumiendo para ello la
PRESENCIA DE LA INCERTIDUMBRE y facilitando
así los procesos de TOMA DE DECISIONES
CRITERIOS

1. El procedimiento de inferencia se relaciona con


parámetros o medidas de la variable de interés
en la población.

2. La variable de interés en la población de la cual


surgen los datos está distribuida normalmente.
PROCEDIMIENTOS ESTADÍSTICOS DE INFERENCIA
1. Procedimientos Paramétricos. Se asume que la
variable de interés en la población sigue un
comportamiento Normal incluyendo para los cálculos
parámetros o medidas de la población

2. Procedimientos No Paramétricos o de Libre


Distribución. No incluyen parámetros o medidas de la
población en sus cálculos. Se asume que la variable de
interés en la población no sigue un comportamiento
Normal.
TEORÍA DE INFERENCIA ESTADÍSTICA
1. Distribuciones Muestrales de Probabilidad. Constituyen la base
teórica de los procesos de inferencia estadística

2. Estimación Estadística. Permiten la proyección del


comportamiento de la variable en la población con la
información que proporciona la muestra

3. Prueba de Hipótesis. Procedimiento alterno al anterior que


busca confirmar que la evidencia proporcionada por la variable
con la muestra aporta resultados estadísticamente significativos
que harían atribuible lo observado con la muestra a la población.
DISTRIBUCIONES MUESTRALES DE PROBABILIDAD

¿CUANTAS MUESTRAS
DIFERENTES SE PUEDEN
OBTENER?
POBLACIÓN ¿CON REPOSICIÓN? POBLACIÓN DE
VARIABLE ¿SIN REPOSICIÓN? MUESTRAS
VARIABLE

• MEDIA POBLACIONAL DE LA
VARIABLE EN LAS UNIDADES

2
?
• VARIANZA Y DESVIACIÓN ESTÁNDAR
POBLACIONAL DE LA VARIABLE EN LAS
UNIDADES NORMAL
• COMPORTAMIENTO FUNCIONAL DE LA DESCONOCIDO
VARIABLE EN LA POBLACIÓN CONOCIDO NO NORMAL
¿PARA QUÉ LAS DISTRIBUCIONES
MUESTRALES DE PROBABILIDAD?
PARA LLEGAR A LA CONCLUSIÓN DEL
COMPORTAMIENTO DE LA VARIABLE EN LA
POBLACIÓN SIN TENER QUE OBSERVAR
TODA LA POBLACIÓN
TEORIA DE ESTIMACIÓN ESTADÍSTICA
Proceso mediante el cual se intenta develar o
descubrir información sobre el comportamiento
de variables de interés a nivel poblacional a partir
de la información proporcionada en tales
variables por una muestra. El proceso de
estimación supone la no presencia de errores
sistemáticos.
ERROR MUESTRAL
  Una vez que se tiene una estimación puntual del
parámetro poblacional, una pregunta válida es: ¿qué tan
buena es la estimación? En general no se conoce el valor
del parámetro θ (¿de otro modo para que estimar?), por lo
que es imposible calcular exactamente el error muestral.

El error de la
muestra es una
variable
aleatoria
Sesgo y Variabilidad
  En la figura se analiza intuitivamente el efecto combinado de sesgo y variabilidad de
la distribución de muestras de un estadístico . Si θ es el valor del parámetro que se
está estimando, los puntos representan los valores posibles del estadístico θ. Así, si
el estadístico de muestra es la media o mediana, los puntos representan posibles
medias o medianas de muestras.

De esto se sigue que


la cercanía de un
estimador con el
parámetro que se
estima deberá basarse
tanto en el sesgo
como en la variabilidad
o error estándar del
estimador.
INSESGADEZ DEL ESTADÍSTICO

Si el valor esperado del


estadístico muestral es igual
al parámetro poblacional que
se estudia, se dice que el
estadístico muestral es un
estimador insesgado del
parámetro poblacional.
SESGADEZ DEL ESTADÍSTICO
 
El sesgo de un estimador sesgado queda entonces
definido como:
EFICIENCIA (Menor Variabilidad)
 Como el error estándar de es menor que el error estandar de ; por
tanto, los valores de tienen más posibilidades de estar cerca del
parámetro que los valores de

 
E es relativamente
más eficiente que
y se prefiere como
estimador puntual.
Consistencia (depende de n)
  Un
estimador puntual es consistente si el valor del estimador
puntual tiende a estar más cerca del parámetro poblacional a
medida que el tamaño de la muestra aumenta.

Por tanto una muestra grande tiende a proporcionar mejor


estimación puntual que una muestra pequeña.

En el caso de la media muestral , donde esta vinculada con el


tamaño de la muestra, de manera que muestras mayores dan
valores menores de , entonces muestras de tamaño grande
tienden a proporcionar estimadores puntuales más cercanos a µ
MÉTODO DE ESTIMACIÓN
Con base en una muestra que ha sido seleccionada mediante un método
de muestreo se pueden estimar las características poblacionales (media,
total, proporción, etc.) con un error cuantificable y controlable.

Estimadores. Funciones matemáticas de la muestra. Se asumen como


variables aleatorias al considerar la variabilidad de selección

de las muestras y por lo tanto cumplen las condiciones de


una función de medida.

Los errores se cuantifican mediante varianzas, desviaciones típicas o


errores cuadráticos medios de los estimadores que miden la precisión de
los mismos.

Generalmente, para la construcción de estimadores se utiliza el principio


de analogía, es decir, se estima un parámetro poblacional a partir de su
estimador análogo.
ESTIMADORES PUNTUALES
PRINCIPIO DE ANALOGÍA. Se estima un parámetro poblacional a partir del
estimador muestral.
Para la Media Poblacional ̂  x
Para el Total Poblacional 𝜏 ^ =𝑋
Para la Proporción Poblacional Pˆ  p

Para el Total Poblacional 𝐴 =𝑎


 ^

Para la Varianza Poblacional ˆ 2  s 2


Para la Diferencia entre Medias Poblacionales 𝜇1 − 𝜇 2= ´𝑥 1 − 𝑥´ 2
 ^

Para la Diferencia entre Proporciones Poblacionales  𝑃1 − 𝑃2= ´


^ 𝑝 1 − ´𝑝 2
ESTIMACIÓN POR INTERVALOS DE CONFIANZA

 
Cuando se realiza una afirmación acerca de los parámetros de la población en estudio con
base en la información proporcionada por una muestra, señalando un intervalo de valores
dentro del cual se tiene confianza de que esté el valor del parámetro, se tendrá una
estimación por Intervalos de confianza ()

 
Realizar una estimación por para un parámetro al nivel del de confianza es hallar un intervalo
en para el que se tiene una probabilidad de de que el verdadero valor del parámetro caiga
dentro del intervalo. A los valores extremos de la distribución asociados con el nivel de
confianza se les suele denominar coeficientes de confianza.
  TEOREMA DEL LIMITE CENTRAL
Dada una población y en ella una variable X que se distribuye de cualquier forma funcional:
Normal, No normal o Desconocida con media  y varianza 2, la distribución del estimador
a partir de todas las posibles muestras de tamaño grande (n≥30) de esta población estará
distribuida en forma aproximadamente normal.

De acuerdo con el teorema del límite central, la distribución de muestras de tamaño


grande es aproximadamente normal, independientemente de la distribución de la
población de que procedan (uniforme, binomial, poisson, normal, etc.),
Consecuentemente, y de ahí la relevancia del teorema, se podrá inferir sobre la
media poblacional sin necesidad de conocer la forma específica de su distribución.
Esto aplica en particular para la distribución de proporciones muestrales.
  INTERVALO DE CONFIANZA CUANDO EL ESTIMADOR ES INSESGADO.

  Caso . La distribución del estimador es normal;

 Para un nivel de confianza el intervalo de confianza del parámetro está dado por:

Dado que es usual que no se conozca debido a que en su cálculo intervienen datos
poblacionales no conocidos, en su lugar se utiliza

 
Observación.
En este caso no se puede asegurar con exactitud que el intervalo cubra a con probabilidad
pero en la mayoría de los casos toma la forma de una suma de variables normales, con lo
que podrá inferirse su normalidad.
  realmente es dudoso que entonces se puede utilizar la distribución t-student con grados
Si
de libertad para el cálculo del intervalo. En este caso queda:

La distribución t-Student es una distribución de probabilidad que surge del problema de


estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño
ESTIMACIÓN POR INTERVALOS
Una estimación por Intervalo permite hacer inferencias acerca de
un población estimando el valor de un parámetro desconocido
usando
5.00
un intervalo.
LII
4.50
N=30. IC de la
4.00
media con un
3.50 nivel de
3.00 confianza del
2.50
95% para 30
muestras de
2.00
tamaño 8
1.50

1.00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
𝑆
𝑆
𝐸 =𝜃^ ± 𝑍 𝛼 𝜎 ( 𝜃^ ) − 𝐵 ( 𝜃^ )
 
𝐼
𝐸 =𝜃^ ± 𝑡 𝛼 𝜎 ( 𝜃^ ) −𝐵 ( 𝜃
 
𝐼
^)
 
𝑆 𝜎 ( ^)
𝜃
𝐸 𝐼 =𝜃^ ±
√𝛼
Ejemplo.
Supongamos que para una variable (por ejemplo “Tiempo necesario para realizar una
actividad”), se pretende hacer una estimación con base en una cierta muestra de
tamaño n utilizando un nivel de confianza del 95% y un error del 3%. ¿Qué quiere decir
esto?

Sol.
Quiere decir que se espera que en el 95% de las posibles muestras (en particular, con
la muestra que se está trabajando) el verdadero tiempo (promedio) de toda la
población de aquellos que la realizan, se presente con una diferencia aproximada al
3% del tiempo promedio proporcionado por la muestra.
EJEMPLO
1. Un fabricante de llantas desea investigar la durabilidad de sus productos. Una
muestra de 10 llantas que recorrieron 50.000 millas reveló una media
muestral de 0,32 pulgadas de cuerda restante (lo que queda de la llanta
después del uso) con una desviación estándar de 0,09 pulgadas. Construya un
intervalo de confianza de 95% de la media poblacional. ¿Sería razonable que
el fabricante concluyera que después de 50.000 millas la cantidad media
poblacional de cuerda restante es de 0,30 pulgadas? Asumir que la
distribución es normal

2. El propietario de la estación de gasolina “San Pedro” desea determinar la


proporción de clientes que utilizan dinero plástico (tarjeta de crédito o débito) para
pagar la gasolina. Entrevistó a 100 clientes mediante muestreo aleatorio
sistemático y descubre que 80 pagaron con este medio.
a)Calcule el valor de la proporción de la población.
b)Construya el IC de 95% de la proporción poblacional.
 3. Los siguientes son datos de conductividad térmica de cierto tipo de hierro (en BTU/hr-ft-
°F):
41.60 41.48 42.34 41.95 41.86
42.18 41.72 42.26 41.81 42.04
Hallar un intervalo de confianza del 95 % y uno del 99% para la media. Se supone que la
población tiene una distribución Normal con =0.3

4. Se toma una muestra de 49 observaciones de una población normal con una desviación
estándar de 10. la media de la muestra es de 50. determine el intervalo de confianza de
99% de la media poblacional (µ).

5. Una muestra al azar de 50 casas en un sector indica que 10 de ellas estaban


desocupadas. Estime la proporción de casas desocupadas en el sector con un nivel de
confianza del 99%. Repita el proceso si se sabe que en total hay 5000 casas.

6. Una investigación efectuada a 400 familias de clase media reveló que en la realización de
fiestas familiares, un 62% prefería el aguardiente a cualquier otra clase de licor. Estime
utilizando un nivel del 95% la proporción de familias en la población que prefiere
aguardiente en sus fiestas.
7. Supóngase que para verificar la confiabilidad de los saldos del movimiento de un artículo, un
auditor ha decidido realizar una prueba sustantiva. Se sabe que los saldos se distribuyen en
forma aproximadamente normal. Al observar una muestra de 21 documentos, se encontró
que el saldo promedio era de $2450000 con una varianza de $260000. A un nivel del 95%
estime el saldo promedio del movimiento del artículo que se observa.
8. Una auditora de una gran compañía de tarjetas de crédito sabe que en promedio, el saldo
mensual de determinado tipo de cliente es de $1.812.000 con una desviación de $100000. Si
revisa 50 cuentas seleccionadas al azar, ¿Cuál es la probabilidad que el saldo promedio
mensual sea...
a. A lo más de $1.820.000=
b. Entre $1.810.000= y $1.830.000=
9. Se sabe que el 4 % de las piezas producidas por cierta máquina son defectuosas, ¿Cuál es la
probabilidad de que en un grupo de 200 piezas el 3% o más sean defectuosas?

10. Un fabricante de desodorantes recibe cada semana lotes de 8000 válvulas para los tarros
rociadores, para aceptar o rechazar dichos lotes, selecciona al azar 500 válvulas de cada lote ; si
el 2% o más resulta defectuosos, se rechaza el lote, ; en caso contrario se acepta el lote. ¿Cuál
es la probabilidad de rechazar un lote que contenga el 1% de válvulas defectuosas?
11. El departamento de control de calidad de una empresa fabricante de
pintura desea establecer el tiempo de secado promedio de su nueva
pintura de “secado rápido”. Para ello se instruye a su personal para que
pinte 49 tableros con pintura de 49 latas distintas de 1 galón de la nueva
pintura. Los resultados se dan a continuación. ¿se consideraría válido
anunciar que seca en 20 minutos?
12. El rendimiento medio de los autos de la marca A es de 20 Km/gal. Con una desviación
estándar de 6 Km/gal. Las cifras comparables para los autos de la marca B son 25 y 5,5 Km/gal. Se
supone que el rendimiento de cada una de ambas está normalmente distribuido. ¿Cuál es la
probabilidad que al realizar una comparación el rendimiento medio para 40 autos de la marca A
sea mayor que el de 39 autos de la marca B?

 13. El departamento de registro y control académico de una universidad desea estimar la


diferencia entre las medias de las calificaciones de estudiantes de dos cursos paralelos de una
asignatura. Se tomaron dos muestras aleatorias e independientes presentando los siguientes
resultados: n1=65, , , n2=78, , . Utilizando un nivel de confianza del 95% estime la diferencia en las
medias de las calificaciones que se obtienen entre los cursos.

14. Al tomar dos muestras de 100 bombillas cada una, de dos marcas diferentes, se
encontró que el tiempo medio de duración en la primera fue de 1750 horas y en la segunda
de 1850 horas, con varianzas de 12100 horas2 y 8100 horas2 respectivamente. Utilizando un
nivel de confianza del 90% estime la diferencia media en los tiempos de duración de los dos
tipos de bombillas.
15. Se hizo una entrevista a 32 subdirectores y 31 analistas de mercado de una gran
empresa. Se les preguntó a cada uno cuál considera ser el porcentaje óptimo de cobertura
de mercado para su compañía. Se obtuvieron las siguientes respuestas :
Subdirectores : 26 – 27 – 26,5 – 27,3 – 28 - 25 – 31,3 – 27,8 – 20,3 – 24,2 – 22,5 – 26,3
– 24 – 25 – 23,5 – 27 – 30 – 23,5 – 23,5 – 24 – 23 – 25 – 24 – 26 – 26,5 – 29 – 27 – 28 –
26,7- 23,6 – 23,7 - 28
Analistas : 23,1 – 28,6 – 24,2 – 23,5 – 26,3 – 29 – 30 – 32 – 30,5 – 30 – 32 – 31,5 –
32 – 30 – 28 – 26 – 25 –28 – 29 – 28 – 27 – 26 – 25,5 – 26,5 – 28 – 27,5 – 30 – 31 – 30,5
– 30,5 - 28
Utilizando un nivel de confianza del 98% estime la diferencia en la opinión de cobertura
entre subdirectores y analistas.

ESTIMACIÓN POR INTERVALOS DE CONFIANZA DEL COMPORTAMIENTO DE UNA


VARIABLE DE NATURALEZA CUANTITATIVA QUE SE AJUSTA A UN
COMPORTAMIENTO NORMAL EN DOS POBLACIÓNES CON BASE EN MUESTRAS
PEQUEÑAS (n130 y n230)
16. Es generalmente aceptado que existen diferencias ligadas al sexo relacionadas con la
respuesta a la tensión producida por el calor. Un grupo de 12 hombres y 15 mujeres fue
observado durante el desarrollo de un programa exigente de ejercicios de toda clase y con
diferentes tipos de aparatos. El medio ambiente en el que se desarrolló era caluroso y las
condiciones disponibles de agua eran mínimas para cada participante. Antes de iniciar la
prueba y al terminarla los participantes fueron pesados. Se obtuvieron los siguientes
porcentajes de pérdida de peso corporal.
Hombres Mujeres
2,5 – 3,0 – 3,2 – 2,5 – 3,5 – 4,2 2,0 - 2,1 - 3,1 - 2,5 - 2,3 - 3,0 – 3,5 – 1,8 -2,8 –
3,1 – 4,2 – 2,7 – 4,1 – 2,3 – 2,8 2,7 - 2,4 – 2,1 – 3,1 – 1,5 – 3,2 – 4,1
Utilizando un nivel de confianza del 95% y asumiendo varianzas iguales en la variable
observada en las dos poblaciones, estime la diferencia en pérdida porcentual de peso
corporal entre hombres y mujeres.
17. Una muestra de 350 personas en una ciudad A reveló que 250 de ellos prefieren cierta
marca de chocolate y otra muestra de 400 personas en la ciudad B reveló que 290 de ellos
prefieren la misma marca. Utilizando un nivel de confianza del 98%, estime la diferencia en
las proporciones de las personas que prefieren dicha marca de chocolate en las dos
ciudades.
18. Basándose en su experiencia, los fiscales de transito de Bucaramanga se han dado cuenta
que el 15% de los automóviles presentados a la inspección anual no pasan este requisito.
¿Cuál es la probabilidad de que en una muestra de 200 automóviles elegidos al azar ...
a. ¿Entre 25 y 35 no pasen la inspección?
b. ¿Por lo menos 40 no pasen la inspección?
c. ¿A lo más el 10% no pasen la inspección?
19. Al investigar la imagen de calidad de cierta marca de reloj de pulso, se seleccionó una
muestra de 120 profesionales y 80 talleres de reparación de reloj de pulso y se obtuvo la
siguiente información :
OPINIONES PROFESIONALES TALLERES con un nivel de confianza del 97% y con la
La marca es buena. Rara vez sufre     información proporcionada por la muestra,
descompostura en los primeros años de uso. 60 48
La marca no es buena. Se descompone    
estime la diferencia en las proporciones entre
frecuentemente desde el primer año de uso. 60 32 profesionales y Talleres que opinan que la
TOTAL 120 80 marca es buena.
Definición.
Sea X una variable aleatoria que representa el resultado de una selección de una
observación de la población y sea f(x) la función de densidad de probabilidad de X.
Supongamos que cada observación de la muestra se obtiene en forma independiente y
bajo las mismas condiciones n veces.
Sea que Xi denote la variable que representa la repetición i. Entonces X1, X2, X3, ….Xn
constituyen una muestra aleatoria de tamaño n cuya función de densidad de
probabilidad en cada caso es f(x).
 Según lo anterior, la función de densidad de probabilidad marginal de cada X i es f(Xi)

 Por la Independencia, la función de densidad de probabilidad conjunta de la


muestra aleatoria es f x , x , x , ….x (X1, X2, X3, ….Xn )=f(x1).f(x2). … .f(xn)
1 2 3 n

MÉTODO DE MÁXIMA VEROSIMILITUD


Bajo este método, el estimador será el valor del parámetro que maximiza la función de
verosimilitud. La idea fundamental de este método es tomar como estimación del
parámetro estudiado el valor que haga máxima la probabilidad de obtener la muestra
observada
Definición.
Si X es una variable aleatoria con distribución de probabilidad f(x; ), donde  es un solo
parámetro desconocido; si x1, x2, x3, ….. , xn son los valores observados de una muestra
aleatoria de tamaño n, entonces la función de verosimilitud de la muestra es
L() = f(x1;).f(x2;). …. .f(xn;)
Así definida, la función de verosimilitud es una función exclusiva del parámetro .
El estimador de máxima verosimilitud de  es el valor de  que maximiza la función de
verosimilitud L().
Pasos:
Determine la función de densidad de la muestra f(X1, X2, X3, ….Xn ; ):

Determine el logaritmo natural de la función de densidad

Determine el valor de  que aumenta al máximo L mediante


Observación.
Para usar la estimación de máxima verosimilitud, la distribución de la población debe
ser conocida o bien debe suponerse.

Observación.
El método de máxima verosimilitud puede usarse en situaciones en las que hay varios
parámetros desconocido.
L(1, 2, … , k) = f(x1; 1, 2, … , k). f(x2; 1, 2, … , k). …. . f(xn; 1, 2, … , k)
Los estimadores de máxima verosimilitud se encuentran igualando a cero las
derivadas parciales y resolviendo el sistema de ecuaciones.
Estimador de Kaplan-Meier

Sea S(t)
  la función de supervivencia de una determinada población, es decir,
En
la probabilidad de de
el análisis la de
que uno supervivencia,
sus integrantesel estimador
no falle más alládede un
Kaplan–Meier es
tiempo t.
un estimador no paramétrico de la función de supervivencia.
Fue
Paraintroducido
una muestra por Edward
de estaL.población
Kaplan y Paul Meier en 1958.
de tamaño N, sean … los tiempos que
discurren hasta que todos fallen.
Este estimador tiene en cuenta la censura. La censura es el fenómeno que ocurre
cuando el valor
Entonces, paradecada t
una observación
, se define:sólo se conoce parcialmente.
i
• di, el número de fallos en el momento ti 
• ni, el número de elementos en riesgo justo antes de ti.
De no haber censura, ni es el número de unidades sin fallo inmediatamente
antes del momento ti.
Con censura, ni es el número de unidades sin fallo menos el número de casos
censurados: sólo se observan los sujetos sin fallo que no se han caído del
estudio en el momento en que ocurre un fallo.

El estimador de Kaplan–Meier de S(t) es el producto

Puede probarse que se trata del estimador no paramétrico de máxima verosimilitud 


de S(t).
Presentación realizada por Edwin Dugarte Peña – Profesor
Asociado. UPB Seccional Bucaramanga, Febrero de 2017

También podría gustarte