Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTENIDO
OBJETIVOS
1.- Definir los conceptos de inferencia estadística, estimación puntual y por intervalos
2.- Identificar los principales tipos de muestreo
3.- Calcular e interpretar las estimaciones puntuales y por intervalos de los principales parámetros
INFERENCIA ESTADISTICA
1
ESTADÍSTICA BASICA MATERIAL DOCENTE
A partir de lo visto en la sesión anterior se puede asumir que los datos que se observan en las
poblaciones son generados por mecanismos que generan una distribución de probabilidad, y que todo
investigador desearía conocer.
Así podemos asumir que el número de Seropositivos al VIH en una población de Drogadictos por
vía parenteral sigue una distribución Binomial con parámetros N el número de drogadictos y una
probabilidad de ser seropositivo p=48%
También se puede asumir que el número de defunciones por cien mil en un año en la Comunidad
Valenciana, por enfermedades isquémicas del corazón en hombres viene distribuida con parámetro 115
defunciones por 100000 personas año.
Por otra parte se puede asumir que la distribución de las medidas de presión arterial media de una
población de hipertensos sigue distribución normal con media µ=118,8 mm/hg y desviación típica σ=12
mm/hg.
El problema más básico en estadística es, a partir de un conjunto de datos, inferir las propiedades
de la distribución subyacente en estos datos que dependerá de unos parámetros según el modelo elegido.
La estimación implica calcular a partir de una muestra una aproximación de los parámetros de la
distribución subyacente de los datos, suponiendo que esta sea la correcta.
La estimación puntual es dar un solo valor numérico para estimar el parámetro de la distribución
poblacional. El estadístico que proporciona este valor se le llama estimador.
La estimación por intervalos consiste en dar dos valores numéricos, entre los que con un nivel de
confianza (probabilidad) prefijados, está incluido el valor del parámetro poblacional. A la diferencia entre el
estimador y el parámetro se llama error aleatorio. puede acotar.
En la siguiente ilustración se puede observar cual es el proceso habitual en inferencia. Así, como
ya se ha mencionado, en la población la variable de interés suele tener una distribución de probabilidad que
dependerá de unos parámetros, como por ejemplo la media si la distribución es Normal, o la proporción si la
distribución es Binomial. A través de un sistema de muestreo aleatorio como los que se comentan
posteriormente, se obtiene una muestra en la que se calculan aproximaciones a los valores de estos
parámetros a través de los métodos de estimación. La distancia entre estos estimadores y los verdaderos
parámetros(error aleatorio) se puede acotar si se conoce el sistema de muestreo aleatorio elegido
INFERENCIA ESTADISTICA
2
ESTADÍSTICA BASICA MATERIAL DOCENTE
Una muestra extraída de la población de modo que todo miembro de la población tenga una
probabilidad de estar incluido en la muestra es una muestra aleatoria o probabilística. Los principales tipos
de muestreo probabílistico son:
- Muestreo aleatorio simple
- Muestreo aleatorio sistemático
- Muestreo estratificado
INFERENCIA ESTADISTICA
3
ESTADÍSTICA BASICA MATERIAL DOCENTE
Una muestra es aleatoria simple si se extrae una muestra de tamaño n de una población de tamaño n, de
tal manera que cada miembro de la población tiene la misma probabilidad de ser elegido.
El muestreo aleatorio sistemático consiste en tomar un número aleatorio k entre 1 y H=N/n. Por
ejemplo si se elije una muestra de 100 en una población de 1000, es decir un 10%, se elige un número
aletorio entre el 1 y el 10. Se elige como elementos de la muestra a los individuos k,k+H, k+2H,
k+3H,...,k+(n-1)H. Así si el número aleatorio entre el 1 y el 1o fuera el 7 se elegirian a los individuos
7,17,27,27,...,997.
Este tipo de muestreo puede llevarse a cabo aunque no se disponga de un listado numérico de las
unidades poblacionales (i.e. 1 de cada 20 enfermos). Equivale al muestreo aleagorio simpple si los
elementos poblacionales no estan ordenados según un patrón que tenga que ver con las características a
estudio, por lo que los estimadores serian los mismos que en el muestreo aleatorio simple. La probabilida
de un individo de pertenecer a la muestra es 1/H=n/N
4
ESTADÍSTICA BASICA MATERIAL DOCENTE
conglomerados y se estudian todos los individuos del conglomerado. Se necesita que los conglomerados
sean lo más homogeneos entre si y lo más heterogéneos dentro de ellos. Si los gonglomerados no son del
mismo tamaño el muestreo se efectúa asignando pesos aproporcionales a cada conglomerado. Este tipo
de muestreo es útil cuando no se dispone de listados de individuos o las poblaciones estan
institucionalizados.
El muestreo por etapas es un muestreo por conglomerados en el cual una vez seleccionados los
conglomerados no se elige a todos los individuos sino a una muestra aleatoria de ellos. En cada una de las
etapas de muestreo se efectua un muestreo aleatorio. Si las unidades no son iguales se asignaran pesos
proporcionales . La técnica abarata los costes del muestreo y se utiliza habitualmente para grandes
poblaciones.
Para poder generalizar los resultados de la estimación puntual a la población y poder calcular el
error aleatorio es necesario introducir el concepto de distribución muestral. Por distribución muestral de
un estimador se conoce a, la distribución de probabilidad obtenida a partir de los valores que toma el
estimador en todas las muestras aleatorias del mismo tamaño tomadas al azar de la población. El proceso
sería el siguiente:
- De una población finita de tamaño N, se extraen al azar todas las muestras posibles de tamaño n
- Se calcula el estimador de interés de cada muestra
- Se calcula la media, varianza de todos los estimadores y su función de distribución asociada.
Para ilustrar el concepto de distribución muestral utilizaremos el siguiente ejemplo para obtener la
distribución muestral de la media
Ejemplo
Sea una población de tamaño n=5, con las edades de 5 niños pacientes de un pediatra. Las
edades son las siguientes:
x1=6, x2=8, x3=10, x4=12, x5=14.
La media de esta población es µ=10 y la varianza es σ2=8.
INFERENCIA ESTADISTICA
5
ESTADÍSTICA BASICA MATERIAL DOCENTE
Se extraen todas las muestras posibles con repetición de tamaño 2. En la siguiente tabla se muestra cada
una de las 25 muestras así como la media de cada una de las muestras.
SEGUNDA EXTRACCION
6 8 10 12 14
Con las 25 muestras posibles(52=Nn) se puede construir una la tabla de frecuencias para las medias
muestrales
INFERENCIA ESTADISTICA
6
ESTADÍSTICA BASICA MATERIAL DOCENTE
En la siguiente gráfica se presenta la distribución de las medias de las 25 muestras. Hay que
observar que la gráfica es simétrica, asemejándose en su forma a la campana de Gauss.
7
ESTADÍSTICA BASICA MATERIAL DOCENTE
σ2med={(6-10)2+(7-10)2+..+(14-10)2}/25=4
Así la media de la distribución muestral µmed es la media de la distribución de la población (10).
Así la varianza de la distribución es la varianza de la población partido por el tamaño de la muestra.
σmed2= σ2/2=8/2=4
Si el muestreo se realiza a partir de una población donde la variable de interés tiene una distribución
normal con varianza conocida ( Ejemplo, Supongamos que la presión arterial media en los hipertensos
sigue una distribución normal con media µ=118,8 y desviación típica σ=12 y que se extraen todas las
muestras de tamaño 186)
- La distribución muestral de todas las medias muestrales será normal
- La media µ=118,8 de la distribución poblacional coincidirá con la esperanza o media de la distribución
muestral
- La varianza de la distribución muestral será la varianza de la población dividida por el tamaño de la
muestra (122/186)
INFERENCIA ESTADISTICA
8
ESTADÍSTICA BASICA MATERIAL DOCENTE
µ − 1 .9 6 σ /√ 1 8 6 µ + 1 .9 6 σ /√ 1 8 6
µ
En el ejemplo este intervalo ,se se obtiene una media muestral de 118,8 la media de tensión de la población
estará en un 95% en el intervalo
INFERENCIA ESTADISTICA
9
ESTADÍSTICA BASICA MATERIAL DOCENTE
De este modo diremos que el verdadero parámetro media de la población estará con un 95% de
probabilidad en el intervalo de confianza así construido
Así, en una población normal diremos que el (1-α)x100 por ciento de todos los intervalos de la forma
xmed±z1-α/2 σ/√n incluirán la media poblacional µ, con 1-α nivel de confianza y donde z1-α/2 es el percentil 1-
α/2 de una normal
En general la expresión de un intervalo de confianza será:
PRECISION
VALORES DEL
PARAMETRO
Estimador
Limite Inferior Limite Superior
A mayor nivel de confianza menor precisión. A mayor variabilidad de los datos menor precisión. A mayor
tamaño muestral mayor precisión
INFERENCIA ESTADISTICA
10
ESTADÍSTICA BASICA MATERIAL DOCENTE
Se asumirá que la población es normal con n>30 en virtud del teorema central del limite
Ejemplo:
media muestral de la presión arterial media en los hipertensos. Desviación típica poblacional
desconocida. Asumimos normalidad o aplicamos teorema central del limite por ser el tamaño
muestral 186>30. media muestral 118,8. Desviación típica muestral 12.
Estimador: media=118,8
Coeficiente: percentil 1-.05/2 De una t-student con 186-1 grados de libertad. t(185),.975¸1.97
Error estándar: 12.0/√185=.882
Limite inferior: 118.8-1.97 .882=117.06
Limite superior: 8.8+1.97 .882=120.54
Los resultados son solo aproximados y para que sean validos debe verificarse que p>5 y n(1-p)>5
donde p es la verdadera y desconocida proporción poblacional
Ejemplo:
INFERENCIA ESTADISTICA
11
ESTADÍSTICA BASICA MATERIAL DOCENTE
Proporción que utiliza hipoglucemiantes orales en diabéticos tipo II. Se esperan mas de 5 usuarios y no
usuarios
Estimador: r/n=51.2% n=486=Diabéticos tipo ii
r=249= usuarios h.O.
Coeficiente: percentil 1-0.5/2 De una normal(0,1). Z.975=1.96
Error estándar: (.512 .488/486)1/2=.0227
Limite inferior .512- 1.96 .0227= 46.75%
Limite superior .512+ 1.96 .0227= 55.65%
( n1 - 1) s12 + ( n2 - 1) s22
Error estándar: (sp2(1/n1+1/n2)1/2 donde sp2 es s2p =
n1 + n2 - 2
Límite inferior (x1med- x2med)-tn1+n2-21-α/2.Error estándar
Límite superior (x1med- x2med)+tn1+n2-21-α/2.Error estándar
12
ESTADÍSTICA BASICA MATERIAL DOCENTE
Los resultados son solo aproximados y para que sean validos debe verificarse que p1>5 y n(1-p1)>5 p2>5 y
n(1-p2)>5 donde p1 y p2 son la verdadera y desconocida proporción poblacional
INFERENCIA ESTADISTICA
13
ESTADÍSTICA BASICA MATERIAL DOCENTE
Distribución
Parámetro de Estimador muestral para Error Estándar
interés puntual obtener el
coeficiente
Diferencia de
medias µ1-µ2 i) Normal** σ 12 2
+ σn22
x1 - x 2 n1
i) Varianzas
conocidas
ii) Varianzas ii) t de Student con
desconocidas pero n1+n2-2 grados de 2 ***
iguales libertad s p ( n11 + n12 )
iii) Varianzas iii) t Student con f
desconocidas y grados de libertad**** s 12 s 22
diferentes n1
+ n2
n1
+ ( s2n/ n2 2 )
INFERENCIA ESTADISTICA
14
ESTADÍSTICA BASICA MATERIAL DOCENTE
Ejemplo 1
El investigador de cierto programa de control de diabéticos, desea estimar la proporción de diabéticos tipo
II que reciben tratamiento solo con dieta y se pregunta cual debe ser el tamaño de la muestra para obtener
buenas estimaciones. El estadístico le preguntara:
- ¿Cual es el nivel de confianza con el que desea las estimaciones?
- ¿Cual es la precisión (amplitud del intervalo) con la que se desea las estimaciones?
- ¿Se tiene conocimiento de la magnitud aproximada de la proporción de tratamiento sólo con dieta?
N1.96 2 p(1 - p)
n=
.052 (N - 1)+ 1.96 2 p(1 - p)
Ejemplo 2
INFERENCIA ESTADISTICA
15
ESTADÍSTICA BASICA MATERIAL DOCENTE
Si un nutricionista al conducir una investigación entre una población de adolescentes con el fin de
determinar su ingestión por medio de proteínas, se plantea que tamaños debe tomar. El estadístico
le pregunta:
- la amplitud del intervalo de confianza
- el nivel de confianza deseado
- la magnitud aproximada de la desviación típica
INFERENCIA ESTADISTICA
16
ESTADÍSTICA BASICA MATERIAL DOCENTE
BIBLIOGRAFIA
.- Morton RF. Hebel JR. Bioestadística y Epidemiología. México: Interamericana. 1986
.- Daniel WW. Bioestadística: Base para el análisis de las Ciencias de la Salud. México: Limusa. 1987
-. Bourke GJ, Daly LE, McGilvray J. Interpretation and uses of Medical Statistics. Londres: Blackwell Scientific
Publications. 1985.
INFERENCIA ESTADISTICA
17
ESTADÍSTICA BASICA MATERIAL DOCENTE
EJERCICIOS
1.- Según los datos del artículo de sobre la distribución de Lípidos en Cataluña ( Plans et al. Rev. Clin Esp
1993;193:365-42) se obtiene para una muestra de 314 individuos la distribución del colesterol
HDL(mg/dl),(media =55.7 y desv. típica = 14), del colesterol total(mg/dl) (media=211.3 y desv.típica= 48.4)y
de los trigliceridos(mg,dl)(media 82.4 yt desv.típica 53). Construye los intervalos de confianza al 95% y al
99%
2.- Suponiendo que una muestra de 486 diabéticos tipo II es representativa de la población diabética tipo II,
calcula la estimación por intervalos al 99% y 95% para la proporción de diabéticos tipo II que se tratan solo
con dieta(61 en la muestra), para los que se tratan con Hipoglucemiantes orales (249 en la muestra) y para
los que se tratan con insulina.(176 en la muestra)
3.- La O.M.S. define la hipercolesterolemia como aquellos individuos cuyos niveles de colesterol son
superiores a 250 mg/dl. A partir del estudio de la distribución de lípidos en Cataluña mencionado
anteriormente una estimación por intervalo al 95% para la proporción de hipercolesterolemia en los hombres
y mujeres de Cataluña., sabiendo que de los 156 hombres de la muestra el 17,3 tienen el colesterol por
encima de 250, mientras que de las 158 mujeres, son el 17.1 las que superan estas cifras.
4.- Se aprecia que la proporción de hiperruricémicos entre los hombres y mujeres mayores de 70 años de
una muestra son diferentes. Proporciona una estimación al 95% para cada proporción, así como una
estimación al 95% para la diferencia de proporciones. Sabiendo que de 150 hombres el 13.3 son
hiperuricemicos y de las 210 mujeres son el 28.6% las hiperuricemicas
5.- Según el artículo mencionado anteriotmente el nivel medio de colesterol HDL en los 156 varones de la
muestra es de 51.0 md/dl con una desviación típica de 15 mg/dl.
a) Construye el intervalo de confianza al 95% para dicho nivel medio
b) En el caso de las 158 mujeres, se ha observado un nivel medio de colesterol de 59,9 mg/dl, con una
desviación típica de 13 mg/dl. Considerando las desviaciones típicas poblacionales idénticas,
calcula el intervalo de confianza al 95% para la diferencia de niveles de colesterol HDL.
c) Efectua la estimacion anterior suponiendo las desviaciones típicas poblacionales diferentes
6.- En una muestra de 140 pacientes asmáticos, el 35% tuvo reacciones positivas de la piel al polvo
doméstico. Construye un intervalo de confianza para la proporción de la población.
7.- Para obtener la prevalencia de caries infantil en la ciudad de Valencia se ecide efectuar el siguiente plan
muestral. Una vez obtenido un listado de todos los colegios se efectua una selección aleatoria de dos
colegios por cada distrito de la ciudad. Una vez elegidos los colegios se seleccionan aleatoriamente 1 de
INFERENCIA ESTADISTICA
18
ESTADÍSTICA BASICA MATERIAL DOCENTE
cada 20 alumnos de cada curso , a partir del listado de alumnois. Indica que tipos de muestreo se han
aplicado.
8.- Se desea llevar a cabo un muestreo aleatorio simple en un hospital de 2000 trabajadores para observar la
adecuada vacunación contra la hepatitis B. Se sabe por otros estudios que la prevalencia de mala o no
vacunación esta en torno al 20%. Cual seria el tamaño necesario para obtener una precisión del 3%.
INFERENCIA ESTADISTICA
19
ESTADÍSTICA BASICA MATERIAL DOCENTE
SOLUCIONES
1.- Para calcular el intervalo utilizaremos la fórmula para el caso de medias con varianza desconocida. El
estimador será la media, el coeficiente el de la t de Student con 314-1 grados de libertad para el intervalo al
95% es 1.96 y para el 99 es 2.57 y el error estándar sera la desviación tipica partido por la raiz cuadrada del
tamaño muestrall -1
Asi para el HDL I.C: 95% : 55.7±1.96 · 14/√313= (54.15-57.25) e IC 99% =(53.67-57.73)
Para colesterol total I.C. 95% (205.94-216.66) I.C. 99% (204.27-218.33)
Para trigliceridos I.C. 95% (76.53-88.27) I.C: 99% (74.7-90.1)
2.- Se utiliza la fórmula para el intervalo de la proporción con error estándar la raiz cuadrada de (p(1-p)/n) y
los coeficientes al 95%=1.96 y al 99%=2.57.
Solo dieta I.C. 95% =(.096-.156) I.C. 99% = (.087-.165)
Hipoglucemiantes Orales I.C. 95%= (.467-.556) I.C. 99% (.454-.570)
Insulina I.C. 95%= (.319-.405) I.C. 99% (.306-.418)
3.- Se utiliza la misma formula del ejercicio anterior. Para los hombres será .(114-.232 )y para las mujeres
(.112-230)
4.- Para los hombres será (.079-.187) , para las mujeres (.225-.347,) para la diferencia de proporciones
(.153) utilizando la formula de la tabla será (.071-.235) que no contiene al 0 luego las proporciones son
diferentes con una confianza dle 95%
5.- a) el intervalo se construye como en el ejercicio 1 siendo (48.653.4) utilizando el coeficiente de una t con
156-1 grados de libertad que es 1.97
b) El intervalo de la diferencia (8,.9) para varianzas iguales utiliza el coeficiente de una t con 156+158-2
grados de libertad (1.96)y la fórmula del error estándar con varianza ponderada. El intervalo es (5-8-11.99).
c) El intervalo para varianzas desiguales utiliza el coeficiente para una t con 306.6 grados de libertad
obtenidos a partir de la formula de la tabla, y el error estándar de varianzas separadas. El intervalo es ( 5-8-
11.99).igual que el anterior en las cifras decimales puestas, lo que indicaria que las varianzas deben de ser
iguales.
6.-Por la formula del intervalo de la proporción el resultado es (.27-.43)
7.-El muestreo es por etapas (2 etapas), con un muestreo estratificado de colegios por distritos y un
muestreo sistemático por alumnos
8.- La formula de muestreo para población finita de la página 15
n=[20031.962 .2(1-.2) ] / [.032 ·(2000-1)+1.962·.2(1-.2)+=296.87≈297
INFERENCIA ESTADISTICA
20