Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cátedra de Epidemiología
1
NOCIONES DE ESTADISTICA
Fernanda Arrondo, Santiago Barragán, Graciela Etchegoyen
OBJETIVOS DEL TRABAJO PRÁCTICO
1. Comprender los conceptos básicos de la estadística descriptiva.
2. Describir, calcular, interpretar y aplicar las medidas de tendencia central y de
dispersión en una serie de datos.
3. Conocer los conceptos básicos para la selección de técnicas de muestreo.
4. Estimar a partir de los datos de una muestra, los parámetros poblacionales,
incorporando el concepto de intervalo de confianza.
5. Interpretar el concepto de resultado estadísticamente significativo
2
CONOCIMIENTOS PREVIOS NECESARIOS CORRESPONDIENTES AL EJE
ANTROPOLÓGICO DE LA CARRERA CS. SOCIALES Y MEDICINA
❑ Tipos de variables
----------------------------------------------------------------------------------
2. ¿Cuál o cuáles de las escalas de medición de las variables establece un orden jerárquico
de sus valores?
3. ¿Qué actividades de investigación se realizan en la etapa de ejecución de un proyecto?
--------------------------------------------------------------------------------------------------
3
EJERCICIO 1:
Un grupo de investigadores de la Facultad de Ciencias Médicas de la UNLP, decide realizar un
estudio descriptivo para identificar las enfermedades prevalentes en la población luego de la
inundación del 2 de abril de 2013 en la ciudad de La Plata.
a) Qué fuentes de información se podrían utilizar para obtener los datos necesarios en el
estudio? Mencione una fuente primaria y una secundaria.
b) Suponiendo que se decida realizar una encuesta a la población afectada y considerando el
siguiente mapa. Qué tipo de muestreo realizaría para que esté representada la población de
todas las zonas inundadas?
c) Teniendo en cuenta los datos de las siguientes tablas, y suponiendo que el tamaño de la
muestra (n) se calculó en 1000 personas. Calcule cuántas deberán ser de cada zona afectada si
se utiliza como técnica de muestreo el estratificado proporcional al tamaño de la población.
Zonas afectadas % población sobre Zonas afectadas % población sobre
total población afectada total población afectada
Barrio Norte 7 Los Hornos 14
Tribunales 5 Ringuelet 13
La Loma 10 Tolosa 15
La Cumbre 8 Villa Elvira 11
Barrio Aeropuerto 9 Villa Alva 8
4
6 500 14 1000
7 700 15 450
5
EJERCICIO 2:
Suponiendo que el mismo grupo de investigadores de la Facultad de Ciencias Médicas de la
UNLP y con el objetivo de investigación: identificar las enfermedades prevalentes en la
población luego de la inundación del 2 de abril de 2013 en la ciudad de La Plata, según nivel
alcanzado por el agua (punto de corte: 1 metro). El tamaño de la muestra (n) sigue siendo
1000 personas, que se seleccionarán de 10 centros de evacuados de las zonas afectadas
a. Qué técnica de muestreo utilizaría?
b. Identificar las unidades de muestreo
c. Identificar las técnicas de muestreo que se podrían aplicar en cada etapa
d. Mencione que información necesitaría antes de realizar el muestreo
EJERCICIO 3:
Lea nuevamente el EJERCICIO 2 Suponga ahora que en las zonas afectadas no hay centros de
evacuados, ya que justamente por su afectación, se tuvo que trasladar a los damnificados a
centros de evacuados ubicados en las zonas no afectadas. La idea de los investigadores es
concurrir a los centros de evacuados de la ciudad y entrevistar a quienes se ofrezcan
voluntariamente hasta obtener 1000 encuestas (tamaño de la muestra (n)).
a. Qué tipo de muestreo estarían realizando?
b. Con esta metodología se asegura entrevistar a personas con diferentes niveles de agua
en sus hogares (punto de corte: 1 metro)?
c. Para medir este sesgo de selección, que variable deberían los investigadores incluir en
la encuesta?
EJERCICIO 4
De la encuesta realizada a las 50 personas damnificadas del barrio Tribunales se obtuvieron los
siguientes datos de la variable edad
6
-Media: 40
-Mediana: 42
-Moda: 41
- desvío estándar: 10
También se obtuvo el dato de que el 50% de los encuestados no recibieron la vacuna contra la
hepatitis A.
a. Entre qué valores se encuentra la edad del 68,27% de los encuestados? Y del 95,45%?
b. Qué forma adquiere esta distribución?
c. Entre qué valores se encontrará la edad media de la población de referencia con un
95% de confianza? Y con un 99% de confianza? (parámetro poblacional)
d. Por qué no se puede asegurar que la media de la muestra coincide con la media
poblacional?
e. De qué depende la amplitud del intervalo de confianza? Analizar teniendo en cuenta su
fórmula
f. Cuál es la prevalencia de personas no vacunadas en la muestra realizada en el barrio
Tribunales?
g. Cuál es la prevalencia de personas no vacunadas en la población del barrio Tribunales
con un grado de confianza del 90%
EJERCICIO 5
7
AUTOEVALUACIÓN (respuestas al final de los ejercicios)
EJERCICIO 1: muestreo
En una población estudiada, hay 2000 mujeres y 8000 hombres. Si queremos seleccionar una
muestra de 250 individuos en dicha población.
a. Qué tipo de muestreo utilizaría?
b. ¿Cuántos deberán ser mujeres para que la muestra sea considerada representativa?
EJERCICIO 2: muestreo
Con la utilización de este tipo de muestreo, la cantidad de mujeres (15) es tan pequeña que
probablemente no se puedan sacar conclusiones sobre ellas.
a. Qué alternativa se puede aplicar en estos casos?
b. Qué consideraciones se deberán tener al analizar los resultados?
EJERCICIO 3: muestreo
Siguiendo con el caso anterior, suponiendo que se decide obtener una muestra donde el 50%
son mujeres y el 50% son hombres y analizar la prevalencia de fumadores con los siguientes
resultados por estrato:
Prevalencia mujeres fumadoras: 30%
Prevalencia en hombres fumadores: 60%
a. Sería correcto concluir que el 45 % (= 30%+60%/2) de la población es fumadora?
b. Cuál es la prevalencia de fumadores en la población total?
EJERCICIO 4: muestreo
Si los siguientes grupos de edad se encuentran en la población en las proporciones indicadas.
¿Cuántos individuos de cada grupo deben ser incluidos en una muestra de 2500 personas para
que la muestra sea representativa?
8
Grupo de Proporción
edad
(12-18) 0,1300
(19-25) 0,3400
(26-32) 0,2400
(33-39) 0,1800
Más de 39 0,1100
EJERCICIO 5: muestreo
Se desea conocer la prevalencia de mujeres jefas de hogar en la localidad de Zampallo, de
12450 habitantes, según nivel socio económico.
a. Qué técnicas de muestreo utilizaría? Justifique
b. Identificar las unidades de muestreo
c. Identificar las técnicas de muestreo que se podrían aplicar en cada etapa
EJERCICIO 6: muestreo
Se realizó un estudio descriptivo para investigar la prevalencia de enfermedades de transmisión
sexual y de embarazo adolescente en el Municipio de La Plata, en el cual viven
aproximadamente 30.000 individuos de este grupo etario. Para ello se realizaron entrevistas a
150 estudiantes de colegios secundarios de la ciudad. Se tomaron 2 instituciones estatales (85
individuos) y 1 privada (65 individuos). Las entrevistas fueron administradas a individuos que
asistían voluntariamente al gabinete de psicopedagogía obteniéndose así a un total de 70
individuos de las escuelas públicas y 55 de las privadas que ya habían iniciado las actividades
sexuales.
a. ¿Qué consideraciones puede realizar sobre la muestra utilizada?
b. Qué tipo de muestreo sería conveniente en este caso?
c. Mencione por lo menos 10 variables personales que podrían considerarse en este
estudio.
En una muestra de niños de 3 años de edad sus pesos de fueron los siguientes:
a. Determine: el n de la muestra
9
b. Determine la media y la desviación estándar de la muestra
c. Determine la mediana de la muestra
d. Determine la moda
e. Mencione qué valores se encuentran en el cuartilo inferior (primer cuartil) de la muestra
f. Mencione qué valores se encuentran en el cuartilo superior de la muestra
g. ¿Entre qué valores se encuentra el peso del 68% de los niños de la muestra?
h. Qué forma adquiere esta distribución?
Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un contenido promedio
de nicotina de 3 miligramos. Suponga que el contenido de nicotina de estos cigarrillos sigue una
distribución normal con una desviación estándar de 1 miligramo.
a. Obtenga e interprete un intervalo de confianza del 95% para el verdadero contenido
promedio de nicotina en estos cigarrillos.
b. El fabricante garantiza que el contenido promedio de nicotina es de 2,9 miligramos,
¿qué puede decirse de acuerdo con el intervalo hallado?
EJERCICIO 11:
Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueron más
largos de lo habitual. La siguiente tabla resume la distribución de los tiempos de espera para
una muestra de 60 pacientes que visitaron el centro de salud durante este periodo:
Tiempo de Espera Nº de
(horas) Pacientes
1 16
2 25
3 8
4 7
5 4
60
EJERCICIO 12:
En los cuatro diagramas de barras tienes los resultados de diferentes grupos en una asignatura
(las notas van de cero a diez).
EJERCICIO 13:
Se ha hecho un mismo examen en dos cursos, A y B, de 40 alumnos cada uno. Las notas
medias (de 0 a 10) y las desviaciones estándares son: A = 6 ± 1; B= 6 ± 3.
¿En qué clase habrá más notas comprendidas entre 5 y 7?
EJERCICIO 14:
Las notas de un profesor de Clínica tienen una media de 7 y una desviación estándar de 3.
Otro profesor tiene una media de 6 y una desviación estándar 0.9.
a. Si deseas aprobar, ¿qué profesor elegirías? Justificar
b. ¿y si necesitas sacar nota? Justificar
c. ¿Siempre se aprueba con el último profesor?
EJERCICIO 15:
EJERCICIO 16:
Serie 1 Serie 2
peso peso
60 Kg. 60 kg
62 Kg. 68 Kg.
63 Kg. 68 Kg.
64 Kg. 68 Kg.
65 Kg. 69 Kg.
66 Kg. 58 Kg.
12
66 Kg. 51 Kg.
67 Kg. 66 Kg.
67 Kg. 72 Kg.
68 Kg. 65 Kg.
69 Kg. 70 Kg.
a. Determine en cada serie las medidas de tendencia central y de dispersión
b. En qué unidad de medida se expresarán estas medidas?
c. Cual serie tiene mayor dispersión o variabilidad?
d. En este caso, para conocer qué serie tiene mayor dispersión, es necesario calcular el
coeficiente de variación? Por qué?
EJERCICIO 17
Siguiendo con el caso anterior, a las embarazadas de ambas series se las midió obteniendo los
siguientes datos:
Serie 1 Serie 2
altura altura
164 cm 165
175 158
166 169
152 170
167 158
159 154
162 162
166 167
160 171
157 166
162 175
13
1. Analice las siguientes situaciones:
Situación Diferencia en la IC 95% (*) Es Qué pasa Interpretación
N° eficacia del estadísticame con la
tratamiento nte eficacia del
observada en significativa? tratamiento?
la muestra
1 20% -2% a + 25%
EJERCICIO 19
La Diabetes mellitus (DM) es una compleja alteración del metabolismo de la Glucosa que se
expresa en el laboratorio, por valores de glucemia por encima de lo normal. Su alta prevalencia
(5 % de la población Argentina según varias investigaciones) obliga a seguir realizando estudios
sobre esta patología. Es por ello, que en la ciudad de Aguas Dulces de 124.000 habitantes, se
realizó un estudio, con una muestra de 5.000 personas no diabéticas a las que se les midió la
glucemia en ayunas. Se obtuvieron los datos que se presentan en el cuadro 1
Cuadro 1. Valores de Glucemia
Valor de glucemia en mg/dl N° de individuos
< 60 121
60 804
70 997
80 1154
90 1001
100 798
>100 125
a. La media obtenida en este estudio fue de 80 mg/dl mientras que la desviación estándar
fue de 10 mg/dl. Para cualquier parámetro biológico se considera a la normalidad (por
convención) a los valores en los que se encuentra el 95% de la población. ¿Entre que
valores se encuentran los valores “normales” de glucemia?
b. De lo anterior surge que existe un 5 % de personas con valores "no normales" de
glucemia. Calcule el número de individuos de este estudio que tienen valores
anormalmente altos de glucemia. ¿Cómo los denominaría?
c. Entre qué valores se encontrará el promedio de la población? Calcule para un nivel de
14
confianza del 95%.
d. Y si la muestra, en vez de 5000 personas fuera de 500 personas, entre qué valores se
encontraría el promedio de la población? Calcule para un nivel de confianza del 95%.
Qué diferencias se observan en el EEM (error estándar de la media) y en el intervalo de
confianza donde se ubica el promedio de la población?
Observe los siguientes gráficos que expresan los valores de glucemia de un paciente Diabético
a lo largo del tiempo (cuadro 2 y 3). Este paciente en particular comenzó a realizar un
tratamiento para la DM en la semana 2 (cuadro 3).
e. Ambos gráficos expresan la variación de la glucemia según la variable tiempo. Pero son
variaciones ocasionadas por factores diferentes. Identifíquelos y explique.
15
RESULTADOS DE LA AUTOEVALUACIÓN:
EJERCICIO 1:
a- Muestreo estratificado, cada estrato de la muestra proporcional al tamaño de cada grupo en
la población.
b.-
TOTAL= 10000
Proporción Mujeres= 0.2
Proporción hombres= 0.8
TOTAL MUESTRA: 250
MUJERES: 250 * 0.2= 50
HOMBRES: 250 * 0.8= 200
EJERCICIO 2:
a. Muestreo estratificado no proporcional al tamaño de cada estrato. Se decide
arbitrariamente la cantidad de cada grupo
b. Otorgarle un peso al resultado de cada grupo en función de su proporción en la
población.
EJERCICIO 3:
a. NO, no es correcto
b. Media ponderada: 30* 0.06 + 60* 0.94= 58.2 %
EJERCICIO 4:
16
EJERCICIO 5:
EJERCICIO 6:
a. El N es muy pequeño. No se define cómo se seleccionan las escuelas. Para seleccionar a los
alumnos se utilizó muestreo NO probabilístico en vez de probabilístico. Está tomada de un
grupo inadecuado: adolescentes escolarizados cuando muchos de los adolescentes
especialmente los que sufren ETS y embarazo no lo están.
b.- muestreo en etapas múltiples.
c.- Edad. Sexo. Institución a la que asiste (pública o privada). Barrio donde vive. Edad de inicio
sexual. Número de parejas simultáneas. Uso de Anticonceptivos. Uso de Preservativos. Ingreso
de la familia. Antecedentes de ETS. Antecedentes de Embarazo adolescente. Presencia de
Educación sexual. Edad de la madre cuando nació el entrevistado. Etc.
EJERCICIO 7:
a. Tamaño muestra: 11
b. media: 16, Desvío estándar: 2
c. Mediana: 16
d. Moda: 16
e. Valores del cuartilo inferior (primer cuartil): igual o menor que 14.5
f. Valores del cuartilo superior: igual o mayor a 17
g. Media ± 1 desvío estándar= 16± 2= 14-18
h. simétrica, media=mediana= moda
EJERCICIO 8:
17
EEM= 0.28
tamaño muestra 50
raiz tamaño muestra 7,07
media muestra 16
DE muestra 2
z0,05 1,96
EEM 0,28
IC95 16,55
15,45
EJERCICIO 9:
a. se tiene una certeza del 95% de que el verdadero contenido promedio de nicotina se halla
entre 2,67 y 3,33 miligramos
tamaño muestra 36
raíz tamaño muestra 6
media muestra 3
DE muestra 1
Z0.05 1,96
EEM 0,17
IC95 3,33
2,67
b. Como 2,9 se encuentra en el intervalo hallado no podemos descartarlo como valor posible
del parámetro
18
EJERCICIO 10:
a. 25%
b. EEP (error estándar de la proporción)= raíz cuadrada ((p*(1-p))/n))
IC90%= proporción ± (Zά *EEP) ά= 0.10
p 0,25
z0,1 1,64
1-p 0,75
n 60
p*(1-p)/n 0,003
EEP 0,056
IC90 0,342
0,158
La prevalencia en la población puede tomar valores incluidos en el intervalo de 15% a 34% con
un nivel de confianza del 90%
c.- El cálculo del IC asume que se ha estudiado una muestra aleatoria y representativa de la
población de referencia, pero en realidad pueden existir otras fuentes de error no debidas al
azar (errores sistemáticos o sesgos). De esta forma el error en la estimación, puede ser
mayor que el sugerido por la amplitud del intervalo
EJERCICIO 11:
19
La media poblacional se encuentra entre 2.05 – 2.55 con un nivel de confianza del 90%
La media poblacional se encuentra entre 2.00 – 2.60 con un nivel de confianza del 95%
Cuanto más nivel o grado de confianza se demanda, mayor es la amplitud del intervalo.
EJERCICIO 12:
EJERCICIO 13:
EJERCICIO 14:
profesor A profesor B
media 7 media 6
desvío 3 desvío 0,9
media ± 1 desvío 10 4 media ± 1 desvío 6,9 5,1
media ± 2 desvíos 13 1 media ± 2 desvíos 7,8 4,2
a. profesor B
b. profesor A
c. Siempre aprueba el 95,45 % de los alumnos
EJERCICIO 15:
a.
20
EJERCICIO 16:
a.
Serie 1 Serie 2
media 65,18 65,00
desvío estándar 2,71 6,23
modo 66 y 67 68
mediana 66 68
CV (desvío/media) 4.16% 9.58%
b. en Kg.
c. la serie 2, tiene mayor desvío estándar y mayor CV. La serie 1 es más simétrica y
homogénea
d. No, no es necesario calcular el CV, ya que las dos series tienen la misma media y están
expresadas en las mismas unidades de medida. La información sobre qué serie tiene mayor
dispersión se obtiene por el desvío estándar
EJERCICIO 17:
a.
Serie 1 Serie 2
altura altura
Media 162,73 cm. 165,00 cm.
desvío 6,02 cm. 6,40 cm.
estándar
CV 3,70% 3,88%
21
EJERCICIO 18:
EJERCICIO 19:
b. Los pacientes con valores “no normales” como en toda variable biológica, son el 5 % que
queda por fuera de la Media +/- 2 DE.
2,5 % con glucemias menores a 60 (121 individuos) y 2,5 % con glucemias mayores a 100
(caso 125 individuos).
Estos últimos no son diabéticos (ya que se evaluó a pacientes NO DIABÉTICOS), sino personas
normales con valores anormalmente altos o "falsos positivos" para DBT.
22
c.
EEM (error estándar de la media)= desvío estándar / raíz ² del tamaño muestra
IC95%= Media muestra ± (Zά *EEM) ά= 0.05
d.
23