Está en la página 1de 28

Probabilidades

Distribución del promedio bajo Normalidad


Teorema Central del Límite

Bioestadística
Paola Viviani
Angélica Domínguez facultadmedicina.uc.cl
Tabla de Contenidos

1. Variabilidad

2. Distribución del promedio muestral bajo Normalidad.

3. Teorema Central del Límite.

4. Distribución del promedio y de una proporción.

facultadmedicina.uc.cl 3
Variabilidad

Estudiar una muestra no es lo mismo que estudiar a toda la


población: toda muestra tiene una variabilidad asociada.

Este concepto de variabilidad proviene del hecho que cada


muestra extraída será siempre diferente a otra potencial
muestra.

Ejemplo 1. Recordemos el ejemplo que muestra la edad de 350


casos de cáncer al pulmón (asumamos que es la población
completa), pero sólo tenemos acceso a la edad de 10 de estos
pacientes.

facultadmedicina.uc.cl 4
Variabilidad

64 66 46 71 65 73 61 70 27 80 52 61 39 76 49 63 72 62 62 53 86 69 60 66 70

75 58 90 73 85 75 44 74 52 80 50 65 45 78 84 59 40 57 67 48 54 74 54 44 65

64 76 73 50 59 54 74 60 42 74 83 60 83 73 60 67 70 44 52 68 76 69 63 86 62

84 65 41 73 57 73 69 91 70 47 54 29 51 55 68 47 59 73 63 61 59 43 58 65 48

73 59 63 66 48 60 55 62 55 63 75 80 67 92 63 63 72 95 61 61 86 60 63 58 46

79 75 93 45 72 60 78 72 47 65 77 57 50 64 33 52 63 69 51 53 54 45 71 45 39

63 73 75 49 61 41 70 72 43 64 69 43 63 57 53 62 61 71 59 45 79 70 63 51 51

71 42 45 71 62 38 79 50 50 49 54 67 65 49 67 85 84 52 42 68 49 56 69 66 63

76 44 72 65 64 49 60 71 61 71 59 59 62 58 73 57 67 77 66 56 48 61 49 51 75

51 50 73 78 58 76 53 71 44 53 70 74 72 66 25 56 65 67 88 63 60 68 69 68 63

49 63 68 62 71 67 60 80 63 30 81 81 39 81 57 49 62 61 49 52 70 68 59 64 72

51 63 59 67 33 62 61 63 51 45 56 43 49 79 52 70 56 67 48 53 86 65 53 46 73

65 38 40 80 63 57 67 42 57 71 46 58 92 53 51 55 88 58 61 52 58 49 67 53 56

68 76 81 65 50 79 42 81 47 79 46 77 69 62 50 51 50 82 57 82 61 56 66 68 39

facultadmedicina.uc.cl 5
Variabilidad

La edad media de estos 350 pacientes de cáncer al pulmón es


61.87 años.
Al repetir 40 veces el experimento de tomar 10 casos
consecutivos y calcular la edad media, se obtuvieron los
siguientes resultados:

61,5 58,0 61,4 62,8 54,4 69,0 65,6 62,3 56,3 57,8
Promedio de los
10 casos del 65,8 59,6 65,4 74,4 64,7 60,8 69,3 56,8 58,6 63,1
recuadro
66,8 61,3 63,0 60,2 64,9 61,0 63,0 59,8 64,3 66,6

65,9 53,5 61,8 57,6 61,3 65,4 65,8 60,1 59,2 69,2

facultadmedicina.uc.cl 6
Variabilidad

Representación gráfica:
75

70

65
Promedio

60

55

50

45
0 10 20 30 40
Muestras
40 Muestras de Tamaño 10

facultadmedicina.uc.cl 7
Variabilidad

Representación gráfica:
75

70

65
Promedio

60

55

50

45
0 10 20 30 40
Muestras
40 Muestras de Tamaño 30

facultadmedicina.uc.cl 8
Variabilidad

Representación gráfica:
75

70

65
Promedio

60

55

50

45
0 10 20 30 40
Muestras
40 Muestras de Tamaño 100

facultadmedicina.uc.cl 9
Variabilidad

Toda muestra tiene asociada cierta variabilidad. Esto se refleja


en que cada vez que tomemos una muestra, el promedio
calculado será diferente al que hubiéramos obtenido otra
muestra, a pesar de que provengan ambas muestras de una
misma población.

Mientras menor sea el tamaño de la muestra, el promedio


tendrá una mayor variabilidad asociada, y viceversa.

facultadmedicina.uc.cl 10
Variabilidad

Desviación estándar
Se simboliza por la letra σ (población) o s (muestra) y se calcula
como la raíz de la varianza.
𝑛
1
𝑠= ෍(𝑥𝑖 − 𝑥)ҧ 2
(𝑛 − 1)
𝑖=1

Para la muestra de edades,

𝑠 = 194.2667 = 13.938
facultadmedicina.uc.cl
11
Variabilidad

La medida de dispersión para medir la variabilidad del promedio


es el error estándar.

El error estándar [standard error]: mide la variabilidad esperada


del promedio muestral como estimación de la media
poblacional. Depende del tamaño de la muestra y se calcula
como:
𝑠
𝑆𝐸𝑀 =
𝑛

𝑠 13.9
En la muestra de ejemplo: 𝑆𝐸𝑀 = = ≈ 4.4
𝑛 10
facultadmedicina.uc.cl 12
Variabilidad

facultadmedicina.uc.cl 13
Distribución del promedio bajo Normalidad

Simulación
Se generan 2000 datos con ~𝑁(18,9)

Histograma de Normal
Normal
1 60
Media 1 7,93
Desv.Est. 3,053
1 40 N 2000

1 20

1 00
Frecuencia

80

60

40

20

0
9 12 15 18 21 24 27
Normal

facultadmedicina.uc.cl 14
Distribución del promedio bajo normalidad

Muestra Media DesvEst N


1 17.38 2.46 50
Se obtienen 40
2 17.56 2.70 50 muestras de tamaño
3 17.63 2.65 50
4 18.42 3.24 50
50.
5 18.18 2.80 50
6 18.26 3.01 50
7 17.81 3.56 50
8 18.20 3.13 50
9 18.33 2.12 50
10 17.45 3.28 50
11 18.79 2.65 50
12 17.53 2.41 50
13 18.45 2.43 50
14 18.22 2.86 50
15 17.82 3.23 50
16 18.33 3.42 50
17 17.70 3.45 50
18 18.23 2.17 50
19 18.63 2.68 50
20 18.08 2.81 50 facultadmedicina.uc.cl 15
Distribución del promedio bajo normalidad

Histograma de las Histograma de Media


Normal
medias obtenidas 10 Media 1 7,88
Desv.Est. 0,4087
de 40 muestras. N 40

8
Frecuencia

0
1 7,2 1 7,6 1 8,0 1 8,4 1 8,8
Media

facultadmedicina.uc.cl 16
Distribución del promedio bajo normalidad

Sea 𝑋 es una v.a. que toma valores 𝑥1, 𝑥2, … , 𝑥𝑛, donde cada
2 1 𝑛
𝑥𝑖 ~ 𝑁(𝜇, 𝜎 ) y 𝑥ҧ = σ𝑖=1 𝑥𝑖 , entonces:
𝑛

2 𝑋−𝜇 ത
ത 𝜎 Τ
𝑋 ~ 𝑁(𝜇, 𝑛) o equivalentemente, 𝜎 ~𝑁(0,1)
𝑛

La d.s. del promedio es 𝜎ൗ 𝑛 , se denomina error estándar


poblacional y se estima por 𝑠ൗ 𝑛.

facultadmedicina.uc.cl 17
Distribución del promedio bajo normalidad

Ejemplo 2.

Si la edad de una población de niños en estudio tiene


distribución Normal, con media =6 y varianza 2=2.25,

• ¿Cuál es la probabilidad de que un niño de esa población


tenga más de 9 años?

• ¿Cuál es la probabilidad de que el promedio de las edades de


10 niños de dicha población sea mayor de 9 años?

facultadmedicina.uc.cl 18
Teorema Central del Límite (TCL)
[Central Limit Theorem]

Sea 𝑓(𝑥) una función densidad con media poblacional  y


varianza finita 2. Sea 𝑋ത el promedio de una muestra aleatoria
de tamaño 𝑛 de 𝑋 ~ 𝑓(𝑥).

Entonces:

𝜎2

𝑋~𝑁 𝜇, cuando 𝑛 → ∞
𝑛

facultadmedicina.uc.cl 19
Teorema Central del Límite (TCL)

Basta que la v.a. 𝑋 tenga distribución con varianza finita 2 y


media poblacional , para que el promedio muestral tenga
distribución Normal, cuando el tamaño muestral es grande.
Una variante del TCL se obtiene al estandarizar:

𝑋ത − 𝜇
𝜎 ~𝑁(0,1)
𝑛

facultadmedicina.uc.cl 20
Teorema Central del Límite (TCL)

Ejemplo 3: Distribución de la edad al momento de morir de


N=103,325 individuos en Chile el año 2015.

Histograma de Edad
La media poblacional de la 3500

edad al momento de morir 3000

es =70,8 años. La varianza 2500

es 2=384,2 (=19.6)
Frecuencia
2000

1 500

1 000

500

0
0 16 32 48 64 80 96 112
Edad

facultadmedicina.uc.cl 21
Teorema Central del Límite (TCL)

El error estándar de muestras tamaño 40 es 3,09.


La distribución de los promedios de edad para muestras
tamaño n=40 toma forma Normal. Esto verifica que se cumple
el TCL.

La figura ilustra los


promedios de 1000
muestras de tamaño
𝑛 = 40.
Promedio=70,9
s.d.=3,09
facultadmedicina.uc.cl 22
Teorema Central del Límite (TCL)

Ejemplo 3b.

No se conoce la distribución de IMC de una población de adultos


en estudio, pero se sabe que la media es de 27 y varianza de 9,

• ¿Cuál es la probabilidad de que un adulto tenga un IMC


superior a 28?

• ¿Cuál es la probabilidad de que el promedio de IMC en una


muestra de 10 adultos sea superior a 28?

• ¿Cuál es la probabilidad de que el promedio de IMC en una


muestra de 40 adultos sea superior a 28?
facultadmedicina.uc.cl
Distribución de una Proporción P

Sea 𝑷 la proporción poblacional de personas que poseen cierta


característica de interés (por ejemplo, la proporción de personas
con obesidad en RM, porcentaje de jóvenes con lesión en la
rodilla en la UC, etc.).
Si el tamaño muestral es grande, el Teorema Central del Límite
nos asegura que la proporción muestral de casos con la
característica tiene distribución Normal:
𝑃(1−𝑃)

𝑃~𝑁 𝑃, cuando 𝑛 → ∞
𝑛

facultadmedicina.uc.cl 24
Distribución de una Proporción 𝒑

De una población de 3000 personas, donde el 60% son hombres,


se toman 80 muestras de tamaño 100, y en cada una se observa
la proporción de hombres obtenida.
Histogram of P Estimado
Normal
18 Mean 0.6045
StDev 0.04888
16 N 80

14

12
Frequency

10

0
0.50 0.55 0.60 0.65 0.70
P Estimado

facultadmedicina.uc.cl 25
Distribución de una Proporción 𝒑

Ejemplo 4.
Se sabe que la prevalencia de hipertensión en una población
adulta es 𝑃 = 0,15.
Calcule la probabilidad de que en una muestra aleatoria de 100
personas, la proporción de hipertensos sea superior a 0.2

facultadmedicina.uc.cl 26
Resumen

• El TLC sirve para calcular probabilidades cuando se


quiere inferir sobre el promedio o la proporción de
una variable aleatoria.

• La idea detrás del TLC es que el promedio/proporción


es una cantidad aleatoria, luego, en muestras
suficientemente grandes, seguirán una distribución
Normal con
𝑃(1−𝑃) 2

𝑃~𝑁 𝑃, y 𝑥ҧ ~ 𝑁(𝜇, Τ𝑛) cuando 𝑛 → ∞
𝜎
𝑛

facultadmedicina.uc.cl
facultadmedicina.uc.cl

También podría gustarte