Está en la página 1de 11

Estadstica descriptiva de forma intuitiva

Estadistica Descriptiva Tema para evaluar en el examen

Maria Patricia Trujillo Uribe Edificio 357 Oficina 2020

Estadistica Descriptiva

Poblacin y muestra

Variables

Poblacin (population) es el conjunto de elementos sobre el que estamos interesados en obtener conclusiones (hacer inferencia) Normalmente es demasiado grande para poder abarcarla

Una variable es una caracterstica observable que vara entre los diferentes elementos de una poblacin. La informacin que disponemos de cada elemento es resumida en variables.

En los estudiantes de Univalle, podemos observar las variables:

grupo sanguneo

Muestra (sample) es un subconjunto de elementos de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales)

{A, B, AB, O} Var. Nominal {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal {0,1,2,3,...} Var. Razn {1,62 ; 1,74; ...} Var. Razn {29, 28.5, 30, } Var. Intervalo

nivel de felicidad declarado

nmero de hijos

altura

Temperatura

Estadistica Descriptiva

Estadistica Descriptiva

Es buena idea codificar las variables como nmeros para poder procesarlas con facilidad en un computador. Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos.

Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos)

Sexo (Nominal: Cdigos arbitrarios)


Edades:

1 = Hombre 2 = Mujer 1 = Blanca 2 = Negra,...

Menos de 20 aos, de 20 a 50 aos, ms de 50 aos Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Raza (Nominal: Cdigos arbitrarios)


Hijos:

Felicidad Ordinal: Respetar un orden al codificar.


1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz

Las modalidades/clases deben formar un sistema exhaustivo y excluyente

Se pueden asignar cdigos a respuestas especiales como


Exhaustivo: No podemos olvidar ningn posible valor de la variable


0 = No sabe 99 = No contesta...

Mal: Cul es su color del pelo: (Rubio, Moreno)? Bien: Cul es su grupo sanguneo?

Estas situaciones debern ser tenidas en cuentas en el anlisis. Datos perdidos (missing data)

Excluyente: Nadie puede presentar dos valores simultneos de la variable

Estudio sobre el ocio Mal: De los siguientes, qu le gusta: (deporte, cine) Bien: Le gusta el deporte: (S, No) Bien: Le gusta el cine: (S, No)
Estadistica Descriptiva 6

Estadistica Descriptiva

Ejemplo
En un programa de estudio de la hipertensin se toma una muestra de 30 hombres en edades entre 30 y 40 aos, la distribucin de la presin diastlica (mnima) en mm Hg fue la siguiente:
70 60 80 85 75 90 85 80 95 75 120 90 65 85 95 90 95 110 110 90 100 95 70 85 90 100 80 70 65 75

Tablas de frecuencia
Renen la informacin recogida en la muestra de manera inteligente:

Frecuencias absolutas, ni: Contabilizan el nmero de individuos de cada modalidad Frecuencias relativas (porcentajes unitarios), hi: dem, pero dividido por el total, normalizadas Frecuencias acumuladas absolutas, Ni , y relativas, Hi: Acumulan las frecuencias absolutas y relativas. Son especialmente tiles para calcular cuantiles (como veremos ms adelante)

Cual es la variable de estudio? Cual es la escala de medicin?

Estadistica Descriptiva

Estadistica Descriptiva

Procedimiento: 1. Ordenamos los datos del ejemplo en forma creciente

Intervalo

Frecuencia Frecuencia acumulada Frecuencia relativa

Frecuencia relativa Acum.

60 80 90

65 80 95

65 85 95

70 85 95

70 85 95

70 85

75 90

75 90

75 90

80 90

i
[ 60 70 ) [ 70 80 ) [ 80 90 ) [ 90 100) [100 110) [110 120] total

ni
3 6 7 9 2 3 30

hi
0.10 0.20 0.23 0.30 0.07 0.10 1.00
Estadistica Descriptiva

Ni
3 9 16 25 27 30

Hi
0.10 0.30 0.53 0.83 0.90 1.00

100 100 110 110 120

2. Determinamos el numero de grupos o intervalos y su amplitud


Numero de clases o intervalos, se calcula con base en el numero de observaciones en la muestra

n = 30 6

Amplitud de clase o intervalo: se usa el rango Rango = Max-Min, entonces 120-160+60 Amplitud del intervalo es el rango sobre el numero de grupos: 60/6 = 10 es la amplitud

Estadistica Descriptiva

10

Histograma de la distribucin de presin diastlica en mm de Hg segn las frecuencias absolutas:


Frecuencias
10 8 6 4 2 0

Grficos para variables cualitativas

Diagramas de barras

Diagramas de sectores (tartas, polares)

Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar tambin a variables numricas discretas

El rea de cada sector es proporcional a su frecuencia (abs. o rel.)

60

70

80

90

100

110

120

130

mm de Hg
11

Sexo?
Estadistica Descriptiva 12

Estadistica Descriptiva

Variables numricas

Grficos diferenciales para variables numricas

Diagramas barras para v. discretas


Se

deja un hueco entre barras para indicar los valores que no son posibles

Recuento

255 215
200

Recuento
127 54 24 23 17

Discretas: Toman valores en los nmeros enteros. Numero de hijos Numero de estudiantes Numero de .. Continuas: Toman Valores en los nmeros reales Peso del nio al nacer Altura Temperatura

Histogramas para v. continuas


El

rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
419
400

375

250

200

300

150

100

100

50

20

40

60

80

7 Ocho o ms

Nmero de hijos

Edad del encuestado

Estadistica Descriptiva

13

Estadistica Descriptiva

14

Parmetros y estadsticos

Estadsticos de posicin

Parmetro: Es una cantidad numrica calculada sobre una poblacin


La altura media de los individuos de un pas La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros)

Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Estadstico: dem (cambiar poblacin por muestra).


La altura media de los que estamos en este aula
Somos una muestra (representativa?) de la poblacin

Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador.

Estadistica Descriptiva

15

Estadistica Descriptiva

16

Percentil de orden k = cuantil de orden k/100


Niveles (ordenados) de Hb en 61 adultos


105 110 125 126 138 138 148 148 153 153 158 159 160 168 168 112 127 138 148 154 160 170 112 128 138 149 154 160 172 118 130 141 150 154 163 172 119 120 132 132.5 133 142 144 150 150 154 155 164 164 176 179 120 134 145 151 156 165 120 135 146 151 156 166

La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.


Un resumen de esta serie en 5 valores Min = 105 ; Max =179; Q1 = 132.5 ; Q3 = 159 ; Q2 = Me = 149 Recorrido intercuartil Min Max Q1 Me Q3

Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. Tercer cuartil = Percentil 75 = cuantil 0,75

105

132.5 149 159 (Box-and-Whisker plot)


Estadistica Descriptiva

179

Estadistica Descriptiva

17

18

Mediana

Moda
Moda (mode) Es el/los valor/es donde la distribucin de frecuencia alcanza un mximo

No es afectada por valores extremos

Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales.
Estadistica Descriptiva 19 Estadistica Descriptiva 20

Algo de notacin Intervalo


i=1

Adems recordemos

i
1 2 3 4 5 6

xi i=1,,6
El valor medio del 65 intervalo 75 85 95 105 115 total

ni
3 6 7 9 2 3 30

hi
0.10 0.20 0.23 0.30 0.07 0.10 1.00
Estadistica Descriptiva

Ni
3 9 16 25 27 30

Hi
0.10 0.30 0.53 0.83 0.90 1.00

[ 60 70 ) [ 70 80 ) [ 80 90 )

[Li-1, Li)
i=5

[ 90 100) [100 110) [110 120]

Estadistica Descriptiva

21

22

FORMULA PARA CALCULAR CUANTILES

Sea p*=0.50 entonces H(Li-1)=0.30; hi=0.23; ci=10; Li-1= 80

[L, Li) es el i-th intervalo que contiene el cuantil de i 1 interes, lo llamaremos p*, donde Hi p* hi= frecuencia relativa del i-th intervalo ci= amplitud del i-th intervalo (=Li-L) i 1 H(L) frecuencia relativa acumulada hasta el valor Li 1 i 1o del intervalo anterior x*= valor del cuantil p* que deseamos estimar

xi
65 75 85 95
p* = H (Li1 ) +

ni
3 6 7 9

hi
0.10 0.20 0.23 0.30

Ni
3 9 16 25

Hi
0.10 0.30 0.53 0.83

h p* = H (Li1 ) + i (x * Li1 ) ci
Estadistica Descriptiva 23

hi 0.23 (x * Li1 ) (x * 80) 0.50 = 0.30+ ci 10 P0.50 = Q2 = (0.50 0.30) 10 + 80 = x * mediana 0.23 x* = 88.7
Estadistica Descriptiva 24

Centralizacin

Datos agrupados,

Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos Centro de gravedad de los datos
Datos sin agrupar Datos agrupados

xi
El valor medio del intervalo 65 75 85 95 105 115 n

hi
0.10 0.20 0.23 0.30 0.07 0.10 30
Estadistica Descriptiva 26

x = hi xi
i =1

x=

x
i =1

x = hi xi
i =1

n
Estadistica Descriptiva 25

Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales

La mediana se calcula como:

Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos.

X n +1 si n es impar 2 Me = 1 Xn + Xn * si n es par +1 2 2 2
0.50 = H (Li 1 ) + hi (Me Li 1 ) ci

Mediana de 1, 2, 4, 5, 6, 6, 800 es 5 La media es 117,7!

Estadistica Descriptiva

27

Estadistica Descriptiva

28

Asimetra

Apuntamiento o curtosis (kurtosis)


La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin con respecto a la distribucin normal o gaussiana. Esta medida es adimensional:
Platicrtica: curtosis < 0 Mesocrtica: curtosis = 0 Leptocrtica: curtosis > 0

Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide. La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.

Estadistica Descriptiva

29

Estadistica Descriptiva

30

160

Los grficos poseen la misma media y desviacin tpica, pero diferente grado de apuntamiento o curtosis.
Frecuencia

140

Volvamos a recordar

120

100

xi
El valor medio del intervalo 65 75 85 95 105 115
3 27 16 32 37 42 47 52 57 62 67 72 77 82 87 92 97 108

hi
0.10 0.20 0.23 0.30 0.07 0.10 30
Estadistica Descriptiva 32

80

60

40 45 48 51 54 57 60 63 66 69 72 75 78 81 84

300 400

Platicrtica

200

300

x = hi xi
i =1

200 100

Frecuencia

0 27 32 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 99

Frecuencia

100

0 102 138

n
31

Mesocrtica

Leptocrtica

Estadistica Descriptiva

Coeficiente de apuntamiento

Medidas de dispersin
Miden

CAp =

(x x )
i =1 i

ns

CAp =

h (x x )
i =1 i i

el grado de dispersin (variabilidad) de los datos, independientemente de su causa. o Rango (range): La diferencia entre las observaciones extremas.

s4

Amplitud

Coeficiente de asimetra

25

% 25% 25

25

CA =

(x x )
i =1 i

ns 3

CA =

h (x x )
i =1 i i

2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.

Rango

intercuartlico (interquartile range):


Es la distancia entre el primer y tercer cuartil. Rango intercuartlico = P75 - P25 Parecida al rango, pero eliminando las observaciones ms extremas inferiores y superiores. No es tan sensible a valores extremos.
Estadistica Descriptiva 34

s3

Estadistica Descriptiva

33

Hi

Frecuencia relativa acumulada

1 0.75 0.5 0.25 0 P25 Q1 P50 Q2


Recorrido o rango intercuartlico

Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

S2 =

1 ( xi x ) 2 n i

S 2 = hi ( xi x ) 2
i

Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable.

Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.

mediana

P75 Q3

x
35

S = S2
Estadistica Descriptiva 36

Estadistica Descriptiva

Coeficiente de variacin

Es la razn entre la desviacin tpica y la media.


Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes

CV =

S x

Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.

Centrados en la media y a una desviacin tpica de distancia tenemos ms de la mitad de las observaciones (izq.) A dos desviaciones tpicas las tenemos a casi todas (dcha.)

Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso)
Estadistica Descriptiva 38

Estadistica Descriptiva

37

Datos sin agrupar

Datos agrupados

La cantidad de dinero gastado en un da por estudiantes de una muestra

Tabla de frecuencias

Clases Piezas aceptadas Piezas rechazadas Piezas dudosas Total


11.357 14.212 17.206 12.162

12.542 15.213 12.700 12.721

11.384 13.300 13.455 13.420

12.431 11.300 16.143 14.698

Frecuencias absolutas

Frecuencia relativa

Calculemos todas las medidas de tendencia central, dispersin, forma y posicin (solo cuartiles: Q1, Q2, Q3)

60 15 5 80

0.75 0.19 0.06 1

Que medidas puedes calcular con este conjunto de datos??? Calclelas

Estadistica Descriptiva

39

Estadistica Descriptiva

40

10

Tabla de frecuencias: X = Tiempo entre averas de una maquina

Tiempos de atencin (en minutos) a pacientes en el filtro del servicio de urgencias

Clase

Intervalo

Intervalo

Centro del Intervalo

Frecuencia absoluta

Frecuencia relativa

20-24 25-29 30-34 35-39 40-44

22 27 32 37 42

30 40 20 5 5

0.3 0.4 0.2 0.05 0.05

1 2 3 4 5 6 7

4.15 - 7.15 7.15 11.15 11.15 13.15 13.15 16.15 16.15 18.15 18.15 21.15 21.15 27.15

Marca de clase* 5.65 9.15 12.15 14.65 17.15 19.65 24.15

ni

hi

Ni

Hi

2 5 6 15 9 8 5 50

0.04 0.10 0.12 0.30 0.18 0.16 0.10 1

2 7 13 28 37 45 50

0.04 0.14 0.28 0.56 0.74 0.90 1.00

*Marca de clase = Centro del intervalo


Estadistica Descriptiva 41 Estadistica Descriptiva 42

11