Está en la página 1de 48

Parámetros y estadísticos

• Parámetro: Es una cantidad numérica


calculada sobre una población.
– La altura media de los individuos de un
país.
– La idea es resumir toda la información
que hay en la población en unos pocos
números (parámetros).

•Estadístico: Ídem (cambiar población por muestra).


–La altura media de los que estamos en este aula.
•Somos una muestra (¿representativa?) de la población.
–Si un estadístico se usa para aproximar un parámetro también
se le suele llamar estimador. 1
Estadísticos de forma intuitiva

2
Estadísticos
• Centralización
– Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de los datos con respecto
a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
• Posición
– Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
3
Medidas de Centralización
• Son medidas que buscan posiciones (valores) con
respecto a los que los datos muestran tendencia a
agruparse.

• Media (‘mean’) Es la media aritmética (promedio)


de los valores de una variable. Suma de los
valores dividido por el tamaño muestral.
– Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5
– Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos.
– Centro de gravedad de los datos.
4
Medidas de Centralización
• Mediana (P50) Es un valor que divide a las
observaciones en dos grupos con el mismo
número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos
centrales.
– Mediana de 1, 2, 4, 5, 6, 6, 8 es 5
– Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5
– Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
• Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es
117,7!

• Moda: Es el/los valor/es donde la distribución de


frecuencia alcanza un máximo.
5
Altura mediana

6
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
– Media
x=
å x i i

n
• Datos organizados en tabla
– si está en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.

– Media x=
å xn i i i

n
Variable fr. fr.
ac.
– Cuantil de orden α
L0 – L1 x1 n1 N1 » i es el menor intervalo que tiene
frecuencia acumulada superior a α ·n
L1 – L2 x2 n2 N2
» α=0,5 es mediana
... a × n - N i -1
Lk-1 – Lk xk nk Nk
Ca = Li -1 + ( Li - Li -1 )
ni
n
7
Ejemplo con variable en intervalos
Peso M. frec Fr.
Clase acum
.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 115 3 58
130
En el histograma se identifica “unidad de área”
con “individuo”.

Para calcular la media es necesario elegir un


punto representante del intervalo: La marca de
clase.

La media se desplaza hacia los valores extremos.


No coincide con la mediana. Es un punto donde el
8
histograma “estaría en equilibrio” si tuviese masa.
Ejemplo (continuación)
Peso M. Clase Fr. Fr. ac.
40 – 50 45 5 5
x=
å xn i i i
=
45 × 5 + 55 ×10 + ! + 115 × 3
= 69,3
50 – 60 55 10 15 n 58
60 – 70 65 21 36
70 - 80 75 11 47 0,5 × 58 - N i -1
Mediana = C0,5 = Li -1 + ( Li - Li -1 )
80 - 90 85 5 52 ni
90 - 100 95 3 55 0,5 × 58 - 15 !
100 – 130 115 3 58
= 60 + (70 - 60) = 66,6
21
58

0,75 × 58 - N i -1 43,5 - 36
P75 = C0,75 = Li -1 + ( Li - Li -1 ) = 70 + (80 - 70) = 76,8
ni 11
• Moda = marca de clase de (60,70] = 65
– Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.)
9
Medidas de dispersión
•Miden el grado de dispersión
(variabilidad, homogeneidad, heterogeneidad,
concentración ) de los datos, independientemente
de su causa.
•Amplitud o Rango: %
5 % 25% 25 %
2 25
La diferencia entre las
observaciones extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores
extremos.
•Rango intercuartílico (‘interquartile range’):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores. 10
– No es tan sensible a valores extremos.
• Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.

1
S = å ( xi - x )
2 2

n i
– Es sensible a valores extremos (alejados de la media).

– Sus unidades son el cuadrado de las de la variable.

• Desviación típica (‘standard deviation’)


Es la raíz cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.

S= S 2
11
Variables Bidimensionales.
• Se trata de variables que surgen cuando se
estudia dos características, asociadas a la
observación de un fenómeno.
• Por ejemplo estudiamos la talla (Estatura),
medidas en centímetros y el peso medido en
kilogramos de un grupo de 10 personas,
obteniendo los siguientes valores:
Tabla talla v/s peso.

X Talla en 160 165 168 170 171 175 175 180 180 182
cms.
Y Peso en 55 58 58 61 62 67 62 74 79 83
Kgs.
Calculo de varianza para una
variable bidireccional.
Talla en cms. (X) Peso en Kgs.(Y)
160 55
165 58
168 58
170 61
171 62
175 67
175 62
180 74
180 79
182 83
Promedios para X e Y.

x=
åi xi y=
å y i i

n n
Promedios para X e Y.
x=
å x i i
y=
åi
y i

n n

• Promedio Talla = 172,6

• Promedio Peso = 65,9


Talla en cms. (x)
(x - x)
160 -12,6
165 -7,6
168 -4,6
170 -2,6
171 -1,6
175 2,4
175 2,4
180 7,4
180 7,4
182 9,4
Talla en cms. (x)
(x - x) (x - x) 2

160 -12,6 158,76


165 -7,6 57,76
168 -4,6 21,16
170 -2,6 6,76
171 -1,6 2,56
175 2,4 5,76
175 2,4 5,76
180 7,4 54,76
180 7,4 54,76
182 9,4 88,36
Talla en cms. (x)
(x - x) (x - x) 2

160 -12,6 158,76


165 -7,6 57,76
168 -4,6 21,16
170 -2,6 6,76
171 -1,6 2,56
175 2,4 5,76
175 2,4 5,76
180 7,4 54,76
180 7,4 54,76
182 9,4 88,36

å (x - x)
i
i
2
= 456,4
Talla en cms. (x)
(x - x) (x - x) 2

160 -12,6 158,76


165 -7,6 57,76
168 -4,6 21,16
170 -2,6 6,76
171 -1,6 2,56
175 2,4 5,76
175 2,4 5,76
180 7,4 54,76
180 7,4 54,76
182 9,4 88,36

å i
(
i
x - x ) 2
= 456,4

1
å i
2
s = - 2
x
( x x )
n i
Talla en cms. (x)
(x - x) (x - x) 2

160 -12,6 158,76


165 -7,6 57,76
168 -4,6 21,16
170 -2,6 6,76
171 -1,6 2,56
175 2,4 5,76
175 2,4 5,76
180 7,4 54,76
180 7,4 54,76
182 9,4 88,36

å i
(
i
x - x ) 2
= 456,4

1
å
2
s = - = 45,64
2
x
( xi x )
10 i
Calculo final de la Desviación
Estándar para X

2
å i
( x - x ) 2

s x
= i
10
= 45,64 = 6,76
Peso en Kgs.(Y) ( y - y)
55 -10,9
58 -7,9
58 -7,9
61 -4,9
62 -3,9
67 1,1
62 -3,9
74 8,1
79 13,1
83 17,1
Peso en Kgs.(Y) ( y - y) ( y - y) 2

55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41
Peso en Kgs.(Y) ( y - y) ( y - y) 2

55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41

å ( y - y)
i
i
2
= 828,9
Peso en Kgs.(Y) ( y - y) ( y - y) 2

55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41

å(y
i
i - y ) = 828,9
2

1
å i
2
s = - 2
y
( y y )
n i
Peso en Kgs.(Y) ( y - y) ( y - y) 2

55 -10,9 118,81
58 -7,9 62,41
58 -7,9 62,41
61 -4,9 24,01
62 -3,9 15,21
67 1,1 1,21
62 -3,9 15,21
74 8,1 65,61
79 13,1 171,61
83 17,1 292,41

å ( y - y)
i
i
2
= 828,9
1
å
2
s = - = 82,89
2
y
( y i y )
10 i
Calculo final de la Desviación
Estándar para Y

2
å i
( y - y ) 2

s = i
= 82,89 = 9,10
y 10
Asumiendo normalidad de los datos
• Centrados en la media y a una desviación típica de distancia
tenemos más de la mitad de las observaciones (izq.)

• A dos desviaciones típicas las tenemos a casi todas (dcha.)

29
Desviación Típica como unidad de medida en
la curva normal tipificada
• Entre la media y una
desviación típica
tenemos siempre
aprox. 68% de las
observaciones.

• Entre la media y dos


desviaciones típicas
tenemos siempre
aprox. 95% de las
observaciones. 30
• Coeficiente de variación
• Es la razón entre la desviación típica y la media.
S
– Mide la desviación típica en forma de CV =
“qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
x
– Es frecuente mostrarla en porcentajes
• Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)

• Es una cantidad adimensional. Interesante para comparar la


variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
más dispersión en peso que en altura.

• No debe usarse cuando la variable presenta valores negativos o


donde el valor 0 sea una cantidad fijada arbitrariamente
– Por ejemplo 0ºC ≠ 0ºF
• Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su
inverso). 31
Medidas de Forma

5.3 Sesgo o Asimetría

Una Distribución de datos está sesgada si no es simétrica y se


extiende más hacia un lado que hacia el otro

Una distribución de datos es simétrica si la mitad izquierda de


su histograma es aproximadamente una imagen en espejo de
su mitad derecha
Asimetría o sesgo
• Una distribución es simétrica si la
mitad izquierda de su distribución es
la imagen especular de su mitad
derecha.

• En las distribuciones simétricas


media y mediana coinciden. Si sólo
hay una moda también coincide.

• La asimetría es positiva o negativa


en función de a qué lado se
encuentra la cola de la distribución.

• La media tiende a desplazarse hacia


las valores extremos (colas).

• Las discrepancias entre las medidas


de centralización son indicación de
asimetría.
33
Sesgo o Asimetría Negativa:
En esta distribución la media y la mediana están a la
izquierda de la moda
Suelen tener la una media menor a la mediana
Poseen una cola izquierda más larga

x < Me < Mo

Media Moda

Mediana
Curva Simétrica:
Esta curva carece de sesgo
La media, la Mediana y la Moda son iguales o
coinciden
x = Me = Mo

Moda = Media = Mediana


Sesgo o Asimetría Positiva:
En esta distribución se aprecia una cola derecha más
larga, mientras que la media y la mediana están a la
derecha de la moda
Suelen tener la una media mayor a la mediana
Más comunes que las Asimetrías Negativas
Mo < Me < x

Moda Media
Mediana
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.

Platicúrtica (aplanada): curtosis < 0


En el curso serán de especial
Mesocúrtica (como la normal): curtosis = 0 interés las mesocúrticas y
simétricas (parecidas a la normal).

Leptocúrtica (apuntada): curtosis > 0

Aplanada Apuntada como la normal Apuntada


2.0

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x± s
x±s x± s
68 %
57 % 82 %
0.0

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 37 2


Estadísticos de posición
• Se define el cuantil de orden a como un valor
de la variable por debajo del cual se encuentra
una frecuencia acumulada a.
• Casos particulares son los percentiles,
cuartiles, deciles, quintiles,...

38
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50.
– El percentil de orden 15 deja por debajo al 15% de
las observaciones. Por encima queda el 85%.

• Cuartiles: Dividen a la muestra en 4 grupos


con frecuencias similares.
– Primer cuartil = Percentil 25 = Cuantil 0,25.
– Segundo cuartil = Percentil 50 = Cuantil 0,5 =
mediana.
– Tercer cuartil = Percentil 75 = cuantil 0,75.
39
– Ejemplos: El 5% de los recién nacidos tiene un peso
demasiado bajo. ¿Qué peso se considera “demasiado
bajo”?
• Percentil 5 o cuantil 0,05.
– ¿Qué peso es superado sólo por el 25% de los
individuos?
• Percentil 75.
– El colesterol se distribuye simétricamente en la
población. Se considera patológico los valores extremos.
El 90% de los individuos son normales. ¿Entre qué
valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95.
– ¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?
• Entre 1º y 3º cuartil (Q1 y Q3). 40
Medidas Basadas en el Orden
Los percentiles son conocidos como estadísticas de orden. Un percentil es un valor de la
variable (muestral o calculado), bajo el cual se encuentra un determinado porcentaje de los
casos muestrales y sobre él el porcentaje de casos restante.

Si la muestra está ordenada de menor a mayor, el k-ésimo percentil se calcula como la


observación que se ubica en la posición t, dada por:

t=
(n + 1)´ k
100
Si esta ecuación nos da un número con decimales, aproximarlo al entero más cercano. Si el
decimal es .5 tomamos el promedio de las observaciones adyacentes.

Es decir, si x(1),.., x(n) son los n valores ordenados de X, el k-ésimo percentil corresponde
al valor en la posición x(t), donde t se calcula con la fórmula anterior.
Ejemplo: Calculemos los percentiles 25 y 50 de la variable peso del recién nacido,
para una muestra de n=10 niños, con pesos: 3220, 2650, 2750, 3430, 3220, 2980,
3460, 3005, 3560 y 3100 gramos.

• Los peso ordenados son: 2650, 2750, 2980, 3005, 3100, 3220, 3220, 3430, 3460 3560

• Para el percentil 25: n=10 k=25. Luego, t = (10+1)*25/100 = 2.75


Luego, el percentil 25 corresponde a x(3) = 2980 gramos

• Para el percentil 50: n=10 k=50. Luego, t = (10+1)*50/100 = 5.5


Luego, el percentil 50 corresponde a (x(5)+x(6))/2 = (3100+3220)/2 = 3160 gramos

Interpretación: "El 25% de los niños tiene un peso de nacimiento inferior a 2980
grs., mientras que el 50% tiene un peso inferior a 3160 grs."
• Los percentiles más importantes son los cuartiles: 25%, 50% y
75%, y los deciles: cada 10%.

• En el ejemplo de la muestra de edades, los cuartiles son 52, 62 y


71 respectivamente.

• El 25% de la población es menor o igual que 52 años

• El 75% de la población es menor o igual que 71 años


Fr

0.75

0.5

0.25
Recorrido o rango
intercuartílico
0
P25 P50 P75 x
Q1 Q2 Q3
mediana 44
Gráficos de Dispersión
Boxplot o Diagrama de cajas
• Indique los estadísticas que resume el gráfico
• Interpretes y escriba sus conclusiones

1200
Ingreso autónomo

800

400

0
Hombre Mujer

sexo
Conclusiones
• En los hombres la dispersión del ingreso es
menor que en las mujeres (Rango)
• Los hombres presentan los sueldos más
bajos, las mujeres los más altos (valores
mínimo y máximo)
• Él primer 50% de las mujeres ganan menos
que el primer 50% de los hombres.
• la distribución entre el Q1 y Q3 en los
hombres tiene un ingreso más homogéneo
que en igual intervalos en las mujeres 47
¿Qué hemos visto?
• Parámetros
• Estadísticos y estimadores
• Clasificación
– Medidas de centralización: Media, mediana y moda
• Diferenciar sus propiedades.
– Medidas de dispersión
• con unidades: rango, rango intercuartílico, varianza, desv.
típica
• sin unidades: coeficiente de variación
– ¿Qué usamos para comparar dispersión de dos poblaciones?
– Asimetría
• positiva
• negativa
– ¿Podemos observar asimetría sin mirar la gráfica?
– ¿Cómo me gustan los datos?
– Medidas de apuntamiento (curtosis)
• ¿Cómo me gustan los datos?
– Posición (cuantiles, percentiles,...)
• Diagramas de cajas
48

También podría gustarte