Está en la página 1de 43

Lic.

Enzo Aldo Bravo Burgos


Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin

La altura media de los individuos de un pas

La idea es resumir toda la informacin que hay en la poblacin en unos
pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra)

La altura media de los que estamos en este aula.
Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin se le suele
llamar estimador.

Normalmente nos interesa conocer un parmetro, pero por la dificultad que
conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una
muestra y confiamos en que sean prximos. Ms adelante veremos como
elegir muestras para que el error sea confiablemente pequeo.
Un brevsimo resumen sobre estadsticos
Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana, moda, media geomtrica y armnica
Localizacin
Dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos.
Cuantiles o Fractiles: cuartiles, deciles, percentiles, ...

Dispersin
Indican la mayor o menor concentracin de los datos con respecto a las
medidas de centralizacin.
Rango, varianza desviacin tpica, coeficiente de variacin,
Forma
Asimetra
Apuntamiento o curtosis
MEDIDAS DE TENDENCIA CENTRAL
Son valores que intentan representar al conjunto de
datos y tienden a ubicarse hacia el centro de la
distribucin.
Frecuentemente se los llama PROMEDIOS.
Observacin: Las medidas de Tendencia Central son
tambin Medidas de Posicin.
1. Media Aritmtica
2. Mediana (Me)
3. Moda (Md)
4. Media Geomtrica (G)
5. Media Armnica (H)
( ) X
Estadsticos de centralizacin
Media: Es la media aritmtica (promedio) de los valores de una variable.
Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
Mediana: Es un valor que divide a las observaciones en dos grupos con el
mismo nmero de individuos. Si el nmero de datos es par, se elige la
media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a
valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Moda: Es el/los valor/es donde la distribucin de frecuencia alcanza un
mximo.
Altura mediana
Algunas frmulas
Datos sin agrupar: x
1
, x
2
, ..., x
n

Media

Datos organizados en tabla
si est en intervalos usar como x
i
las marcas de clase. Si no
ignorar la columna de intervalos.
Media

Mediana


moda
n
x
x
i
i
=
Variable f
i
F
i

L
0
L
1
x
1
f
1
F
1
L
1
L
2
x
2
f
2
F
2

...
L
k-1
L
k
x
k
f
k
F
k

n
n
f x
x
i
i i
=
)
2
(
1
1
j
j
j j
f
F n
a L Me


+ =
)
2
(
1 1
1
1
+



+ =
j j j
j j
j j
f f f
f f
a L Md
Ejemplo con variable en intervalos
Peso M.
Clase
f
i
F
i
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58
En el histograma se identifica unidad de rea con
individuo.

Para calcular la media es necesario elegir un punto
representante del intervalo: La marca de clase.

La media se desplaza hacia los valores extremos.
No coincide con la mediana. Es un punto donde el
histograma estara en equilibrio si tuviese masa.
Ejemplo (continuacin)
Peso M.
Clase
(X
i
)
f
i
F
i
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58
58
23 , 65 ) 60 70 (
11 10 ) 21 ( 2
10 21
60
)
2
(
1 1
1
1
=

+ =


+ =
+

j j j
j j
j j
f f f
f f
a L Md
3 , 69
58
3 * 115 10 * 55 5 * 45
=
+ + +
= =


n
f x
x
i
i i
6 , 66 )
21
15
2
58
( 10 60
)
2
(
1
1

+ =

+ =

Me
f
F
n
a L Me
j
j
j j
Medidas de Tendencia Central
Variable Numrica
Si la distribucin es simtrica y unimodal, las tres medidas ocuparn la abscisa
correspondiente al mximo central:

x Me Mo = =
Posiciones Relativas
Medidas de Tendencia Central
Variable Numrica
Posiciones Relativas
Si la distribucin es asimtrica, por efecto de la presencia de valores alejados:

x Me Mo
Medidas de Tendencia Central
Variable Numrica
MEDIA GEOMETRICA
Se emplea para promediar variaciones porcentuales, razones y series
logartmicas:
n
n 2 1
x ... x x G =
Tambin puede emplearse:
(

=

=
n
1 i
i
x log
n
1
G antilog
Medidas de Tendencia Central
Variable Numrica
ELECCION DEL PROMEDIO MAS REPRESENTATIVO
Depende de la naturaleza de la variable y de la forma de la distribucin:
Variable Categrica
Escala Nominal: la CATEGORIA MODAL
Escala Ordinal: la CATEGORIA MODAL o la CATEGORIA MEDIANA
Variable Numrica
- Razones, Series Logartmicas o Variaciones Porcentuales: la MEDIA
GEOMETRICA
- Componentes con distinto peso: la MEDIA PONDERADA
- Distribuciones de Frecuencias Simtricas: la MEDIA ARITMETICA.
- Distribuciones de Frecuencias Asimtricas: la MEDIANA
Medidas de Tendencia Central
Variable Numrica
Ejemplo de MEDIA GEOMETRICA
La media geomtrica es:
% 58 , 7 0758 , 1 075 , 1 * ... * 05 , 1 G
5
= =
El precio de un producto ha tenido la siguiente evolucin en cinco aos:

Calculamos los factores de crecimiento:

Ao 1998 1999 2000 2001 2002
Variacin 5,0% 10,5% 9,0% 6,0% 7,5%
Factor de Crecimiento 1,05 1,105 1,09 1,06 1,075


Ao 1998 1999 2000 2001 2002
Variacin 5,0% 10,5% 9,0% 6,0% 7,5%

Estadsticos de Localizacin



Se define el cuantil de orden o como un valor de la variable por debajo del
cual se encuentra una frecuencia acumulada o.

Casos particulares son los cuartiles, deciles, quintiles, percentiles,...

Estadsticos de posicin



Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las observaciones.
Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con
frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75


Ejemplos
El 5% de los amas de cada tiene un consumo demasiado bajo de
arroz. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05

Percentil 5 del peso
Peso de arroz(Kg)
f
r
e
c
u
e
n
c
i
a

1 2 3 4 5
0

5

1
0

1
5

2
0

2
5

Ejemplos
Qu peso es superado slo por el 25% de los deportistas?
Percentil 75 o tercer cuartil
Percentil 75 del peso
Peso (Kg) de 100 deportistas
f
r
e
c
u
e
n
c
i
a

50 55 60 65 70 75 80 85
0

5

1
0

1
5

2
0

2
5

3
0

Ejemplos
El colesterol se distribuye simtricamente en la poblacin. Supongamos que se
consideran patolgicos los valores extremos. El 90% de los individuos son
normales Entre qu valores se encuentran los individuos normales?
Percentiles 5 y 95
Colesterol en 100 personas
f
r
e
c
u
e
n
c
i
a

180 200 220 240 260
0

5

1
0

1
5

2
0

Ejemplos
Entre qu valores se encuentran la mitad de los individuos ms normales
de una poblacin?
Entre el cuartil 1 y 3

Percentiles 25 y 75
Altura (cm) en 100 varones
f
r
e
c
u
e
n
c
i
a
150 160 170 180 190
0
5
1
0
1
5
2
0
Diagramas de Tukey
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo.
Suelen dar una buena idea de la
distribucin.

La zona central, caja, contiene
al 50% central de las
observaciones.
Su tamao se llama rango
intercuartlico (R.I.)

Es costumbre que los bigotes,
no lleguen hasta los extremos,
sino hasta las observaciones
que se separan de la caja en no
ms de 1,5 R.I.
Ms all de esa distancia se
consideran anmalas, y as se
marcan.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
Velocidad (Km/h) de 200 vehculos en ciudad
d
e
n
s
i
d
a
d
40 45 50 55 60 65
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
40 45 50 55 60 65
Mn.
P
25
P
50
P
75 Mx.
Diagrama de cajas de Tukey: Resumen en 5 nmeros
Velocidad (Km/h) de 200 vehculos en autova
d
e
n
s
i
d
a
d
80 90 100 110 120 130 140
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
80 90 100 110 120 130 140
Mn. P
25
P
50
P
75 Mx.
Ejemplo: Determine el P
20
y P
90
Nmero de aos de escolarizacin
5 ,3 ,3
5 ,3 ,7
6 ,4 1,1
12 ,8 1,9
25 1,7 3,5
68 4,5 8,0
56 3,7 11,7
73 4,8 16,6
85 5,6 22,2
461 30,6 52,8
130 8,6 61,4
175 11,6 73,0
73 4,8 77,9
194 12,9 90,7
43 2,9 93,6
45 3,0 96,6
22 1,5 98,0
30 2,0 100,0
1508 100,0
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
Frecuenci a Porcentaj e
Porcentaj e
acumul ado
Estadsticos
Nmero de aos de escolari zaci n
1508
0
12,90
12,00
12
9,00
11,00
12,00
12,00
12,00
12,00
13,00
14,00
15,00
16,00
16,00
Vli dos
Perdi dos
N
Medi a
Medi ana
Moda
10
20
25
30
40
50
60
70
75
80
90
Percenti l es
20%?
90%?
Variabilidad o dispersin
Los estudiantes de Estadstica reciben diferentes calificaciones en la
asignatura (variabilidad). A qu puede deberse?

Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. Las notas seran las mismas en todos? Seguramente No.

Dormir poco el da del examen, el energizante estaba pasado...
Diferencias individuales en la habilidad para hacer un examen.

El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la
mala
Variabilidad por azar, aleatoriedad.
Medidas de dispersin
Los promedios no logran captar ciertas caractersticas de un
conjunto de datos. Por ejemplo:
Conjunto 1: 55 60 65
Conjunto 2: 10 60 110
Ambos tienen la misma media (60) pero en el primero las
observaciones son ms homogneas que las del segundo.

Las medidas de dispersin intentan captar el grado de variabilidad de
los datos.
Medidas de dispersin
Los promedios no logran captar ciertas caractersticas de un
conjunto de datos. Por ejemplo:
Conjunto 1: 55 60 65
Conjunto 2: 10 60 110
Ambos tienen la misma media (60) pero en el primero las
observaciones son ms homogneas que las del segundo.

Las medidas de dispersin intentan captar el grado de variabilidad de
los datos.
Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos, independientemente
de su causa.

Amplitud o Rango (range):
Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.


Rango intercuartlico (interquartile range):
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P
75
- P
25

Parecida al rango, pero eliminando las observaciones ms extremas inferiores
y superiores.

No es tan sensible a valores extremos.

150 160 170 180 190
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
0
.
0
5
150 160 170 180 190
25% 25% 25% 25%
Mn. P
25
P
50
P
75
Mx.
Rango intercuartlico
Rango
MEDIDAS DE DISPERSIN
Varianza S
2
: Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.





Es sensible a valores extremos (alejados de la media).
Si la muestra es menor de 30, reemplazar n por n-1
Para datos agrupados las desviaciones cuadrticas se multiplican por sus
frecuencias
Sus unidades son el cuadrado de las de la variable. De interpretacin difcil
para un principiante.

La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la
informacin geomtrica relevante en muchas situaciones donde la energa
interna de un sistema depende de la posicin de sus partculas.

=
i
i
x x
n
S
2 2
) (
1
Varianza S
2

Si el siguiente conjunto es una muestra de datos:
32 16 18 27 10 25 19 49 28



Si se trata de una poblacin:

( ) ( ) ( ) | | 6 , 128 88 , 24 28 ... 88 , 24 32
1 9
1
X V
2 2
= +

=
( ) ( ) ( ) | | 32 , 114 88 , 24 28 ... 88 , 24 32
9
1
X V
2 2
= + =
MEDIDAS DE DISPERSIN

Desviacin Estndar o tpica :

Es la raz cuadrada de la varianza

Tiene las misma dimensionalidad
(unidades) que la variable. Versin
esttica de la varianza.

Cierta distribucin que veremos ms
adelante (normal o gaussiana) quedar
completamente determinada por la
media y la desviacin tpica.

A una distancia de una desv. tpica de la
media hay ms de la ms de la mitad.

A una distancia de dos desv. tpica de la
media las tendremos casi todas.

2
S S =
Peso recin nacidos en partos gemelares
3
.
3
0
0
2
.
9
0
0
2
.
5
0
0
2
.
1
0
0
1
.
7
0
0
1
.
3
0
0
9
0
0
5
0
0
50
40
30
20
10
0
Desv. tp. = 568,43
Media = 2023
N = 407,00
Desviacin estndar: S
Si La varianza presenta el inconveniente de quedar expresada
en unidades elevadas al cuadrado, que en ocasiones pierde
significado.
La Desviacin Estndar S es la Raz Cuadrada de la Varianza:

En el ejemplo anterior:
Si se trata de una Muestra de datos:

Si se trata de una Poblacin:



( ) X V S =
3 , 11 6 , 128 = = S
7 , 10 3 , 114 = = S
Dispersin en distribuciones normales
150 160 170 180 190
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
0
.
0
5
x s
68.5 %
150 160 170 180 190
0
.
0
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
0
.
0
5
x 2s
95 %
Centrado en la media y a una desv. tpica de distancia hay
aproximadamente el 68% de las observaciones.
A dos desviaciones tpicas tenemos el 95% (aprox.)
A tres desviaciones tpicas tenemos el 99% (aprox.)
Coeficiente de variacin

Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de
qu tamao tiene con respecto a la media

Tambin se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)

Es una cantidad a dimensional. Interesante para comparar la variabilidad de
diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms
dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea
una cantidad fijada arbitrariamente
Por ejemplo 0C 0F

x
S
CV =
Coeficiente de variacin (CV)
Ejemplo: Un inversor debe decidirse por la Accin A o por la B de
dos compaas de electrnica. Cul debe elegir si desea optar por la
que tiene comportamiento ms homogneo?






Debe elegir la Accin A.








Accin Precio Promedio ($) Desvo Estndar ($)
A 15.000 500
B 5.000 300

% 0 , 6 100
000 . 5
300
% 3 , 3 100
000 . 15
500
= =
= =
B
A
CV
CV
MEDIDAS DE FORMA


Asimetra o Sesgo

Una distribucin es simtrica si la
mitad izquierda de su distribucin es
la imagen especular de su mitad
derecha.
En las distribuciones simtricas
media y mediana coinciden. Si slo
hay una moda tambin coincide
La asimetra es positiva o negativa en
funcin de a qu lado se encuentra la
cola de la distribucin.
La media tiende a desplazarse hacia
las valores extremos (colas).
Las discrepancias entre las medidas
de centralizacin son indicacin de
asimetra.


Estadsticos para detectar asimetra
Hay diferentes estadsticos que sirven para detectar asimetra.
Basado en diferencia entre estadsticos de tendencia central.
Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.
Basados en desviaciones con signo al cubo con respecto a la media.
Los calculados con ordenador. Es pesado de hacer a mano.

En funcin del signo del estadstico diremos que la asimetra es positiva o
negativa.
Distribucin simtrica asimetra nula.
x
8 10 12 14 16 18 20
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
8 10 12 14 16 18 20
x s
78 %
x
-2 -1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
-2 -1 0 1 2 3
x s
66 %
x
0 2 4 6 8 10 12 14
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0 2 4 6 8 10 12 14
x s
78 %
MEDIDAS DE FORMA
SESGO: Medida en que se aparta la Distribucin de datos de la
forma simtrica de la Distribucin Normal
Coeficiente de Sesgo de Pearson:








( )
S
Me x
=
3
As
2
( )
S
Md x
=
1
As
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribucin con respecto a la distribucin normal o gaussiana. Es adimensional.

Platicrtica (aplanada): curtosis < 0

Mesocrtica (como la normal): curtosis = 0

Leptocrtica (apuntada): curtosis > 0
Apuntada como la normal
-3 -2 -1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
-3 -2 -1 0 1 2 3
x s
68 %
Aplanada
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
0.0 0.2 0.4 0.6 0.8 1.0
x s
57 %
Apuntada
-2 -1 0 1 2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
-2 -1 0 1 2
x s
82 %
En el curso sern de especial
inters las mesocrticas y
simtricas (parecidas a la normal).
MEDIDAS DE FORMA
CURTOSIS:
Medida de apuntamiento de la Distribucin de datos tomando
como referencia la forma de la Distribucin Normal
Coeficiente de Curtosis:





( )
( )
3
2
1
2
1
4

=
=
k
i
i i
k
i
i i
x x f
x x f n
C
MEDIDAS DE FORMA
Curtosis:
Esta medida es:
Si la distribucin es Leptocrtica (pico alto), C>0
Si la distribucin es Mesocrtica (pico normal), C=0
Si la distribucin es Platicrtica (pico bajo), C<0





Ejercicio: descriptiva con SPSS
Descriptivos para Nmero de hij os
1,90 ,045
1,81
1,99
1,75
2,00
3,114
1,765
0
8
8
3,00
1,034 ,063
1,060 ,126
Medi a
Lmi te
i nferi or
Lmi te
superi or
Interval o de
confianza para l a
medi a al 95%
Medi a recortada al 5%
Medi ana
Vari anza
Desv. tp.
Mni mo
Mximo
Rango
Ampl i tud i ntercuarti l
Asi metra
Curtosi s
Estadsti co Error tp.
0 1 2 3 4 5 6 7 Ocho o ms
Nmero de hijos
5%
10%
15%
20%
25%
P
o
r
c
e
n
t
a
j
e
n=419
28%
n=255
17%
n=375
25%
n=215
14%
n=127
8%
n=54
4%
n=24
2%
n=23
2%
n=17
1%
Est sombreado lo que sabemos interpretar hasta ahora.
Verifica que comprendes todo. Qu unidades tiene cada
estadstico? Variabilidad relativa?

Calcula los estadsticos que puedas basndote slo en el
grfico de barras.
TIPIFICACION DE DATOS
El puntaje Z :
Consiste en transformar cada dato como:


Ejemplo:
En el conjunto: 4 ; 2 ; 4 ; 4 ; 3 ; 4 ; 10 ; 2 ; 3 ; 3


Por lo tanto 10 es un valor alejado





S
X X
Z

=
82 , 2
2,16
3,9 - 10
Z 2,16 S 9 , 3 = = = = x
Qu hemos visto?
Parmetros
Estadsticos y estimadores
Clasificacin
Posicin (cuantiles, percentiles,...)
Diagramas de cajas
Medidas de centralizacin: Media, mediana y moda
Diferenciar sus propiedades.
Medidas de dispersin
con unidades: rango, rango intercuartlico, varianza, desv. tpica
sin unidades: coeficiente de variacin
Qu usamos para comparar dispersin de dos poblaciones?
Asimetra
positiva
Negativa
Medidas de apuntamiento (curtosis)
Tipificacin de datos