Está en la página 1de 18

Estadística I

Tema 1. Parte II
Análisis de datos transversales

Elaborado por: Prof. Vicente Coll, Prof. Olga Blasco


Fuente: Esteban et.al. (2005). Estadística descriptiva y nociones de probabilidad.
Capítulo 2.

Medidas de posición

 Medidas de tendencia central: Describen la localización central de un


conjunto de observaciones numéricas.

Media aritmética
Mediana
Moda
Otras medidas: Media ponderada, Media geométrica,
Media armónica, Rango medio, Eje medio

 Medidas de tendencia no central.


Cuartiles
Cuantiles Deciles
Centiles/Percentiles

Análisis unidimensional

1
Medidas de posición

Una medida de centralización es aquel valor que


es capaz de representar todos los datos

Media aritmética (x): es la suma de todos los valores del conjunto de


datos dividido entre el número total de observaciones.
i-ésimo valor
N

x
Valores observados
i
x +x +...+x N
x= i=1
= 1 2
N N Número total de observaciones

Si los valores de la variable se repiten:


Variable toma I Veces que se repite el valor xi
I

x n
distintos valores
i i
i=1 x1n1 +x 2 n 2 +...+x I n I
x= =
N N

Análisis unidimensional

Medidas de posición

Ejemplo: Una empresa dispone de 10 empleados. Durante el mes pasado,


el número de días que cada empleado estuvo enfermo fueron:
3 , 0 , 5 , 6 , 1 , 0 , 11 , 6 , 0 , 4
Determinar el número de días que por término medio estuvo enfermo un
empleado.
¿Cómo definimos la variable objeto de estudio?
N=10

x i
3+0+5+6+1+0+11+6+0+4 36
x= i=1
=   3, 6
N 10 10

¿Cuántos distintos valores toma la variable X?


¿Se repiten valores?

I=7

x n i i
36
x= i=1
=  3, 6 días por empleado
N 10
Análisis unidimensional

2
Medidas de posición

Propiedades:
I

1.  (x i -x)  n i =0
i=1

2. Si xi (i=1,2,..,k) corresponden a las medias de k grupos distintos


de tamaño Ni (i=1,2,..,k), se cumple que la media del conjunto es:
k
3 , 0 , 5 , 6 , 1 , 0 , 11 , 6 , 0 , 4
x N
i=1
i i
x N +x N +...+x k N k
x= k
= 1 1 2 2 Mañana Tarde

N
N1 +N 2 +...+N k xM=2,5 xT=5,25
i
i=1 NM=6 NT=4

(2,5×6)+(5,25×4) 15+21 36
x= = = =3,6
6+4 10 10

3. A la media le afectan (depende) de los cambios de origen y de


unidad (o escala)

Análisis unidimensional

Medidas de posición
Cambio de origen
Cambio de unidad Cambio de origen
y de unidad T=X+2
ti zi yi Z=3X
3xi 3xi+2 ti ni zi n i yi ni
Y=3X+2
xi ni xi+2

0 3 2 0 2 6 0 6
t=
t i  ni
56
= =5,6
1 1 3 3 5 3 3 5 N 10
3 1 5 9 11 5 9 11
z=
 zi  n i = 108 =10,8
4 1 6 12 14 6 12 14 N 10
5 1 7 15 17 7 15 17
y=
 yi  n i = 128 =12,8
6 2 8 18 20 16 36 40
N 10
11 1 13 33 35 13 33 35

N=10 56 108 128

Si conocemos x y obtenemos Y de forma que: Y = a + bX  y= a + bx


t= a + x= 2+ 3,6= 5,6
Sabemos que: x=3,6 días por empleado z= bx = 3·3,6= 10,8
y= a + bx= 2+3·3,6=12,8
Análisis unidimensional

3
Medidas de posición

Ventajas

 Su cálculo es sencillo e intervienen todos los valores de la distribución.


 Resulta fácil de interpretar.
 Es única.

Inconveniente

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5
La media no es la mejor medida para describir o resumir
un conjunto de datos que tiene valores extremos

Análisis unidimensional

Medidas de posición

Media (aritmética): Todos los valores tienen el mismo peso (importancia).

¿Qué sucede si esto no es así?

Podemos asignar diferentes pesos para calcular la media  Media ponderada

peso aplicada al valor xi


N
 wi  xi
i 1
xw  N
 wi suma de todos los pesos
i 1

Análisis unidimensional

4
Medidas de posición

Mediana (Me): valor del recorrido de la variable que deja aproximadamente


el mismo número de observaciones a su izquierda y a su derecha.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Me=3 Me=3

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Me=3,5 Me=3,5

La Media es la medida de tendencia central que más se usa, pero como


se ve influenciada por valores extremos, en estos casos con frecuencia la
Mediana es la medida preferida

Análisis unidimensional

Medidas de posición

MEDIANA (Me)
Me  x i

x i  x i 1
Me 
2
 N
N   N i  Me  x i
 i 1 2
si 
N  N x  x i 1
 i 2  Me  i
2
Distribución de frecuencias El problema se resuelve obteniendo en primer lugar el llamado
de valores agrupados intervalo mediano, el primero cuya frecuencia absoluta
acumulada Ni alcanza o sobrepasa N/2. Es decir, Ni-1  N / 2  Ni

(S/K) * N  N i-1
¡Ojo! Me  L i 1  .ci
ni
Análisis unidimensional

5
INDIV. xi datos
frecuencia frec. VE X = {CV potencia de los coches}
ab. Ac. Ab.

i xi ni Ni
1 x1 35 1 1
2 x2 46 2 3
Calculo de la Mediana
3 x3 48 4 7 cuando la frecuencia no
4 x4 49 1 8 es única
5 x5 52 4 12
6 . 53 2 14
7 . 54 1 15
. . . . .  N
37
38 .
89
90
1
20
170
190
 N i 1  2  N i  Me  x i
39 . 91 1 191
si 
N  N x  x i 1
40 . 92 6 197
 i 2  Me  i
41 x41 93 2 199 2
42 x42 94 1 200 N/2 Mediana 94,5
43 x43 95 14 214
44 . 96 3 217
45 . 97 9 226
46 . 98 2 228 N/2 = 200
47 100 17 245
48 102 1 246
. . . . .
90 215 3 396
91 220 1 397
92 225 2 399
93 x93 230 1 400
400

Análisis unidimensional

Cuantiles

Calculo de la mediana si existen intervalos


i l (i-1) li xi ni xi*ni fi Ni Fi
1 35 56 45,5 15 682,5 3,75 15 3,75 N/2 200

2 56 77 66,5 90 5985 22,5 105 26,25 amplitud 21

3 77 98 87,5 121 10587,5 30,25 226 56,5 Me 93,5


4 98 119 108,5 65 7052,5 16,25 291 72,75
5 119 140 129,5 22 2849 5,5 313 78,25
N/2  N i-1
6
7
140
161
161
182
150,5 50
171,5 22
7525 12,5 363 90,75
3773 5,5 385 96,25 Me  L i 1  .ci
8 182 203 192,5 6 1155 1,5 391 97,75 ni
9 203 224 213,5 6 1281 1,5 397 99,25
10 224 245 234,5 3 703,5 0,75 400 100
400 41594 100

S N N
Cuantil _ o _ Valor _ de _ x  L i 1  K
i -1
.ci
ni

Análisis unidimensional

6
Medidas de posición

MODA (Mo):

Distribución de frecuencias
de valores sin agrupar Valor de la variable de mayor frecuencia

Misma amplitud:
Distribución de frecuencias intervalo modal en el intervalo de mayor frecuencia o
de valores agrupados altura

Distinta amplitud:
intervalo modal en el intervalo de mayor altura

CUANTILES:  sN
 Ni1   Ni  Q s  x i
–CUARTILES (k=4), Cs (s=1,2,3,4)  k k
–DECILES (k=10), Ds (s=1,2,3,..,10) si 
N  s  N x  x i1
 Qs  i
–PERCENTILES (k=100), Ps (s=1,2,3,..,100)  i
k k
2

Análisis unidimensional

Medidas de posición

Cuartil (k=4 , s=1, 2, 3)

25% 25% 25% 25%


menor valor
C1 C2 C3 mayor valor

Q1/4= C1  Valor del recorrido de la variable para el cual el 25% de las


observaciones son más pequeñas y el 75% son mayores

¿Cómo interpretamos el valor que toma el P40 (=Q40/100)?

¿Cómo calculamos los diferentes Cuantiles?

El procedimiento es similar al que vimos para la Mediana (Me=C2=D5=P50)

Análisis unidimensional

7
Medidas dispersión o variación

Medidas de posición  valores alrededor de los cuales se sitúa un grupo


de observaciones.

Información insuficiente: no tienen en cuenta la situación


relativa de los datos

Ejemplo: Somos el responsable de compras de una empresa. Buscamos


Información sobre 2 proveedores y determinamos que ambos tardan por
término medio 10 días en servir el pedido.

¿Qué proveedor preferimos?

Análisis unidimensional

Medidas dispersión o variación

Proveedor A Proveedor B

9 10 11 7 8 9 10 11 12 13 14 15

¿Qué proveedor preferimos?

¿Qué proveedor es más consistente/confiable?

Las medidas de variación, dispersión o variabilidad, miden la proximidad


o alejamiento existente entre los datos.

Análisis unidimensional

8
Análisis de datos unidimensional I
Medidas dispersión o variación
Medidas de posición y dispersión

 Medidas de dispersión absoluta.

Rango o recorrido
Recorrido Intercuartílico
Varianza
Desviación típica

 Medidas de dispersión relativa.

Coeficiente de variación de Pearson


Otras medidas Recorrido Intercuartílico relativo
Coeficiente variación mediano
Recorrido relativo
Coeficiente de apertura

Análisis unidimensional

Rango
Análisis de datos unidimensional I Recorrido Intercuartílico
Dispersión absoluta Varianza
Desviación típica

La Varianza, a diferencia del Rango y el Recorrido Intercuartílico, consideran


cómo se distribuyen o agrupan las observaciones.

La Varianza (S2): es la media de los cuadrados de las diferencias entre los


valores de la variable y su media.

  x -x 
Evalúa la manera en
 ni
2
i que fluctúan los valores
S2X  i=1
de la variable respecto
N
a la media

¿Por qué se utiliza el cuadrado de las diferencias?

Análisis unidimensional

9
Momentos de orden R:

Promedio de las desviaciones de la variable


respecto a un valor arbitrario K elevado a la
potencia R

Momentos Ordinarios (aR) ……K = 0


Momentos Centrales ( mR) …...K = Media

Análisis unidimensional

Rango
Análisis de datos unidimensional I Recorrido Intercuartílico
Dispersión absoluta Varianza
Desviación típica

Al hacer el cuadrado, las observaciones que se encuentran más lejos


de la media adquieren más peso que las más cercanas  a mayor S2
más dispersos están los datos.

Si en la anterior expresión de la S2 desarrollamos el cuadrado:

x 2
i  ni
S  2
X
i 1
 x2
N
 Utiliza sólo los valores de la variable

 Más sencillo y rápido de calcular

Análisis unidimensional

10
Rango
Análisis de datos unidimensional I Recorrido Intercuartílico
Dispersión absoluta Varianza
Desviación típica

Ejemplo:
xi ni xini xi-x (xi-x)2 (xi-x)2ni xi2ni
1 2 2 -2 4 8 2 I=5

2 5 10 -1 1 5 20 x i  ni
72
3 10 30 0 0 0 90 x= i=1
= 3
N 24
4 5 20 1 1 5 80
5 2 10 2 4 8 50

N=24 =72 = 26 = 242

I=5 I=5

  x -x   ni x  ni
2 2
i
26  i
242 2 
S 
2
X
i=1
  1, 083 S 2
X
i 1
 x2   3  1, 083
N 24 N 24

Error frecuente: Se omite el cuadrado

Análisis unidimensional

Rango
Análisis de datos unidimensional I Recorrido Intercuartílico
Dispersión absoluta Varianza
Desviación típica
Propiedades de la varianza:

1. Siempre es mayor (o igual) a cero. Error frecuente: Varianzas negativas

2. Es una medida de dispersión óptima.

3. Si a todos los valores xi de una distribución de frecuencias se les suma


o resta una constante, la varianza no cambia.

4. Si todos los valores xi de una distribución de frecuencias se multiplican


o dividen por una constante, la varianza de la nueva distribución queda
Multiplicada/dividida por esa misma constante al cuadrado.

5. Si sobre una variable se aplica un cambio de origen y de unidad,


Y= a + bX

la varianza de la nueva variable (Y) será: S2Y =b 2  SX2

Análisis unidimensional

11
Medidas de dispersión

• RANGO (RECORRIDO)
Re  x max  x min
• VARIANZA I

I
x i  x  n i
2 x 2
i  ni
S 
2
X S  2
x
i 1
 x2
i 1 N N
• DESVIACIÓN TÍPICA
Sx   S2x  0
COEFICIENTE DE VARIACIÓN
• CUASIVARIANZA (DE PEARSON)
N 2 S
S2X*  SX g 0 (X)  X (COMPARAR)
N 1 x

Análisis unidimensional

Medidas de forma: simetría

al “doblar”
por el eje de
simetría

COEFICIENTE DE ASIMETRÍA (DE FISHER) g1


I
 x i  x   ni
3

i 1

g1 X   N
S3X
Análisis unidimensional

12
Medidas de forma: simetría
Distribución asimétrica negativa
cola más larga a la izquierda de la moda
g1 (X)  0

Distribución simétrica

g1 (X)  0

Distribución asimétrica positiva


cola más larga a la derecha de la moda

g1 (X)  0

Análisis unidimensional

Medidas de forma: apuntamiento

COEFIENTE DE CURTOSIS (g2):


I
 ( x i  x)4 .n i
i 1

g 2 X   N 3
S4X

Leptocúrtica
g 2 (X)  0
Mesocúrtica
g2 (X)  0
Platicúrtica
g 2 (X)  0
Análisis unidimensional

13
Transformaciones lineales

Análisis unidimensional

Tipificación de variables

• Tipificación estándar.
Xx
Z con z  0 y SZ  1
SX
• Tipificación a media “m” y desviación típica “k”.
 X x
Z  k     m con z  m y Sz  k
 X 
S
UTILIDAD:
1.- Las variables pasan a ser adimensionales.
2.- Permiten comparar utilizando como distancia el número
de desviaciones típicas respecto a la media

Análisis unidimensional

14
Problema 1/33

Análisis unidimensional

Medidas de concentración

MEDIDAS DE CONCENTRACIÓN: CURVA DE


LORENZ E INDICE DE GINI.

Medidas de concentración  mayor o menor grado de


igualdad o equidistribución en el reparto total de los valores de la
variable objeto de estudio.

Representación gráfica  CURVA DE LORENZ.

Medida analítica  INDICE DE GINI.

Análisis unidimensional

15
Medidas de concentración

CURVA DE LORENZ

En el eje de abscisas se representa el


porcentaje acumulado de
frecuencias pi (NÚMERO DE
TRABAJADORES, EXPLOTACIONES
AGRARIAS, INDUSTRIAS…) a quienes
le corresponde, como mucho, el
valor xi de la variable.
En el eje de ordenadas el porcentaje
acumulado del volumen total de la
variable (INGRESOS, EXTENSION,
VOLUMEN DE VENTAS,…) qi que
corresponden a pi

Análisis unidimensional

Medidas de concentración

INDICE DE GINI

Es una medida cuantitativa de concentración. Es aproximadamente


el cociente entre el área comprendida entre la bisectriz del primer
cuadrante y la curva de Lorenz y el triángulo OPQ.

Puede utilizarse como aproximación la siguiente expresión:


I 1

( p  q ) i i
IG  i 1
I 1
0  IG  1
p
i 1
i

Análisis unidimensional

16
Medidas de concentración

RELACIÓN ENTRE LA CURVA DE LORENZ Y EL


ÍNDICE DE GINI

Mínima concentración Máxima concentración

IG  0 0  IG  1 IG  1

qi qi qi

pi pi pi

Análisis unidimensional

Medidas de concentración

Análisis unidimensional

17
Problema 3/45

masa a repartir masa ac. masa ac. % pob. Ac en %


i l (i-1) li xi ni Ni mi=xi*ni Mi qi=(Mi/M)*100 pi=(Ni/N)*100 pi -qi
1 0 8000 4000 10 10 40000 40000 5,25 20 14,75
2 8000 15000 11500 15 25 172500 212500 27,87 50 22,13

3 15000 25000 20000 20 45 400000 612500 80,33 90 9,67


4 25000 35000 30000 5 50 150000 762500 100,00 100
50 762500
160 46,56
I 1

( p  q ) i i
46.56
a) IG  i 1
I 1
  0.2909
p
160
i
i 1

Análisis unidimensional

b)
S. 50  25
20000  15000  K .10000
20
s / k  35 / 50  0.7

Luego lo superará 100-70 = 30 por cien.

Análisis unidimensional

18

También podría gustarte