Está en la página 1de 54

TEMA 1.

ESTADÍSTICA DESCRIPTIVA

1.1 Introducción: conceptos básicos


1.2 Tablas estadísticas y representaciones
gráficas
1.3 Características de variables estadísticas
unidimensionales
1.3.1 Características de posición
1.3.2 Características de dispersión
1.3.3 Características de forma
1.4 Concepto de v.e. bidimensional
1.5 Distribuciones marginales y
condicionadas
1.6 Covarianza
1.7 Dependencia e independencia estadística
1.8 Regresión y correlación. Introducción
1.9 Rectas de regresión
1.10 Coeficiente de determinación y
coeficiente de correlación lineal
1.11 Otros tipos de ajuste

1
™ 1.1. Introducción : conceptos básicos

¾ ESTADÍSTICA: “Estudio de los métodos de recogida


y descripción de datos, así como del análisis de esta
información”

™ Etapas de un estudio estadístico

1 Recogida de datos
2 Ordenación, tabulación y gráficos*
3 Descripción de características*
4 Análisis formal

* Estadística descriptiva: parte de la


estadística que se ocupa de las etapas 2 y 3

™ Individuo, Población, Muestra

¾ Población: “Conjunto de elementos a los que se les


estudia una característica”
¾ Individuo: “Cada uno de los elementos de la población”
¾ Muestra: “Subconjunto representativo de la población”

2
™ Variables estadísticas. Modalidades

¾ Variable estadística (v.e.): ”Característica propia


del individuo objeto del estudio estadístico”

Ejemplos:
- Estatura
- Peso
- Color del pelo
- Nivel de colesterol
- Nº de hijos de una familia

¾ Modalidad: “Cada una de las posibilidades o


estados diferentes de una variable estadística”
¾ Exhaustivas e incompatibles

Ejemplo:
color del pelo:
- castaño
- rubio
- negro

3
™ Tipos de variables estadísticas

¾ Cualitativas: Las características no son cuantificables

Ejemplos:
Profesión
Color del pelo

¾ Cuantitativas: Características cuantificables o numéricas

9 Discretas: Numéricas numerables

Ejemplos:
Nº de hijos
Nº de viviendas

9 Continuas: Numéricas no numerables

Ejemplos:
Talla
Peso
Nivel de colesterol
4
™ 1.2. Tablas estadísticas y representaciones
gráficas

¾ Variables discretas

9 Frecuencias
♦ Absolutas, ni (nº individuos modalidad i)
♦ Absolutas acumuladas, Ni = n1 + n2 + ... + ni
♦ Relativas, fi (proporcion indiv. modalidad i)
♦ Re lativas acumuladas, F i = f1 + f 2 + ... + fi

Absolutas, ni
xi ni Ni fi Fi
Absolutas
x1 n1 N1 f1 F1 acumuladas, Ni
... ... ... ... ...
xi ni Ni fi Fi
... ... ... ... ... Relativas
f i = ni / n
xk nk Nk fk Fk
n 1 Relativas
acumuladas
Fi = Ni / n
5
¾ Variables continuas: Intervalos

Intervalo Ii xi ni Ni fi Fi
eo- e1 x1 n1 N1 f1 F1
... ... ... ... ... ...
ei-1- ei xi ni Ni fi Fi
... ... ... ... ... ...
ek-1- ek xk nk Nk fk Fk
n 1

¾ Marca de clase xi (punto medio de cada intervalo)


¾ Amplitud ai (distancia entre los extremos)
¾ Extremos [ ... )

6
™ Gráficos estadísticos

¾ V. e. Cualitativas: Gráfico rectangular

Color Plumaje Nº de Aves (ni)


Negro 10
Gris 14
Blanco 20
Rojo 6
Violeta 4

20

10

Negro Gris Blanco Rojo Violeta

7
¾ V. e. Cualitativas: Gráfico de sectores

Color Plumaje Nº de Aves (ni)

Negro 10
Gris 14
Grados
Blanco 20 de cada
Rojo 6 sector = 360º fi

Violeta 4

violeta

rojo negro

gris
blanco

8
¾ V. e. Discretas: Gráfico de barras

Nº de crías Nº animales: n fi Fi
i
2 20 0.20 0.20
3 30 0.30 0.50
4 25 0.25 0.75
5 15 0.15 0.90
6 10 0.10 1
n = 100

35

30

25

20

15

10

0
2 3 4 5 6

9
¾ V. e. Discretas: Curva acumulativa
de distribución

Nº de crías Nº animales: n fi Fi
i
2 20 0.20 0.20
3 30 0.30 0.50
4 25 0.25 0.75
5 15 0.15 0.90
6 10 0.10 1
n = 100

1 •
0.90 •

0.75 •

0.50 •

0.20 •

2 3 4 5 6
10
¾ V. e. Continuas: Histograma

Estatura ni hi = ni / a i
140-160 30 1.5
160-170 22 2.2
170-180 20 2
180-190 18 1.8
190-200 10 1
100
hi
¾ “El área de
2.2 cada rectángulo
2 es proporcional
a la frecuencia”
1.8

1.5

140 160 170 180 190 200

11
¾ V. e. Continuas: Curva
acumulativa de distribución

Talla ni fi Fi
140-160 30 0.30 0.30
160-170 22 0.22 0.52
170-180 20 0.20 0.72
180-190 18 0.18 0.90
190-200 10 0.10 1
100

1
0.90

0.72

0.52

0.30

140 160 170 180 190 200

12
™ 1.3. Características de variables
estadísticas unidimensionales

^ 1.3.1 Características de Posición

™ Media aritmética
k
k ∑ ni xi
x = ∑ fi xi = i =1
i =1
n

Estatura Nº Personas M. Clase


ni xi nixi
140-150 20 145 2900
150-160 100 155 15500
160-180 80 170 13600
180-200 10 190 1900
n = 210 33900
k
∑ ni xi
Media : x = i =1
33900
= = 161.42
n 210
13
™ Moda

‰ Valor de la variable más frecuente


9 Puede haber más de una moda : Plurimodal

¾ Variables discretas

ƒ Datos en serie
2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3

ƒ Datos en tabla

W Ejemplo xi ni
1 34
2 36
3 45 Mo = 3
4 22
5 17

14
¾ Variables continuas

h i − h i −1
Mo = ei −1 +
(h i − h i−1 ) + (hi − h i+1 )
ai

W Ejemplo xi ni hi =ni / ai
140-160 30 1.5
160-170 22 2.2
170-180 20 2
180-190 18 1.8
190-200 10 1
100

Mo = 160 +
( 2.2 − 1.5) × 10 = 167.777
( 2.2 − 1.5) + ( 2.2 − 2 )

¾ Observaciones:
1. Puede utilizarse la frecuencia relativa
2. Si las amplitudes son iguales se puede proceder
directamente con las frecuencias

15
™ Mediana

‰ Valor de la variable que ocupa el lugar central en una


serie de datos ordenados.
ƒ El 50% de los elementos de la población tienen un valor
de la variable menor de la mediana. El 50% de los
elementos de la población tienen un valor de la variable
mayor.

¾ Variables discretas

ƒ Datos en serie

W Ejemplos

ƒ Nº impar de observaciones:

2, 2, 2, 3, 5, 6, 7, 7, 8 : Me = 5

ƒ Nº par de observaciones:

4, 6, 6, 6, 7, 8, 8, 9 : Me = 6 – 7
Indeterminado entre 6 y 7

16
¾ Variables discretas

ƒ Datos en tabla

W Ejemplo

xi ni Ni fi Fi n/2 =14
Fi= 1/2
0 4 4 0.142 0.142
1 6 10 0.214 0.357
2 10 20 0.357 0.714
3 5 25 0.178 0.892
4 3 28 0.107 1 Me = 2

28 1

¾ Observación: Si n/2 coincide con un Ni

la mediana está indeterminada entre xi y xi+1

17
¾ Variables continuas

n 1
− Ni −1 − Fi −1
Me = ei −1 + 2 ai = ei −1 + 2 ai
ni fi

W Ejemplo

Tallas ni Ni fi Fi n/2 = 50
Fi = 1/2
140-150 15 15 0.15 0.15
150-160 30 45 0.30 0.45
160-170 25 70 0.25 0.70
170-180 20 90 0.20 0.90
180-200 10 100 0.10 1
100

0.5 − 0.45
Me = 160 + × 10 = 160 + 2 = 162
0.25

¾ Observación: Si n/2 coincide con un Ni

la mediana es el extremo superior del intervalo que le


corresponde

18
™ Percentiles

‰ Definición: Pk, k:1,2,...,99, “percentil k”, valor de la


variable que deja por debajo, el k% de los valores de la
variable

Q1 = P25 → Cuartil 1º Cuantiles, aún


Q2 = P50 → Cuartil 2º = Me más general
Q3 = P75 → Cuartil 3º

D1 = P10 → Decil 1º
D2 = P20 → Decil 2º
….
D9 = P90 → Decil 9º

ƒ Cálculo para v.e. discretas:


Igual que la mediana, cambiando n/2 por nk/100

ƒ Cálculo para v.e. continuas:


nk k
− Ni−1 − Fi−1
Pk = ei −1 + 100 ai = ei−1 + 100 ai
ni fi

19
W Ejemplos percentiles v.e. discreta

xi ni Ni
2 20 20 nk/100 =
3 30 50 124x40/100 = 49.6
4 44 94
5 20 114 nk/100 =
6 10 124 124x95/100 = 117.8
124

Percentil 40, P40 = 3 Percentil 95, P95 = 6

nk/100 = Percentil 25, P25 = 3 = Q1


124x25/100 = 31

nk/100 = Percentil 50, P50 = 4 = Me = Q2


124x50/100 = 62

nk/100 = Percentil 75, P75 = 4 = Q3


124x75/100 = 93

20
W Ejemplos percentiles v.e. continua

Tallas ni Ni fi Fi
140-150 15 15 0.15 0.15
P40
150-160 30 45 0.30 0.45
160-170 25 70 0.25 0.70
P75
170-180 20 90 0.20 0.90
180-200 10 100 0.10 1
100

nk k
− Ni −1 − Fi −1
Pk = ei −1 + 100 ai = ei −1 + 100 ai
ni fi

40 − 15 0.4 − 0.15
P40 = 150 + ×10 = 150 + ×10 = 158.33
30 0.30

75 − 70 0.75 − 0.70
P75 = 170 + ×10 = 170 + ×10 = 172.5 = Q3
20 0.20

21
^ 1.3.2. Características de Dispersión

9 “Miden la Homogeneidad de las observaciones”

™ Rango o recorrido

¾ Valor máximo menos valor mínimo de la variable

™ Recorrido intercuartílico

¾ Q3 – Q1

22
™ Varianza

k k
( )
2
∑ ni x i − x ∑ ii
n x 2

2
σ 2 = i =1 = i =1 −x
n n

™ Desviación típica

σ = σ2

™ Coeficiente de variación

σ
C. V . =
x

23
W Ejemplo

xi ni nixi nixi2
4 20 80 320
6 40 240 1440
8 44 352 2816
10 36 360 3600
12 22 264 3168
162 1296 11344

k
∑ ni x i 2 2
11344  1296 
σ 2 = Var [ X ] = i =1
2
−x = −  = 6.02
n 162  162 

σ = σ 2 = 6.02 = 2.4535

24
™ Momentos no centrales (Respecto al origen)

k
k ∑i i n x r

m r = ∑ fi x i r = i =1
n
i =1

k
k ∑ ni xi
r = 1 → m1 = ∑ fi xi = i =1 =x
i =1
n

k
k ∑ ii
n x 2

r = 2 → m 2 = ∑ fi xi 2 = i =1
n
i =1

k
∑ii
n x 2

( )
2 2
σ 2
= i =1 − x = m 2 − m1
n

25
™ Momentos centrales (Respecto a la media)

k
∑ ni ( x i − x )
r

µ r = i =1
n

k
∑ ni ( x i − x )
r = 1 → µ1 = i =1 =0
n

k
∑ ni ( x i − x )
2

r = 2 → µ 2 = i =1 =σ2
n

26
^ 1.3.3 Características de forma

™ Coeficiente de Sesgo (Asimetría)

µ3
γ1 =
σ3

y Si γ 1 = 0 ⇒ Distribución simétrica

y Si γ 1 > 0 ⇒ Distribución sesgada a la derecha

y Si γ 1 < 0 ⇒ Distribución sesgada a la izquierda

27
™ Coeficiente de Curtosis (Aplastamiento)

µ4
γ2 = 4
−3
σ

Distribución igual de aplastada


y Si γ2 =0 ⇒
que la distribución Normal

Distribución menos aplastada


y Si γ2 >0 ⇒
que la distribución Normal

y Si γ 2 < 0 ⇒ Distribución más aplastada que


la distribución Normal

28
™ 1.4 Concepto de variable estadística
bidimensional

W Ejemplo . X: “Peso”, Y: “Estatura”

X\Y 140-160 160-180 180-200 >200 Marginal


X
40-60 10 6 2 0 18
60-80 8 12 6 2 28
80-100 1 8 10 6 25
Marginal 19 26 18 8 71
Y

9 Frecuencias Marginales
Frecuencias Marginales de X
Frecuencias Marginales de Y

9 Frecuencias Condicionadas
Frecuencias Condicionadas de X
Frecuencias Condicionadas de Y

29
™ 1.5 Distribuciones marginales y
condicionadas

¾ Distribución marginal de X

W Distribución de la variable X: “Peso”

X \Y 140-160 160-180 180-200 >200 Marginal


X
40-60 10 6 2 0 18
60-80 8 12 6 2 28
80-100 1 8 10 6 25
Marginal 19 26 18 8 71
Y

30
¾ Distribución marginal de X

W Distribución de la variable X: “Peso”

X Frecuencias
Marginales
40-60 18
60-80 28
80-100 25
71

9 Media Marginal de X

9 Mediana Marginal de X

9 Moda Marginal de X

9 Varianza Marginal de X

31
¾ Distribución marginal de Y

W Distribución de la variable Y: “Estatura”

X\Y 140-160 160-180 180-200 >200 Marginal


X
40-60 10 6 2 0 18

60-80 8 12 6 2 28
80-100 1 8 10 6 25
Marginal 19 26 18 8 71
Y

32
¾ Distribución marginal de Y

W Distribución de la variable Y: “Estatura”

Y Frecuencias
Marginales
140-160 19
160-180 26
180-200 18
>200 8
71

9 Media Marginal de Y

9 Mediana Marginal de Y

9 Moda Marginal de Y

9 Varianza Marginal de Y

33
¾ Distribuciones de X
condicionadas a valores de Y

W Ejemplo . Distribución de X
condicionada a 160 < Y < 180

X\Y 140-160 160-180 180-200 >200 Marginal


X
40-60 10 6 2 0 18
60-80 8 12 6 2 28
80-100 1 8 10 6 25
Marginal 19 26 18 8 71
Y

34
W Ejemplo . Distribución de X
condicionada a 160 < Y < 180

X Frecuencias
condicionadas
40-60 6
60-80 12
80-100 8
26

9 Medias condicionadas de X

9 Varianzas condicionadas de X

35
¾ Distribuciones de Y
condicionadas a valores de X

W Ejemplo . Distribución de Y
condicionada a 60 < X < 80

X\Y 140-160 160-180 180-200 >200 Marginal


X
40-60 10 6 2 0 18

60-80 8 12 6 2 28
80-100 1 8 10 6 25
Marginal 19 26 18 8 71
Y

36
W Ejemplo . Distribución de Y
condicionada a 60 < X < 80

Y Frecuencias
condicionadas
140-160 8
160-180 12
180-200 6
>200 2
28

9 Medias condicionadas de Y

9 Varianzas condicionadas de Y

37
™ 1.6 Covarianza

∑∑ n ij ( xi − x )( y j − y )
Cov [ X , Y ] = σ x y =
i j
=
n

∑∑ nij xi y j
i j
= −x y
n

38
™ 1.7 Dependencia e
independencia estadística

¾ Independencia estadística
ƒ No hay relación entre las variables

n i.n. j
Si n ij = ∀ i, j
n

¾ Dependencia estadística
ƒ Hay relación entre las variables

El grado de relación se mide mediante


un coeficiente de asociación

39
W Ejemplo. Variables X e Y independientes

X\Y Y1 Y2 Y3 Y4 ni ^
X1 n11 n12 n13 n14 n1 ^
=2 =6 =4 =8 = 20
X2 n21 n22 n23 n24 n2 ^
=3 =9 =6 = = 30
12
X3 n31 n32 n33 n34 n3 ^
=1 =3 =2 =4 = 10
n ^j n ^1 n ^2 n ^3 n ^4 n
=6 = 18 = 12 = = 60
24
Independencia estadística
ni. n. j
Si nij = ∀ i, j
n
n 2. n.3 30 × 12
n 23 = = =6
n 60
n 3. n.1 10 × 6
n 31 = = =1
n 60
40
W Ejemplo. Variables X e Y no independientes

X\Y Y1 Y2 Y3 Y4 ni ^

X1 n11 n12 n13 n14 n1 ^


=3 =6 =4 =8 = 21
X2 n21 n22 n23 n24 n2 ^
=3 = 10 =6 = = 31
12
X3 n31 n32 n33 n34 n3 ^
=1 =3 =2 =4 = 10
n ^j n ^1 n ^2 n ^3 n ^4 n
=7 = 19 = 12 = = 62
24

Independencia estadística
ni. n. j
Si nij = ∀ i, j
n 2. n.3
n
31 × 12
n 23 = = =6
n 62
n 3. n.1 10 × 7
n 31 ≠ = = 1.129 ≠ 1
n 62
41
W Ejemplo. Dependencia Funcional

™ .- Dadas las siguientes distribuciones bidimensionales:


1. ¿Son independientes las variables X e Y?
2. ¿Dependen funcionalmente las variables X e Y?
a. X\Y 10 15 20
1 0 3 0
2 1 0 0
3 0 0 5
4 0 1 0
b. X\Y 10 15 20 25
1 0 3 0 4
2 0 0 1 0
3 2 0 0 0
c. X\Y 10 15 20
1 0 5 0
2 3 0 0
3 0 0 2
d. X\Y 10 15 20
1 3 2 0
2 1 0 2
3 0 1 1

42
1. ¿Son independientes las variables X e Y?
a.
X\Y 10 15 20 Marginal X
1 0 3 0 3
2 1 0 0 1
3 0 0 5 5
4 0 1 0 1
Marginal Y 1 4 5 10

n 1. n.2 3× 4
n12 ≠ = = 1.2 ≠ 3
n 10
Las variables X e Y no son independientes

b.
X\Y 10 15 20 25 Marginal X

1 0 3 0 4 7
2 0 0 1 0 1
3 2 0 0 0 2
Marginal Y 2 3 1 4 10

n 2. n.3 1×1
n 23 ≠ = = 0.1 ≠ 1
n 10
Las variables X e Y no son independientes

43
1. ¿Son independientes las variables X e Y?
c.
X\Y 10 15 20 Marginal X

1 0 5 0 5
2 3 0 0 3
3 0 0 2 2
Marginal Y 3 5 2 10

n 1. n.1 5×3
n11 ≠ = = 1.5 ≠ 0
n 10
Las variables X e Y no son independientes

d.
X\Y 10 15 20 Marginal X

1 3 2 0 5
2 1 0 2 3
3 0 1 1 2
Marginal Y 4 3 3 10

n 2. n.1 3× 4
n 21 ≠ = = 1.2 ≠ 1
n 10

Las variables X e Y no son independientes

44
2. ¿Dependen funcionalmente las variables X e Y?
a.
X\Y 10 15 20
1 0 3 0
2 1 0 0
3 0 0 5
4 0 1 0

Y Depende funcionalmente de X

X No Depende funcionalmente de Y

b.
X\Y 10 15 20 25
1 0 3 0 4
2 0 0 1 0
3 2 0 0 0

Y No Depende funcionalmente de X

X Depende funcionalmente de Y

45
2. ¿Dependen funcionalmente las variables X e Y?

c.
X\Y 10 15 20
1 0 5 0
2 3 0 0
3 0 0 2

X Depende funcionalmente de Y

Y Depende funcionalmente de X

d.
X\Y 10 15 20
1 3 2 0
2 1 0 2
3 0 1 1

X No Depende funcionalmente de Y

Y No Depende funcionalmente de X

46
™ 1.8 Regresión y correlación.
Introducción

™ Regresión

¾ Búsqueda de una función que relacione ambas variables


y sirva para predecir una variable a partir de la otra
y = f(x)

™ Correlación

¾ Estudio del nivel de relación entre las variables

9 Nube de puntos (diagrama de dispersión): gráfico


de las observaciones (datos bidimensionales)

9 Línea o función de regresión: tipo de función que


mejor se ajuste a la nube de puntos:
_ Lineal ; Cuadrática; Exponencial…

47
™ 1.9 Rectas de regresión

™ Recta de mínimos cuadrados de Y / X

Y * y = a + bx
*
*
yj * (xi, yj* )
eij
*
*
yj * (xi, yj )
* *
X
xi

Residuos = eij = y j − ( a + bxi )

( )
2
min ∑∑ eij = min ∑∑ 2
yj − yj * =
i j i j

( )
2
= min ∑∑ y j − ( a + bxi )
i j

Ecuaciones normales

48
™ Recta de mínimos cuadrados de Y / X

y = f ( x) = a + b x

∑ ni x i yi − x y
Cov [ X , Y ] σ xy n
b= = =
Var [ X ] σx 2
∑ ni x i 2 2
−x
n
a = y − bx

(
y− y =b x−x )

b = coeficiente de regresión de Y / X
“Variación de Y si X aumenta en una unidad”

49
™ Recta de mínimos cuadrados de X / Y

x = f ( y) = c + d y

∑ ni x i yi − x y
Cov [ X , Y ] σ xy n
d= = =
Var [Y ] σy 2
∑ ni y i 2 2
−y
n
c = x−d y

(
x−x=d y− y )

d = coeficiente de regresión de X / Y
“Variación de X si Y aumenta en una unidad”

50
™ 1.10 Coeficiente de determinación y
coeficiente de correlación lineal

™ Coeficiente de determinación

¾ “Proporción de la varianza explicada por la regresión”

2
σ xy
r2 = ; 0 ≤ r2 ≤ 1
σ x2 σ y2

™ Coeficiente de correlación lineal de Pearson

σ xy
r= ; −1 ≤ r ≤ 1
σ xσ y

r = 0 ⇔ Independencia
r > 0 ⇔ Dependencia directa
r < 0 ⇔ Dependencia inversa
r = ± 1 ⇔ Dependencia funcional lineal

51
W Ejemplo. X= “Estatura”, Y= “Peso”

xi yi x i yi x2i y 2i
160 52 8320 25600 2704
172 64 11008 29584 4096
174 65 11310 30276 4225
176 72 12672 30976 5184
180 78 14040 32400 6084

Σ=862 Σ= 331 Σ= 57350 Σ= 148836 Σ= 22293

862 331
x= = 172.4 ; y= = 66.2
5 5

σ xy =
∑ n i x i yi
− xy =
57350
− 172.4 × 66.2 = 57.12
n 5

σx 2
=
∑ n x
i i
2
2 148836
−x = − 172.42 = 45.44
n 5

σy = 2 ∑ i i
n y 2
−y =
2 22293
− 66.22 = 76.16
n 5

52
y = a + bx

Cov [ X , Y ] σ xy 57.12
b= = = = 1.257
Var [ X ] σ x2 45.44

a = y − bx = 66.2 − 1.257 × 172.4 = −150.5068

y = a + b x = −150.5068 + 1.257 x

Para x = 170 ⇒
y = a + bx = −150.5068 + 1.257 × 170 = 63.1832

σ xy 57.12
r= = = 0.9708
σx σy 45.44 76.16

53
™ 1.11 Otros tipos de ajuste

¾ Parabólico y = ax 2 + bx + c

¾ Exponencial y = a bx

¾ Potencial y = a xb

a
¾ Hiperbólico y=
x

54

También podría gustarte