Está en la página 1de 25

UNIDAD DIDÁCTICA 1

Estadística Descriptiva - Resumen


Probabilidades y Estadística I

Departamento de Inteligencia Artificial


ETS de Ingenieros Informáticos
Universidad Politécnica de Madrid
TEMA 1
El análisis estadístico de datos
Probabilidades y Estadística I

Departamento de Inteligencia Artificial


ETS de Ingenieros Informáticos
Universidad Politécnica de Madrid
Contenidos para el examen de UD1 3

TEMA 1. Análisis estadístico de datos


1. Objetivos de la Estadística Descriptiva
2. Variables y datos. Tipos de datos
3. Descripción de datos mediante tablas
4. Descripción de datos mediante gráficos
TEMA 2. Medidas características de una distribución de frecuencias
1. Introducción
2. Medidas de Centralización
3. Medidas de Dispersión
4. Medidas de Forma
5. Medidas de Relación
6. Representaciones gráficas. Diagrama de caja

Probabilidades y Estadística I
Objetivos de la Estadística Descriptiva 4

1. Recoger y organizar datos (observaciones)


2. Visualizar datos multivariantes
3. Esquematizar el comportamiento de los datos con
tablas, gráficos y dibujos
4. Resumir la información con unos pocos datos
representativos

Probabilidades y Estadística I
Variables y datos. Tipos de datos 5

Glosario de términos

1. Población (universo, colectivo)

2. Muestra Cuantificación Medida nominal


Cualitativo
3. Carácter Medida ordinal

Cuantitativo Medida de intervalo


Medida de razón

4. Modalidades
Discreta
5. Variables estadísticas Modalidades = Rango
Continua
6. Datos explícitos y datos implícitos (o agrupados)
Variables y datos. Tipos de datos 6

Medida Operaciones Requisitos Ejemplo.


posibles
Verificar la igualdad Posibilidad de Estado civil, sexo,
Nominal permutar
de dos modalidades nacionalidad
Caracteres modalidades
cualitativos
Verificar si una
Ordinal modalidad es mayor Mantenimiento del Gravedad de una
orden lesión
que otra
Comparar las
De intervalo diferencias entre dos Temperatura ºC,
Caracteres Unidad constante
modalidades hora, lat./long.
cuantitativos
Establecer razones Existencia de cero Temperatura K,
De razón entre modalidades absoluto peso, altura

Probabilidades y Estadística I
Tabla de frecuencias univariantes 7

Frecuencia Frecuencia absoluta Frecuencia Frecuencia relativa


Modalidad
absoluta acumulada relativa acumulada
x’1 n1 N1=n1 /
f1 = n1 n F1 = f 1

x’2 n2 N2=n 1 + n 2 f2 = n2/n F2= f1 + f2


... ... ... ... ...
i i
x’i ni Ni = ∑nj f1 = n i n/ Fi= ∑ fj
j =1 j =1

... ... ... ... ...

k n
x’k nk Nk = ∑n j fk = n k n/ Fk= ∑ fj =1
j =1 j =1
TOTALES n 1

¿En cuántas clases agrupar los datos?


O bien 𝑛𝑛 o bien 1 + 3,3 𝑙𝑙𝑙𝑙𝑙𝑙10 𝑛𝑛 (regla de Sturges, 1+log2n)
Descripción de datos mediante gráficos 8

• Válidos para datos nominales


– Diagrama de sectores
– Diagrama de barras
– Pictograma

• Válidos también para medidas ordinales


– Función de distribución escalonada
– Histograma y polígono de frecuencias
– Diagrama de tallo-hojas
– Función de distribución continua
Distribución de datos bidimensionales 9

Tabla de contingencia de frecuencias absolutas

nij≡ frecuencia absoluta


para el par 𝑥𝑥𝑖𝑖′ , 𝑦𝑦𝑗𝑗′

Tabla de contingencia de frecuencias relativas

fij≡ frecuencia relativa


𝑛𝑛𝑖𝑖𝑖𝑖
para el par 𝑥𝑥𝑖𝑖′ , 𝑦𝑦𝑗𝑗′ =
𝑛𝑛
Distribución conjunta, marginal y condicional 10

Distribución conjunta (de dos variables): es la que se obtiene al estudiar


simultáneamente dos variables. Frecuencia:

Distribución marginal (de una variable): es la que se obtiene al estudiar una


variable aisladamente con independencia de la otra (si son dos) o del resto (si son
más). Frecuencia marginal de X:

Distribución condicional (de dos variables): fijando el valor de una de las


variables y estudia el comportamiento de la otra.
Frecuencia relativa de la modalidad Xi de Frecuencia relativa de la modalidad Yj de Y
X condicionada a la modalidad Yj de Y condicionada a la modalidad Xi de X

El carácter o variable X es INDEPENDIENTE del


Conjunta = Marginal x Condicionada
carácter Y, si todas las distribuciones condicionadas
X|Yj (o X|Y=Yj) son idénticas, independientemente
del valor de j.
Histograma tridimensional 11

Histograma tridimensional

Diagrama de dispersión Gráfico de mosaico

área muestra
frecuencia

color representa
independencia
Probabilidades y Estadística I
Correlación no implica causalidad 12
TEMA 2
Medidas características de una
distribución de frecuencias
Probabilidades y Estadística I

Departamento de Inteligencia Artificial


ETS de Ingenieros Informáticos
Universidad Politécnica de Madrid
Moda 14

Sea X una variable estadística y {x’1,x’2,...,x’k} el conjunto finito de modalidades.


Sea {n1,n2,...,nk} su distribución de frecuencias absolutas y
{f1,f2,.…,fk} su distribución de frecuencias relativas. Se dice que x’p es la moda de
la serie cuando

np= max {n1,n2,...,nk}


fp= max {f1,f2,…,fk}
Si las clases no son homogéneas y tienen amplitud ci, entonces hay que evaluar
el cociente entre frecuencia y amplitud.
Para datos agrupados, se habla de intervalo modal.

Probabilidades y Estadística I
Mediana 15

Datos
explícitos

Sea x1, x2, ...., xn una serie de datos y sea x(1) ≤ x(2) ....≤ x(k) la serie ordenada
de menor a mayor.

 n +1
x
 ( j) si =j
2
M=
 x( j) + x( j+1) si j < n +1 < j + 1
 2 2
Datos
implícitos

Sea X una variable estadística y F(x) su función acumulativa de frecuencias


relativas. Se define la mediana como la solución de la siguiente ecuación
funcional
F(x) = ½

Probabilidades y Estadística I
Cálculo de la mediana por interpolación 16

y −y y −y x2 − x1
y = 2 1 x + y1 − 2 1 x1 x = x1 + ( y − y1 )
x2 − x1 x2 − x1 y2 − y1

Clases Marca Frec Frec. Frec Frec. 1


Abs Abs. Rel. Rel. 0,9
Acum Acum
0,8

[1.50,1.60] 1.55 1 1 0.03 0.03 0,7

0,6
(1.60,1.70] 1.65 6 7 0.15 0.18 0,5

0,4
(1.70,1.80] 1.75 20 27 0.51 0.69
0,3

0,2
(1.80,1.90] 1.85 12 39 0.31 1
0,1

0
Total 39 1 1,5 1,6 1,7 x 1,8 1,9 2

𝑛𝑛
− 𝑁𝑁 𝑖𝑖
Interpolando el intervalo mediano: Me = Li + 2
n𝑖𝑖+1
· c𝑖𝑖+1
39
−7
1,70+ 2
· 0,1 = 1,7625
20
Media aritmética 17

Datos
explícitos
La media es un operador lineal

x1 + x 2 + .... + x n
n

Datos
implícitos
k

k ∑ n x' i i
X = ∑ f i x' i = i =1

i =1 n

Probabilidades y Estadística I
Rango 18

Sea X una variable estadística y {x’1,x’2,...,x’k} el conjunto finito de


modalidades

Rg X = Max X − Min X

Probabilidades y Estadística I
Cuartiles, deciles, percentiles 19

Sea x1, x2, ...., xn una serie de datos y sea x(1) ≤ x(2) ....≤ x(k) la serie ordenada
de menor a mayor.
Datos
 i
 jx ( ) si j = (n + 1) explícitos
4
Qi = 
 x ( j ) + x ( j +1) si j < i (n + 1) < j + 1
 2 4

Sea X una variable estadística y F(x) su función acumulativa de frecuencias


relativas. Se define Qi como la solución de la siguiente ecuación funcional
Datos
F(x) = i/4 implícitos
25% 25%25% 25%
Un cuartil por tanto es un valor numérico.
Obsérvese que para ubicar un dato en el primer, segundo,
tercero y cuarto cuartiles, es necesario calcular tres cuartiles
(Q1, Q2, Q3)
Análogamente, para ubicar un dato en el primer, segundo,
etc. decil, es necesario calcular nueve deciles (D1, D2...D9)
min Q1 Q2 Q3 max
Cuartiles, deciles, percentiles en datos implícitos 20

Datos
implícitos

rn-N
Cuartiles: k = 4 , r = 1, 2, 3

i
k Deciles: k = 10 , r = 1, 2,..., 9
C r = Li + Ci+1
k ni+1 Percentiles: k = 100 , r = 1, 2,…, 99

r : orden del cuartil, k: nº de partes en que divide la distribución


Si (Li, Li+1) contiene el dato número r · n/k entonces:

• Ni frec. abs. acum del intervalo inmediatamente anterior

• ni+1 es la frec. absoluta del intervalo en cuestión

• Ci+1 es la amplitud del intervalo en cuestión

Probabilidades y Estadística I
Varianza 21

Varianza en datos implícitos


Varianza en datos explícitos Sea X una variable estadística y
Sea x1, x2, ...., xn una serie de datos {x’1,x’2,...,x’k} el conjunto finito de
( x1 − x ) 2 + ( x2 − x ) 2 + .... + ( xn − x ) 2 modalidades. Sea {f1,f2,…,fk} su
σ =
2

n distribución de frecuencias relativas.


k
Var X = ∑ f i ( x' i − x )
2

La varianza es un operador cuadrático i =1


Var (aX+b)= a2Var(X)
Coeficiente de variación
σ
CV =
La desviación típica o x
estándar es la raíz cuadrada
de la varianza.
k Modelo de mínimos
∑ f (x' − x )
2
σ =+ i i cuadrados
i =1 la media aritmética
minimiza la suma de las
desviaciones al cuadrado
respecto de ella.
Desigualdad de Tschebyschev 22

Desigualdad válida para cualquier distribución de datos

Dentro del intervalo (𝑋𝑋� − 𝑘𝑘𝜎𝜎, 𝑋𝑋� + 𝑘𝑘𝜎𝜎) sabemos que al


1
menos caen el 1 − 2 por ciernto de los datos
𝑘𝑘
(comoquiera que estos datos estén distribuidos)

Algunos resultados notables desigualdad Tschebyshev

( x − 2σ , x + 2σ ) contiene el 75% de los datos


( x − 3σ , x + 3σ ) contiene el 89% de los datos
Momentos y relaciones notables 23

Momentos Momento centrado en el origen:


𝑥𝑥1𝑟𝑟 𝑦𝑦1ℎ + 𝑥𝑥2𝑟𝑟 𝑦𝑦2ℎ + ⋯ + 𝑥𝑥𝑛𝑛𝑟𝑟 𝑦𝑦𝑛𝑛ℎ
𝑎𝑎𝑟𝑟,ℎ =
Momento centrado en la media: 𝑛𝑛
� 𝑟𝑟 (𝑦𝑦1 − 𝑌𝑌)
(𝑥𝑥1 − 𝑋𝑋) � ℎ +(𝑥𝑥2 − 𝑋𝑋)
� 𝑟𝑟 (𝑦𝑦2 − 𝑌𝑌)
� ℎ + ⋯ + (𝑥𝑥𝑛𝑛 − 𝑋𝑋)
� 𝑟𝑟 (𝑦𝑦𝑛𝑛 − 𝑌𝑌)
� ℎ
𝑚𝑚𝑟𝑟,ℎ =
𝑛𝑛

Relaciones notables Covarianza


𝑎𝑎10 = 𝑥𝑥 y 𝑎𝑎01 = 𝑦𝑦
Cov(X,Y)=𝑚𝑚11 = 𝑎𝑎11 − 𝑎𝑎10 𝑎𝑎01
𝑚𝑚10 = 𝑚𝑚01 = 0
𝑚𝑚20 = 𝜎𝜎�𝑋𝑋2 =Varianza de X Si Cov(X,Y)>0, Y crece cuando crece X
Si Cov(X,Y)<0, Y decrece cuando crece X
𝑚𝑚02 = 𝜎𝜎�𝑌𝑌2 =Varianza de Y Si Cov(X,Y)=0, no hay relación lineal

Otra manera de calcular varianza Coeficiente de correlación de Pearson


cov( X ,Y )
Var (X) = m2 = a2 – a1 2 ρ x ,y = −1 ≤ ρ x ,y ≤ 1
σ xσ y
Medidas de forma 24

La simetría de una distribución se puede


evaluar con el coeficiente de Fisher
n

m3 ∑ (x i − x)3
γ=
1 = i =1
σ3 nσ 3
simétrica. media=mediana
sesgada a la dcha. asimetría positiva γ1>0. media > mediana
sesgada a la izda. asimetría negativa γ1<0. media < mediana

El apuntamiento de una distribución se


puede evaluar con la curtosis
n

m4 ∑ (x i − x) 4
γ 2= 4
− 3= i =1
4
−3
σ nσ
γ2>0 γ2<0
Diagrama de caja 25

3×RI 3×RI
1.5×RI RI 1.5×RI

Barrera Barrera Q1 Q2 Q3 Barrera Barrera


externa interna interna externa
valor atípico valor atípico RI=rango intercuartílico
extremo leve =distancia entre Q1 y Q3
mínimo valor máximo valor
(no atípico) (no atípico)

También podría gustarte