Está en la página 1de 18

Técnicas Estadísticas de Análisis de Datos

• Descripción de datos. Estadísticos de una variable


• Distribuciones de probabilidad e intervalos de confianza
• Contrastes de hipótesis. Tipos
• Relaciones entre atributos
• Nominales- Numéricos: Tests de comparación de medias (muestras
dependientes e independientes) y análisis de varianza.
• Numéricos - Numéricos: Análisis de Regresión
• Nominales-Nominales: Tablas de Contingencia. Tests de
independencia y comparación de proporciones.
• Aplicación de técnicas estadísticas a la clasificación
• Clasificación mediante regresión numérica
• Clasificador bayesiano

Técnicas Clásicas de Análisis de Datos 1

Análisis de una variable (muestra de datos)


• Estadísticos: resumen (describen) toda la información contenida
en una muestra de datos :
• Variables continuas
• medidas centrales (media, moda, mediana)
• medidas de dispersión (rango, varianza, desviación
estándar, percentiles)
• medidas de forma (histograma)
• Variables nominales
• frecuencias relativas (probabilidades), moda
• media y varianza de probabilidad estimada
• Muestra: yi; i =1…n; toma valores en un rango continuo/discreto

Técnicas Clásicas de Análisis de Datos 2

1
Estadísticos centrales
• Media (esperanza) muestral: promedio de todos los valores
1 n
media ( y) = y =
∑ yi
n i =1
• Moda: valor que aparece más veces
• Mediana: valor que deja el mismo número de casos a ambos
lados

( )
mediana ( y) = yi | N º casos y j ≤ yi = N º casos ( y k ≥ yi )

• equivale a ordenar el vector de datos y tomar el valor


central
• menos sensible frente a valores extremos poco probables

Técnicas Clásicas de Análisis de Datos 3

Estadísticos de dispersión
• Recorrido (intervalo, o rango):
max(yi)-min(yi)
• Varianza: promedio de desviaciones con respecto a valor medio
1 n 2 1 n 2 2
Var ( y ) = ∑ ( yi − y) =  ∑ y i − ny 
n − 1 i =1 n − 1  i =1 
• Desviación estándar (típica): raíz cuadrada de la varianza
desv ( y ) = σ y = Var ( y )
media, sigma

14
12
10
8 Datos
valor

6 valor medio
4 valor medio+sigma
2 valor medio - sigma
0
-2 0 10 20 30 40
-4
muestra

Técnicas Clásicas de Análisis de Datos 4

2
Histograma
Estimación de la distribución de densidad de probabilidad:
frecuencia absoluta o relativa de valores de yi por unidad de intervalo

histograma normal

140
120

frecuencia absoluta
100
80
60
40
Nº de casos en intervalo
20
0
-3 -2,4 -1,8 -1,2 -0,6 0 0,6 1,2 1,8 2,4 3
y

intervalos de clase
La suma total de frecuencias absolutas es el número de datos
La suma de frecuencias relativas es 1
Técnicas Clásicas de Análisis de Datos 5

Ejemplo: histograma de variable uniforme


his togram a

140
120
100
80
his togram a
60
40
20
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

acum ulado

1.2
1
0.8
0.6 acum ulado
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1

Técnicas Clásicas de Análisis de Datos 6

3
Cuantiles del histograma
• Cuantil: valores que dividen el recorrido de datos en k partes de la
misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.)
• Ejemplo: cuartiles frecuencia

80
porcentaje cuartiles 60

alumnos
Calificación 0,25 1,4 40
2,8 0,5 2,725 20
0,6 0,75 4 0
5 1 7,7
3,1 0 1 2 3 4 5 6 7 8 9 10
3,9 calificación
4,9
1
0 Recorrido inter-cuartílico:
6,55
... [1.4, 4]: contiene 50% datos Cuartil 1 Cuartil 3
Cuartil 2 Cuartil 4

Técnicas Clásicas de Análisis de Datos 7

Estadísticos de variable nominal


• yi nominal: toma valores de un conjunto discreto (categorías): {vi1, …, viki}
• Distribución de frecuencias de cada valor
p 1 =100(n1 / n)%
p2 = 100(n2 / n)%
M
pki = 100(nki / n)%
ki
n = ∑nj
j =1

• Moda: valor que aparece más veces


max (n j )
j

Técnicas Clásicas de Análisis de Datos 8

4
Media y varianza de frecuencias estimadas
• Cálculo de cada frecuencia
• para una categoría dada: m casos de n
p=m/n
• puede verse como asignar: vi=1 cada ejemplo en la categoría
1 n vi=0 en el resto
p = ∑ vi
n i =1

• Varianza de p:
1 n 2
Var (p) = ∑ ( vi − p) = p(1 − p)
n i =1
σ p = p(1 − p)

• caso máxima varianza: p=0.5

Técnicas Clásicas de Análisis de Datos 9

Ejemplo variable nominal y numérica


Edad Sexo
23 M 60
25 M
18 H 50
37 M
40
porcentaje

45 H
62 H 30
43 M
20
40 H
60 M 10
54 H
28 H 0
18 H H M
54 M sexo
29 H
42 M
26 M 120
32 M
41 M 100
37 M 80
porcentaje

36 H frecuencia
53 H 60
acumulada
21 M
40
24 H
21 H 20
45 M
64 H 0
22 M 18 25 35 45 55 65
61 M edad
37 M
66 M

Técnicas Clásicas de Análisis de Datos 10

5
Distribución Normal
• Curva de gran interés por explicar datos en muchas situaciones
• Aplicada por primera vez como distribución por A. Quetelet (1830)
1  1 
f (z) = exp − z 2 
2π  2 
• distribución simétrica: coincide media y mediana en 0
• se dispone del valor de la distribución de probabilidad: área bajo la curva
de fZ(z) para cualquier valor:
z FZ (z) Tipificar o estandarizar variables: Se
-3 0.001349967 mide el desplazamiento respecto a la
-2.5 0.00620968
-2 0.022750062 media en unidades de desviación típica:
-1.5 0.066807229
y −y
zi = i
-1 0.15865526
-0.5 0.308537533
0 0.5 f(z) F(z0) σi
0.5 0.691462467
1 0.84134474 2

1.5 0.933192771
2 0.977249938
2.5 0.99379032
0
-5 -4 -3 -2 -1 0 1 3
z
3 0.998650033 z0
Técnicas Clásicas de Análisis de Datos 11

Distribución Normal e Intervalos de Confianza


f(z) F(z0) f(z) F(z0)

-3 -2 -1 0 1 3 -3 -2 -1 0 1 3 z

Una cola (unilateral) Simétrico dos colas (bilateral)

• Ej.: se conocen parámetros de una población con distribución normal:


media: µ= 115; desviación típica:σ= 20
• ¿casos inferiores a 70? z=(70-115)/20, F(z)=0,012
• ¿casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04
• ¿en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667
• ¿qué intervalos simétrico tienen el 80%, 95% de los casos
(intervalos de confianza)? z=F-1(α/2); y=µ±zσ
• 80%: z0.1=1,28; 115± z0.1*20=[89.3, 140.6]
• 95%: z0.025=1,96; 115± z0.025*20=[75.8, 154.2]

Técnicas Clásicas de Análisis de Datos 12

6
RELACIONES DE VARIABLES. TEST DE HIPOTESIS

ANÁLISIS DE VARIAS VARIABLES

• Objetivo: analizar la interrelación (dependencia) entre los valores de distintas


variables, haciendo uso de los datos disponibles
• Numéricas (retardo, carga, distancia,…)
• Nominales (tipo de avión, condición visibilidad, …)
• Herramienta de análisis: tests de hipótesis
• Numéricas-numéricas: análisis de regresión y covarianza
• Nominales-nominales: tablas de contingencia
• Nominales-numéricas: comparación de medias, análisis de varianza

Técnicas Clásicas de Análisis de Datos 13

ANÁLISIS ESTADÍSTICO DE DATOS


ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA
• Permite identificar relaciones entre variables numéricas y construir modelos de
regresión
• Se consideran relaciones de una variable de salida (dependiente) con múltiples
variables de entrada (independientes)
• Estimación de una función (Regresión Lineal) que mejor “explique” los datos

r r r
{( X1, y1), (X 2 , y 2 ),..., (X n , y n )}
r
X : vectores con M dimensiones
g(.) : R M 
→ R
r r
X  → ŷ = g(X)

Técnicas Clásicas de Análisis de Datos 14

7
Mínimos Cuadrados
• Estima vector de coeficientes que minimiza error
r I r r
ŷi = g i (X) = a 0 + ∑ a p x p =(A t ) * X
p =1
r r
( A ) = [a 0 a1 L a I ]t ; X = [1 x1 L x I ]t
• Objetivo: dadas N muestras, determinar coeficientes que
minimicen el error de predicción global
n r 2
ε = ∑ [g ( X j ) − y j ]
j=1
• El método de mínimos cuadrados selecciona, como estimación de
la recta de regresión poblacional, aquella para la cual esta suma
de cuadrados es menor.
• Problema clásico de minimización de función cuadrática: solución
única
Técnicas Clásicas de Análisis de Datos 15

Mínimos Cuadrados
• Solución genérica matricial
 1 1
 ŷ1   g (X1)  1 x1 L x I 
r
 y1 
r       1 x 2 L x 2  r r
I A = H*A
y =  M ; ĝ =  M  =  M  =  1

y N  rN  M M
 ŷ N  g (X M M 
) 
      1 x N L x N 
 1 I 

• Solución MC:
r
A = [ H t H ]−1 H t y
r
[(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1]

Técnicas Clásicas de Análisis de Datos 16

8
Ejemplo: regresión lineal de 1 variable

Año Renta Consumo consumo E Estimación Lineal


1970 1959,75 1751,87 1683,473374 a1 a0
1971 2239,09 1986,35 1942,43325 0.927041871 -133.296932
1972 2623,84 2327,9 2299,11261
1973 3176,06 2600,1 2811,043671
1974 3921,6 3550,7 3502,190468
1975 4624,7 4101,7 4153,993607
1976 5566,02 5012,6 5026,63666
ConsumoE = a 0 + a1 * Re nta
1977 6977,84 6360,2 6335,452914
1978 8542,51 7990,13 7785,967518
1979 9949,9 9053,5 9090,676976
1980 11447,5 10695,4 10479,01488
1981 13123,04 12093,8 12032,31062
1982 15069,5 12906,27 13836,76054
1983 16801,6 15720,1 15442,48976
1984 18523,5 17309,7 17038,76316

Técnicas Clásicas de Análisis de Datos 17

Ejemplo: regresión lineal de 1 variable

dependencia consumo
20000

15000
consumos

Consumo
10000
consumo E

5000

0
0 5000 10000 15000 20000
renta

Técnicas Clásicas de Análisis de Datos 18

9
Ejemplo: regresión lineal de 2 variables

x1 x2 y Valor Estimación Lineal


a2 a1 a0
Superficie Antigüedad Valor predicho
-220.444829 58.2271936 95538.7217
310 20 106,287 Euros 109,180 Euros
333 12 107,784 Euros 112,283 Euros
356 33 113,024 Euros 108,993 Euros
379 43 112,275 Euros 108,128 Euros Valor = a 0 + a1* Superficie +
402 53 104,042 Euros 107,262 Euros
425 23 126,497 Euros 115,215 Euros a 2 * Antigüedad
448 99 94,311 Euros 99,800 Euros
471 34 106,961 Euros 115,469 Euros
494 23 122,006 Euros 119,233 Euros
517 55 126,497 Euros 113,518 Euros
540 22 111,527 Euros 122,132 Euros

Técnicas Clásicas de Análisis de Datos 19

Ejemplo: regresión lineal de 2 variables

valores predichos

140000
150000
120000

100000
100000
valor (euros)

80000

60000
50000
540

40000
494
540

448
494

20000
402
448

0
402

356

0
10

30

50

70

90
356

310

10 20 30 40 50 60 70 80 90 100 110
310

superficie (m 2)
antigüedad (a)

Técnicas Clásicas de Análisis de Datos 20

10
Evaluación del modelo de regresión

Análisis de validez del modelo asumido:


• Medidas de “parecido” entre variable de salida estimada y real,
influencia de variables de entrada
– Factor de Correlación
– Error de predicción
• Análisis de “calidad” del modelo
– Error en coeficientes
– Hipótesis de significatividad de parámetros: t-Student

A1 AF
,..., ?
σ A1 σAF

N(0,1) α/2

-4 -3 -2 -1 0 1 2 3

Técnicas Clásicas de Análisis de Datos 21

Factor de correlación
• Factor de correlación entre datos y predicciones:
n
1 Cov ( ŷ , y )
Corr ( ŷ , y ) =
S ŷ S y
∑ ( ŷ
j=1
j − ŷ )( y j − y ) =
Var ( ŷ ) Var ( y )

• El factor de correlación varía entre -1 y 1.


• En general, se puede hacer factores de correlación entre cualquier par
de variables numéricas: indica el grado de relación lineal existente.
• -1: existe asociación lineal negativa perfecta.
• 1 positiva perfecta.
• 0 no hay asociación lineal.

Técnicas Clásicas de Análisis de Datos 22

11
Matrices de covarianza y correlación
r r r
Muestra de vectores aleatorios: {X1 , X 2 ,..., X n }
• Matriz de covarianzas:
r 1 n r
µˆ = ∑ Xi
n i =1  var(x1 ) cov(x1, x 2 ) L cov(x1, x 2 )
n r r cov(x , x ) var(x1) 
1 r r t
r = ∑ (X − µˆ )(X − µˆ ) =  1 2 
Ĉ X i i
n i =1  M O M 
 cov(x , x ) L var(x I ) 
 1 I

• La matriz de correlaciones es similar, normalizada

Técnicas Clásicas de Análisis de Datos 23

ANÁLISIS ESTADÍSTICO DE DATOS


ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NOMINAL

• Mide la relación entre variables numéricas y nominales, o nominales y


nominales (proporciones)
• Analiza las diferencias de medias condicionadas a variable nominal:
impacto de la variable nominal sobre la continua
Variación E
• Dos tipos de análisis:
• Con dos medias o proporciones: Variación NE
significatividad de la diferencia t-
student
y
• Más de dos valores distintos: Y1 Y2 Y3
Análisis de Varianza
Y

Técnicas Clásicas de Análisis de Datos 24

12
1. Comparación de dos medias
• Se plantea como un test de hipótesis, dividiendo los datos en dos grupos,
cada uno con su media y varianza.
• Hipótesis sobre diferencia de medias: D = y1 − y2
• H0: la diferencia de medias en la población es nula D=0.
• Hipótesis alternativa A: las medias son distintas: D!=0.
• Hipótesis alternativa B: la media de 1 es mayor que 2: y1 > y2
• Hipótesis alternativa C: la media de 1 es menor que 2: y1 < y2
• Situaciones posibles:
• Muestras independientes: conjuntos distintos.
• Muestras dependientes: mismo conjunto, con dos variables a
comparar en cada ejemplo.

Técnicas Clásicas de Análisis de Datos 25

Contrastes de dos medias


• Hipótesis alternativa A

α/2=0.025 α/2=0.025
-3 3

z=−1.96 z=+1.96

• Hipótesis alternativa B:

α=0.05
0 .4

-3 3

0 .3 5

z=−1.65 0 .3

0 .2 5

• Cuando las muestras son pequeñas no es 0 .2

válida la hipótesis de normalidad de los


0 .1 5

0 .1

estadísticos de medias 0 .0 5

y ± t α / 2 ,GL σ
0
-5 -4 -3 -2 -1 0 1 2 3 4 5

Técnicas Clásicas de Análisis de Datos 26

13
2. Análisis de varianza (ANOVA)
Variación Explicada
Niveles Observaciones
1 Y11,Y12,...Y1j,...Y1n1
... ... Variación No
i Yi1,Yi2,...Yij,...Yini Explicada
... ...
I YI1,YI2,...YIj,...YInI y
Y1 Y2 Y3
I
• Número total de elementos: n = ∑ ni Y
i =1
1 I
• Media por nivel: Yi = ∑ Yij
n i i =1 variación explicada:
1 I ni variabilidad entre grupos
• Media total: Y = ∑ ∑ Yij
n i =i j=1 variación no explicada
(residual): variabilidad
• Relación entre “cuadrados”: dentro de los grupos
M ni M ni M

∑∑ (Y
i =i j=1
ij −Y ) 2 = ∑∑ (Yij −Yi ) 2 + ∑ n i ( Yi − Y ) 2
i =i j=1 i =1

Técnicas Clásicas de Análisis de Datos 27

ANÁLISIS ESTADÍSTICO DE DATOS


ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NOMINAL

• Analiza la interrelación entre los valores de variables nominales según distribución


de casos
• Herramienta para dos variables: tabla de contingencia
• distribución de casos (frecuencias) para las distintas combinaciones de
valores de las dos variables
variable 2 totales 1 Probabilidades
variable 1 valor 1 valor 2 ... valor p2 marginales:
valor 1 n11 n12 ... n1p2 t1
Pi=ti/t
valor 2 n21 n22 ... n2p2 t2
... ... ... ... ... ...
valor p1 np11 np12 ... np1p2 tp1
totales 2 t'1 t'2 ... t'p2 t
Casos “esperados”

Probabilidades marginales: Eij=t(ti/t)(t’j/t)= tit’j/t


Técnicas Clásicas dePjAnálisis
=t’j/t de Datos 28

14
Relación entre variables nominales-nominales
• Objetivo: analizar la interrelación (dependencia) entre los valores
de variables nominales
• Herramienta para dos variables: tabla de contingencia
• distribución de casos (frecuencias) para las distintas
combinaciones de valores de las dos variables
variable 2 totales 1 Probabilidades
variable 1 valor 1 valor 2 ... valor p2 marginales:
valor 1 n11 n12 ... n1p2 t1
Pi=ti/t
valor 2 n21 n22 ... n2p2 t2
... ... ... ... ... ...
valor p1 np11 np12 ... np1p2 tp1
totales 2 t'1 t'2 ... t'p2 t
Estimación del nº
esperado de
Probabilidades marginales: observaciones
Pj=t’j/t
Eij=t(ti/t)(t’j/t)= tit’j/t
Técnicas Clásicas de Análisis de Datos 29

Contraste Chi-2 de variables nominales


• Es aplicable en análisis bi-variable (normalmente clase vs atributo)
• Determina si es rechazable la hipótesis de que dos variables son
independientes
• Bajo hipótesis H0 se determinan los casos en el supuesto de
variables independientes. Los valores esperados se determinan con
probabilidades marginales de las categorías: Eij=tPi Pj (valores
esperados).
• Nuestro contraste de hipótesis nula de no asociación estará basado
en las magnitudes de las diferencias entre los valores observados y
los esperados bajo la hipótesis nula.
• El estadístico Chi-cuadrado mide la diferencia entre los valores
observados y los valores esperados.
p1 p 2
χ 2 = ∑∑ (Oij − Eij ) 2 / Eij
i =1 j =1

Técnicas Clásicas de Análisis de Datos 30

15
Ejemplo

Técnicas Clásicas de Análisis de Datos 31

EJEMPLOS VALIDACIÓN HIPÓTESIS


ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA

– Hay relación entre tiempo en retardo y: franja horaria (mañana-tarde-noche), tipo de


día (diario-finsemana), compañía …

• Mayor grado de relación?

Técnicas Clásicas de Análisis de Datos 32

16
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA
Hipótesis (análogo a comparación de prestaciones!)
• Hipótesis nula H0: la diferencia de medias según tipo día es nula D=0
• Hipótesis alternativa: las medias son distintas: D!=0

fdp(T_finsemana-T_diario)
α/2=0.025 α/2=0.025
-3 3

−1.96σ 0 1.5 +1.96σ


• Mayor grado de relación? Más evidencia estadística para rechazar la hipótesis de
independencia

Técnicas Clásicas de Análisis de Datos 33

EJEMPLOS VALIDACIÓN HIPÓTESIS


ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA

– Qué variables están “más linealmente” relacionadas …

14 140

12 120

10 100
intervenciones

8 80
retardo

6 60

40
4

20
2

0
0
0 10 20 30 40 50
0 10 20 30 40 50 -20

Técnicas Clásicas de Análisis de Datos


operaciones operaciones 34

17
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL

– Dependencia entre grado de retardo y tipo de avión, visibilidad,…

Técnicas Clásicas de Análisis de Datos 35

EJEMPLOS VALIDACIÓN HIPÓTESIS


ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL

– Hipótesis nula H0: las variables retardo y categoría son independientes:


Eij=t(ti/t)(t’j/t)

p1 p 2
χ 2 = ∑ ∑ ( E ij − Oij ) 2 / E ij
i =1j=1

α
χ2

Técnicas Clásicas de Análisis de Datos 36

18

También podría gustarte