Tecnicasestadisticas GIAA PDF

Técnicas Estadísticas de Análisis de Datos
• Descripción de datos. Estadísticos de una variable

• Distribuciones de probabilidad e intervalos de confianza
• Contrastes de hipótesis. Tipos
• Relaciones entre atributos
• Nominales- Numéricos: Tests de comparación de medias (muestras
dependientes e independientes) y análisis de varianza.
• Numéricos - Numéricos: Análisis de Regresión
• Nominales-Nominales: Tablas de Contingencia. Tests de
independencia y comparación de proporciones.
• Aplicación de técnicas estadísticas a la clasificación
• Clasificación mediante regresión numérica
• Clasificador bayesiano
Técnicas Clásicas de Análisis de Datos 1
Análisis de una variable (muestra de datos)

• Estadísticos: resumen (describen) toda la información contenida
en una muestra de datos :
• Variables continuas
• medidas centrales (media, moda, mediana)
• medidas de dispersión (rango, varianza, desviación
estándar, percentiles)
• medidas de forma (histograma)
• Variables nominales
• frecuencias relativas (probabilidades), moda
• media y varianza de probabilidad estimada
• Muestra: yi; i =1…n; toma valores en un rango continuo/discreto
1
Estadísticos centrales
• Media (esperanza) muestral: promedio de todos los valores
1 n
media ( y) = y =
∑ yi
n i =1
• Moda: valor que aparece más veces
• Mediana: valor que deja el mismo número de casos a ambos
lados
( )
mediana ( y) = yi | N º casos y j ≤ yi = N º casos ( y k ≥ yi )
• equivale a ordenar el vector de datos y tomar el valor

central
• menos sensible frente a valores extremos poco probables
Estadísticos de dispersión
• Recorrido (intervalo, o rango):
max(yi)-min(yi)
• Varianza: promedio de desviaciones con respecto a valor medio
1 n 2 1 n 2 2
Var ( y ) = ∑ ( yi − y) =  ∑ y i − ny 
n − 1 i =1 n − 1  i =1 
• Desviación estándar (típica): raíz cuadrada de la varianza
desv ( y ) = σ y = Var ( y )
media, sigma
14
12
10
8 Datos
valor
6 valor medio
4 valor medio+sigma
2 valor medio - sigma
0
-2 0 10 20 30 40
-4
muestra
2
Histograma
Estimación de la distribución de densidad de probabilidad:
frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal
140
120
frecuencia absoluta
100
80
60
40
Nº de casos en intervalo
20
0
-3 -2,4 -1,8 -1,2 -0,6 0 0,6 1,2 1,8 2,4 3
y
intervalos de clase
La suma total de frecuencias absolutas es el número de datos
La suma de frecuencias relativas es 1
Ejemplo: histograma de variable uniforme

his togram a
140
120
100
80
his togram a
60
40
20
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
acum ulado
1.2
1
0.8
0.6 acum ulado
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
3
Cuantiles del histograma
• Cuantil: valores que dividen el recorrido de datos en k partes de la
misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.)
• Ejemplo: cuartiles frecuencia
80
porcentaje cuartiles 60
alumnos
Calificación 0,25 1,4 40
2,8 0,5 2,725 20
0,6 0,75 4 0
5 1 7,7
3,1 0 1 2 3 4 5 6 7 8 9 10
3,9 calificación
4,9
1
0 Recorrido inter-cuartílico:
6,55
... [1.4, 4]: contiene 50% datos Cuartil 1 Cuartil 3
Cuartil 2 Cuartil 4
Estadísticos de variable nominal

• yi nominal: toma valores de un conjunto discreto (categorías): {vi1, …, viki}
• Distribución de frecuencias de cada valor
p 1 =100(n1 / n)%
p2 = 100(n2 / n)%
M
pki = 100(nki / n)%
ki
n = ∑nj
j =1
• Moda: valor que aparece más veces

max (n j )
j
4
Media y varianza de frecuencias estimadas
• Cálculo de cada frecuencia
• para una categoría dada: m casos de n
p=m/n
• puede verse como asignar: vi=1 cada ejemplo en la categoría
1 n vi=0 en el resto
p = ∑ vi
n i =1
• Varianza de p:
1 n 2
Var (p) = ∑ ( vi − p) = p(1 − p)
n i =1
σ p = p(1 − p)
• caso máxima varianza: p=0.5
Ejemplo variable nominal y numérica

Edad Sexo
23 M 60
25 M
18 H 50
37 M
40
porcentaje
45 H
62 H 30
43 M
20
40 H
60 M 10
54 H
28 H 0
18 H H M
54 M sexo
29 H
42 M
26 M 120
32 M
41 M 100
37 M 80
porcentaje
36 H frecuencia
53 H 60
acumulada
21 M
40
24 H
21 H 20
45 M
64 H 0
22 M 18 25 35 45 55 65
61 M edad
37 M
66 M
5
Distribución Normal
• Curva de gran interés por explicar datos en muchas situaciones
• Aplicada por primera vez como distribución por A. Quetelet (1830)
1  1 
f (z) = exp − z 2 
2π  2 
• distribución simétrica: coincide media y mediana en 0
• se dispone del valor de la distribución de probabilidad: área bajo la curva
de fZ(z) para cualquier valor:
z FZ (z) Tipificar o estandarizar variables: Se
-3 0.001349967 mide el desplazamiento respecto a la
-2.5 0.00620968
-2 0.022750062 media en unidades de desviación típica:
-1.5 0.066807229
y −y
zi = i
-1 0.15865526
-0.5 0.308537533
0 0.5 f(z) F(z0) σi
0.5 0.691462467
1 0.84134474 2
1.5 0.933192771
2 0.977249938
2.5 0.99379032
0
-5 -4 -3 -2 -1 0 1 3
z
3 0.998650033 z0
Distribución Normal e Intervalos de Confianza

f(z) F(z0) f(z) F(z0)
-3 -2 -1 0 1 3 -3 -2 -1 0 1 3 z
Una cola (unilateral) Simétrico dos colas (bilateral)
• Ej.: se conocen parámetros de una población con distribución normal:

media: µ= 115; desviación típica:σ= 20
• ¿casos inferiores a 70? z=(70-115)/20, F(z)=0,012
• ¿casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04
• ¿en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667
• ¿qué intervalos simétrico tienen el 80%, 95% de los casos
(intervalos de confianza)? z=F-1(α/2); y=µ±zσ
• 80%: z0.1=1,28; 115± z0.1*20=[89.3, 140.6]
• 95%: z0.025=1,96; 115± z0.025*20=[75.8, 154.2]
6
RELACIONES DE VARIABLES. TEST DE HIPOTESIS
ANÁLISIS DE VARIAS VARIABLES
• Objetivo: analizar la interrelación (dependencia) entre los valores de distintas

variables, haciendo uso de los datos disponibles
• Numéricas (retardo, carga, distancia,…)
• Nominales (tipo de avión, condición visibilidad, …)
• Herramienta de análisis: tests de hipótesis
• Numéricas-numéricas: análisis de regresión y covarianza
• Nominales-nominales: tablas de contingencia
• Nominales-numéricas: comparación de medias, análisis de varianza
ANÁLISIS ESTADÍSTICO DE DATOS

ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA
• Permite identificar relaciones entre variables numéricas y construir modelos de
regresión
• Se consideran relaciones de una variable de salida (dependiente) con múltiples
variables de entrada (independientes)
• Estimación de una función (Regresión Lineal) que mejor “explique” los datos
r r r
{( X1, y1), (X 2 , y 2 ),..., (X n , y n )}
r
X : vectores con M dimensiones
g(.) : R M 
→ R
r r
X  → ŷ = g(X)
7
Mínimos Cuadrados
• Estima vector de coeficientes que minimiza error
r I r r
ŷi = g i (X) = a 0 + ∑ a p x p =(A t ) * X
p =1
r r
( A ) = [a 0 a1 L a I ]t ; X = [1 x1 L x I ]t
• Objetivo: dadas N muestras, determinar coeficientes que
minimicen el error de predicción global
n r 2
ε = ∑ [g ( X j ) − y j ]
j=1
• El método de mínimos cuadrados selecciona, como estimación de
la recta de regresión poblacional, aquella para la cual esta suma
de cuadrados es menor.
• Problema clásico de minimización de función cuadrática: solución
única
Mínimos Cuadrados
• Solución genérica matricial
 1 1
 ŷ1   g (X1)  1 x1 L x I 
r
 y1 
r       1 x 2 L x 2  r r
I A = H*A
y =  M ; ĝ =  M  =  M  =  1

y N  rN  M M
 ŷ N  g (X M M 
) 
      1 x N L x N 
 1 I 
• Solución MC:
r
A = [ H t H ]−1 H t y
r
[(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1]
8
Ejemplo: regresión lineal de 1 variable
Año Renta Consumo consumo E Estimación Lineal

1970 1959,75 1751,87 1683,473374 a1 a0
1971 2239,09 1986,35 1942,43325 0.927041871 -133.296932
1972 2623,84 2327,9 2299,11261
1973 3176,06 2600,1 2811,043671
1974 3921,6 3550,7 3502,190468
1975 4624,7 4101,7 4153,993607
1976 5566,02 5012,6 5026,63666
ConsumoE = a 0 + a1 * Re nta
1977 6977,84 6360,2 6335,452914
1978 8542,51 7990,13 7785,967518
1979 9949,9 9053,5 9090,676976
1980 11447,5 10695,4 10479,01488
1981 13123,04 12093,8 12032,31062
1982 15069,5 12906,27 13836,76054
1983 16801,6 15720,1 15442,48976
1984 18523,5 17309,7 17038,76316
Ejemplo: regresión lineal de 1 variable
dependencia consumo
20000
15000
consumos
Consumo
10000
consumo E
5000
0
0 5000 10000 15000 20000
renta
9
Ejemplo: regresión lineal de 2 variables
x1 x2 y Valor Estimación Lineal

a2 a1 a0
Superficie Antigüedad Valor predicho
-220.444829 58.2271936 95538.7217
310 20 106,287 Euros 109,180 Euros
333 12 107,784 Euros 112,283 Euros
356 33 113,024 Euros 108,993 Euros
379 43 112,275 Euros 108,128 Euros Valor = a 0 + a1* Superficie +
402 53 104,042 Euros 107,262 Euros
425 23 126,497 Euros 115,215 Euros a 2 * Antigüedad
448 99 94,311 Euros 99,800 Euros
471 34 106,961 Euros 115,469 Euros
494 23 122,006 Euros 119,233 Euros
517 55 126,497 Euros 113,518 Euros
540 22 111,527 Euros 122,132 Euros
Ejemplo: regresión lineal de 2 variables
valores predichos
140000
150000
120000
100000
100000
valor (euros)
80000
60000
50000
540
40000
494
540
448
494
20000
402
448
0
402
356
0
10
30
50
70
90
356
310
10 20 30 40 50 60 70 80 90 100 110
310
superficie (m 2)
antigüedad (a)
10
Evaluación del modelo de regresión
Análisis de validez del modelo asumido:

• Medidas de “parecido” entre variable de salida estimada y real,
influencia de variables de entrada
– Factor de Correlación
– Error de predicción
• Análisis de “calidad” del modelo
– Error en coeficientes
– Hipótesis de significatividad de parámetros: t-Student
A1 AF
,..., ?
σ A1 σAF
N(0,1) α/2
-4 -3 -2 -1 0 1 2 3
Factor de correlación
• Factor de correlación entre datos y predicciones:
n
1 Cov ( ŷ , y )
Corr ( ŷ , y ) =
S ŷ S y
∑ ( ŷ
j=1
j − ŷ )( y j − y ) =
Var ( ŷ ) Var ( y )
• El factor de correlación varía entre -1 y 1.

• En general, se puede hacer factores de correlación entre cualquier par
de variables numéricas: indica el grado de relación lineal existente.
• -1: existe asociación lineal negativa perfecta.
• 1 positiva perfecta.
• 0 no hay asociación lineal.
11
Matrices de covarianza y correlación
r r r
Muestra de vectores aleatorios: {X1 , X 2 ,..., X n }
• Matriz de covarianzas:
r 1 n r
µˆ = ∑ Xi
n i =1  var(x1 ) cov(x1, x 2 ) L cov(x1, x 2 )
n r r cov(x , x ) var(x1) 
1 r r t
r = ∑ (X − µˆ )(X − µˆ ) =  1 2 
Ĉ X i i
n i =1  M O M 
 cov(x , x ) L var(x I ) 
 1 I
• La matriz de correlaciones es similar, normalizada

ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NOMINAL
• Mide la relación entre variables numéricas y nominales, o nominales y

nominales (proporciones)
• Analiza las diferencias de medias condicionadas a variable nominal:
impacto de la variable nominal sobre la continua
Variación E
• Dos tipos de análisis:
• Con dos medias o proporciones: Variación NE
significatividad de la diferencia t-
student
y
• Más de dos valores distintos: Y1 Y2 Y3
Análisis de Varianza
Y
12
1. Comparación de dos medias
• Se plantea como un test de hipótesis, dividiendo los datos en dos grupos,
cada uno con su media y varianza.
• Hipótesis sobre diferencia de medias: D = y1 − y2
• H0: la diferencia de medias en la población es nula D=0.
• Hipótesis alternativa A: las medias son distintas: D!=0.
• Hipótesis alternativa B: la media de 1 es mayor que 2: y1 > y2
• Hipótesis alternativa C: la media de 1 es menor que 2: y1 < y2
• Situaciones posibles:
• Muestras independientes: conjuntos distintos.
• Muestras dependientes: mismo conjunto, con dos variables a
comparar en cada ejemplo.
Contrastes de dos medias

• Hipótesis alternativa A
α/2=0.025 α/2=0.025
-3 3
z=−1.96 z=+1.96
• Hipótesis alternativa B:
α=0.05
0 .4
-3 3
0 .3 5
z=−1.65 0 .3
0 .2 5
• Cuando las muestras son pequeñas no es 0 .2
válida la hipótesis de normalidad de los

0 .1 5
0 .1
estadísticos de medias 0 .0 5
y ± t α / 2 ,GL σ
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
13
2. Análisis de varianza (ANOVA)
Variación Explicada
Niveles Observaciones
1 Y11,Y12,...Y1j,...Y1n1
... ... Variación No
i Yi1,Yi2,...Yij,...Yini Explicada
... ...
I YI1,YI2,...YIj,...YInI y
Y1 Y2 Y3
I
• Número total de elementos: n = ∑ ni Y
i =1
1 I
• Media por nivel: Yi = ∑ Yij
n i i =1 variación explicada:
1 I ni variabilidad entre grupos
• Media total: Y = ∑ ∑ Yij
n i =i j=1 variación no explicada
(residual): variabilidad
• Relación entre “cuadrados”: dentro de los grupos
M ni M ni M
∑∑ (Y
i =i j=1
ij −Y ) 2 = ∑∑ (Yij −Yi ) 2 + ∑ n i ( Yi − Y ) 2
i =i j=1 i =1

ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NOMINAL
• Analiza la interrelación entre los valores de variables nominales según distribución

de casos
• Herramienta para dos variables: tabla de contingencia
• distribución de casos (frecuencias) para las distintas combinaciones de
valores de las dos variables
variable 2 totales 1 Probabilidades
variable 1 valor 1 valor 2 ... valor p2 marginales:
valor 1 n11 n12 ... n1p2 t1
Pi=ti/t
valor 2 n21 n22 ... n2p2 t2
... ... ... ... ... ...
valor p1 np11 np12 ... np1p2 tp1
totales 2 t'1 t'2 ... t'p2 t
Casos “esperados”
Probabilidades marginales: Eij=t(ti/t)(t’j/t)= tit’j/t

Técnicas Clásicas dePjAnálisis
=t’j/t de Datos 28
14
Relación entre variables nominales-nominales
• Objetivo: analizar la interrelación (dependencia) entre los valores
de variables nominales
• Herramienta para dos variables: tabla de contingencia
• distribución de casos (frecuencias) para las distintas
combinaciones de valores de las dos variables
variable 2 totales 1 Probabilidades
variable 1 valor 1 valor 2 ... valor p2 marginales:
valor 1 n11 n12 ... n1p2 t1
Pi=ti/t
valor 2 n21 n22 ... n2p2 t2
... ... ... ... ... ...
valor p1 np11 np12 ... np1p2 tp1
totales 2 t'1 t'2 ... t'p2 t
Estimación del nº
esperado de
Probabilidades marginales: observaciones
Pj=t’j/t
Eij=t(ti/t)(t’j/t)= tit’j/t
Contraste Chi-2 de variables nominales

• Es aplicable en análisis bi-variable (normalmente clase vs atributo)
• Determina si es rechazable la hipótesis de que dos variables son
independientes
• Bajo hipótesis H0 se determinan los casos en el supuesto de
variables independientes. Los valores esperados se determinan con
probabilidades marginales de las categorías: Eij=tPi Pj (valores
esperados).
• Nuestro contraste de hipótesis nula de no asociación estará basado
en las magnitudes de las diferencias entre los valores observados y
los esperados bajo la hipótesis nula.
• El estadístico Chi-cuadrado mide la diferencia entre los valores
observados y los valores esperados.
p1 p 2
χ 2 = ∑∑ (Oij − Eij ) 2 / Eij
i =1 j =1
15
Ejemplo
EJEMPLOS VALIDACIÓN HIPÓTESIS

ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA
– Hay relación entre tiempo en retardo y: franja horaria (mañana-tarde-noche), tipo de

día (diario-finsemana), compañía …
• Mayor grado de relación?
16
ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA
Hipótesis (análogo a comparación de prestaciones!)
• Hipótesis nula H0: la diferencia de medias según tipo día es nula D=0
• Hipótesis alternativa: las medias son distintas: D!=0
fdp(T_finsemana-T_diario)
α/2=0.025 α/2=0.025
-3 3
−1.96σ 0 1.5 +1.96σ

• Mayor grado de relación? Más evidencia estadística para rechazar la hipótesis de
independencia

ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA
– Qué variables están “más linealmente” relacionadas …
14 140
12 120
10 100
intervenciones
8 80
retardo
6 60
40
4
20
2
0
0
0 10 20 30 40 50
0 10 20 30 40 50 -20
Técnicas Clásicas de Análisis de Datos

operaciones operaciones 34
17
ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL
– Dependencia entre grado de retardo y tipo de avión, visibilidad,…

ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL
– Hipótesis nula H0: las variables retardo y categoría son independientes:

Eij=t(ti/t)(t’j/t)
p1 p 2
χ 2 = ∑ ∑ ( E ij − Oij ) 2 / E ij
i =1j=1
α
χ2
18

Tecnicasestadisticas GIAA PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tecnicasestadisticas GIAA PDF

Cargado por

Copyright:

Formatos disponibles

Técnicas Estadísticas de Análisis de Datos

• Descripción de datos. Estadísticos de una variable

Técnicas Clásicas de Análisis de Datos 1

Análisis de una variable (muestra de datos)

Técnicas Clásicas de Análisis de Datos 2

• equivale a ordenar el vector de datos y tomar el valor

Técnicas Clásicas de Análisis de Datos 3

Técnicas Clásicas de Análisis de Datos 4

Ejemplo: histograma de variable uniforme

Técnicas Clásicas de Análisis de Datos 6

Técnicas Clásicas de Análisis de Datos 7

Estadísticos de variable nominal

• Moda: valor que aparece más veces

Técnicas Clásicas de Análisis de Datos 8

• caso máxima varianza: p=0.5

Técnicas Clásicas de Análisis de Datos 9

Ejemplo variable nominal y numérica

Técnicas Clásicas de Análisis de Datos 10

Distribución Normal e Intervalos de Confianza

Una cola (unilateral) Simétrico dos colas (bilateral)

• Ej.: se conocen parámetros de una población con distribución normal:

Técnicas Clásicas de Análisis de Datos 12

ANÁLISIS DE VARIAS VARIABLES

• Objetivo: analizar la interrelación (dependencia) entre los valores de distintas

Técnicas Clásicas de Análisis de Datos 13

ANÁLISIS ESTADÍSTICO DE DATOS

Técnicas Clásicas de Análisis de Datos 14

Técnicas Clásicas de Análisis de Datos 16

Año Renta Consumo consumo E Estimación Lineal

Técnicas Clásicas de Análisis de Datos 17

Ejemplo: regresión lineal de 1 variable

Técnicas Clásicas de Análisis de Datos 18

x1 x2 y Valor Estimación Lineal

Técnicas Clásicas de Análisis de Datos 19

Ejemplo: regresión lineal de 2 variables

Técnicas Clásicas de Análisis de Datos 20

Análisis de validez del modelo asumido:

Técnicas Clásicas de Análisis de Datos 21

• El factor de correlación varía entre -1 y 1.

Técnicas Clásicas de Análisis de Datos 22

• La matriz de correlaciones es similar, normalizada

Técnicas Clásicas de Análisis de Datos 23

ANÁLISIS ESTADÍSTICO DE DATOS

• Mide la relación entre variables numéricas y nominales, o nominales y

Técnicas Clásicas de Análisis de Datos 24

Técnicas Clásicas de Análisis de Datos 25

Contrastes de dos medias

• Cuando las muestras son pequeñas no es 0 .2

válida la hipótesis de normalidad de los

Técnicas Clásicas de Análisis de Datos 26

Técnicas Clásicas de Análisis de Datos 27

ANÁLISIS ESTADÍSTICO DE DATOS

• Analiza la interrelación entre los valores de variables nominales según distribución

Probabilidades marginales: Eij=t(ti/t)(t’j/t)= tit’j/t

Contraste Chi-2 de variables nominales

Técnicas Clásicas de Análisis de Datos 30

Técnicas Clásicas de Análisis de Datos 31

EJEMPLOS VALIDACIÓN HIPÓTESIS

– Hay relación entre tiempo en retardo y: franja horaria (mañana-tarde-noche), tipo de

• Mayor grado de relación?

Técnicas Clásicas de Análisis de Datos 32

−1.96σ 0 1.5 +1.96σ

Técnicas Clásicas de Análisis de Datos 33