Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tecnicasestadisticas GIAA PDF
Tecnicasestadisticas GIAA PDF
1
Estadísticos centrales
• Media (esperanza) muestral: promedio de todos los valores
1 n
media ( y) = y =
∑ yi
n i =1
• Moda: valor que aparece más veces
• Mediana: valor que deja el mismo número de casos a ambos
lados
( )
mediana ( y) = yi | N º casos y j ≤ yi = N º casos ( y k ≥ yi )
Estadísticos de dispersión
• Recorrido (intervalo, o rango):
max(yi)-min(yi)
• Varianza: promedio de desviaciones con respecto a valor medio
1 n 2 1 n 2 2
Var ( y ) = ∑ ( yi − y) = ∑ y i − ny
n − 1 i =1 n − 1 i =1
• Desviación estándar (típica): raíz cuadrada de la varianza
desv ( y ) = σ y = Var ( y )
media, sigma
14
12
10
8 Datos
valor
6 valor medio
4 valor medio+sigma
2 valor medio - sigma
0
-2 0 10 20 30 40
-4
muestra
2
Histograma
Estimación de la distribución de densidad de probabilidad:
frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal
140
120
frecuencia absoluta
100
80
60
40
Nº de casos en intervalo
20
0
-3 -2,4 -1,8 -1,2 -0,6 0 0,6 1,2 1,8 2,4 3
y
intervalos de clase
La suma total de frecuencias absolutas es el número de datos
La suma de frecuencias relativas es 1
Técnicas Clásicas de Análisis de Datos 5
140
120
100
80
his togram a
60
40
20
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
acum ulado
1.2
1
0.8
0.6 acum ulado
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
3
Cuantiles del histograma
• Cuantil: valores que dividen el recorrido de datos en k partes de la
misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.)
• Ejemplo: cuartiles frecuencia
80
porcentaje cuartiles 60
alumnos
Calificación 0,25 1,4 40
2,8 0,5 2,725 20
0,6 0,75 4 0
5 1 7,7
3,1 0 1 2 3 4 5 6 7 8 9 10
3,9 calificación
4,9
1
0 Recorrido inter-cuartílico:
6,55
... [1.4, 4]: contiene 50% datos Cuartil 1 Cuartil 3
Cuartil 2 Cuartil 4
4
Media y varianza de frecuencias estimadas
• Cálculo de cada frecuencia
• para una categoría dada: m casos de n
p=m/n
• puede verse como asignar: vi=1 cada ejemplo en la categoría
1 n vi=0 en el resto
p = ∑ vi
n i =1
• Varianza de p:
1 n 2
Var (p) = ∑ ( vi − p) = p(1 − p)
n i =1
σ p = p(1 − p)
45 H
62 H 30
43 M
20
40 H
60 M 10
54 H
28 H 0
18 H H M
54 M sexo
29 H
42 M
26 M 120
32 M
41 M 100
37 M 80
porcentaje
36 H frecuencia
53 H 60
acumulada
21 M
40
24 H
21 H 20
45 M
64 H 0
22 M 18 25 35 45 55 65
61 M edad
37 M
66 M
5
Distribución Normal
• Curva de gran interés por explicar datos en muchas situaciones
• Aplicada por primera vez como distribución por A. Quetelet (1830)
1 1
f (z) = exp − z 2
2π 2
• distribución simétrica: coincide media y mediana en 0
• se dispone del valor de la distribución de probabilidad: área bajo la curva
de fZ(z) para cualquier valor:
z FZ (z) Tipificar o estandarizar variables: Se
-3 0.001349967 mide el desplazamiento respecto a la
-2.5 0.00620968
-2 0.022750062 media en unidades de desviación típica:
-1.5 0.066807229
y −y
zi = i
-1 0.15865526
-0.5 0.308537533
0 0.5 f(z) F(z0) σi
0.5 0.691462467
1 0.84134474 2
1.5 0.933192771
2 0.977249938
2.5 0.99379032
0
-5 -4 -3 -2 -1 0 1 3
z
3 0.998650033 z0
Técnicas Clásicas de Análisis de Datos 11
-3 -2 -1 0 1 3 -3 -2 -1 0 1 3 z
6
RELACIONES DE VARIABLES. TEST DE HIPOTESIS
r r r
{( X1, y1), (X 2 , y 2 ),..., (X n , y n )}
r
X : vectores con M dimensiones
g(.) : R M
→ R
r r
X → ŷ = g(X)
7
Mínimos Cuadrados
• Estima vector de coeficientes que minimiza error
r I r r
ŷi = g i (X) = a 0 + ∑ a p x p =(A t ) * X
p =1
r r
( A ) = [a 0 a1 L a I ]t ; X = [1 x1 L x I ]t
• Objetivo: dadas N muestras, determinar coeficientes que
minimicen el error de predicción global
n r 2
ε = ∑ [g ( X j ) − y j ]
j=1
• El método de mínimos cuadrados selecciona, como estimación de
la recta de regresión poblacional, aquella para la cual esta suma
de cuadrados es menor.
• Problema clásico de minimización de función cuadrática: solución
única
Técnicas Clásicas de Análisis de Datos 15
Mínimos Cuadrados
• Solución genérica matricial
1 1
ŷ1 g (X1) 1 x1 L x I
r
y1
r 1 x 2 L x 2 r r
I A = H*A
y = M ; ĝ = M = M = 1
y N rN M M
ŷ N g (X M M
)
1 x N L x N
1 I
• Solución MC:
r
A = [ H t H ]−1 H t y
r
[(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1]
8
Ejemplo: regresión lineal de 1 variable
dependencia consumo
20000
15000
consumos
Consumo
10000
consumo E
5000
0
0 5000 10000 15000 20000
renta
9
Ejemplo: regresión lineal de 2 variables
valores predichos
140000
150000
120000
100000
100000
valor (euros)
80000
60000
50000
540
40000
494
540
448
494
20000
402
448
0
402
356
0
10
30
50
70
90
356
310
10 20 30 40 50 60 70 80 90 100 110
310
superficie (m 2)
antigüedad (a)
10
Evaluación del modelo de regresión
A1 AF
,..., ?
σ A1 σAF
N(0,1) α/2
-4 -3 -2 -1 0 1 2 3
Factor de correlación
• Factor de correlación entre datos y predicciones:
n
1 Cov ( ŷ , y )
Corr ( ŷ , y ) =
S ŷ S y
∑ ( ŷ
j=1
j − ŷ )( y j − y ) =
Var ( ŷ ) Var ( y )
11
Matrices de covarianza y correlación
r r r
Muestra de vectores aleatorios: {X1 , X 2 ,..., X n }
• Matriz de covarianzas:
r 1 n r
µˆ = ∑ Xi
n i =1 var(x1 ) cov(x1, x 2 ) L cov(x1, x 2 )
n r r cov(x , x ) var(x1)
1 r r t
r = ∑ (X − µˆ )(X − µˆ ) = 1 2
Ĉ X i i
n i =1 M O M
cov(x , x ) L var(x I )
1 I
12
1. Comparación de dos medias
• Se plantea como un test de hipótesis, dividiendo los datos en dos grupos,
cada uno con su media y varianza.
• Hipótesis sobre diferencia de medias: D = y1 − y2
• H0: la diferencia de medias en la población es nula D=0.
• Hipótesis alternativa A: las medias son distintas: D!=0.
• Hipótesis alternativa B: la media de 1 es mayor que 2: y1 > y2
• Hipótesis alternativa C: la media de 1 es menor que 2: y1 < y2
• Situaciones posibles:
• Muestras independientes: conjuntos distintos.
• Muestras dependientes: mismo conjunto, con dos variables a
comparar en cada ejemplo.
α/2=0.025 α/2=0.025
-3 3
z=−1.96 z=+1.96
• Hipótesis alternativa B:
α=0.05
0 .4
-3 3
0 .3 5
z=−1.65 0 .3
0 .2 5
0 .1
estadísticos de medias 0 .0 5
y ± t α / 2 ,GL σ
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
13
2. Análisis de varianza (ANOVA)
Variación Explicada
Niveles Observaciones
1 Y11,Y12,...Y1j,...Y1n1
... ... Variación No
i Yi1,Yi2,...Yij,...Yini Explicada
... ...
I YI1,YI2,...YIj,...YInI y
Y1 Y2 Y3
I
• Número total de elementos: n = ∑ ni Y
i =1
1 I
• Media por nivel: Yi = ∑ Yij
n i i =1 variación explicada:
1 I ni variabilidad entre grupos
• Media total: Y = ∑ ∑ Yij
n i =i j=1 variación no explicada
(residual): variabilidad
• Relación entre “cuadrados”: dentro de los grupos
M ni M ni M
∑∑ (Y
i =i j=1
ij −Y ) 2 = ∑∑ (Yij −Yi ) 2 + ∑ n i ( Yi − Y ) 2
i =i j=1 i =1
14
Relación entre variables nominales-nominales
• Objetivo: analizar la interrelación (dependencia) entre los valores
de variables nominales
• Herramienta para dos variables: tabla de contingencia
• distribución de casos (frecuencias) para las distintas
combinaciones de valores de las dos variables
variable 2 totales 1 Probabilidades
variable 1 valor 1 valor 2 ... valor p2 marginales:
valor 1 n11 n12 ... n1p2 t1
Pi=ti/t
valor 2 n21 n22 ... n2p2 t2
... ... ... ... ... ...
valor p1 np11 np12 ... np1p2 tp1
totales 2 t'1 t'2 ... t'p2 t
Estimación del nº
esperado de
Probabilidades marginales: observaciones
Pj=t’j/t
Eij=t(ti/t)(t’j/t)= tit’j/t
Técnicas Clásicas de Análisis de Datos 29
15
Ejemplo
16
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA
Hipótesis (análogo a comparación de prestaciones!)
• Hipótesis nula H0: la diferencia de medias según tipo día es nula D=0
• Hipótesis alternativa: las medias son distintas: D!=0
fdp(T_finsemana-T_diario)
α/2=0.025 α/2=0.025
-3 3
14 140
12 120
10 100
intervenciones
8 80
retardo
6 60
40
4
20
2
0
0
0 10 20 30 40 50
0 10 20 30 40 50 -20
17
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL
p1 p 2
χ 2 = ∑ ∑ ( E ij − Oij ) 2 / E ij
i =1j=1
α
χ2
18