Clase 2 - Análisis y Visualización de Datos

1
Tabla de Contenidos
Repaso
Aprendizaje
Ejemplo: Regresión Lineal
Clasificación
2
Repaso
Repaso
• Población = conjunto de todos los posibles individuos del estudio.

• Muestra = subconjunto finito de la población (usualmente elegido
al azar).
• Variable aleatoria = caracterı́stica numérica asociada a los
individuos de la población. Para cada individuo, el valor será
diferente (ejemplos: altura, edad, peso, número de hijos).
• Discreta si el conjunto de valores posibles se puede contar (ejemplo:
número de hijos).
• Continua si el conjunto de valores posibles no se puede contar
(ejemplo: altura).
• Distribución de probabilidad = mide con qué frecuencia los
valores de una variable aleatoria toman cada posible valor.
3
Repaso
4
Repaso
5
Repaso
6
Repaso
7
Repaso
Distribución condicional de una variable aleatoria respecto a otra

Corresponde a la distribución de probabilidad de los valores de la variable,
teniendo el conocimiento parcial de los valores de la otra variable.
Escribiremos pY |X (y |x) para la distribución condicional de Y dado que
X = x.
8
Repaso
Esperanza condicional de una variable aleatoria respecto a otra

Corresponde a la media o valor esperado de la distribución condicional.
Escribiremos E(Y |X = x) para el valor esperado de Y dado que X = x.
9
Repaso
Ejemplos:
• Regresión Lineal
1 (y −f (x))2
pY |X (y |x) = √ e − 2σ2
σ 2π
donde f (x) = β0 + β1 x.
• Clasificación binaria
pY |X (y |x) = f (x)y (1 − f (x))1−y

donde f (x) puede tomar muchas formas (mañana veremos una).
10
Aprendizaje
Problema General de Aprendizaje
Variable a predecir Y
11
Variables predictoras X = (X1 , X2 , X3 )
12
¿Existirá alguna relación entre la variable a predecir y las variables predic-

toras?
13
¿Existirá alguna relación entre la variable a predecir y las variables predic-

toras?
• En el mundo ideal, quisiéramos encontrar la distribución

condicional de la variable Y respecto a la variable X . Esto no
siempre es posible...
• En la práctica, muchas veces nos conformaremos con conocer el
valor esperado condicional de la variable Y dada la variable X .
13
Ingredientes esenciales:
• Ω es la población que nos interesa estudiar.

• X : Ω −→ Rp variable aleatoria (input desconocido).
• Y : Ω −→ R variable aleatoria (output desconocido).
• E : Ω −→ R variable aleatoria de media cero (ruido).
14

Asumimos que existe una relación funcional entre input y output:
Y = f (X ) + E (1)
14

Asumimos que existe una relación funcional entre input y output:
Y = f (X ) + E (1)
Nuestro objetivo en general es: usando los datos, estimar f de modo que
se cometa el menor error posible.
14
Dependiendo de las caracterı́sticas de la variable de output, tenemos dos

tipos de problemas:
• Si Y es una variable aleatoria discreta, hablamos de Clasificación.

• Si Y es una variable aleatoria continua, hablamos de Regresión (no
necesariamente lineal).
15
¿Cómo estimamos la relación funcional f entre las variables?

Necesitamos dos cosas:
16

• Datos. Matemáticamente, esto corresponde a N pares de variables

aleatorias (X (k) , Y (k) ), obtenidas de la misma población de la que
viene (X , Y ). Colectivamente, llamaremos D a los datos, y Dk al par
de datos k-ésimo; es decir, Dk = (X (k) , Y (k) ).
16

• Datos. Matemáticamente, esto corresponde a N pares de variables

aleatorias (X (k) , Y (k) ), obtenidas de la misma población de la que
viene (X , Y ). Colectivamente, llamaremos D a los datos, y Dk al par
de datos k-ésimo; es decir, Dk = (X (k) , Y (k) ).
• Una métrica de comparación. Matemáticamente, esto
corresponde a una función de error e : R2 −→ R. Por ejemplo,
e(u, v ) = (u − v )2 es el error cuadrático, usado en Regresión Lineal.
16
En la práctica, nuestros datos vienen ordenados en una gran tabla:
17
18
19
Hacemos las siguientes suposiciones:
• Dk y D` son variables aleatorias independientes para cada

k, ` ∈ {1, . . . , N}.
• Dk tiene la misma distribución que (X , Y ) para cada
k ∈ {1, . . . , N}.
20
Hacemos las siguientes suposiciones:
• Dk y D` son variables aleatorias independientes para cada

k, ` ∈ {1, . . . , N}.
• Dk tiene la misma distribución que (X , Y ) para cada
k ∈ {1, . . . , N}.
Estas condiciones equivalen a suponer que los datos han sido recopilados
al azar dentro de la población y que la recopilación de los datos no afecta
a la población.
20
Ejemplo de Regresión
• Ω = conjunto de todos los estudiantes chilenos nacidos y por nacer

que han postulado o postularán a la educación entre los años 2000 y
2030.
• Para un estudiante ω, X (ω) = (X1 (ω), X2 (ω)), siendo X1 (ω) el
ingreso familiar promedio de ω y X2 (ω) el promedio de notas de ω
durante la educación media.
• Para un estudiante ω, Y (ω) es el gasto total que le significa al
Estado proveer al estudiante de educación superior (puede ser cero).
• Función de error: e(u, v ) = (u − v )2 (error cuadrático).
21
Ejemplo de Clasificación
• Ω = conjunto de todos los estudiantes chilenos nacidos y por nacer

que han postulado o postularán a la educación entre los años 2000 y
2030.
• Para un estudiante ω, X (ω) = (X1 (ω), X2 (ω), X3 (ω)), siendo X1 (ω)
el ingreso familiar promedio de ω, X2 (ω) el promedio de notas de ω
durante la educación media y X3 (ω) la región donde vive el
estudiante (codificada en un número).
• Para un estudiante ω, Y (ω) = 1 si ω entra a una universidad e
Y (ω) = 0 si no.
• Función de error: e(u, v ) = 0 si u = v , e(u, v ) = 1 si u 6= v (pérdida
binaria).
22
Comentarios/preguntas:
• ¿Bajo qué suposiciones será una muestra tomada en 2021

representativa para la población general?
• ¿Existirán variables adicionales que no se estén considerando?
• ¿Cómo afectarı́a conocer variables adicionales al término de error
sistemático?
No olvidar: no se conocen la relación funcional f ni el error sistemático E.

Por lo tanto, para ciertas variables explicativas dadas, siempre es posible
suponer que existen f y E que satisfacen nuestras hipótesis.
23
Respecto al ruido...
24
Respecto al ruido...
... en general, mientras más variables explicativas se consideren, espe-
rarı́amos que el ruido sea menor (menos cosas son atribuı́bles al azar), e
incluso eventualmente igual a cero. Pero esto es algo que en la práctica
nunca podremos comprobar.
24
¿Cómo buscamos la función f ?
25

En general, no podemos...
25

En general, no podemos...
... pero podemos buscar una función h ∈ H, donde H es el conjunto de
hipótesis, o clase de modelos elegida, que aproxime lo mejor posible a f .
25
26
Algunos ejemplos:
27
Algunos ejemplos:
• H = relaciones lineales entre la variable dependiente y las variables

explicativas. Un modelo especı́fico serı́a y = 3 − 5x (correspondiente
a la función h(x) = 3 − 5x).
27
Algunos ejemplos:

• H = constantes. Un modelo especı́fico serı́a y = 2 (correspondiente
a la función h(x) = 2, es decir se predice que y = 2 sin importar el
valor de x).
27
Algunos ejemplos:

valor de x).
• H = redes neuronales (lo veremos más adelante en el curso).
27
Algunos ejemplos:

valor de x).
• H = redes neuronales (lo veremos más adelante en el curso).
En Regresión Lineal, H consiste en todas las funciones h : Rn −→ R de

la forma h(x) = β0 + β T x para ciertos β0 ∈ R, β ∈ Rn .
27
28
Recordemos con más detalle el caso de Regresión Lineal...
29
30
• Función de error: e(u, v ) = (u − v )2
30

• Conjunto de hipótesis H consistente en todas las funciones
h(x) = β0 + β1 x.
30

h(x) = β0 + β1 x.
• Minimizamos la suma de cuadrados:
N
X N
X
ECM = (Y (k) − β0 − β1 X (k) )2 = e(Y (k) , h(X (k) ))
k=1 k=1
30

h(x) = β0 + β1 x.
N
X N
X
k=1 k=1
Lo cual equivale a minimizar el error cuadrático medio:
N
1 X
e(Y (k) , h(X (k) ))
N
k=1
30

h(x) = β0 + β1 x.
N
X N
X
k=1 k=1
Lo cual equivale a minimizar el error cuadrático medio:
N
1 X
e(Y (k) , h(X (k) ))
N
k=1
A esta cantidad la llamamos error dentro de la muestra.
30
¿Qué pasará con un dato fuera de la muestra?
31
• Para cada dato particular fuera de la muestra, obtenemos un número

distinto, que no tiene por qué ser cercano al error calculado dentro
de la muestra.
32

de la muestra.
• Como no conocemos a priori qué punto fuera de la muestra nos
tocará evaluar, para un punto arbitrario (X , Y ) fuera de la muestra,
el error e(Y , h(X )) cometido por el modelo es una variable aleatoria.
32

de la muestra.
• Para evaluar nuestro modelo, no basta con calcular el error dentro
de la muestra. Debemos controlar de alguna manera la variable
aleatoria e(Y , h(X )).
32

de la muestra.
• Para evaluar nuestro modelo, no basta con calcular el error dentro
de la muestra. Debemos controlar de alguna manera la variable
aleatoria e(Y , h(X )).
Una posibilidad es estimar el error promedio fuera de la muestra.
32
Definimos:
• Error dentro de la muestra:
N
1 X
Ein (h) := e(h(Xk ), Yk ) (2)
N
k=1
• Error fuera de la muestra:
Eout (h) := E(e(h(X ), Y )) (3)
Para un modelo especı́fico h, el error dentro de la muestra es una va-

riable aleatoria, mientras que el error fuera de la muestra es un número
determinı́stico.
33
Podemos enunciar entonces el problema general de aprendizaje:

Utilizando los datos D, encontrar una función h ∈ H tal que el error fuera
de la muestra Eout (h) sea mı́nimo.
Notar que estamos minimizando el error esperado a cometer al aproximar

la relación funcional f . No estamos ajustando un modelo estadı́stico para
el término de error E, ni tampoco asumiendo que tenga alguna distribución
particular.
34
Problema: ¿cómo estimar el error fuera de la muestra a partir de los datos?

Posible solución: utilizar el error dentro de la muestra Ein para estimar el
error fuera de la muestra Eout .
Nuestro aliado: Ley de los Grandes Números
35
Veamos cómo funciona esta solución. Supongamos que la realidad está

dada por:
Y = −5 + 2X + 0.2X 2 + E
donde E distribuye normal con media 0 y desviación estándar 5, y X dis-

tribuye uniforme entre 0 y 10. Evaluemos el siguiente modelo:
Y = −2 + 3X
36
Veamos cómo funciona esta solución. Supongamos que la realidad está

dada por:
Y = −5 + 2X + 0.2X 2 + E
donde E distribuye normal con media 0 y desviación estándar 5, y X dis-

tribuye uniforme entre 0 y 10. Evaluemos el siguiente modelo:
Y = −2 + 3X
En este caso, como conocemos la relación exacta, en este ejemplo pe-

dagógico podemos calcular el error fuera de la muestra de manera exacta
(ciudado: esto nunca sucede en la realidad).
36
Para una muestra particular, un ajuste se verı́a ası́:
37
Simulamos 500 muestras con tamaños variando desde N = 2 hasta N =

500, y dejamos que la Ley de los Grandes Números haga su trabajo...
38
Lo anterior fue para un modelo especı́fico h. ¿Basta esto para comparar

modelos diferentes?
39

modelos diferentes?
Por ejemplo, supongamos que tengo los siguientes modelos:
Y = −2 + 3X = h1 (X )
Y = −3 + 2X = h2 (X )
39

modelos diferentes?
Por ejemplo, supongamos que tengo los siguientes modelos:
Y = −2 + 3X = h1 (X )
Y = −3 + 2X = h2 (X )
Para ambos modelos, una muestra especı́fica arrojará un error dentro de

la muestra especı́fico para cada modelo (Ein (h1 ) y Ein (h2 ). Por la Ley
de los Grandes Números, sabemos que Ein (h1 ) y Ein (h2 ) se aproximan
respectivamente a Eout (h1 ) y Eout (h2 ) a medida que el tamaño de muestra
crece. Pero, ¿lo hacen de la misma manera?
39
40
41
42
Para poder comparar modelos y elegir “el mejor modelo” usando los datos
disponibles en una muestra, necesito alguna garantı́a de que el comporta-
miento fuera de muestra de diferentes modelos es similar.
43
Para poder comparar modelos y elegir “el mejor modelo” usando los datos
disponibles en una muestra, necesito alguna garantı́a de que el comporta-
miento fuera de muestra de diferentes modelos es similar.
Afortunadamente, existen resultados matemáticos que garantizan que esto
ocurre, siempre y cuando nos mantengamos dentro de una clase de
modelos preestablecida y no “demasiado compleja”.
43
En general, se tiene lo siguiente:
44

Desigualdad de Vapnik-Chervonenkis
Dados un número positivo ε y un número de observaciones N:

P sup |Ein (h) − Eout (h)| ≥ ε ≤ N (H, N, ε)
h∈H
donde el término del lado derecho cumple:
• Si N aumenta, N (H, N, ε) tiende a cero.

• Si ε disminuye, N (H, N, ε) aumenta.
• Si la “complejidad” de H aumenta, N (H, N, ε) aumenta.
44


h∈H
Esto nos dice que, para cualquier modelo especı́fico que utilicemos dentro
de una clase de modelos preestablecida, y para una muestra elegida al azar,
la probabilidad de que el error dentro de la muestra esté lejos del error fuera
de la muestra es cada vez más cercana a cero a medida que el tamaño de
la muestra crece. Esto ocurre con una rapidez que no depende del modelo
en particular.
45


h∈H
Lo anterior nos permite afirmar que, si para cada muestra elegimos el

modelo que minimiza el error dentro de la muestra, nos aproxima-
remos al error mı́nimo fuera de la muestra a medida que el tamaño
de ésta crezca.
46
Lo anterior se aplica a Regresión Lineal de la siguiente manera:
• Recibo una muestra aleatoria de tamaño N.

• Ajusto un modelo lineal usando los datos de la muestra,
minimizando el error dentro de la muestra.
• Estimo el error fuera de la muestra para el modelo ajustado.
Como la muestra es aleatoria, antes de que conozca la muestra, debo con-

siderar los coeficientes del modelo ajustado (betas) como aleatorios.
Por lo tanto, a priori (antes de conocer la muestra), el error fuera de
la muestra es también aleatorio (porque el modelo lo es).
47
48
Minimizando el error
Simulamos, para 500 tamaños de muestra distintos (desde N = 2 hasta
N = 500), 100 muestras aleatorias de cada tamaño, y promediamos.
49
En el caso particular de Regresión Lineal, tenemos lo siguiente:

Cota de generalización en Regresión Lineal
2σ 2
E(Eout ) = E(Ein ) + (p + 1)
N
50
En el caso particular de Regresión Lineal, tenemos lo siguiente:

Cota de generalización en Regresión Lineal
2σ 2
E(Eout ) = E(Ein ) + (p + 1)
N
• Si N aumenta (muestras más grandes), Ein se parece más a Eout en

promedio.
• Si σ aumenta (más ruido), Ein se parece menos a Eout en promedio.
• Si p aumenta (más variables), Ein se parece menos a Eout en
promedio.
50
En la práctica, tenemos sólo una muestra. ¿Qué hacemos entonces?
51
52
53
54
Entrenamiento y testeo
• Separamos la muestra en dos submuestras: entrenamiento y

testing, de manera aleatoria. Regla general: 70 % va a
entrenamiento y 30 % va a testing.
• La submuestra de testing no se toca. Será usada para estimar el
error fuera de la muestra.
• Todo el análisis exploratorio y el ajuste del modelo se hace en la
submuestra de entrenamiento.
55
En Regresión Lineal, el entrenamiento se realiza minimizando el error den-

tro de la submuestra de entrenamiento usando el método de mı́nimos cua-
drados:
Ŷ = β̂0 + β̂1 X1 + · · · + β̂p Xp
Posteriormente, el error fuera de la muestra se estima usando la submuestra

de testeo:
K
1 X (k)
Eout ≈ (Y − Ŷ (k) )2
K
k=1
donde K datos quedan en el set de testeo y N − K en el de entrenamiento.
56
En R podemos hacer esto con la librerı́a Caret.

Veamos un ejemplo práctico con la base de datos utilizada en el Taller 1.
57
Separamos la base de datos en entrenamiento y testeo mediante la fun-

ción createDataPartition. Esta función elige al azar el porcentaje de
filas que deseemos, cuidando que la variable a predecir tenga comporta-
miento similar en ambas submuestras.
58
Ajustamos un modelo de regresión con el set de entrenamiento y eva-

luémoslo con el set de testing:
59
Clasificación
Clasificación
Caracterı́sticas:
• Rango de valores a predecir (valores posibles de la variable Y ) es

discreto. Por ejemplo, Y ∈ {0, 1} (Clasificación Binaria).
• Rango de valores de las variables explicativas puede ser continuo o
discreto.
60
Clasificación
61
Clasificación
Modelos lineales para Clasificación Binaria
• Se busca una recta (o plano, o hiperplano) que separe los datos en

dos conjuntos, correspondientes a las dos categorı́as.
• No siempre es posible separar los datos de esta manera; en tales
casos, se busca cometer el menor error posible.
62
Clasificación
63
Clasificación
Ejemplo: Perceptrón
Un posible modelo (pronto veremos muchos más) es calcular:
β0 + β1 X1 + · · · + βp Xp
y luego asignar la categorı́a dependiendo de si esta suma es positiva o

negativa. Los coeficientes β0 , β1 , . . . , βp se eligen de modo de acertar la
mayor cantidad posible de categorı́as en el set de entrenamiento.
El modelo se entrena utilizando la función de error:
(
0 si u = v
e(u, v ) =
1 si u 6= v
64
Clasificación
Veamos un ejemplo:
65
Clasificación
Veamos un ejemplo:
66
Clasificación
Para esta muestra particular (N = 100) el modelo ajustado resultó ser:
(
1 si s(x1 , x2 ) ≥ 0
h(x1 , x2 ) =
0 si s(x1 , x2 ) < 0
donde:
s(x1 , x2 ) = −69 + −8.92x1 + 25.59x2
Los errores dentro y fuera de la muestra fueron 0.06 y 0.08 respectiva-

mente.
67
Clasificación
Al igual que en Regresión Lineal, los errores promedio dentro y fuera de la

muestra convergen hacia el error teórico lı́mite del modelo.
68
Clasificación
Veremos mucho más en el taller de mañana.
69

Clase 2 - Análisis y Visualización de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 2 - Análisis y Visualización de Datos

Cargado por

Copyright:

Formatos disponibles

1

Ejemplo: Regresión Lineal

• Población = conjunto de todos los posibles individuos del estudio.

Distribución condicional de una variable aleatoria respecto a otra

Esperanza condicional de una variable aleatoria respecto a otra

pY |X (y |x) = f (x)y (1 − f (x))1−y

Variables predictoras X = (X1 , X2 , X3 )

¿Existirá alguna relación entre la variable a predecir y las variables predic-

¿Existirá alguna relación entre la variable a predecir y las variables predic-

• En el mundo ideal, quisiéramos encontrar la distribución

• Ω es la población que nos interesa estudiar.

• Ω es la población que nos interesa estudiar.

Asumimos que existe una relación funcional entre input y output:

• Ω es la población que nos interesa estudiar.

Asumimos que existe una relación funcional entre input y output:

Dependiendo de las caracterı́sticas de la variable de output, tenemos dos

• Si Y es una variable aleatoria discreta, hablamos de Clasificación.

¿Cómo estimamos la relación funcional f entre las variables?

¿Cómo estimamos la relación funcional f entre las variables?

• Datos. Matemáticamente, esto corresponde a N pares de variables

¿Cómo estimamos la relación funcional f entre las variables?

• Datos. Matemáticamente, esto corresponde a N pares de variables

En la práctica, nuestros datos vienen ordenados en una gran tabla:

En la práctica, nuestros datos vienen ordenados en una gran tabla:

En la práctica, nuestros datos vienen ordenados en una gran tabla:

Hacemos las siguientes suposiciones:

• Dk y D` son variables aleatorias independientes para cada

Hacemos las siguientes suposiciones:

• Dk y D` son variables aleatorias independientes para cada

• Ω = conjunto de todos los estudiantes chilenos nacidos y por nacer

• Ω = conjunto de todos los estudiantes chilenos nacidos y por nacer

• ¿Bajo qué suposiciones será una muestra tomada en 2021

No olvidar: no se conocen la relación funcional f ni el error sistemático E.

¿Cómo buscamos la función f ?

¿Cómo buscamos la función f ?

¿Cómo buscamos la función f ?

• H = relaciones lineales entre la variable dependiente y las variables

• H = relaciones lineales entre la variable dependiente y las variables

• H = relaciones lineales entre la variable dependiente y las variables

• H = relaciones lineales entre la variable dependiente y las variables

En Regresión Lineal, H consiste en todas las funciones h : Rn −→ R de

Recordemos con más detalle el caso de Regresión Lineal...

• Función de error: e(u, v ) = (u − v )2

• Función de error: e(u, v ) = (u − v )2

• Función de error: e(u, v ) = (u − v )2

• Función de error: e(u, v ) = (u − v )2

Lo cual equivale a minimizar el error cuadrático medio:

• Función de error: e(u, v ) = (u − v )2

Lo cual equivale a minimizar el error cuadrático medio:

A esta cantidad la llamamos error dentro de la muestra.

¿Qué pasará con un dato fuera de la muestra?

• Para cada dato particular fuera de la muestra, obtenemos un número

• Para cada dato particular fuera de la muestra, obtenemos un número

• Para cada dato particular fuera de la muestra, obtenemos un número

• Para cada dato particular fuera de la muestra, obtenemos un número

Una posibilidad es estimar el error promedio fuera de la muestra.

• Error dentro de la muestra:

• Error fuera de la muestra:

Eout (h) := E(e(h(X ), Y )) (3)

Para un modelo especı́fico h, el error dentro de la muestra es una va-

Podemos enunciar entonces el problema general de aprendizaje:

Notar que estamos minimizando el error esperado a cometer al aproximar

Problema: ¿cómo estimar el error fuera de la muestra a partir de los datos?

Veamos cómo funciona esta solución. Supongamos que la realidad está