Está en la página 1de 16

Formación y asesoría a tu alcance

Diplomado en
mineria de datos
101010101010010101010101010101010010100101001010100000000000000000000001110000000000000000
010100000001010101010100001010101010100010101010101000101011110000101010101010101010101010

Módulo 1
Aprendizaje estadístico
1

¿Qué es aprendizaje estadístico?

Con el fin de motivar a nuestro estudio de aprendizaje estadístico, comenzamos con


un ejemplo sencillo. Supongamos que somos consultores estadísticos contratados por
un cliente para proporcionar consejos sobre cómo mejorar las ventas de un producto en
particular.

El conjunto de datos de publicidad (Advertising) consiste en las ventas (Sales) de


productos en 200 mercados diferentes, además de los presupuestos de publicidad en
cada uno de los mercados para tres medios diferentes: TV, radio y prensa. El conjunto de
datos se muestra en la Figura 1. Nuestro cliente no puede incrementar
directamente las ventas, solo pueden controlar el gasto de publicidad en cada uno de los
tres medios. En consecuencia, si se determina que existe una asociación entre la
publicidad y las ventas, entonces podemos asesorar a nuestro cliente para que ajuste los
presupuestos para la publicidad, lo que aumentaría indirectamente las ventas. En otras
palabras, nuestro objetivo es desarrollar un modelo exacto que se puede utilizar para
predecir las ventas sobre la base de los tres presupuestos de medios.

En esta configuración, los presupuestos de publicidad son variables de entrada


mientras que las ventas es una variable de salida. Las variables de entrada normalmente
se designan utilizando el símbolo X, con un subíndice para distinguirlos. Así X1
podría ser el presupuesto para TV; X2 el presupuesto para la radio; y X3 , el presupuesto
para la prensa. Las variables de entrada tienen diferentes nombres, a saber: predictores,
variables independientes o, a veces, simplemente las variables. La variable de salida en
este caso, las ventas, es conocida como la variable de respuesta o variable dependiente,
y por lo general se denota utilizando el símbolo Y. A lo largo del curso, vamos a utilizar
todos estos términos indistintamente.
2

Figura 1: Ventas en miles de unidades en 200 supermercados diferentes, en función de los


presupuestos en miles de dólares para TV, radio y prensa. En cada bloque la línea azul
representa el ajuste por mínimos cuadrados para predecir las ventas en cada medio de
comunicación.

De manera más general, suponemos que se observa una respuesta Y y tenemos p


diferentes predictores, X1 , X2 , ..., X p . Suponemos que hay alguna relación entre Y y
X = ( X1 , X2 , ..., X p ), que se puede escribir en forma muy general como:

Y = f (X) + ε

La función f es fija pero desconocida de X1 , ..., X p , además, ε representa un error


aleatorio, independiente de X y tiene media cero. En esta formulación, f representa la
información sistemática que proporciona X sobre Y. Como otro ejemplo, consideremos
el panel izquierdo de la Figura 2, el gráfico de los ingresos (Income) versus los años de
educación (Years of Education) para 30 individuos. La gráfica sugiere que uno podría ser
3

capaz de predecir los ingresos utilizando los años de educación. Sin embargo, la función
f que conecta la variable de entrada a la variable de salida es en general desconocida.
En esta situación, es necesario estimar f basado en los puntos observados. Dado que los
ingresos es un conjunto de datos simulados, f es conocido y se muestra por la curva
azul en el panel derecho de la Figura 2. Las líneas verticales representan los términos
del error ε. Observamos que algunos de las 30 observaciones se encuentran por encima
de la curva azul y algunos se encuentran por debajo de ella; por lo tanto, el error tiene
aproximadamente media cero. En general, la función f puede implicar más de una
variable de entrada.

Figura 2: En el gráfico de la izquierda, los puntos rojos son los valores observados de
los ingresos (en decenas de miles de dólares) y años de educación para 30 personas. En
el gráfico de la derecha, la curva azul representa la verdadera relación subyacente entre
los ingresos y los años de educación, que es generalmente desconocida (en este caso se
conoce porque los datos fueron simulados).
4

En esencia, aprendizaje estadístico se refiere a un conjunto de enfoques para estimar


f . En este curso describimos algunos de los conceptos teóricos fundamentales que se
plantean en la estimación de f , así como herramientas para la evaluación de las
estimaciones obtenidas.

En general, la función f puede implicar más de una variable de entrada. En la


Figura 3 representamos gráficamente los ingresos en función de los años de educación y
antigüedad. Aquí f es una superficie de dos dimensiones que deben ser estimada sobre
la base de los datos observados.

Figura 3: La gráfica muestra los ingresos (Income) en función de los años de educación
(Years of Education) y la antigüedad (Seriority). La superficie azul representa la verdadera
relación subyacente entre los ingresos, los años de educación y la antigüedad, que se
conoce desde que se simularon los datos. Los puntos rojos indican las observaciones. Los
valores son para 30 personas.
5

¿Por qué estimar f ?

Hay dos razones principales que podemos querer para estimar f: la predicción y la
inferencia. Veamos a continuación cada una de ellas.

Predicción

En muchas situaciones, un conjunto de entradas X están disponibles fácilmente, pero


la salida Y no se puede obtener con facilidad. En esta configuración, ya que la media del
error es cero, podemos predecir Y usando:

Ŷ = fˆ( X )

donde fˆ representa nuestra estimación de f, e Ŷ representa la predicción resultante para


Y. En esta configuración, fˆ es a menudo tratada como una caja negra, es decir, que por lo
general, no se tiene una forma exacta de fˆ. Mientras que si tenemos predicciones exactas
para Y.

Como un ejemplo, supongamos que X1 , . . . , X p son características de una muestra


de sangre de un paciente que se puede medir fácilmente en un laboratorio, e Y es una
variable que codifica el riesgo del paciente para una reacción adversa grave a un
medicamento en particular. Es natural buscar predecir Y a partir de X, ya que podemos
evitar dar el medicamento en cuestión a los pacientes que están en alto riesgo de tener
una reacción adversa, es decir, pacientes en los que la estimación de Y es alta.

La precisión de Ŷ como una predicción para Y depende de dos cantidades, que


llamaremos el error reducible y el error irreductible. En general, fˆ no será una estimación
6

perfecta para f , y esta imprecisión introducirá algún error. Este error es reducible debido
a que potencialmente se puede mejorar la exactitud de fˆ mediante el uso de la técnica
de aprendizaje estadístico más apropiado para estimar f . Sin embargo, incluso si fuera
posible formar una estimación perfecta para f , de modo que nuestra respuesta estimada
tome la forma Ŷ = fˆ( X ), nuestra predicción todavía tendría algún error en ella. Esto es
porque Y es también una función de ε que, por definición, no puede predecirse usando
X. Por lo tanto, la variabilidad asociado con ε también afecta a la precisión de nuestras
predicciones. Esto es conocido como el error irreductible, porque no importa qué tan bien
se estima f , nosotros no podemos reducir el error introducido por ε.

¿Por qué es el error irreductible mayor que cero? La cantidad ε puede contener las
variables no medidas que son útiles en la predicción de Y: como no podemos medirlos,
f no puede usarlos para su predicción. La cantidad ε también contiene variaciones que
no se pueden medir. Por ejemplo, el riesgo de una reacción adversa puede variar en un
paciente dado en un día determinado, en función de la variación de la fabricación de la
medicina en si misma o el estado anímico del paciente ese día.

Considere una estimación dada fˆ y un conjunto de predictores X, que produce la


predicción Ŷ = fˆ( X ). Supongamos por un momento que tanto fˆ y X son fijos.

Entonces, es fácil demostrar que:

E(Y − Ŷ )2 = E[ f ( X ) + ε − fˆ( X )]2

= [ f ( X ) − fˆ( X )]2 + Var(ε)

donde E(Y − Ŷ )2 representa el promedio, o valor esperado del cuadrado de la


diferencia entre el valor observado y el predicho de Y. La expresión [ f ( X ) − fˆ( X )]2 es
llamada el error reducible. Ahora, la expresión Var(ε) representa la variación asociada al
7

error ε, también conocida como el error irreducible.

El enfoque de este curso es sobre técnicas para la estimación de f con el objetivo de


reducir al mínimo el error reducible. Es importante tener en cuenta que el error
irreductible proporcionará siempre una cota superior en la exactitud de nuestra
predicción de Y. Esta cota es casi siempre desconocida en la práctica.

Inferencia

A menudo estamos interesados en comprender la forma en que Y es afectado por los


cambios en X1 , ..., X p . En esta situación deseamos estimar f , pero nuestro objetivo no es
necesariamente hacer predicciones acerca de Y. En su lugar queremos entender la relación
entre X e Y, o más específicamente, para entender cómo Y cambia como una función de
X1 , ..., X p . Ahora fˆ no puede ser tratada como una caja negra, porque necesitamos saber su
forma exacta. En esta configuración, se puede estar interesado en responder las siguientes
preguntas:

¿Los predictores están asociados con la respuesta? A menudo es el caso que sólo
una pequeña fracción de los predictores disponibles son sustancialmente asociado a
Y. La identificación de los pocos predictores importantes entre un gran conjunto de
posibles variables puede ser extremadamente útil, dependiendo de la aplicación.

¿Cuál es la relación entre la variable respuesta y cada predictor? Algunos


predictores pueden tener una relación positiva con Y, en el sentido que el aumento
del predictor se asocia con el aumento de los valores de Y. Otros predictores pueden
tener la relación opuesta. Dependiendo de la complejidad de f , la relación entre la
respuesta y un predictor dado también puede depender de los valores de los otros
predictores.
8

¿Puede la relación entre Y y cada predictor resumirse adecuadamente utilizando


una ecuación lineal, o es la relación más complicada? Históricamente, la
mayoría de los métodos de estimación de f han tomado una forma lineal. En
algunas situaciones, tal suposición es razonable o incluso deseable. Pero a menudo
la verdadera relación es más complicada, en la que los modelos lineales pueden no
proporcionar una representación exacta de la relación entre las variables de entrada
y de salida.

En el curso de desarrollaran ejemplos donde necesitaremos hacer predicciones,


inferencias y combinaciones entre ambas.

Por ejemplo, considere una empresa que está interesada en la realización de una
campaña de marketing directo. El objetivo es identificar a las personas que responden
positivamente un correo, basado en observaciones de las variables demográficas de
cada individuo. En este caso, las variables demográficas son los predictores y la
variable de respuesta es el resultado de la campaña de marketing (ya sea positivo o
negativo). La compañía no está interesada en obtener una profunda comprensión de las
relaciones entre los predictores de cada individuo y la respuesta; en cambio, la empresa
simplemente quiere un modelo preciso para predecir la respuesta usando los predictores.
Esto es un ejemplo de modelación para la predicción.

Por el contrario, tenga en cuenta los datos de publicidad ilustradas en la Figura 1. Uno
puede estar interesado en responder a preguntas tales como:

¿Qué medios contribuyen a las ventas?

¿Qué medios generan el mayor impulso en las ventas?

¿Cuánto aumento en las ventas se asocia con un aumento en el presupuesto dado a


la publicidad en TV?
9

Esta situación se inscribe en el paradigma de la inferencia.

Otro ejemplo es el de modelar la marca de un producto que un cliente puede


comprar teniendo en cuenta variables como el precio, la ubicación de las tiendas, los
niveles de descuento, el precio de la competencia, etcétera. En esta situación se podría
realmente estar más interesado en cómo cada una de las variables individuales afecta a
la probabilidad de compra, por ejemplo, ¿qué efecto tendrá el cambio del precio de un
producto en las ventas? Este es un ejemplo de modelado para la inferencia.

Por último, algunos modelos pueden llevarse a cabo tanto para la predicción e
inferencia.

Por ejemplo, en un entorno de bienes raíces, se puede tratar de relacionar los


valores de las casas con variables de entradas como tasa de criminalidad, la zonificación,
la distancia de un río, la calidad del aire, escuelas, nivel de ingresos de la comunidad, el
tamaño de las casas, y así sucesivamente. En este caso podemos estar interesado en cómo
afectan las variables de entrada individualmente los precios, es decir, ¿cuánto encarece
una casa si tiene una vista al río? Este es un problema de inferencia.
Alternativamente, uno puede simplemente estar interesado en predecir el valor de una
casa debido a sus características: ¿La casa está subvalorada o sobrevalorada? Este es un
problema de predicción.

Dependiendo de si nuestro objetivo final es la predicción, inferencia, o una


combinación de los dos, diferentes métodos para la estimación de f puede ser
utilizado.

Por ejemplo, los modelos lineales permiten hacer inferencia de una manera simple e
10

interpretable, pero no puede hacer predicciones tan exactas como otros enfoques. Por el
contrario, algunos de los enfoques altamente no lineales que veremos en el curso pueden
proporcionar potencialmente una predicción muy exacta para Y, pero esto produce una
menor interpretación del modelo lo que hace que la inferencia sea más difícil.

¿Cómo estimar f ?

En este curso, exploramos muchas aproximaciones lineales y no lineales para la


estimación de f . Sin embargo, estos métodos generalmente comparten ciertas
características.

Siempre vamos a suponer que hemos observado un conjunto de n diferentes puntos


de datos. Por ejemplo en la Figura 2 se observó n = 30 puntos de datos.

Estas observaciones se llaman datos de entrenamiento, porque vamos a utilizar


estos datos para entrenar o enseñar nuestro método para estimar f . Los xij representan el
valor del predictor de orden j, o de entrada, para la observación i, donde i = 1, 2, . . . , n y
j = 1, 2, . . . , p. En consecuencia, yi representa la variable de respuesta para la observación
i-ésima. Nuestros datos de entrenamiento consisten en ( x1 , y1 ), ( x2 , y2 ), ..., ( xn , yn ) donde
xi = ( xi1 , xi2 , ..., xip ) T .

Nuestro objetivo es aplicar un método de aprendizaje estadístico para los datos de


entrenamiento con el fin de estimar la función desconocida f . En otras palabras,
queremos encontrar una función fˆ tal que Y ≈ fˆ( X ) para cualquier observación ( X, Y ).
En general, la mayoría de los métodos de aprendizaje estadístico para esta tarea se
pueden caracterizar ya sea como paramétricos o no paramétricos.
11

Métodos paramétricos

Los métodos paramétricos implican un enfoque basado en un modelo de dos etapas:

1. En primer lugar, hacer una suposición sobre la forma funcional, o la forma, de f .

Por ejemplo, una suposición muy simple es que f es lineal en X:

f ( x ) = β 0 + β 1 x1 + β 2 x2 + . . . + β p x p

Este es un modelo lineal, que discutiremos ampliamente en el curso. Una vez que se
ha supuesto que f es lineal, el problema de estimar f se simplifica en gran medida.
En lugar de tener que estimar arbitrariamente una función f ( X ), p-dimensional,
sólo necesitamos estimar los p + 1 coeficientes β 0 , β 1 , . . . , β p .

2. Después de que el modelo haya sido seleccionado, necesitamos un procedimiento


que utiliza los datos de entrenamiento para adaptarse o entrenar el modelo. En el
caso del modelo lineal, es necesario estimar los parámetros β 0 , β 1 , . . . , β p . Es decir,
entrenamos para encontrar valores de estos parámetros de tal manera que:

Y ≈ β 0 + β 1 x1 + β 2 x2 + . . . + β p x p

El método más común para ajustar el modelo lineal consiste en los mínimos
cuadrados (ordinario). Sin embargo este método es uno de muchas formas de hacer
el ajuste de un modelo lineal. El enfoque descrito es lo que llamamos paramétrico;
consiste en reducir el problema de la estimación de f a la estimación de un conjunto
de parámetros.

Suponiendo una forma paramétrica para f simplifica el problema de la


estimación de f porque en general es mucho más fácil de estimar un conjunto de
12

parámetros, β 0 , β 1 , . . . , β p en el modelo lineal, de lo que es encontrar una función


completamente arbitraria f . La potencial desventaja de un modelo paramétrico es
que el modelo que elegimos por lo general no coincide con la verdadera forma
desconocida de f . Si el modelo elegido es demasiado lejos de la verdadera
forma de f , nuestra estimación será pobre o deficiente. Podemos tratar de abordar
este problema seleccionando modelos más flexibles que poseen diferentes funciones
para hacer la aproximación de f . En general, el ajuste de un modelo más
flexible requiere la estimación de un mayor número de parámetros. Estos
modelos más complejos pueden llevar a un fenómeno conocido como sobreajuste
de los datos (errores o ruidos muy frecuentes).

Figura 4: Un modelo lineal por mínimos cuadrados a los datos de ingresos (Income) de
la figura 3. Las observaciones se muestran en rojo, y el plano de color amarillo indica el
ajuste por mínimos cuadrados a los datos.

La Figura 4 muestra un ejemplo del enfoque paramétrico aplicado a la los datos de


ingreso de la Figura 3. Tenemos que ajustar un modelo lineal, donde el ingreso (Ing), se
13

obtendrá aproximadamente, a partir de la educación (Educ) y la antigüedad (Antig), tiene


la forma:
Ing ≈ β 0 + β 1 .Educ + β 2 .Antig

Como hemos supuesto una relación lineal entre la respuesta y los dos predictores,
todo el problema se reduce a estimar unos apropiados β 0 , β 1 , y β 2 , lo que hacemos
a través de de regresión lineal por mínimos cuadrados. Al comparar la Figura 3 y la
Figura 4, podemos ver que el ajuste lineal dada en la Figura 4 no es tan precisa: la
verdadera f tiene cierta curvatura que no se obtiene en el ajuste lineal. Sin embargo,
el ajuste lineal sigue apareciendo para hacer un trabajo razonable en la obtención de la
relación positiva entre años de educación e ingresos, así como la relación positiva entre
menos antigüedad y los ingresos. Con tan pocas observaciones, es lo mejor que podemos
hacer.

Figura 5: Un buen ajuste de spline de placa delgada a los datos de ingresos de la Figura 3
se muestra en amarillo; las observaciones se muestran en rojo.
14

Métodos no paramétricos

Los métodos no paramétricos no hacen supuestos explícitos acerca de la forma


funcional de f . En su lugar, buscan una estimación de f que llegue lo más cerca posible a
los puntos que representan los datos sin ser demasiado áspera o ondulada. Tales enfoques
pueden tener una gran ventaja sobre los enfoques paramétricos: al evitar la asunción de
una forma funcional particular para f , tiene el potencial para ajustar con precisión una
gama más amplia de posibles formas para f .

Cualquier ajuste paramétrico trae consigo la posibilidad de que la forma funcional


utilizada para estimación de f es muy diferente de la verdadera f , en cuyo caso el
modelo no se ajusta bien a los datos. En contraste, los modelos no paramétricos
evitan por completo este peligro, ya que esencialmente no hace ninguna suposición
acerca de la forma de f . Sin embargo, los métodos no paramétricos sufren de una
importante desventaja: no reducen el problema de la estimación de f a un
pequeño número de parámetros, un número muy grande de observaciones (mucho más
que normalmente se necesita para un modelo paramétrico) se requiere con el fin de
obtener una estimación precisa de f .

Un ejemplo de un modelo no paramétrico de los datos de ingresos se muestra en la


Figura 5. Un spline de placa delgada se utiliza para estimar f . Este abordaje no impone
ningún modelo de pre-especifico para f . En su lugar, intenta producir una estimación de
f que está tan cerca como sea posible a lo observado, como se puede notar en la Figura 5.

Este ajuste tiene error cero en los datos de entrenamiento. En este caso, el ajuste no
paramétrico ha producido una estimación exacta de la verdadera f vista en la Figura 3.
Con el fin de adaptar un spline de placa delgada, el analista de datos debe
seleccionar un nivel de suavidad. La Figura 6 muestra los mismos spline de placa delgada
15

Figura 6: Un spline áspero de placa delgada se ajusta a los datos sobre los ingresos de la
Figura 3.

aptos utilizando un menor nivel de suavidad, lo que permite un ajuste más áspero. La
estimación resultante se ajusta a los datos observados perfectamente. Sin embargo, el
ajuste de spline de la Figura 6 es mucho más variable que la verdadera función f , de la
Figura 3. Este es un ejemplo del sobreajuste de los datos, que hemos discutido
anteriormente. Es una situación indeseable porque el ajuste obtenido no producirá
estimaciones precisas en las nuevas observaciones que no forman parte del conjunto de
datos originales.

Como hemos visto, hay ventajas y desventajas para los métodos paramétricos y no
paramétricos.

También podría gustarte