Aprendizaje Estadistico - Capitulo 2

LATEX
Ingenieria Informática y de Sistemas

Modelos Probabilisticos
Aprendizaje Estadistico 2019/11/18
Grupo 4 Capitulo II
1 ¿Qué es el Aprendizaje Estadı́stico?

Para motivar nuestro estudio del aprendizaje estadı́stico, comenzamos con un ejemplo simple. Supongamos
que somos consultores estadı́sticos contratados por un cliente para brindar asesoramiento sobre cómo mejorar
las ventas de un producto en particular. El conjunto de datos publicitarios consiste en las ventas de ese
producto en 200 diferentes mercados, junto con presupuestos publicitarios para el producto en cada uno de
esos mercados para tres medios diferentes: TV, radio y periódico. Los datos son mostrado en la Figura 1. No
es posible que nuestro cliente aumente directamenteventas del producto. Por otro lado, pueden controlar la
publicidad, gasto en cada uno de los tres medios. Por lo tanto, si determinamos que existe una asociación entre
publicidad y ventas, entonces podemos instruir nuestro cliente para ajustar los presupuestos publicitarios,
aumentando indirectamente las ventas. En otras palabras, nuestro objetivo es desarrollar un modelo preciso
que pueda usarse, predecir las ventas sobre la base de los tres presupuestos de medios.
Figura 1: El conjunto de datos publicitarios. La trama muestra las ventas, en miles de unidades, en función
de los presupuestos de TV , radio y periódicos, en miles de dólares, para 200 mercados diferentes. En cada
parcela mostramos los mı́nimos cuadrados ajustados a ventas de esa variable, como se describe en el Capı́tulo
3. En otras palabras, cada azulla lı́nea representa un modelo simple que se puede usar para predecir ventas
mediante TV, radio y periódico respectivamente.
De manera más general, supongamos que observamos una respuesta cuantitativa Y y p diferentes predictores,
X1 , X2 , ..., Xp . Suponemos que hay alguna relación entre Y y X = ( X1 , X2 , ..., Xp ), que se puede
escribiren la forma muy general Y = f (X) + e.
En esencia, el aprendizaje estadı́stico se refiere a un conjunto de enfoques para estimar f . En este capı́tulo,
describimos algunos de los conceptos teóricos clave que surgen en la estimación de f , ası́ como herramientas
para evaluar las estimaciones obtenidas.
1.1 ¿Por qué estimar f?

Hay dos razones principales por las que podemos desear estimar f: Predicción e inferencia .
Prediccion
Consiste en conocer valores de una variable en el futuro . Esta predicción se puede realizar tanto para un valor
individual como para un valor medio o esperado de una variable.
Inferencia
Es el proceso por el cual se derivan conclusiones a partir de premisas
1
1.2 ¿Cómo estimamos f?
Nuestro objetivo es aplicar un método de aprendizaje estadı́stico a los datos de capacitación para estimar la
función desconocida f . En otras palabras, se quiere encontrar una función f tal que Y = f (X) para cualquier
observación (X, Y ). Los métodos de aprendizaje estadı́stico para esta tarea pueden ser caracterı́sticos como
paramétrico o no paramétrico .
1.3 La compensacion entre la precision de prediccion y el modelo interpretabilidad

Hemos establecido que cuando la meta es la inferencia, hay una clara advertencia ventajas de utilizar métodos
de aprendizaje estadı́sticos simples y relativamente inflexibles En algunos entornos, sin embargo, solo estamos
interesados en la predicción, y la interpretabilidad del modelo predictivo simplemente no es de interés. Por
ejemplo, si buscamos desarrollar un algoritmo para predecir el precio de un stock, nuestro único requisito para
el algoritmo es que prediga con precisión: La interpretabilidad no es una preocupación. En esta configuración,
podrı́amos esperar que será mejor utilizar el modelo más flexible disponible. Sorprendentemente, esto es no
siempre es el caso! A menudo obtendremos predicciones más precisas utilizando un método menos flexible.
Este fenómeno, que puede parecer contradictorio a primera vista, tiene que ver con el potencial de sobreajuste
en altamente flexible.
1.4 Aprendizaje supervisado versus aprendizaje no supervisado

La mayorı́a de los problemas de aprendizaje estadı́stico se dividen en dos categorı́as: Supervisados o Sin
Supervisión. En los ejemplos discutidos en el capitulo, se tiene una mayor utilidad del dominio del aprendizaje
supervisado Por el contrario el aprendizaje no supervisado se describe de forma mas desafiante.
Aprendizaje Supervisado
Es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento
consisten de pares de objeto: una componente del par son los datos de entrada y el otro, los resultados
deseados. La salida de la función puede ser un valor numérico (como en los problemas de regresión) o una
etiqueta de clase (como en los de clasificación). El objetivo del aprendizaje supervisado es el de crear una
función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber
visto una serie de ejemplos, los datos de entrenamiento. Para ello, tiene que generalizar a partir de los datos
presentados a las situaciones no vistas previamente.
Aprendizaje No Supervisado
Es un método de Aprendizaje Automático donde un modelo es ajustado a las observaciones. Se distingue
del aprendizaje supervisado por el hecho de que no hay un conocimiento a priori. En el aprendizaje no
supervisado, un conjunto de datos de objetos de entrada es tratado. Ası́, el aprendizaje no supervisado
tı́picamente trata los objetos de entrada como un conjunto de variables aleatorias, siendo construido un
modelo de densidad para el conjunto de datos. El aprendizaje no supervisado puede ser usado en conjunto
con la interferencia bayesiana para producir probabilidades condicionales (es decir, aprendizaje supervisado)
para cualquiera de las variables aleatorias dadas.
1.5 Problema de regresión versus clasificación

Las variables pueden caracterizarse como cuantitativas o cualitativas (también conocido como categórico).
Las variables cuantitativas toman valores numéricos. Los ejemplos incluyen la edad, altura o ingresos de una
persona, el valor de una casa, y el precio de una acción.
Las variables cualitativas adquieren valor en una de K diferentes clases o categorı́as. Ejemplos de cualitativa
las variables incluyen el género de una persona (hombre o mujer), la marca de productos comprado (marca A,
B o C).
1.6 Evaluación de la precisión del modelo

En un conjunto de datos particular, un método especı́fico puede funcionar mejor, pero algún otro método
puede funcionar mejor en un método similar pero diferente conjunto de datos, Por lo tanto, es una tarea
importante decidir sobre cualquier conjunto de datos qué método produce los mejores resultados. Seleccionar
el mejor enfoque puede ser una de las partes más difı́ciles de realizar el aprendizaje estadı́stico en práctica en
esta sección, discutimos algunos de los conceptos más importantes que surgen al seleccionar un procedimiento
de aprendizaje estadı́stico para un conjunto de datos especı́ficos.
2
Figura 2: Un conjunto de datos de agrupación que involucra tres grupos. Se muestra cada grupo usando un
sı́mbolo de color diferente. Izquierda: los tres grupos están bien separados. En esta configuración, un enfoque
de agrupación deberı́a identificar con éxito los tres grupos. Derecha: hay cierta superposición entre los grupos.
Ahora la tarea de agrupamiento es más desafiante
1.7 Medición de la calidad del ajuste

Para evaluar el rendimiento de un método de aprendizaje estadı́stico sobre un conjunto de datos dado,
necesitamos alguna forma de medir qué tan bien sus predicciones en realidad coinciden con los datos
observados. Es decir, necesitamos cuantificar el alcance para el cual el valor de respuesta pronosticado para
una observación dada es cercano a el verdadero valor de respuesta para esa observación. En la configuración
de regresión, la medida más utilizada es el error cuadrático medio (MSE), dado por la media.
n
1X
M SE = (yi − f (xi ))2
n i=1
Donde f (xi ) es la predicción de que f da para la i-ésima observación. El M SE será pequeño si las respuestas
predichas están muy cerca de las respuestas verdaderas, y será grande si para algunas de las observaciones, la
predicha y verdadera las respuestas difieren frecuentemente. Se calcula utilizando los datos de entrenamiento
que se utilizan en se ajusta al modelo y, por lo tanto, deberı́a denominarse con mayor precisión la capacitación
MSE. Pero, en general, no nos importa cuán bien opera el método en los datos de entrenamiento. Por el
contrario, estamos interesados en la precisión de las predicciones que obtenemos cuando aplicamos nuestro
método a elementos no vistos previamente datos de prueba.
Figura 3:
3
Figura 4:
2 El equilibrio de sesgo-varianza
Siempre se descompone en la suma de tres cantidades fundamentales: lavarianza de f (x0), el cuadrado
sesgo de f (x0) y la varianza del errordiferenciaparcialidadtérminos . Es decir, mi :(y0 − f (x0)) ∗ ∗2 =
V ar(f (x0)) + [Bias(f (x0))]2 + V ar()
¿Qué queremos decir con la varianza y el sesgo de un aprendizaje estadı́stico?¿método? Varianza se refiere
a la cantidad en la que f cambiarı́a silo estimó usando un conjunto de datos de entrenamiento diferente.
Desde los datos de entrenamientose utilizan para adaptarse al método de aprendizaje estadı́stico, diferentes
conjuntos de datos de entrenamientodará lugar a una diferente f . Pero, idealmente, la estimación de f no
deberı́a variardemasiado entre series de entrenamiento.
Por otro lado, el sesgo se refiere al error que se introduce por aproximadamenteaparearse con un problema
de la vida real, que puede ser extremadamente complicado, por muchomodelo más simple Por ejemplo, la
regresión lineal supone que hay una linealrelación entre Y yX1 , X2 , ..., Xp .
2.1 La configuración de clasificación

Supongamos que buscamos estimar f sobre la base de la observación de capacitaciónvaciones (x1 , y1 ), ..., (xn , yn )
, donde ahora y 1, ..., yn son cualitativos. el enfoque más común para cuantificar la precisión de nuestra
estimación f esla tasa de error de entrenamiento , la proporción
Pde errores que se cometen si aplicamosTasa de
error nuestra estimación f a las observaciones de formación: i = 1I(yi = yi).
La tasa de error de prueba asociada con un conjunto de observaciones de prueba del formularioerror de
prueba( x0 , y0 ) viene dado porAve ( I(y0 = y0 )). Un buen clasificador es aquel para el cualEl error de prueba
es el más pequeño.
2.2 El clasificador de Bayes

simplemente debemos asignar una pruebaobservación con el vector predictor x 0 a la clase j para la cual
P r(Y = j|X = x0). Es el más grande. Tenga en cuenta que (2.10) es una probabilidad condicional : es la
probabilidad condicional probabilidad que Y = j , dado el vector predictor observado x0 . Esta clase muy
simplesifier se llama clasificador Bayes . En un problema de dos clases donde hayBayesclasificadorsolo dos
valores de respuesta posibles, digamos clase 1 o clase 2.
Figura 5: Un conjunto de datos simulados que consta de 100 observaciones.
4
2.3 Vecinos K-más cercanos
En teorı́a, siempre nos gustarı́a predecir respuestas cualitativas utilizando el clasificador Bayes. Pero para datos
reales, no conocemos la distribución condicional la noción de Y dada X , por lo que calcular el clasificador de
Bayes es imposibleble. Por lo tanto, el clasificador Bayes sirve como un estándar de oro inalcanzablecontra
el cual comparar otros métodos. La probabilidad condicional para la clase P j como la fracción depuntos en N
0 cuyos valores de respuesta son iguales a j : P r(Y = j|X = x0 ) = 1K i ∈ No (yi = j) Finalmente, KNN
aplica la regla de Bayes y clasifica la observación de prueba x 0 ala clase con la mayor probabilidad.
Figura 6: El enfoque KNN, usando K = 3, se ilustra.
3 Introduccion a R
3.1 Comandos Basicos
3.1.1 Vectores y Asignaciones
R utiliza diferentes estructuras de datos. La estructura mas simple es el vector, que es una coleccion ordenada
de numeros. Para crear un vector, por ejemplo x, consistente en cinco numeros, por ejemplo 10.4, 5.6, 3.1, 6.4
y 21.7, use la orden
> x < −c(10.4, 5.6, 3.1, 6.4, 21.7)
Esta es una asignacion en la que se utiliza la funcion c() que, en este contexto, puede tener un numero
arbitrario de vectores como argumento y cuyo valor es el vector obtenido mediante la concatenacion de
todos ellos. Un numero, por sı mismo, se considera un vector de longitud uno. Advierta que el operador de
asignacion, (‘¡-’), no es el operador habitual, ‘=’, que se reservapara otro proposito, sino que consiste en dos
caracteres, ‘¡’ (‘menor que’) y ‘-’ (‘guion’), que obligatoriamente deben ir unidos y ’apuntan’ hacia el objeto que
recibe el valor de la expresion. La asignacion puede realizarse tambien mediante la funcion assign(). Una
forma equivalente de realizar la asignacion anterior es
> assign(”x”, c(10.4, 5.6, 3.1, 6.4, 21.7))
El operador usual, < −, puede interpretarse como una abreviatura de la funcion assign(). Las asignaciones
pueden realizarse tambien con una flecha apuntando a la derecha, realizando el cambio obvio en la asignacion.
Por tanto, tambien podrıa escribirse
> c(10.4, 5.6, 3.1, 6.4, 21.7)− > x Si una expresion se utiliza como una orden por sı misma, su valor se imprime
y se pierde. Ası pues, la orden
> 1/x
simplemente imprime los inversos de los cinco valores anteriores en la pantalla (por supuesto, el valor de x no
se modifica). Si a continuacion hace la asignacion
> y < −c(x, 0, x)
crear a un vector, y, con 11 elementos, consistentes en dos copias de x con un cero entre ambas.
En R hay varias formas de crear una matriz:

Mediante la función matrix(), cuyos parámetros son:
Vector que contiene los valores que formarán la matriz. Debe tener en cuenta que si no es suficientemente
grande, se repetirá las veces que sea necesario.
nrow Número de filas. Si no especifica, se toma nrow =1
ncol Número de columnas.
byrow Variable lógica que indica si la matriz debe construirse por filas o por columnas. El valor predeterminado
es F.
dimnames Lista de longitud 2 con los nombres de las filas y las columnas.
Mediante los operadores rbind() (para pegar vectores por filas) y cbind() (para pegar vectores por columnas).
5
matriz = rbind (x1, x2,. . . )
matriz = cbind (x1, x2. . . )
donde en la función rbind(), x1 y x2, son las filas de la matriz, y en la función cbind() las columnas.
> M = matrix(1 : 9, nrow = 3, byrow = T RU E) la matriz se rrellena por filas
>M
> [, 1] [, 2] [, 3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
3.1.2 Funciones Estadisticas Basicas
Comandos Basicos
Funcion Descripcion
mean() Devuelve la media.
var() Devuelve la cuasi varianza.
sd() Devuelve la cuasi desviación tı́pica.
median() Devuelve la mediana.
quantile() Devuelve los quantiles
summary() Devuelve el mı́nimo y el máximo valor, los quantiles,
la mediana y la media.
3.1.3 Generacion de sucesiones

En R existen varias funciones para generar sucesiones numericas. Por ejemplo, 1:30 es el vector c(1,2,
...,29,30).
La funcion seq() permite generar sucesiones mas complejas. Dispone de cinco argumentos, aunque no se
utilizan todos simultaneamente. Si se dan los dos primeros indican el comienzo y el final de la sucesion, y
si son los unicos argumentos, el resultado coincide con el operador ’dos puntos’, esto es, seq(2,10) coincide
con 2:10. Los argumentos de seq(), y de muchas funciones de R, pueden darse ademas de por posicion, por
nombre, en cuyo caso, el orden en que aparecen es irrelevante. En esta funcion los dos primeros argumentos
se pueden dar por nombre mediante from=valor-inicial y to=valor-final; por tanto seq(1,30), seq(from=1,
to=30) y seq(to=30, from=1) son formas equivalentes a 1:30. Los dos siguientes argumentos de seq() son
by=valor y length=valor, y especifican el ’paso’ y ’longitud’ de la sucesion respectivamente. Si no se suministra
ninguno, el valor predeterminado es by=1 y length se calcula. Por ejemplo
> seq(−5, 5, by = .2)− > s3
genera el vector c(-5.0, -4.8, -4.6, ..., 4.6, 4.8, 5.0) y lo almacena en s3
3.1.4 Graficos
La funcion plot() es la forma principal de trazado de datos en R. plot(x, y) produce un diagrama de dispersión
de los números en x versus los números en y . Hay muchas opciones adicionales que se pueden pasar a la
función. Por ejemplo, pasar el argumento xlab dará como resultado una etiquetaen el eje x .
> x = rnorm(100)
> y = tormenta(100)
> trama(x, y)
> plot(x, y, xlab = ”esteeselejex”, ylab = ”esteeselejey”, main = ”Gráf icadeXvsY ”
A menudo queremos guardar la salida de un gráfico R. El comando que nosotros usaremos para hacer esto
dependerá del tipo de archivo que nos gustarı́a crear. por instancia, para crear un pdf, usamos la función pdf ()
, y para crear un jpeg usamos la funcion jpeg()
> pdf (”F igure.pdf ”) > plot(x, y, col = ”verde”)
> dev.of f ()
Donde dev.off nos indica el final de la funcion plot en nuestro archivo.
3.1.5 Datos Indexados

La indexación es la selección de subconjuntos de datos de un vector o de datos estructurales, para esto
se utilizan los operadores de selección [ ], [[ ]] y . Es un poco diferente para cada uno objeto, y existen
básicamente tres tipos de indexación: por vector lógico, por números enteros y selección negativa.
6
Vectores: aquı́ solamente especificamos la posición del o los datos que queremos seleccionar con un solo valor.
> data < − − 5 : 5#creamosvectorde − 5a5
> data
− 5 − 4 − 3 − 2 − 1012345
> data[2]#seleccióndelvalorenlasegundaposición
−4
> data[c(1, 3, 5, 10)]#selecciónenlaposición1, 3, 5y10
− 5 − 3 − 14
> data[−1]#noseleccionarprimervalor
− 4 − 3 − 2 − 1012345
> data[c(−3 : −6)]#noseleccionardelterceroalsextovalor
− 5 − 412345
> data[data < 0]#seleccionarlosvaloresmenora0
−5−4−3−2−1
> data[data >= 0]#seleccionarlosvaloresmayoriguala0
012345
Para matrices cambia, como son datos dimensionales (x,y) se necesita especificar los dos valores, el primero es
la fila y el segundo la columna. > mtx < −matrix(1 : 20, 5, 4)
> mtx
> [, 1] [, 2] [, 3] [, 4]
[1, ] 1 6 11 16
[2, ] 2 7 12 17
[3, ] 3 8 13 18
[4, ] 4 9 14 19
[5, ] 5 10 15 20
> mtx[1, 2]
6
3.1.6 Cargando datos

Para la mayorı́a de los análisis, la primera etapa implica la importación de un conjunto de datos en R . losLa
función read.table () es una de las principales formas de hacer esto. El archivo de ayuda contiene detalles
sobre cómo usar esta función. Podemos usar la función write.table() para exportar datos.
Antes de intentar cargar un conjunto de datos, debemos asegurarnos de que R sepapara buscar los datos en el
directorio apropiado. Por ejemplo en un sistema Windows uno podrı́a seleccionar el directorio utilizando la
opción Cambiar directorio ... en el menú Archivo. Comenzamos cargando en el conjunto de datos automático.
Para ilustrar la función read.table(), la cargamos ahora desde un archivo de texto. El siguiente comando
cargará el archivo Auto.data en R y lo almacenará como objeto llamado Auto , en un formato denominado
marco de datos. (El archivo de texto se puede obtener del sitio web de este libro). Una vez que se hayan
cargado los datos,la función f ix() se puede usar para verla en una hoja de cálculo como una ventana. Sin
embargo, la ventana debe estar cerrada antes de que se puedan ejecutar más comandos de ingreso en R.
> Auto = read.table(”Auto.data”)

> f ix(Auto)
Excel es un programa de almacenamiento de datos de formato común. Una manera fácil de cargar tal-
los datos en R es guardarlos como un archivo csv (valores separados por comas) y luego usarla función read.csv
() para cargarlo.
> Auto = read.csv(”Auto.csv”, header = T, na.strings = ”?”)
> f ix(Auto)
> tenue(Auto)[1]3979
> Auto[1 : 4, ]

Aprendizaje Estadistico - Capitulo 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aprendizaje Estadistico - Capitulo 2

Cargado por

Copyright:

Formatos disponibles

LATEX

Ingenieria Informática y de Sistemas

1 ¿Qué es el Aprendizaje Estadı́stico?

1.1 ¿Por qué estimar f?

1.3 La compensacion entre la precision de prediccion y el modelo interpretabilidad

1.4 Aprendizaje supervisado versus aprendizaje no supervisado

1.5 Problema de regresión versus clasificación

1.6 Evaluación de la precisión del modelo

1.7 Medición de la calidad del ajuste

2.1 La configuración de clasificación

2.2 El clasificador de Bayes

Figura 5: Un conjunto de datos simulados que consta de 100 observaciones.

Figura 6: El enfoque KNN, usando K = 3, se ilustra.

En R hay varias formas de crear una matriz:

3.1.2 Funciones Estadisticas Basicas

3.1.3 Generacion de sucesiones

3.1.5 Datos Indexados

3.1.6 Cargando datos

> Auto = read.table(”Auto.data”)

También podría gustarte