Está en la página 1de 7

LATEX

Ingenieria Informática y de Sistemas


Modelos Probabilisticos
Aprendizaje Estadistico 2019/11/18
Grupo 4 Capitulo II

1 ¿Qué es el Aprendizaje Estadı́stico?


Para motivar nuestro estudio del aprendizaje estadı́stico, comenzamos con un ejemplo simple. Supongamos
que somos consultores estadı́sticos contratados por un cliente para brindar asesoramiento sobre cómo mejorar
las ventas de un producto en particular. El conjunto de datos publicitarios consiste en las ventas de ese
producto en 200 diferentes mercados, junto con presupuestos publicitarios para el producto en cada uno de
esos mercados para tres medios diferentes: TV, radio y periódico. Los datos son mostrado en la Figura 1. No
es posible que nuestro cliente aumente directamenteventas del producto. Por otro lado, pueden controlar la
publicidad, gasto en cada uno de los tres medios. Por lo tanto, si determinamos que existe una asociación entre
publicidad y ventas, entonces podemos instruir nuestro cliente para ajustar los presupuestos publicitarios,
aumentando indirectamente las ventas. En otras palabras, nuestro objetivo es desarrollar un modelo preciso
que pueda usarse, predecir las ventas sobre la base de los tres presupuestos de medios.

Figura 1: El conjunto de datos publicitarios. La trama muestra las ventas, en miles de unidades, en función
de los presupuestos de TV , radio y periódicos, en miles de dólares, para 200 mercados diferentes. En cada
parcela mostramos los mı́nimos cuadrados ajustados a ventas de esa variable, como se describe en el Capı́tulo
3. En otras palabras, cada azulla lı́nea representa un modelo simple que se puede usar para predecir ventas
mediante TV, radio y periódico respectivamente.

De manera más general, supongamos que observamos una respuesta cuantitativa Y y p diferentes predictores,
X1 , X2 , ..., Xp . Suponemos que hay alguna relación entre Y y X = ( X1 , X2 , ..., Xp ), que se puede
escribiren la forma muy general Y = f (X) + e.
En esencia, el aprendizaje estadı́stico se refiere a un conjunto de enfoques para estimar f . En este capı́tulo,
describimos algunos de los conceptos teóricos clave que surgen en la estimación de f , ası́ como herramientas
para evaluar las estimaciones obtenidas.

1.1 ¿Por qué estimar f?


Hay dos razones principales por las que podemos desear estimar f: Predicción e inferencia .

Prediccion
Consiste en conocer valores de una variable en el futuro . Esta predicción se puede realizar tanto para un valor
individual como para un valor medio o esperado de una variable.

Inferencia
Es el proceso por el cual se derivan conclusiones a partir de premisas

1
1.2 ¿Cómo estimamos f?
Nuestro objetivo es aplicar un método de aprendizaje estadı́stico a los datos de capacitación para estimar la
función desconocida f . En otras palabras, se quiere encontrar una función f tal que Y = f (X) para cualquier
observación (X, Y ). Los métodos de aprendizaje estadı́stico para esta tarea pueden ser caracterı́sticos como
paramétrico o no paramétrico .

1.3 La compensacion entre la precision de prediccion y el modelo interpretabilidad


Hemos establecido que cuando la meta es la inferencia, hay una clara advertencia ventajas de utilizar métodos
de aprendizaje estadı́sticos simples y relativamente inflexibles En algunos entornos, sin embargo, solo estamos
interesados en la predicción, y la interpretabilidad del modelo predictivo simplemente no es de interés. Por
ejemplo, si buscamos desarrollar un algoritmo para predecir el precio de un stock, nuestro único requisito para
el algoritmo es que prediga con precisión: La interpretabilidad no es una preocupación. En esta configuración,
podrı́amos esperar que será mejor utilizar el modelo más flexible disponible. Sorprendentemente, esto es no
siempre es el caso! A menudo obtendremos predicciones más precisas utilizando un método menos flexible.
Este fenómeno, que puede parecer contradictorio a primera vista, tiene que ver con el potencial de sobreajuste
en altamente flexible.

1.4 Aprendizaje supervisado versus aprendizaje no supervisado


La mayorı́a de los problemas de aprendizaje estadı́stico se dividen en dos categorı́as: Supervisados o Sin
Supervisión. En los ejemplos discutidos en el capitulo, se tiene una mayor utilidad del dominio del aprendizaje
supervisado Por el contrario el aprendizaje no supervisado se describe de forma mas desafiante.

Aprendizaje Supervisado
Es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento
consisten de pares de objeto: una componente del par son los datos de entrada y el otro, los resultados
deseados. La salida de la función puede ser un valor numérico (como en los problemas de regresión) o una
etiqueta de clase (como en los de clasificación). El objetivo del aprendizaje supervisado es el de crear una
función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber
visto una serie de ejemplos, los datos de entrenamiento. Para ello, tiene que generalizar a partir de los datos
presentados a las situaciones no vistas previamente.

Aprendizaje No Supervisado
Es un método de Aprendizaje Automático donde un modelo es ajustado a las observaciones. Se distingue
del aprendizaje supervisado por el hecho de que no hay un conocimiento a priori. En el aprendizaje no
supervisado, un conjunto de datos de objetos de entrada es tratado. Ası́, el aprendizaje no supervisado
tı́picamente trata los objetos de entrada como un conjunto de variables aleatorias, siendo construido un
modelo de densidad para el conjunto de datos. El aprendizaje no supervisado puede ser usado en conjunto
con la interferencia bayesiana para producir probabilidades condicionales (es decir, aprendizaje supervisado)
para cualquiera de las variables aleatorias dadas.

1.5 Problema de regresión versus clasificación


Las variables pueden caracterizarse como cuantitativas o cualitativas (también conocido como categórico).
Las variables cuantitativas toman valores numéricos. Los ejemplos incluyen la edad, altura o ingresos de una
persona, el valor de una casa, y el precio de una acción.
Las variables cualitativas adquieren valor en una de K diferentes clases o categorı́as. Ejemplos de cualitativa
las variables incluyen el género de una persona (hombre o mujer), la marca de productos comprado (marca A,
B o C).

1.6 Evaluación de la precisión del modelo


En un conjunto de datos particular, un método especı́fico puede funcionar mejor, pero algún otro método
puede funcionar mejor en un método similar pero diferente conjunto de datos, Por lo tanto, es una tarea
importante decidir sobre cualquier conjunto de datos qué método produce los mejores resultados. Seleccionar
el mejor enfoque puede ser una de las partes más difı́ciles de realizar el aprendizaje estadı́stico en práctica en
esta sección, discutimos algunos de los conceptos más importantes que surgen al seleccionar un procedimiento
de aprendizaje estadı́stico para un conjunto de datos especı́ficos.

2
Figura 2: Un conjunto de datos de agrupación que involucra tres grupos. Se muestra cada grupo usando un
sı́mbolo de color diferente. Izquierda: los tres grupos están bien separados. En esta configuración, un enfoque
de agrupación deberı́a identificar con éxito los tres grupos. Derecha: hay cierta superposición entre los grupos.
Ahora la tarea de agrupamiento es más desafiante

1.7 Medición de la calidad del ajuste


Para evaluar el rendimiento de un método de aprendizaje estadı́stico sobre un conjunto de datos dado,
necesitamos alguna forma de medir qué tan bien sus predicciones en realidad coinciden con los datos
observados. Es decir, necesitamos cuantificar el alcance para el cual el valor de respuesta pronosticado para
una observación dada es cercano a el verdadero valor de respuesta para esa observación. En la configuración
de regresión, la medida más utilizada es el error cuadrático medio (MSE), dado por la media.
n
1X
M SE = (yi − f (xi ))2
n i=1
Donde f (xi ) es la predicción de que f da para la i-ésima observación. El M SE será pequeño si las respuestas
predichas están muy cerca de las respuestas verdaderas, y será grande si para algunas de las observaciones, la
predicha y verdadera las respuestas difieren frecuentemente. Se calcula utilizando los datos de entrenamiento
que se utilizan en se ajusta al modelo y, por lo tanto, deberı́a denominarse con mayor precisión la capacitación
MSE. Pero, en general, no nos importa cuán bien opera el método en los datos de entrenamiento. Por el
contrario, estamos interesados en la precisión de las predicciones que obtenemos cuando aplicamos nuestro
método a elementos no vistos previamente datos de prueba.

Figura 3:

3
Figura 4:

2 El equilibrio de sesgo-varianza
Siempre se descompone en la suma de tres cantidades fundamentales: lavarianza de f (x0), el cuadrado
sesgo de f (x0) y la varianza del errordiferenciaparcialidadtérminos . Es decir, mi :(y0 − f (x0)) ∗ ∗2 =
V ar(f (x0)) + [Bias(f (x0))]2 + V ar()
¿Qué queremos decir con la varianza y el sesgo de un aprendizaje estadı́stico?¿método? Varianza se refiere
a la cantidad en la que f cambiarı́a silo estimó usando un conjunto de datos de entrenamiento diferente.
Desde los datos de entrenamientose utilizan para adaptarse al método de aprendizaje estadı́stico, diferentes
conjuntos de datos de entrenamientodará lugar a una diferente f . Pero, idealmente, la estimación de f no
deberı́a variardemasiado entre series de entrenamiento.
Por otro lado, el sesgo se refiere al error que se introduce por aproximadamenteaparearse con un problema
de la vida real, que puede ser extremadamente complicado, por muchomodelo más simple Por ejemplo, la
regresión lineal supone que hay una linealrelación entre Y yX1 , X2 , ..., Xp .

2.1 La configuración de clasificación


Supongamos que buscamos estimar f sobre la base de la observación de capacitaciónvaciones (x1 , y1 ), ..., (xn , yn )
, donde ahora y 1, ..., yn son cualitativos. el enfoque más común para cuantificar la precisión de nuestra
estimación f esla tasa de error de entrenamiento , la proporción
Pde errores que se cometen si aplicamosTasa de
error nuestra estimación f a las observaciones de formación: i = 1I(yi = yi).
La tasa de error de prueba asociada con un conjunto de observaciones de prueba del formularioerror de
prueba( x0 , y0 ) viene dado porAve ( I(y0 = y0 )). Un buen clasificador es aquel para el cualEl error de prueba
es el más pequeño.

2.2 El clasificador de Bayes


simplemente debemos asignar una pruebaobservación con el vector predictor x 0 a la clase j para la cual
P r(Y = j|X = x0). Es el más grande. Tenga en cuenta que (2.10) es una probabilidad condicional : es la
probabilidad condicional probabilidad que Y = j , dado el vector predictor observado x0 . Esta clase muy
simplesifier se llama clasificador Bayes . En un problema de dos clases donde hayBayesclasificadorsolo dos
valores de respuesta posibles, digamos clase 1 o clase 2.

Figura 5: Un conjunto de datos simulados que consta de 100 observaciones.

4
2.3 Vecinos K-más cercanos
En teorı́a, siempre nos gustarı́a predecir respuestas cualitativas utilizando el clasificador Bayes. Pero para datos
reales, no conocemos la distribución condicional la noción de Y dada X , por lo que calcular el clasificador de
Bayes es imposibleble. Por lo tanto, el clasificador Bayes sirve como un estándar de oro inalcanzablecontra
el cual comparar otros métodos. La probabilidad condicional para la clase P j como la fracción depuntos en N
0 cuyos valores de respuesta son iguales a j : P r(Y = j|X = x0 ) = 1K i ∈ No (yi = j) Finalmente, KNN
aplica la regla de Bayes y clasifica la observación de prueba x 0 ala clase con la mayor probabilidad.

Figura 6: El enfoque KNN, usando K = 3, se ilustra.

3 Introduccion a R
3.1 Comandos Basicos
3.1.1 Vectores y Asignaciones
R utiliza diferentes estructuras de datos. La estructura mas simple es el vector, que es una coleccion ordenada
de numeros. Para crear un vector, por ejemplo x, consistente en cinco numeros, por ejemplo 10.4, 5.6, 3.1, 6.4
y 21.7, use la orden
> x < −c(10.4, 5.6, 3.1, 6.4, 21.7)
Esta es una asignacion en la que se utiliza la funcion c() que, en este contexto, puede tener un numero
arbitrario de vectores como argumento y cuyo valor es el vector obtenido mediante la concatenacion de
todos ellos. Un numero, por sı mismo, se considera un vector de longitud uno. Advierta que el operador de
asignacion, (‘¡-’), no es el operador habitual, ‘=’, que se reservapara otro proposito, sino que consiste en dos
caracteres, ‘¡’ (‘menor que’) y ‘-’ (‘guion’), que obligatoriamente deben ir unidos y ’apuntan’ hacia el objeto que
recibe el valor de la expresion. La asignacion puede realizarse tambien mediante la funcion assign(). Una
forma equivalente de realizar la asignacion anterior es
> assign(”x”, c(10.4, 5.6, 3.1, 6.4, 21.7))
El operador usual, < −, puede interpretarse como una abreviatura de la funcion assign(). Las asignaciones
pueden realizarse tambien con una flecha apuntando a la derecha, realizando el cambio obvio en la asignacion.
Por tanto, tambien podrıa escribirse
> c(10.4, 5.6, 3.1, 6.4, 21.7)− > x Si una expresion se utiliza como una orden por sı misma, su valor se imprime
y se pierde. Ası pues, la orden
> 1/x
simplemente imprime los inversos de los cinco valores anteriores en la pantalla (por supuesto, el valor de x no
se modifica). Si a continuacion hace la asignacion
> y < −c(x, 0, x)
crear a un vector, y, con 11 elementos, consistentes en dos copias de x con un cero entre ambas.

En R hay varias formas de crear una matriz:


Mediante la función matrix(), cuyos parámetros son:
Vector que contiene los valores que formarán la matriz. Debe tener en cuenta que si no es suficientemente
grande, se repetirá las veces que sea necesario.
nrow Número de filas. Si no especifica, se toma nrow =1
ncol Número de columnas.
byrow Variable lógica que indica si la matriz debe construirse por filas o por columnas. El valor predeterminado
es F.
dimnames Lista de longitud 2 con los nombres de las filas y las columnas.
Mediante los operadores rbind() (para pegar vectores por filas) y cbind() (para pegar vectores por columnas).

5
matriz = rbind (x1, x2,. . . )
matriz = cbind (x1, x2. . . )

donde en la función rbind(), x1 y x2, son las filas de la matriz, y en la función cbind() las columnas.
> M = matrix(1 : 9, nrow = 3, byrow = T RU E) la matriz se rrellena por filas
>M
> [, 1] [, 2] [, 3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9

3.1.2 Funciones Estadisticas Basicas

Comandos Basicos
Funcion Descripcion
mean() Devuelve la media.
var() Devuelve la cuasi varianza.
sd() Devuelve la cuasi desviación tı́pica.
median() Devuelve la mediana.
quantile() Devuelve los quantiles
summary() Devuelve el mı́nimo y el máximo valor, los quantiles,
la mediana y la media.

3.1.3 Generacion de sucesiones


En R existen varias funciones para generar sucesiones numericas. Por ejemplo, 1:30 es el vector c(1,2,
...,29,30).
La funcion seq() permite generar sucesiones mas complejas. Dispone de cinco argumentos, aunque no se
utilizan todos simultaneamente. Si se dan los dos primeros indican el comienzo y el final de la sucesion, y
si son los unicos argumentos, el resultado coincide con el operador ’dos puntos’, esto es, seq(2,10) coincide
con 2:10. Los argumentos de seq(), y de muchas funciones de R, pueden darse ademas de por posicion, por
nombre, en cuyo caso, el orden en que aparecen es irrelevante. En esta funcion los dos primeros argumentos
se pueden dar por nombre mediante from=valor-inicial y to=valor-final; por tanto seq(1,30), seq(from=1,
to=30) y seq(to=30, from=1) son formas equivalentes a 1:30. Los dos siguientes argumentos de seq() son
by=valor y length=valor, y especifican el ’paso’ y ’longitud’ de la sucesion respectivamente. Si no se suministra
ninguno, el valor predeterminado es by=1 y length se calcula. Por ejemplo
> seq(−5, 5, by = .2)− > s3
genera el vector c(-5.0, -4.8, -4.6, ..., 4.6, 4.8, 5.0) y lo almacena en s3

3.1.4 Graficos
La funcion plot() es la forma principal de trazado de datos en R. plot(x, y) produce un diagrama de dispersión
de los números en x versus los números en y . Hay muchas opciones adicionales que se pueden pasar a la
función. Por ejemplo, pasar el argumento xlab dará como resultado una etiquetaen el eje x .
> x = rnorm(100)
> y = tormenta(100)
> trama(x, y)
> plot(x, y, xlab = ”esteeselejex”, ylab = ”esteeselejey”, main = ”Gráf icadeXvsY ”

A menudo queremos guardar la salida de un gráfico R. El comando que nosotros usaremos para hacer esto
dependerá del tipo de archivo que nos gustarı́a crear. por instancia, para crear un pdf, usamos la función pdf ()
, y para crear un jpeg usamos la funcion jpeg()
> pdf (”F igure.pdf ”) > plot(x, y, col = ”verde”)
> dev.of f ()
Donde dev.off nos indica el final de la funcion plot en nuestro archivo.

3.1.5 Datos Indexados


La indexación es la selección de subconjuntos de datos de un vector o de datos estructurales, para esto
se utilizan los operadores de selección [ ], [[ ]] y . Es un poco diferente para cada uno objeto, y existen
básicamente tres tipos de indexación: por vector lógico, por números enteros y selección negativa.

6
Vectores: aquı́ solamente especificamos la posición del o los datos que queremos seleccionar con un solo valor.
> data < − − 5 : 5#creamosvectorde − 5a5
> data
− 5 − 4 − 3 − 2 − 1012345
> data[2]#seleccióndelvalorenlasegundaposición
−4
> data[c(1, 3, 5, 10)]#selecciónenlaposición1, 3, 5y10
− 5 − 3 − 14
> data[−1]#noseleccionarprimervalor
− 4 − 3 − 2 − 1012345
> data[c(−3 : −6)]#noseleccionardelterceroalsextovalor
− 5 − 412345
> data[data < 0]#seleccionarlosvaloresmenora0
−5−4−3−2−1
> data[data >= 0]#seleccionarlosvaloresmayoriguala0
012345
Para matrices cambia, como son datos dimensionales (x,y) se necesita especificar los dos valores, el primero es
la fila y el segundo la columna. > mtx < −matrix(1 : 20, 5, 4)
> mtx
> [, 1] [, 2] [, 3] [, 4]
[1, ] 1 6 11 16
[2, ] 2 7 12 17
[3, ] 3 8 13 18
[4, ] 4 9 14 19
[5, ] 5 10 15 20
> mtx[1, 2]
6

3.1.6 Cargando datos


Para la mayorı́a de los análisis, la primera etapa implica la importación de un conjunto de datos en R . losLa
función read.table () es una de las principales formas de hacer esto. El archivo de ayuda contiene detalles
sobre cómo usar esta función. Podemos usar la función write.table() para exportar datos.
Antes de intentar cargar un conjunto de datos, debemos asegurarnos de que R sepapara buscar los datos en el
directorio apropiado. Por ejemplo en un sistema Windows uno podrı́a seleccionar el directorio utilizando la
opción Cambiar directorio ... en el menú Archivo. Comenzamos cargando en el conjunto de datos automático.
Para ilustrar la función read.table(), la cargamos ahora desde un archivo de texto. El siguiente comando
cargará el archivo Auto.data en R y lo almacenará como objeto llamado Auto , en un formato denominado
marco de datos. (El archivo de texto se puede obtener del sitio web de este libro). Una vez que se hayan
cargado los datos,la función f ix() se puede usar para verla en una hoja de cálculo como una ventana. Sin
embargo, la ventana debe estar cerrada antes de que se puedan ejecutar más comandos de ingreso en R.

> Auto = read.table(”Auto.data”)


> f ix(Auto)

Excel es un programa de almacenamiento de datos de formato común. Una manera fácil de cargar tal-
los datos en R es guardarlos como un archivo csv (valores separados por comas) y luego usarla función read.csv
() para cargarlo.
> Auto = read.csv(”Auto.csv”, header = T, na.strings = ”?”)
> f ix(Auto)
> tenue(Auto)[1]3979
> Auto[1 : 4, ]

También podría gustarte