Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Figura 1: El conjunto de datos publicitarios. La trama muestra las ventas, en miles de unidades, en función
de los presupuestos de TV , radio y periódicos, en miles de dólares, para 200 mercados diferentes. En cada
parcela mostramos los mı́nimos cuadrados ajustados a ventas de esa variable, como se describe en el Capı́tulo
3. En otras palabras, cada azulla lı́nea representa un modelo simple que se puede usar para predecir ventas
mediante TV, radio y periódico respectivamente.
De manera más general, supongamos que observamos una respuesta cuantitativa Y y p diferentes predictores,
X1 , X2 , ..., Xp . Suponemos que hay alguna relación entre Y y X = ( X1 , X2 , ..., Xp ), que se puede
escribiren la forma muy general Y = f (X) + e.
En esencia, el aprendizaje estadı́stico se refiere a un conjunto de enfoques para estimar f . En este capı́tulo,
describimos algunos de los conceptos teóricos clave que surgen en la estimación de f , ası́ como herramientas
para evaluar las estimaciones obtenidas.
Prediccion
Consiste en conocer valores de una variable en el futuro . Esta predicción se puede realizar tanto para un valor
individual como para un valor medio o esperado de una variable.
Inferencia
Es el proceso por el cual se derivan conclusiones a partir de premisas
1
1.2 ¿Cómo estimamos f?
Nuestro objetivo es aplicar un método de aprendizaje estadı́stico a los datos de capacitación para estimar la
función desconocida f . En otras palabras, se quiere encontrar una función f tal que Y = f (X) para cualquier
observación (X, Y ). Los métodos de aprendizaje estadı́stico para esta tarea pueden ser caracterı́sticos como
paramétrico o no paramétrico .
Aprendizaje Supervisado
Es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento
consisten de pares de objeto: una componente del par son los datos de entrada y el otro, los resultados
deseados. La salida de la función puede ser un valor numérico (como en los problemas de regresión) o una
etiqueta de clase (como en los de clasificación). El objetivo del aprendizaje supervisado es el de crear una
función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber
visto una serie de ejemplos, los datos de entrenamiento. Para ello, tiene que generalizar a partir de los datos
presentados a las situaciones no vistas previamente.
Aprendizaje No Supervisado
Es un método de Aprendizaje Automático donde un modelo es ajustado a las observaciones. Se distingue
del aprendizaje supervisado por el hecho de que no hay un conocimiento a priori. En el aprendizaje no
supervisado, un conjunto de datos de objetos de entrada es tratado. Ası́, el aprendizaje no supervisado
tı́picamente trata los objetos de entrada como un conjunto de variables aleatorias, siendo construido un
modelo de densidad para el conjunto de datos. El aprendizaje no supervisado puede ser usado en conjunto
con la interferencia bayesiana para producir probabilidades condicionales (es decir, aprendizaje supervisado)
para cualquiera de las variables aleatorias dadas.
2
Figura 2: Un conjunto de datos de agrupación que involucra tres grupos. Se muestra cada grupo usando un
sı́mbolo de color diferente. Izquierda: los tres grupos están bien separados. En esta configuración, un enfoque
de agrupación deberı́a identificar con éxito los tres grupos. Derecha: hay cierta superposición entre los grupos.
Ahora la tarea de agrupamiento es más desafiante
Figura 3:
3
Figura 4:
2 El equilibrio de sesgo-varianza
Siempre se descompone en la suma de tres cantidades fundamentales: lavarianza de f (x0), el cuadrado
sesgo de f (x0) y la varianza del errordiferenciaparcialidadtérminos . Es decir, mi :(y0 − f (x0)) ∗ ∗2 =
V ar(f (x0)) + [Bias(f (x0))]2 + V ar()
¿Qué queremos decir con la varianza y el sesgo de un aprendizaje estadı́stico?¿método? Varianza se refiere
a la cantidad en la que f cambiarı́a silo estimó usando un conjunto de datos de entrenamiento diferente.
Desde los datos de entrenamientose utilizan para adaptarse al método de aprendizaje estadı́stico, diferentes
conjuntos de datos de entrenamientodará lugar a una diferente f . Pero, idealmente, la estimación de f no
deberı́a variardemasiado entre series de entrenamiento.
Por otro lado, el sesgo se refiere al error que se introduce por aproximadamenteaparearse con un problema
de la vida real, que puede ser extremadamente complicado, por muchomodelo más simple Por ejemplo, la
regresión lineal supone que hay una linealrelación entre Y yX1 , X2 , ..., Xp .
4
2.3 Vecinos K-más cercanos
En teorı́a, siempre nos gustarı́a predecir respuestas cualitativas utilizando el clasificador Bayes. Pero para datos
reales, no conocemos la distribución condicional la noción de Y dada X , por lo que calcular el clasificador de
Bayes es imposibleble. Por lo tanto, el clasificador Bayes sirve como un estándar de oro inalcanzablecontra
el cual comparar otros métodos. La probabilidad condicional para la clase P j como la fracción depuntos en N
0 cuyos valores de respuesta son iguales a j : P r(Y = j|X = x0 ) = 1K i ∈ No (yi = j) Finalmente, KNN
aplica la regla de Bayes y clasifica la observación de prueba x 0 ala clase con la mayor probabilidad.
3 Introduccion a R
3.1 Comandos Basicos
3.1.1 Vectores y Asignaciones
R utiliza diferentes estructuras de datos. La estructura mas simple es el vector, que es una coleccion ordenada
de numeros. Para crear un vector, por ejemplo x, consistente en cinco numeros, por ejemplo 10.4, 5.6, 3.1, 6.4
y 21.7, use la orden
> x < −c(10.4, 5.6, 3.1, 6.4, 21.7)
Esta es una asignacion en la que se utiliza la funcion c() que, en este contexto, puede tener un numero
arbitrario de vectores como argumento y cuyo valor es el vector obtenido mediante la concatenacion de
todos ellos. Un numero, por sı mismo, se considera un vector de longitud uno. Advierta que el operador de
asignacion, (‘¡-’), no es el operador habitual, ‘=’, que se reservapara otro proposito, sino que consiste en dos
caracteres, ‘¡’ (‘menor que’) y ‘-’ (‘guion’), que obligatoriamente deben ir unidos y ’apuntan’ hacia el objeto que
recibe el valor de la expresion. La asignacion puede realizarse tambien mediante la funcion assign(). Una
forma equivalente de realizar la asignacion anterior es
> assign(”x”, c(10.4, 5.6, 3.1, 6.4, 21.7))
El operador usual, < −, puede interpretarse como una abreviatura de la funcion assign(). Las asignaciones
pueden realizarse tambien con una flecha apuntando a la derecha, realizando el cambio obvio en la asignacion.
Por tanto, tambien podrıa escribirse
> c(10.4, 5.6, 3.1, 6.4, 21.7)− > x Si una expresion se utiliza como una orden por sı misma, su valor se imprime
y se pierde. Ası pues, la orden
> 1/x
simplemente imprime los inversos de los cinco valores anteriores en la pantalla (por supuesto, el valor de x no
se modifica). Si a continuacion hace la asignacion
> y < −c(x, 0, x)
crear a un vector, y, con 11 elementos, consistentes en dos copias de x con un cero entre ambas.
5
matriz = rbind (x1, x2,. . . )
matriz = cbind (x1, x2. . . )
donde en la función rbind(), x1 y x2, son las filas de la matriz, y en la función cbind() las columnas.
> M = matrix(1 : 9, nrow = 3, byrow = T RU E) la matriz se rrellena por filas
>M
> [, 1] [, 2] [, 3]
[1, ] 1 2 3
[2, ] 4 5 6
[3, ] 7 8 9
Comandos Basicos
Funcion Descripcion
mean() Devuelve la media.
var() Devuelve la cuasi varianza.
sd() Devuelve la cuasi desviación tı́pica.
median() Devuelve la mediana.
quantile() Devuelve los quantiles
summary() Devuelve el mı́nimo y el máximo valor, los quantiles,
la mediana y la media.
3.1.4 Graficos
La funcion plot() es la forma principal de trazado de datos en R. plot(x, y) produce un diagrama de dispersión
de los números en x versus los números en y . Hay muchas opciones adicionales que se pueden pasar a la
función. Por ejemplo, pasar el argumento xlab dará como resultado una etiquetaen el eje x .
> x = rnorm(100)
> y = tormenta(100)
> trama(x, y)
> plot(x, y, xlab = ”esteeselejex”, ylab = ”esteeselejey”, main = ”Gráf icadeXvsY ”
A menudo queremos guardar la salida de un gráfico R. El comando que nosotros usaremos para hacer esto
dependerá del tipo de archivo que nos gustarı́a crear. por instancia, para crear un pdf, usamos la función pdf ()
, y para crear un jpeg usamos la funcion jpeg()
> pdf (”F igure.pdf ”) > plot(x, y, col = ”verde”)
> dev.of f ()
Donde dev.off nos indica el final de la funcion plot en nuestro archivo.
6
Vectores: aquı́ solamente especificamos la posición del o los datos que queremos seleccionar con un solo valor.
> data < − − 5 : 5#creamosvectorde − 5a5
> data
− 5 − 4 − 3 − 2 − 1012345
> data[2]#seleccióndelvalorenlasegundaposición
−4
> data[c(1, 3, 5, 10)]#selecciónenlaposición1, 3, 5y10
− 5 − 3 − 14
> data[−1]#noseleccionarprimervalor
− 4 − 3 − 2 − 1012345
> data[c(−3 : −6)]#noseleccionardelterceroalsextovalor
− 5 − 412345
> data[data < 0]#seleccionarlosvaloresmenora0
−5−4−3−2−1
> data[data >= 0]#seleccionarlosvaloresmayoriguala0
012345
Para matrices cambia, como son datos dimensionales (x,y) se necesita especificar los dos valores, el primero es
la fila y el segundo la columna. > mtx < −matrix(1 : 20, 5, 4)
> mtx
> [, 1] [, 2] [, 3] [, 4]
[1, ] 1 6 11 16
[2, ] 2 7 12 17
[3, ] 3 8 13 18
[4, ] 4 9 14 19
[5, ] 5 10 15 20
> mtx[1, 2]
6
Excel es un programa de almacenamiento de datos de formato común. Una manera fácil de cargar tal-
los datos en R es guardarlos como un archivo csv (valores separados por comas) y luego usarla función read.csv
() para cargarlo.
> Auto = read.csv(”Auto.csv”, header = T, na.strings = ”?”)
> f ix(Auto)
> tenue(Auto)[1]3979
> Auto[1 : 4, ]