Está en la página 1de 6

Aprendizaje supervisado

En el aprendizaje supervisado, se nos da un conjunto de datos y ya sabemos cómo debería ser nuestra
salida correcta, teniendo la idea de que existe una relación entre la entrada y la salida.

Los problemas de aprendizaje supervisado se clasifican en problemas de "regresión" y "clasificación". En


un problema de regresión, estamos tratando de predecir resultados dentro de una salida continua, lo
que significa que estamos tratando de asignar variables de entrada a alguna función continua. En un
problema de clasificación, en cambio, estamos tratando de predecir resultados en una salida discreta. En
otras palabras, estamos tratando de mapear variables de entrada en categorías discretas.

Ejemplo 1: Teniendo en cuenta los datos sobre el tamaño de las casas en el mercado inmobiliario,
intente predecir su precio. El precio en función del tamaño es una salida continua, por lo que este es un
problema de regresión. Podríamos convertir este ejemplo en un problema de clasificación haciendo, en
cambio, nuestra salida sobre si la casa "se vende por más o menos que el precio de venta". Aquí
clasificamos las casas según el precio en dos categorías discretas.

Ejemplo 2: (a) Regresión: dada una imagen de una persona, tenemos que predecir su edad sobre la base
de la imagen dada (b) Clasificación: dado un paciente con un tumor, tenemos que predecir si el tumor es
maligno o benigno.

*Lo que he visto después de haber enseñado Aprendizaje Automático durante ya casi una década es que
aprendes mucho más rápido si usas Octave como tu entorno de programación, y si usas Octave como tu
herramienta de aprendizaje y como herramienta para prototipar, te permitirá aprender y hacer
prototipos de algoritmos de aprendizaje más rápido.

Sé que como instructor debo decir “confía en mí acerca de esto” sólo un número finito de veces, pero
para aquellos que nunca antes habéis usado los entornos de programación del tipo de Octave, les pediré
que confíen en mí acerca de esto, y les digo que lo hagan.

Creo que su tiempo, su tiempo de desarrollo es uno de los recursos más valiosos.

Aprendizaje sin supervisión

El aprendizaje no supervisado nos permite abordar los problemas con poca o ninguna idea de cómo
deberían verse nuestros resultados. Podemos derivar la estructura de datos donde no necesariamente
conocemos el efecto de las variables.

Podemos derivar esta estructura agrupando los datos en función de las relaciones entre las variables en
los datos.

Con el aprendizaje no supervisado, no hay retroalimentación basada en los resultados de la predicción.

Ejemplo:

Agrupación: tome una colección de 1,000,000 de genes diferentes y encuentre una manera de agrupar
automáticamente estos genes en grupos que sean de alguna manera similares o relacionados por
diferentes variables, como la vida útil, la ubicación, los roles, etc.
No agrupación: el "algoritmo de cóctel" le permite encontrar estructura en un entorno caótico. (es decir,
identificar voces y música individuales a partir de una malla de sonidos en un cóctel).

Y es un aprendizaje supervisado porque se nos da la “respuesta correcta” para cada uno de nuestros
ejemplos. Es decir, nos dice cuál fue la casa real, cuál fue el precio real de cada casa que se vendió en
nuestro conjunto de datos y, además, es un ejemplo de un problema de regresión, el término regresión
se refiere al hecho de que predecimos el resultado del valor real, es decir, el precio. Y sólo para
recordarte, el otro tipo más común de problema de aprendizaje supervisado se llama problema de
clasificación, donde predecimos los resultados de valor discreto, es como si viéramos tumores
cancerígenos y tratáramos de determinar si el tumor es maligno o benigno. Entonces, este el resultado
del valor discreto de cero a uno.

De forma más formal, en el aprendizaje supervisado, tenemos un conjunto de datos que se llama
conjunto de entrenamiento. En el ejemplo de precios de viviendas, tenemos un conjunto de
entrenamiento de diferentes precios de viviendas y nuestro trabajo es aprender, a partir de estos datos,
cómo predecir los precios de las viviendas.

Model Representation
To establish notation for future use, we’ll use x(i)x^{(i)}x(i) to denote the “input” variables
(living area in this example), also called input features, and y(i)y^{(i)}y(i) to denote the “output”
or target variable that we are trying to predict (price). A pair (x(i),y(i))(x^{(i)} , y^{(i)} )
(x(i),y(i)) is called a training example, and the dataset that we’ll be using to learn—a list of m
training examples (x(i),y(i));i=1,...,m{(x^{(i)} , y^{(i)} ); i = 1, . . . , m}(x(i),y(i));i=1,...,m—is
called a training set. Note that the superscript “(i)” in the notation is simply an index into the
training set, and has nothing to do with exponentiation. We will also use X to denote the space of
input values, and Y to denote the space of output values. In this example, X = Y = ℝ.

To describe the supervised learning problem slightly more formally, our goal is, given a training
set, to learn a function h : X → Y so that h(x) is a “good” predictor for the corresponding value
of y. For historical reasons, this function h is called a hypothesis. Seen pictorially, the process is
therefore like this:
When the target variable that we’re trying to predict is continuous, such as in our housing
example, we call the learning problem a regression problem. When y can take on only a small
number of discrete values (such as if, given the living area, we wanted to predict if a dwelling is
a house or an apartment, say), we call it a classification problem.
Cost Function
We can measure the accuracy of our hypothesis function by using a cost function. This takes an
average difference (actually a fancier version of an average) of all the results of the hypothesis
with inputs from x's and the actual output y's.

J(θ0,θ1)=12m∑i=1m(y^i−yi)2=12m∑i=1m(hθ(xi)−yi)2J(\theta_0, \theta_1) = \dfrac {1}{2m} \


displaystyle \sum _{i=1}^m \left ( \hat{y}_{i}- y_{i} \right)^2 = \dfrac {1}{2m} \displaystyle \
sum _{i=1}^m \left (h_\theta (x_{i}) - y_{i} \right)^2J(θ0,θ1)=2m1i=1∑m(y^i−yi)2=2m1i=1∑m
(hθ(xi)−yi)2

To break it apart, it is 12\frac{1}{2}21 xˉ\bar{x}xˉ where xˉ\bar{x}xˉ is the mean of the squares
of hθ(xi)−yih_\theta (x_{i}) - y_{i}hθ(xi)−yi , or the difference between the predicted value and
the actual value.

This function is otherwise called the "Squared error function", or "Mean squared error". The
mean is halved (12)\left(\frac{1}{2}\right)(21) as a convenience for the computation of the
gradient descent, as the derivative term of the square function will cancel out the 12\frac{1}
{2}21 term. The following image summarizes what the cost function does:
Los datos se ajustan de esa manera, y hay una función de coste,
que era el objetivo de optimización. En este vídeo, con el fin de visualizar
mejor la función de coste J, trabajaré con una función de hipótesis simplificada
como la que se muestra a la derecha. Usaré mi hipótesis simplificada,
que sólo es theta 1 por x. Podemos, si quieres, considerarla como poner
el parámetro theta 0 igual a 0. Tengo sólo un parámetro theta 1
y mi función de coste es similar a la anterior excepto que h de X ahora es igual
sólo a theta 1 por x. Y sólo tengo un parámetro theta 1, y mi
objetivo de optimización es minimizar J de theta 1. Visualmente, lo que significa es
que si theta 0 es igual a 0, corresponde a escoger sólo las funciones de
hipótesis que pasan por el origen, que pasan por el punto (0,0). Con esta
definición simplificada de función de coste de hipótesis, tratemos de entender mejor
el concepto de función de coste. Resultan esas dos funciones clave a entender.
La primera es la función de hipótesis, y la segunda es una función de coste.

También podría gustarte