Está en la página 1de 3

Hablamos ahora de la regresión lineal de fundamental importancia para muchos

métodos de algoritmos de aprendizaje automático.


En el aprendizaje supervisado anterior, mencioné un ejemplo para el modo, haciendo uso de la regresión
lineal, puede ser utilizado para estimar el costo de una casa en función de su superficie, que tiene ciertos
datos disponibles sobre la venta de otras casas .

En este artículo, me gustaría aclarar un poco más desde un punto de vista matemático la operación de la
regresión lineal. Se afirma que los conocimientos matemáticos necesarios están muy básico, ya que no
quiere ser un tratado científico 🙂

En primer lugar, vamos a empezar desde la definición de Wikipedia da esta metodología:

En la regresión lineal estadística es un método para estimar el valor esperado condicional de una variable
dependiente, o endógeno, dados los valores de otras variables independientes, o exógeno.

En otras palabras, a través de la regresión lineal se puede estimar el valor de un "algo", que "varía en
función de otra cosa." En nuestro ejemplo anterior, se ha supuesto que el costo de la casa (la variable
dependiente) variaría en función de la misma superficie (variable independiente).

La regresión lineal puede ser llamado "simple" (o univariante), si sólo hay una variable independiente, o
"múltiple" (o multivariable), si hay más de uno (por ejemplo, podríamos decir que el costo es también una
función de ubicación geográfica).

En el caso particular de la regresión lineal, estamos dando supone que existe una relación lineal entre las
variables independientes y la variable dependiente. Para simplificar la discusión, trato de aquí en adelante
sólo el caso de la regresión lineal simple.

supuestos

Como hemos supuesto que existe una relación lineal entre la variable independiente y la variable
dependiente, entonces, "matemáticamente por escrito," apoyamos:

y = mx + q

Donde m es el coeficiente angular de la línea recta (en otras palabras lo que está "pendiente"), mientras
que q es el término conocido. Estos dos parámetros que determinan una y sólo una línea recta, tienen un
significado preciso, también geométrico, que va más allá de esta discusión. Los invito, si tiene curiosidad,
para leer la discusión en este sentido en la Wikipedia.

Esta función se define, en el marco de aprendizaje automático, la función de hipótesis. El nombre es muy
apropiado, pero por lo ...

En este punto, si usted recuerda, dijimos que vamos a utilizar este método en el caso de aprendizaje
supervisado, ¿verdad? Esto significa que tenemos un conjunto de datos de aprendizaje. Este conjunto
contiene los valores de y, dados los valores de x. En nuestro ejemplo, de hecho, tenemos una tabla que
nos da una superficie de casos y el costo relativo.

Lo que se quiere lograr, a través del método de regresión lineal, la mejor recta posible que minimiza el
error en las estimaciones que vamos a hacer. ¿Cómo lo encontramos?

Bueno, si nos detenemos un momento para pensar, podemos determinar diferentes maneras de determinar
cómo el error en la estimación. Por ejemplo, podríamos decir que es "más pesado" un error en falta en la
estimación (porque queremos vender) en lugar de exceso. O viceversa. O podríamos llegar a un montón
de maneras. Esto es muy brutal llamado "modo", en la jerga se llama la función de costos.

Función de coste La función de coste es una función que determina la exactitud de


nuestra hipótesis. Fecha de todas las hipótesis posibles (que respeta el modelo lineal
que estamos empezando datos allí), por lo que queremos encontrar el mejor (llamado
"excelente"), la que nos permite hacer estimaciones más precisas, siempre contando
con los datos que se encuentran en nuestra posesión.
Si miramos con atención a la forma de nuestra hipótesis, vemos que podemos
"imaginar" muchos (son infinitas!), Una para cada combinación de la pendiente dos
parámetros y el término constante.
Por ejemplo:

►si m = 1 y q = 0, nuestra hipótesis es: y = x (una línea recta a 45 °, pasa por el


origen)
►si m = 0 y q = 1, nuestra hipótesis es: y = 1 (una línea completamente horizontal)
►si m = 2 y q = 5, nuestra hipótesis es: y = 2x + 5

y así sucesivamente, hasta el infinito, para cada combinación de m y q.


El problema, por lo tanto, puede ser considerado como la identificación del valor de
ambos parámetros M y Q que hacen menos el error en la estimación.
Cuadrado medio del error
El "modo" que se utilizará para evaluar nuestra hipótesis es calcular el error cuadrático
medio entre la estimación obtenida a través de los supuestos y el valor real.
En otras palabras, para cada caso y para cada determinado dentro de nuestras
series:

Calculamos la estimación de la variable dependiente. Llamamos a este valor de y '


Restamos y 'a y tenemos como punto de partida
Esta diferencia elevamos al cuadrado. Llamamos a este valor y
sumamos todos los datos y se obtuvieron para cada uno de nuestro conjunto
dividimos esta suma por el número de elementos dentro de nuestro conjunto (promediamos)
¿Quiere esto decir que todavía dividir 2 por razones que veremos más adelante, es el valor de la exactitud
de nuestra hipótesis.
el supuesto de que esto significará menor (exactitud), es el mejor
¿Qué opinas? eh simple?

A modo de ejemplo, con un par de supuestos (utilizando los datos que yo había mencionado la última vez,
tomando sólo los miles de precios). Utilizamos, en este ejemplo, la hipótesis y = x (o m = 1 y q = 0).

►x = 58, y = 96 €
si tuviéramos que calcular y con nuestra hipótesis y '= 58
calculamos la diferencia: 58-96 = -38
nos cuadrado: E = 1444

También podría gustarte