Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este artículo, me gustaría aclarar un poco más desde un punto de vista matemático la operación de la
regresión lineal. Se afirma que los conocimientos matemáticos necesarios están muy básico, ya que no
quiere ser un tratado científico 🙂
En la regresión lineal estadística es un método para estimar el valor esperado condicional de una variable
dependiente, o endógeno, dados los valores de otras variables independientes, o exógeno.
En otras palabras, a través de la regresión lineal se puede estimar el valor de un "algo", que "varía en
función de otra cosa." En nuestro ejemplo anterior, se ha supuesto que el costo de la casa (la variable
dependiente) variaría en función de la misma superficie (variable independiente).
La regresión lineal puede ser llamado "simple" (o univariante), si sólo hay una variable independiente, o
"múltiple" (o multivariable), si hay más de uno (por ejemplo, podríamos decir que el costo es también una
función de ubicación geográfica).
En el caso particular de la regresión lineal, estamos dando supone que existe una relación lineal entre las
variables independientes y la variable dependiente. Para simplificar la discusión, trato de aquí en adelante
sólo el caso de la regresión lineal simple.
supuestos
Como hemos supuesto que existe una relación lineal entre la variable independiente y la variable
dependiente, entonces, "matemáticamente por escrito," apoyamos:
y = mx + q
Donde m es el coeficiente angular de la línea recta (en otras palabras lo que está "pendiente"), mientras
que q es el término conocido. Estos dos parámetros que determinan una y sólo una línea recta, tienen un
significado preciso, también geométrico, que va más allá de esta discusión. Los invito, si tiene curiosidad,
para leer la discusión en este sentido en la Wikipedia.
Esta función se define, en el marco de aprendizaje automático, la función de hipótesis. El nombre es muy
apropiado, pero por lo ...
En este punto, si usted recuerda, dijimos que vamos a utilizar este método en el caso de aprendizaje
supervisado, ¿verdad? Esto significa que tenemos un conjunto de datos de aprendizaje. Este conjunto
contiene los valores de y, dados los valores de x. En nuestro ejemplo, de hecho, tenemos una tabla que
nos da una superficie de casos y el costo relativo.
Lo que se quiere lograr, a través del método de regresión lineal, la mejor recta posible que minimiza el
error en las estimaciones que vamos a hacer. ¿Cómo lo encontramos?
Bueno, si nos detenemos un momento para pensar, podemos determinar diferentes maneras de determinar
cómo el error en la estimación. Por ejemplo, podríamos decir que es "más pesado" un error en falta en la
estimación (porque queremos vender) en lugar de exceso. O viceversa. O podríamos llegar a un montón
de maneras. Esto es muy brutal llamado "modo", en la jerga se llama la función de costos.
A modo de ejemplo, con un par de supuestos (utilizando los datos que yo había mencionado la última vez,
tomando sólo los miles de precios). Utilizamos, en este ejemplo, la hipótesis y = x (o m = 1 y q = 0).
►x = 58, y = 96 €
si tuviéramos que calcular y con nuestra hipótesis y '= 58
calculamos la diferencia: 58-96 = -38
nos cuadrado: E = 1444