Está en la página 1de 5

ESTADISTICA

REGRESION LINEAL SIMPLE


La Regresión Lineal o linear regression es una técnica paramétrica utilizada para predecir variables
continuas, dependientes, dado un conjunto de variables independientes.

Explicado de manera más sencilla, la Regresión Lineal es un método para predecir la variable
dependiente (y) en función de los valores de las variables independientes (X). Se puede usar para los
casos donde quieras predecir alguna cantidad continua, por ejemplo, predecir el tráfico en una tienda
minorista, predecir el tiempo de permanencia de un usuario o el número de páginas visitas en un blog,
etc.

-variables independientes y dependientes.

Las variables independientes o características son variables que se manipulan para determinar el valor
de una variable dependiente. Simplemente, son las características que queremos usar para predecir
algún valor dado de y. Normalmente en Machine Learning vienen declarado como X.

Por otra parte, la variable dependiente u objetivo, depende de los valores de la variable independiente.
En pocas palabras, es la característica que estamos tratando de predecir. Esto también se puede conocer
comúnmente como una variable de respuesta. En Machine Learning esta variable esta definida como y.
Donde:

y – es la variable dependiente o la variable a predecir.

x – es la variable independiente o la variable que usamos para hacer una predicción.

a – es la pendiente o el valor que debe ser determinado, se le conoce como coeficiente y es una especie
de magnitud de cambio que pasa por y cuando x cambia.

b – es la constante que debe ser determinada, se le conoce como intercepto porque cuando x es igual a
0, entonces y = b.

Como puedes observar en la fórmula, solo hay una variable independiente involucrada, que vendría
siendo “x”.

El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre todos los datos y nuestra
línea, por lo tanto, para determinar la mejor línea, debemos minimizar la distancia entre todos los
puntos y la distancia de nuestra línea.  Existen muchos métodos para cumplir con este objetivo, pero
todos estos métodos tienen un solo objetivo que es el de minimizar la distancia.

l error es una parte inevitable del proceso de predicción, no importa cuán poderoso sea el algoritmo
que elijamos, siempre habrá un error irreductible, por lo que es imposible que un modelo nos arroje
una precisión de 100%, ya que si es así tenemos un error.

- TECNICA MINIMOS CUADRADOS

Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal pero se selecciona debido:

 Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que es más fácil
diferenciar y calcular el descenso del gradiente.
 Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse rápidamente a
conjuntos de datos que tienen miles de características.
 La interpretación es mucho más fácil que otras técnicas de regresión.
Comprendamos en detalle cómo usar estas fórmulas con un ejemplo:
Se nos da un conjunto de datos con 100 observaciones y 2 variables, altura y peso. Necesitamos
predecir el peso dada la altura.  La ecuación sería el de Regresión Lineal simple ya que
solamente cuenta con una variable independiente y se puede escribir de la siguiente forma:
y = ax + b

Donde:

y – es el peso

x – es la altura

a, b son los coeficientes a ser calculados

- SUPOSICIONES SOBRE LA REGRESION LINEAL

Para ajustar una línea de regresión lineal, los datos deben satisfacer algunas suposiciones básicas pero
importantes, si tus datos no siguen las suposiciones, sus resultados pueden ser incorrectos y engañosos.

Veamos algunas de estas suposiciones:

Linealidad y aditivo. Debe existir una relación lineal, los datos deben satisfacer algunas suposiciones
básicas pero importantes. Por lineal, significa que un cambio en la variable dependiente por 1 cambio de
unidad en la variable independiente es constante. Por aditivo, se refiere al efecto de “x” y “y” son
independientes de otras variables. Si los datos no siguen las suposiciones, los resultados pueden ser
incorrectos y engañosos.

Suposición lineal. La regresión lineal supone que la relación entre la entrada y salida es lineal. No es
compatible con nada más. Esto puede ser obvio, pero es bueno recordar cuando tenemos muchos
atributos.

Eliminar el ruido. La regresión lineal asume que sus variables de entrada y salida no son ruidosas.
Considera usar operaciones de limpieza de datos que permitan exponer mejor y aclarar la señal en los
datos. La presencia de correlación en términos de error se conoce como autocorrelación y afecta de
manera drástica los coeficientes de regresión y los valores de error estándar, ya que se basan en la
suposición de los términos de error no correlacionados.

Eliminar la colinealidad. La regresión lineal se ajustará demasiado a los datos cuando tenga variables de
entrada altamente correlacionadas. Considera calcular correlaciones por pares para sus datos de
entrada y eliminar los más correlacionados. La presencia de correlación en términos de error se conoce
como autocorrelación y afecta de manera drástica los coeficientes de regresión y los valores de error
estándar, ya que se basan en la suposición de los términos de error no correlacionados.

Distribuciones gaussianas. La regresión lineal hará predicciones más confiables si sus variables de
entrada y salida tienen una distribución normal. Podemos obtener algún beneficio utilizando
transformaciones en sus variables para hacer que su distribución tenga un aspecto más gaussiano.

La presencia de estos supuestos hace que la regresión sea bastante restrictiva, es decir el rendimiento
de un modelo de regresión está condicionado al cumplimiento de estas suposiciones.
Una vez que se violan estas suposiciones, la regresión hace predicciones tendenciosas y erráticas por lo
que se debe tener en cuenta cuando se esté trabajando con este algoritmo.

REGRESION LINEAL MULTIPLE


La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable
dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes
llamadas predictores (X1, X2, X3…). Es una extensión de la regresión lineal simple, por lo que es
fundamental comprender esta última. Los modelos de regresión múltiple pueden emplearse
para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los
predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar
causa-efecto).

Esta ecuación es muy parecida a la de Regresión Lineal simple solamente que acá incluimos las n
variables independientes con su respectivo coeficiente. Por lo tanto, acá se manejan múltiples
coeficientes y, a su vez, es computacionalmente más compleja debido a las variables añadidas.

ADOVA

Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más poblaciones son
iguales. Los ANOVA evalúan la importancia de uno o más factores al comparar las medias de la variable
de respuesta en los diferentes niveles de los factores. La hipótesis nula establece que todas las medias
de la población (medias de los niveles de los factores) son iguales mientras que la hipótesis alternativa
establece que al menos una es diferente.

Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al menos un factor categórico
con dos o más niveles. Los análisis ANOVA requieren datos de poblaciones que sigan una distribución
aproximadamente normal con varianzas iguales entre los niveles de factores. Sin embargo, los
procedimientos de ANOVA funcionan bastante bien incluso cuando se viola el supuesto de normalidad, a
menos que una o más de las distribuciones sean muy asimétricas o si las varianzas son bastante
diferentes. Las transformaciones del conjunto de datos original pueden corregir estas violaciones.

Si el valor p es menor que el nivel de significancia, entonces usted concluye que al menos una media de
durabilidad es diferente. Para información más detallada sobre las diferencias entre medias específicas,
utilice un método de comparaciones múltiples como el de Tukey.

El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las varianzas
para determinar si las medias son diferentes. El procedimiento funciona comparando la varianza entre
las medias de los grupos y la varianza dentro de los grupos como una manera de determinar si los
grupos son todos parte de una población más grande o poblaciones separadas con características
diferentes.

BIBLIOGRAFIA

https://aprendeia.com/algoritmo-regresion-lineal-simple-machine-learning/

También podría gustarte