Machine Translated by Google
APRENDIZAJE AUTOMÁTICO
MAESTRÍA
Maestro
Máquina
Aprendiendo
ALGORITMOS
Descubra cómo funcionan e
impleméntelos
Desde cero
JasonBrownlee
Machine Translated by Google
Descargo de responsabilidad
La información contenida en este libro electrónico tiene fines estrictamente educativos. Si desea aplicar las
ideas contenidas en este libro electrónico, asume toda la responsabilidad de sus acciones.
El autor ha hecho todo lo posible para garantizar que la exactitud de la información contenida en este libro sea
correcta en el momento de su publicación. El autor no asume y por la presente renuncia a cualquier responsabilidad
ante ninguna parte por cualquier pérdida, daño o interrupción causada por errores u omisiones, ya sea que
dichos errores u omisiones resulten de accidente, negligencia o cualquier otra causa.
Ninguna parte de este libro electrónico puede reproducirse ni transmitirse de ninguna forma ni por ningún medio, electrónico o
mecánico, grabación o sistema de recuperación y almacenamiento de información, sin el permiso por escrito del autor.
Derechos de autor
Algoritmos maestros de aprendizaje automático
© Copyright 2016 Jason Brownlee. Reservados todos los derechos.
Edición, v1.15
Machine Translated by Google
Esto es solo una muestra
Gracias por su interés en dominar los algoritmos de aprendizaje automático.
Esta es sólo una muestra del texto completo. Puede comprar el libro completo en línea
desde: https://machinelearningmastery.com/mastermachinelearningalgorithms/
APRENDIZAJE AUTOMÁTICO
MAESTRÍA
Maestro
Máquina
Aprendiendo
ALGORITMOS
Descubra cómo funcionan e
impleméntelos
Desde cero
JasonBrownlee
ii
Machine Translated by Google
Contenido
Derechos de autor i
1 regresión lineal 1
1.1 ¿No es la regresión lineal la estadística? . . . . ... . . . . . . ... . ... . . . 1
1.2 Muchos nombres de regresión lineal . . . . . . . ... . ... . . ... . ... . . . 1
1.3 Representación del modelo de regresión lineal . . . ... . . . . . . ... . ... . . . 2
1.4 Regresión lineal Aprendizaje del modelo . . . . ... . . . . . . ... . ... . . . 2
1.5 Descenso de gradiente . . . . . . . ... . . . . . . ... . ... . . . . . . ... . ..3
1.6 Hacer predicciones con regresión lineal . . ... . . . . . . ... . ... . . .4
1.7 Preparación de datos para regresión lineal . ... . ... . . . . . . ... . ... . . . 5
1.8 Resumen . . ... . . . . . . ... . ... . . . . . . ... . ... . . ... . ..6
2 Tutorial de regresión lineal simple 2.1 Conjunto de 7
datos del tutorial . . . ... . ... . . . . . . ... . ... . . . . . . ... . ..7
2.2 Regresión lineal simple . . . ... . . . . . . ... . ... . . . . . . ... . .. 8
2.3 Hacer predicciones . . ... . ... . . . . . . ... . ... . . . . . . ... . . . 10
2.4 Error de estimación . . . ... . ... . . . . . . ... . ... . . . . . . ... . . . 11
2.5 Atajo . . . ... . . . . . . ... . ... . . . . . . ... . . . . . . ... . . . 12
2.6 Resumen . . ... . . . . . . ... . ... . . . . . . ... . ... . . ... . . . 12
III
Machine Translated by Google
Capítulo 1
Regresión lineal
La regresión lineal es quizás uno de los algoritmos más conocidos y comprendidos en estadística y aprendizaje automático.
En este capítulo descubrirá el algoritmo de regresión lineal, cómo funciona y cómo puede utilizarlo mejor en sus proyectos
de aprendizaje automático. En este capítulo aprenderás:
• Por qué la regresión lineal pertenece tanto a la estadística como al aprendizaje automático.
• Los muchos nombres con los que se conoce la regresión lineal.
• Los algoritmos de representación y aprendizaje utilizados para crear un modelo de regresión lineal.
• Cómo preparar mejor sus datos al modelar mediante regresión lineal.
Empecemos.
1.1 ¿No es la regresión lineal la estadística?
Antes de profundizar en los detalles de la regresión lineal, es posible que se pregunte por qué estamos analizando este
algoritmo. ¿No es una técnica de la estadística?
El aprendizaje automático, más específicamente el campo del modelado predictivo, se ocupa
principalmente de minimizar el error de un modelo o hacer las predicciones más precisas posibles, a expensas
de la explicabilidad. En el aprendizaje automático aplicado tomaremos prestados, reutilizaremos y robaremos
algoritmos de muchos campos diferentes, incluidas las estadísticas, y los utilizaremos para estos fines.
Como tal, la regresión lineal se desarrolló en el campo de la estadística y se estudia como modelo para comprender
la relación entre las variables numéricas de entrada y salida, pero ha sido tomada prestada por el aprendizaje automático.
Es a la vez un algoritmo estadístico y un algoritmo de aprendizaje automático. A continuación, repasemos algunos de los
nombres comunes utilizados para referirnos a un modelo de regresión lineal.
1.2 Muchos nombres de regresión lineal
Cuando empiezas a analizar la regresión lineal, las cosas pueden volverse muy confusas. La razón es que la regresión
lineal existe desde hace mucho tiempo (más de 200 años). Se ha estudiado desde todos los ángulos posibles y, a menudo,
cada ángulo tiene un nombre nuevo y diferente.
1
Machine Translated by Google
1.3. Representación del modelo de regresión lineal 2
La regresión lineal es un modelo lineal, por ejemplo, un modelo que supone una relación lineal
entre las variables de entrada (x) y la única variable de salida (y). Más específicamente, que y se
puede calcular a partir de una combinación lineal de las variables de entrada (x). Cuando hay una
única variable de entrada (x), el método se denomina regresión lineal simple. Cuando hay múltiples
variables de entrada, la literatura estadística a menudo se refiere al método como regresión lineal múltiple.
Se pueden utilizar diferentes técnicas para preparar o entrenar la ecuación de regresión lineal a partir de datos, la
más común de las cuales se llama mínimos cuadrados ordinarios. Por lo tanto, es común referirse a un modelo preparado
de esta manera como Regresión Lineal de Mínimos Cuadrados Ordinarios o simplemente Regresión de Mínimos
Cuadrados . Ahora que conocemos algunos nombres utilizados para describir la regresión lineal, echemos un vistazo más
de cerca a la representación utilizada.
1.3 Representación del modelo de regresión lineal
La regresión lineal es un modelo atractivo porque la representación es muy simple. La representación es una
ecuación lineal que combina un conjunto específico de valores de entrada (x) cuya solución es la salida
prevista para ese conjunto de valores de entrada (y). Como tal, tanto los valores de entrada (x) como el valor
de salida son numéricos.
La ecuación lineal asigna un factor de escala a cada valor de entrada o columna, llamado
coeficiente que comúnmente se representa con la letra griega Beta (β). También se agrega un
coeficiente adicional, lo que le da a la línea un grado adicional de libertad (por ejemplo, moverse hacia
arriba y hacia abajo en un gráfico bidimensional) y a menudo se le llama intercepto o coeficiente de
sesgo. Por ejemplo, en un problema de regresión simple (una sola x y una sola y), la forma del modelo sería:
y = B0 + B1 × x (1.1)
En dimensiones superiores, cuando tenemos más de una entrada (x), la línea se llama plano o hiperplano. Por lo
tanto, la representación es la forma de la ecuación y los valores específicos utilizados para los coeficientes (por ejemplo,
B0 y B1 en el ejemplo anterior). Es común hablar de la complejidad de un modelo de regresión como la regresión lineal.
Esto se refiere al número de coeficientes utilizados en el modelo.
Cuando un coeficiente se vuelve cero, efectivamente elimina la influencia de la variable de entrada en el
modelo y, por lo tanto, de la predicción realizada a partir del modelo (0 × x = 0). Esto se vuelve relevante si
nos fijamos en los métodos de regularización que cambian el algoritmo de aprendizaje para reducir la
complejidad de los modelos de regresión al ejercer presión sobre el tamaño absoluto de los coeficientes,
llevando algunos a cero. Ahora que entendemos la representación utilizada para un modelo de regresión
lineal, revisemos algunas formas en que podemos aprender esta representación a partir de los datos.
1.4 Regresión lineal aprendiendo el modelo
Aprender un modelo de regresión lineal significa estimar los valores de los coeficientes utilizados en la representación con
los datos que tenemos disponibles. En esta sección veremos brevemente cuatro técnicas para preparar un modelo de
regresión lineal. Esta no es información suficiente para implementarlos desde cero, pero sí para tener una idea del cálculo
y las compensaciones involucradas.
Machine Translated by Google
1.5. Descenso de gradiente 3
Hay muchas más técnicas porque el modelo está muy bien estudiado. Tome nota de los mínimos cuadrados ordinarios
porque es el método más utilizado en general. También tome nota de Gradient Descent, ya que es la técnica más común
que se enseña desde una perspectiva de aprendizaje automático.
1.4.1 Regresión lineal simple
Con la regresión lineal simple, cuando tenemos una única entrada, podemos usar estadísticas para estimar los coeficientes.
Esto requiere que calcule propiedades estadísticas de los datos, como medias, desviaciones estándar, correlaciones y
covarianza. Todos los datos deben estar disponibles para recorrer y calcular estadísticas. Esto es divertido como ejercicio
en una hoja de cálculo, pero no es realmente útil en la práctica.
1.4.2 Mínimos cuadrados ordinarios
Cuando tenemos más de una entrada podemos usar mínimos cuadrados ordinarios para estimar los valores de los
coeficientes. El procedimiento de Mínimos Cuadrados Ordinarios busca minimizar la suma de los residuos al cuadrado.
Esto significa que, dada una línea de regresión a través de los datos, calculamos la distancia desde cada punto de datos
hasta la línea de regresión, la elevamos al cuadrado y sumamos todos los errores al cuadrado . Ésta es la cantidad que
los mínimos cuadrados ordinarios buscan minimizar.
Este enfoque trata los datos como una matriz y utiliza operaciones de álgebra lineal para estimar los valores óptimos
de los coeficientes. Significa que todos los datos deben estar disponibles y debe tener suficiente memoria para ajustar los
datos y realizar operaciones matriciales. Es inusual implementar el procedimiento de mínimos cuadrados ordinarios usted
mismo a menos que sea un ejercicio de álgebra lineal. Es más probable que llame a un procedimiento en una biblioteca
de álgebra lineal. Este procedimiento es muy rápido de calcular.
1.5 Descenso de gradiente
Cuando hay una o más entradas, puede utilizar un proceso de optimización de los valores de los
coeficientes minimizando iterativamente el error del modelo en sus datos de entrenamiento. Esta
operación se llama Descenso de gradiente y funciona comenzando con valores cero para cada coeficiente.
La suma de los errores cuadrados se calcula para cada par de valores de entrada y salida. Se utiliza una tasa de
aprendizaje como factor de escala y los coeficientes se actualizan en la dirección de minimizar el error. El proceso se
repite hasta que se logra un error de suma cuadrática mínimo o no es posible realizar más mejoras.
Al utilizar este método, debe seleccionar un parámetro de tasa de aprendizaje (alfa) que determine
el tamaño del paso de mejora a realizar en cada iteración del procedimiento. El descenso de gradientes
a menudo se enseña mediante un modelo de regresión lineal porque es relativamente sencillo de entender.
En la práctica, es útil cuando se tiene un conjunto de datos muy grande, ya sea en número de filas o en número de
columnas, que tal vez no quepan en la memoria.
1.5.1 Regresión lineal regularizada
Existen extensiones del entrenamiento del modelo lineal llamadas métodos de regularización. Estos
buscan minimizar la suma del error cuadrado del modelo en los datos de entrenamiento (usando
mínimos cuadrados ordinarios) pero también reducir la complejidad del modelo (como el número o
Machine Translated by Google
1.6. Hacer predicciones con regresión lineal 4
tamaño absoluto de la suma de todos los coeficientes del modelo). Dos ejemplos populares de procedimientos de
regularización para regresión lineal son:
• Regresión de lazo: donde se modifican los mínimos cuadrados ordinarios para minimizar también el valor absoluto.
suma de los coeficientes (llamada regularización L1).
• Regresión de cresta: donde se modifican los mínimos cuadrados ordinarios para minimizar también la suma
absoluta al cuadrado de los coeficientes (llamada regularización L2).
Estos métodos son eficaces cuando hay colinealidad en los valores de entrada y los mínimos cuadrados ordinarios
sobreajustarían los datos de entrenamiento. Ahora que conoce algunas técnicas para aprender los coeficientes en un
modelo de regresión lineal, veamos cómo podemos usar un modelo para hacer predicciones sobre datos nuevos.
1.6 Hacer predicciones con regresión lineal
Dado que la representación es una ecuación lineal, hacer predicciones es tan simple como resolver la
ecuación para un conjunto específico de entradas. Concretemos esto con un ejemplo. Imaginemos que
estamos prediciendo el peso (y) a partir de la altura (x). Nuestra representación del modelo de regresión
lineal para este problema sería:
y = B0 + B1 × X1 peso
(1.2)
= B0 + B1 × altura
Donde B0 es el coeficiente de sesgo y B1 es el coeficiente de la columna de altura. Utilizamos una
técnica de aprendizaje para encontrar un buen conjunto de valores de coeficientes. Una vez encontrado,
podemos introducir diferentes valores de altura para predecir el peso. Por ejemplo, usemos B0 = 0,1 y B1
= 0,5. Conectémoslos y calculemos el peso (en kilogramos) de una persona con una altura de 182 centímetros.
peso = 0,1 + 0,5 × 182 peso =
(1.3)
91,1
Puedes ver que la ecuación anterior se podría trazar como una línea en dos dimensiones. El B0 es nuestro punto de
partida independientemente de la altura que tengamos. Podemos recorrer un montón de alturas de 100 a 250 centímetros
y conectarlas a la ecuación y obtener valores de peso, creando nuestra línea.
Machine Translated by Google
1.7. Preparación de datos para regresión lineal 5
Figura 1.1: Muestra de regresión lineal de altura versus peso.
Ahora que sabemos cómo hacer predicciones dado un modelo de regresión lineal aprendido, veamos
Veamos algunas reglas generales para preparar nuestros datos y aprovechar al máximo este tipo de modelo.
1.7 Preparación de datos para regresión lineal
La regresión lineal se ha estudiado en profundidad y existe mucha literatura sobre cómo se deben estructurar
los datos para aprovechar al máximo el modelo. Como tal, hay mucha sofisticación cuando se habla de estos
requisitos y expectativas que pueden resultar intimidantes. En la práctica, puede utilizar estas reglas más como
reglas generales cuando utilice la regresión de mínimos cuadrados ordinarios, la implementación más común de
regresión lineal. Pruebe diferentes preparaciones de sus datos utilizando estas heurísticas y vea qué funciona
mejor para su problema.
• Supuesto Lineal. La regresión lineal supone que la relación entre la entrada y la salida es lineal. No soporta
nada más. Esto puede parecer obvio, pero es bueno recordarlo cuando tienes muchos atributos. Es
posible que necesite transformar datos para que la relación sea lineal (por ejemplo, transformación
logarítmica para una relación exponencial).
• Eliminar ruido. La regresión lineal supone que las variables de entrada y salida no son ruidosas. Considere
la posibilidad de utilizar operaciones de limpieza de datos que le permitan exponer y aclarar mejor la
señal de sus datos. Esto es muy importante para la variable de salida y, si es posible, desea eliminar los
valores atípicos en la variable de salida (y).
• Eliminar colinealidad. La regresión lineal sobreajustará sus datos cuando tenga variables de entrada
altamente correlacionadas. Considere calcular correlaciones por pares para sus datos de entrada y
eliminar los más correlacionados.
• Distribuciones Gaussianas. La regresión lineal hará predicciones más confiables si sus variables de
entrada y salida tienen una distribución gaussiana. Puede obtener algún beneficio utilizando
transformaciones (por ejemplo, log o BoxCox) en sus variables para que su distribución tenga un aspecto
más gaussiano.
Machine Translated by Google
1.8. Resumen 6
• Cambiar la escala de las entradas: la regresión lineal a menudo generará predicciones más confiables si se cambia la escala.
variables de entrada mediante estandarización o normalización.
1.8 Resumen
En este capítulo descubrió el algoritmo de regresión lineal para el aprendizaje automático. Cubriste mucho
terreno, incluido:
• Los nombres comunes utilizados al describir modelos de regresión lineal.
• La representación utilizada por el modelo.
• Algoritmos de aprendizaje utilizados para estimar los coeficientes del modelo.
• Reglas generales a considerar al preparar datos para su uso con regresión lineal.
Ahora conoce el algoritmo de regresión lineal para realizar predicciones de valores reales. En el siguiente capítulo
descubrirá cómo implementar el algoritmo de regresión lineal simple desde cero.
Machine Translated by Google
Capitulo 2
Tutorial de regresión lineal simple
La regresión lineal es un método muy simple pero ha demostrado ser muy útil para una gran cantidad
de situaciones. En este capítulo descubrirá exactamente cómo funciona la regresión lineal paso a paso.
Después de leer este capítulo sabrás:
• Cómo calcular una regresión lineal simple paso a paso.
• Cómo hacer predicciones sobre nuevos datos utilizando su modelo.
• Un atajo que simplifica enormemente el cálculo.
Empecemos.
2.1 Conjunto de datos del tutorial
El conjunto de datos que estamos utilizando está completamente compuesto. A continuación se muestran los datos sin procesar.
xy 1 1
23
43
32
55
Listado 2.1: Conjunto de datos del tutorial.
El atributo x es la variable de entrada e y es la variable de salida que estamos tratando de predecir. Si
obtuviéramos más datos, solo tendríamos valores de x y estaríamos interesados en predecir los valores de y.
A continuación se muestra un diagrama de dispersión simple de x versus y.
7
Machine Translated by Google
2.2. Regresión lineal simple 8
Figura 2.1: Conjunto de datos de regresión lineal simple.
Podemos ver que la relación entre xey parece algo lineal . Es decir, probablemente podríamos dibujar una
línea en algún lugar en diagonal desde la parte inferior izquierda del gráfico hasta la parte superior derecha para
describir en general la relación entre los datos. Esta es una buena indicación de que utilizar la regresión lineal
podría ser apropiado para este pequeño conjunto de datos.
2.2 Regresión lineal simple
Cuando tenemos un único atributo de entrada (x) y queremos usar regresión lineal, esto se llama regresión
lineal simple. Si tuviéramos múltiples atributos de entrada (por ejemplo, X1, X2, X3, etc.), esto se llamaría
regresión lineal múltiple. El procedimiento para la regresión lineal es diferente y más simple que el de la
regresión lineal múltiple, por lo que es un buen punto de partida. En esta sección, crearemos un modelo
de regresión lineal simple a partir de nuestros datos de entrenamiento y luego haremos predicciones para
nuestros datos de entrenamiento para tener una idea de qué tan bien el modelo aprendió la relación en los datos.
Con regresión lineal simple queremos modelar nuestros datos de la siguiente manera:
y = B0 + B1 × x (2.1)
Esta es una línea donde y es la variable de salida que queremos predecir, x es la variable de entrada que
conocemos y B0 y B1 son coeficientes que debemos estimar para mover la línea.
Técnicamente, B0 se llama intersección porque determina dónde la línea intercepta el eje y.
En el aprendizaje automático podemos llamar a esto sesgo, porque se agrega para compensar todas las predicciones
que hacemos. El término B1 se llama pendiente porque define la pendiente de la recta o cómo x se traduce en un valor
de y antes de agregar nuestro sesgo.
El objetivo es encontrar las mejores estimaciones de los coeficientes para minimizar los errores al predecir y a
partir de x. La regresión simple es excelente porque, en lugar de tener que buscar valores mediante prueba y error o
calcularlos analíticamente usando álgebra lineal más avanzada, podemos estimarlos directamente a partir de nuestros
datos. Podemos comenzar estimando el valor de B1 como:
Machine Translated by Google
2.2. Regresión lineal simple 9
norte
B1 = i=1(xi − media(x)) × (yi − media(y))
norte
(2.2)
i=1(xi − media(x))2
Donde media() es el valor promedio de la variable en nuestro conjunto de datos. Los xi y yi se refieren a
el hecho de que necesitamos repetir estos cálculos en todos los valores de nuestro conjunto de datos y me refiero a
el iésimo valor de x o y. Podemos calcular B0 usando B1 y algunas estadísticas de nuestro conjunto de datos, como
sigue:
B0 = media(y) − B1 × media(x) (2.3)
No está tan mal ¿verdad? Podemos calcularlos directamente en nuestra hoja de cálculo.
2.2.1 Estimación de la pendiente (B1)
Comencemos con la parte superior de la ecuación, el numerador. Primero necesitamos calcular el
valor medio de x e y. La media se calcula como:
norte
1
× xi (2.4)
norte
yo=1
Donde n es el número de valores (5 en este caso). Puede utilizar la función PROMEDIO() en
tu hoja de cálculo. Calculemos el valor medio de nuestras variables x e y:
media(x) = 3
(2.5)
media(y) = 2,8
Ahora necesitamos calcular el error de cada variable a partir de la media. Hagamos esto con x primero:
x media(x) x media(x)
13 2
2 1
4 1
3 0
5 2
Listado 2.2: Residual de cada valor de x de la media.
Ahora hagamos eso para la variable y.
y media(y) 1 2,8 y media(y)
1,8
3 0,2
3 0,2
2 0,8
5 2.2
Listado 2.3: Residual de cada valor de y de la media.
Ahora tenemos las partes para calcular el numerador. Todo lo que tenemos que hacer es multiplicar el error.
para cada x con el error para cada y y calcula la suma de estas multiplicaciones.
x media(x) y media(y) Multiplicación
2 1,8 3,6
1 0,2 0,2
Machine Translated by Google
2.3. Haciendo predicciones 10
1 0,2 0,2
0 0,8 0
2 2.2 4.4
Listado 2.4: Multiplicación de los residuos x e y a partir de sus medias.
Sumando la columna final hemos calculado nuestro numerador como 8. Ahora necesitamos calcular
la parte inferior de la ecuación para calcular B1, o el denominador. Esto se calcula como
la suma de las diferencias al cuadrado de cada valor de x con respecto a la media. Ya hemos calculado
la diferencia de cada valor de x con respecto a la media, todo lo que tenemos que hacer es elevar al cuadrado cada valor y calcular
la suma.
x media(x) al cuadrado
2 4
1 1
1 1
0 0
2 4
Listado 2.5: Residuo al cuadrado de cada valor de x de la media.
Calcular la suma de estos valores al cuadrado nos da un denominador de 10. Ahora podemos
Calcular el valor de nuestra pendiente.
8
B1 =
10 (2.6)
B1 = 0,8
2.2.2 Estimación de la intersección (B0)
Esto es mucho más fácil porque ya conocemos los valores de todos los términos involucrados.
B0 = media(y) − B1 × media(x)
B0 = 2,8 − 0,8 × 3 (2.7)
B0 = 0,4
2.3 Hacer predicciones
Ahora tenemos los coeficientes de nuestra ecuación de regresión lineal simple.
y = B0 + B1 × x
(2.8)
y = 0,4 + 0,8 × x
Probemos el modelo haciendo predicciones para nuestros datos de entrenamiento.
x Y previsto
1 1.2
22
4 3.6
3 2,8
5 4.4
Listado 2.6: Valor de y previsto para cada valor de entrada de x.
Machine Translated by Google
2.4. Error de estimación 11
Podemos trazar estas predicciones como una línea con nuestros datos. Esto nos da una idea visual de cómo
Bueno, la línea modela nuestros datos.
Figura 2.2: Predicciones de regresión lineal simple.
2.4 Error de estimación
Podemos calcular una puntuación de error para nuestras predicciones llamada raíz del error cuadrático medio o
RMSE.
norte
i=1(pi − yi) 2
RMSE = (2.9)
norte
Donde puedes usar la función SQRT() en tu hoja de cálculo para calcular la raíz cuadrada, p es el
valor previsto e y es el valor real, i es el índice para una instancia específica, porque debemos
Calcule el error en todos los valores predichos. Primero debemos calcular la diferencia entre
cada predicción del modelo y los valores reales de y.
Predicho y Predicho y
1,2 1 0,2
2 31
3.6 3 0,6
2.8 2 0,8
4.4 50,6
Listado 2.7: Error para valores pronosticados.
Podemos calcular fácilmente el cuadrado de cada uno de estos valores de error (error × error o error2 ).
Predicho y 0.2 error al cuadrado
0,04
1 1
0,6 0,36
0,8 0,64
0,6 0,36
Machine Translated by Google
2.5. Atajo 12
Listado 2.8: Error al cuadrado para valores predichos.
La suma de estos errores es 2.4 unidades, dividiendo por 5 y sacando la raíz cuadrada nos da:
RMSE = 0,692820323 (2.10)
O bien, cada predicción está equivocada en promedio en aproximadamente 0,692 unidades.
2.5 Atajo
Antes de terminar, quiero mostrarles un atajo rápido para calcular los coeficientes. La regresión
lineal simple es la forma de regresión más sencilla y la más estudiada. Hay un atajo que puede
utilizar para estimar rápidamente los valores de B0 y B1. Realmente es un atajo para calcular
B1. El cálculo de B1 se puede reescribir como:
desvestándar(y)
B1 = corrección(x, y) × (2.11)
desvestándar(x)
Donde corr(x, y) es la correlación entre xey y stdev ( ) es el cálculo de la desviación estándar de una variable. La
correlación (también conocida como coeficiente de correlación de Pearson) es una medida de qué tan relacionadas están
dos variables en el rango de 1 a 1. Un valor de 1 indica que las dos variables están perfectamente correlacionadas
positivamente, ambas se mueven en la misma dirección y una El valor de 1 indica que están perfectamente correlacionados
negativamente, cuando uno se mueve el otro se mueve en la otra dirección.
La desviación estándar es una medida de cuánto, en promedio, se alejan los datos de la media. Puede utilizar la
función PEARSON () en su hoja de cálculo para calcular la correlación de xey como 0,852 (altamente correlacionada)
y la función STDEV() para calcular la desviación estándar de x como 1,5811 e y como 1,4832. Introduciendo estos
valores tenemos:
1.483239697
B1 = 0,852802865 ×
1.58113883 (2.12)
B1 = 0,8
2.6 Resumen
En este capítulo descubrió cómo implementar una regresión lineal simple paso a paso en una hoja de cálculo.
Aprendiste:
• Cómo estimar los coeficientes de un modelo de regresión lineal simple a partir de tu entrenamiento
datos.
• Cómo hacer predicciones utilizando el modelo aprendido.
Ahora sabes cómo implementar el algoritmo de regresión lineal simple desde cero. En la siguiente sección,
descubrirá cómo implementar la regresión lineal desde cero utilizando el descenso de gradiente estocástico.
Machine Translated by Google
Esto es solo una muestra
Gracias por su interés en dominar los algoritmos de aprendizaje automático.
Esta es sólo una muestra del texto completo. Puede comprar el libro completo en línea
desde: https://machinelearningmastery.com/mastermachinelearningalgorithms/
APRENDIZAJE AUTOMÁTICO
MAESTRÍA
Maestro
Máquina
Aprendiendo
ALGORITMOS
Descubra cómo funcionan e
impleméntelos
Desde cero
JasonBrownlee
13