Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Página 1
UV6767
Rev. 3 de febrero de 2014
REGRESIÓN LOGÍSTICA
Casi todos estamos familiarizados con las probabilidades. ¿Cuáles son las posibilidades de que suceda una cosa?
versus otro? ¿Cuáles son las posibilidades de que tenga éxito en el trabajo hoy? Cuales son las posibilidades
¿Su concursante favorito de un programa de juegos ganará hoy frente a las posibilidades de que pierda?
Es posible que no estemos familiarizados con cómo se pueden aplicar las probabilidades a la analítica de marketing.
¿Cuáles son las posibilidades de que un cliente compre su producto frente a las posibilidades de que no lo haga?
¿Cuáles son las posibilidades de que retenga a un cliente frente a las posibilidades de que lo pierda?
Cuando usa probabilidades, está examinando dos resultados opuestos. Cualquiera tal
desconocido (es decir, uno que solo puede ser una cosa u otra) se conoce como variable ficticia. Pero si
sabe cómo examinar las variables ficticias correctamente, los resultados son todo menos tontos.
Una regresión logística es similar a cualquier regresión lineal pero con una variación importante
eso tiene consecuencias críticas.
Esta nota técnica fue preparada por Shea Gibbs, asistente de investigación, y Rajkumar Venkatesan, Bank of America
Catedrático de Investigación en Administración de Empresas. Copyright © 2013 de la Universidad de Virginia Darden School
Fundación, Charlottesville, VA. Reservados todos los derechos. Para solicitar copias, envíe un correo electrónico a
sales@dardenbusinesspublishing.com . Ninguna parte de esta publicación puede reproducirse, almacenarse en un sistema de recuperación,
utilizado en una hoja de cálculo, o transmitido en cualquier forma o por cualquier medio: electrónico, mecánico, fotocopiado,
grabación, o de otro modo, sin el permiso de la Darden School Foundation.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 2
https://translate.googleusercontent.com/translate_f Page 1 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
-2- UV6767
Beneficios
- 0 +
Fuente: Todas las cifras creadas por el autor del caso a menos que se especifique lo contrario.
Los estudios han demostrado que la regresión logística es el mejor modelo para examinar dummy
variables como la retención de clientes. 1 Pero, ¿por qué Keepmoney no puede usar su confiable regresión lineal?
para determinar la probabilidad de retención de clientes dado un conjunto de variables independientes? De nuevo,
Las regresiones lineales suponen una distribución de resultados en forma de campana (lo que se conoce como
distribución) desde el infinito negativo al infinito. La mayoría de las cosas en la vida siguen este tipo de distribución.
Piense en la estatura humana o las calificaciones escolares: algunas personas generalmente obtienen una C, algunas más obtienen una B−,
la mayoría ganará Bs y muy pocos obtendrán una A +. Pero al examinar un maniquí
variable como la retención de clientes, no existe una curva en una variedad de resultados. El resultado
solo puede ser 1 o 0.
Si Keepmoney intenta utilizar una regresión lineal para examinar la retención de clientes,
pueden resultar predicciones sin sentido. El banco puede encontrar que sus posibilidades de retención de clientes son
mayor que 1, lo que significa que tiene incluso más de un 100% de posibilidades de retener a un cliente. O la
banco puede encontrar que sus posibilidades son menores que 0. Se pueden redondear para aquellas predicciones que son menores
de 0 o redondear hacia abajo para los mayores de 1, pero los resultados de la regresión no serán
preciso.
Comportamiento de elección
Modelos de abandono de clientes ". Revista de Investigación de Mercados 43, no. 2 (2006): 204–211.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 3
-3- UV6767
Podemos probar si la curva en forma de S representa el comportamiento de elección de los consumidores con una
ejercicio simple. Imagina que en el eje x tenemos el nivel de descuento en un boleto de avión de $ 300
desde Charlottesville, Virginia, a Nueva York. Pregúntale a un grupo de tus amigos cuántos de ellos
compraría el vuelo. Entonces ofrezca un descuento de $ 20. ¿Cuántas personas adicionales dijeron que
compraría el boleto? Probablemente no muchos. Aumente el descuento a $ 40. Tal vez una persona mitad
https://translate.googleusercontent.com/translate_f Page 2 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
En la mayoría de las situaciones de la vida real, esta curva en forma de S representa cómo las personas toman decisiones.
A medida que aumenta un descuento (es decir, una promoción), las probabilidades de que las personas tomen la decisión de comprar
incrementar. En este ejemplo, con un descuento de $ 60, es probable que 2 de cada 10 personas compren el vuelo a
Nueva York; Es poco probable que 8 de cada 10 compren el vuelo.
La Transformación Logística
Ahora vemos que una regresión lineal sería insuficiente para representar con precisión
las opciones de los consumidores individuales. En la Figura 2 , mostramos una distribución de probabilidades de 0 a 1
que representa la función logística
1
La función de utilidad ( u p ), también conocida como función de valor, se utiliza para describir la
valor que una persona otorga a un determinado bien o servicio. Tomemos el café, por ejemplo. Para encontrar la utilidad,
o valor, puede derivar de una taza de café, debe considerar todas las variables que pueden
entrar en la decisión de comprar esa taza en particular: el sabor, el precio, el logotipo, la ubicación de la
tienda donde lo compra, sus hábitos personales y la sacudida que le da por la mañana. Para
propósitos de conveniencia, y basados en estudios de comportamiento que indican cómo las personas procesan las variables
de forma aditiva: se supone que la función de valor es lineal.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 4
-4- UV6767
La función logística utilizada para describir las formas en que los consumidores toman decisiones toma
la forma del exponente de la función de valor sobre 1 más el exponente de la función de valor.
La distribución resultante parece una curva en forma de S, como se muestra en la Figura 2 . Las predicciones
de esta función están limitados entre 0 y 1 (lo que significa que si un resultado es 0.1, el opuesto
el resultado es 0,9).
https://translate.googleusercontent.com/translate_f Page 3 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
Esencialmente, hemos asumido que una persona tiene una función de valor lineal o una utilidad subyacente.
su decisión, entonces hemos transformado ese valor en algo útil sobre las posibilidades
él o ella tomará una decisión. Por lo tanto, el resultado crítico de una regresión logística es el
probabilidad, o porcentaje de probabilidad, un cliente permanecerá en una empresa o dejará la empresa, y
esa probabilidad se define en términos del valor que el cliente otorga al producto de la empresa.
¿Cómo puede un director de marketing utilizar técnicas de regresión logística para encontrar
información sobre la forma en que las personas se comportan? Considere los datos de la Figura 4 , que cuentan la
número de ventas de juegos de Xbox a través de la aplicación móvil de Best Buy, según lo informado por Kaggle. 3
2 Consulte el Apéndice 1 para obtener más información sobre la transformación de una función exponencial en una función lineal mediante la
tronco natural.
3 Kaggle es una comunidad de análisis empresarial generada por el usuario. Para obtener más información, visite http://www.kaggle.com.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 5
-5- UV6767
Fuente de datos: Kaggle, "Hackathon de minería de datos en el sitio web móvil de Best Buy de BIG DATA (7 GB)",
http://www.kaggle.com/c/acm-sf-chapter-hackathon-big (consultado el 5 de noviembre de 2013).
Cada uno de los juegos que se muestran en este conjunto de datos cuenta con ventas por encima de la media en comparación con
otros juegos disponibles. En otras palabras, se ha establecido una variable ficticia donde "por encima de la mediana
ventas ”está representado por un 1, y“ ventas por debajo de la mediana ”está representado por un 0. Ahora, que
variables independientes que se muestran en el gráfico (tiempo navegado, si el juego es nuevo, precio, número
de reseñas y promedio de reseñas) son buenos predictores de ser un 1, es decir, ventas por encima de la mediana?
https://translate.googleusercontent.com/translate_f Page 4 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
Resumen estadístico:
Variable Observaciones Obs. con datos faltantes Obs. sin perder datos
llamadas de ventas 2553 0 2553
Mínimo Máximo Significar Std. desviación
0.000 12.000 2.396 2.128
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 6
-6- UV6767
Entonces, al examinar los valores p que se muestran en la columna del extremo derecho de la Figura 6 , ¿qué variables
¿Podemos decir que son predictivos de si un juego será un éxito de ventas? Promedio de reseñas de clientes,
seguida del número de opiniones de los clientes, es la variable más significativa. El precio es relativamente
insignificante, en este caso probablemente debido al hecho de que el rango de precios de los juegos es pequeño.
https://translate.googleusercontent.com/translate_f Page 5 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
4 Para obtener más información sobre cómo se puede calcular la razón de probabilidades, consulte el Apéndice 2 .
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 7
-7- UV6767
Coeficiente de cliente
Revisión promedio ( b ) 0.399
Para un aumento de la unidad en la revisión del cliente
exp ( b ) 1.490
puntuación, las probabilidades de vender un juego
aumenta en un 49% (manteniendo todo
más constante).
Cliente Cliente
Revisar Revisar
Promedio = 3 Promedio = 4
exp ( bx ) 3.310 4.933
Probabilidad de elección 0,768 0,831
Impares 3.310 4.933
Razón de probabilidades 1.490
Diferencia de probabilidad 0.063
Conclusión
Los gerentes de marketing a menudo quieren predecir los comportamientos de los clientes que no se distribuyen
en una variedad de resultados. Estos son casos en los que solo es posible uno de dos comportamientos: comprar o
no compre, retención de clientes frente a pérdida de clientes, etc. Aquí, si el gerente intenta
Si utiliza una regresión lineal tradicional para examinar los comportamientos, pueden resultar predicciones sin sentido.
Pero se puede utilizar una regresión logística para representar el comportamiento de elección de los consumidores. Por
transformando la función de valor en una función logística, podemos modelar cómo el valor de un consumidor
lugares en un producto aumenta con una característica preferida del producto. La salida crítica de la
La regresión logística es, por lo tanto, el aumento (o disminución) en el porcentaje de probabilidad de que un cliente
realizar un comportamiento basado en un aumento unitario en una variable correlacionada con ese comportamiento.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
https://translate.googleusercontent.com/translate_f Page 6 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
Página 8
-8- UV6767
Apéndice 1
REGRESIÓN LOGÍSTICA
Entendiendo las funciones exponenciales
Para comprender las regresiones logísticas, es útil examinar primero los valores exponenciales
funciones. La figura 1 muestra el ejemplo clásico de una distribución exponencial. Cuando se considera
las ventas acumuladas de un producto que ha ganado aceptación en el mercado a lo largo del tiempo (como
máquinas de ultrasonido), vemos que las ventas son lentas al principio, pero comienzan a aumentar a una mayor y
mayor tasa una vez que han alcanzado la masa crítica. En el gráfico, la línea roja son los datos reales, o
número de ventas por año desde su introducción. Lo que destaca es que la curva no es recta.
línea, mientras que los usados en regresiones lineales son. Esta es una distribución exponencial.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 9
-9- UV6767
Apéndice 1 (continuación)
https://translate.googleusercontent.com/translate_f Page 7 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
La línea negra representa una función, creada con un programa de computadora, 1 que es la mejor
representa los datos que se muestran en el gráfico. El análisis de regresión de los datos disponibles ha
produjo una línea definida por la forma y = 4.0858 e 0.3225 x , donde 4.0858 es la intersección de la línea
Una cosa a tener en cuenta sobre este análisis es que la línea de regresión encaja casi perfectamente.
Debido al volumen de datos utilizados, r cuadrados de hasta el 99% son posibles, en comparación con el r
cuadrados del 20% al 30% que se encuentran al ejecutar análisis lineales. Esto se debe a que los datos son
agregado y visto retrospectivamente, mientras que las regresiones lineales intentan describir el
comportamiento de los individuos. Si el mismo análisis de las ventas acumuladas de ultrasonido se realizó en
año dos, sin embargo, sería difícil predecir lo que sucedería en los años tres, cuatro o
cinco, porque r cuadrado se descompone en ese punto.
¿Qué tiene esto que ver con las regresiones logísticas? Considere la línea verde en la Figura 1 ,
que representa el logaritmo natural de las ventas acumuladas en cada período de tiempo x . La línea es casi
recta, lo que significa que un análisis de regresión lineal podría producir una función precisa que describa la
datos. En otras palabras, una transformación logística de datos distribuidos exponencialmente le permite
Vea los resultados de la regresión de la misma manera que lo haría con una regresión lineal. 2
1 Para obtener más información sobre cómo realizar una regresión logística utilizando software de computadora, visite
http://dmanalytics.org/.
2 En términos algebraicos, si y = 4.0858 e 03225 x , el logaritmo natural de y será igual a 4.0858 + 3.225 x , una función lineal donde
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
Página 10
-10- UV6767
Apéndice 2
REGRESIÓN LOGÍSTICA
Cálculo de la relación de probabilidades
https://translate.googleusercontent.com/translate_f Page 8 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28
nuestro caso, el coeficiente de revisiones es igual a 0,399. Entonces, las probabilidades de registro aumentarán en un factor de 1.49
o 149% (exp (0.399)) cuando las reseñas de un producto aumentan en una unidad.
En la Figura 7 mostramos que la fórmula para calcular el factor logarítmico de probabilidades es equivalente a (a)
calcular la probabilidad prevista de elección de producto cuando las revisiones de los productos son 3
y 4, y (b) luego tomando la razón de estas probabilidades respectivas. La probabilidad de producto
opción cuando la revisión promedio del producto es igual a 3 es 0,768 y las probabilidades logarítmicas correspondientes son 3,3.
De manera similar, la probabilidad de elección cuando la revisión promedio del producto es igual a 4 es 0.831 y el registro
la probabilidad es 4.933. La razón de las probabilidades logarítmicas (4.933 ÷ 3.3) es 1.4. Por lo tanto, las probabilidades logarítmicas aumentan en un
factor de 1.4 o 140% cuando el promedio de revisiones para el producto aumenta en una unidad.
Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.
https://translate.googleusercontent.com/translate_f Page 9 of 9