Está en la página 1de 9

REGRESIÓN LOGÍSTICA 6/12/21, 17:28

Página 1

UV6767
Rev. 3 de febrero de 2014

REGRESIÓN LOGÍSTICA

Casi todos estamos familiarizados con las probabilidades. ¿Cuáles son las posibilidades de que suceda una cosa?
versus otro? ¿Cuáles son las posibilidades de que tenga éxito en el trabajo hoy? Cuales son las posibilidades
¿Su concursante favorito de un programa de juegos ganará hoy frente a las posibilidades de que pierda?

Es posible que no estemos familiarizados con cómo se pueden aplicar las probabilidades a la analítica de marketing.
¿Cuáles son las posibilidades de que un cliente compre su producto frente a las posibilidades de que no lo haga?
¿Cuáles son las posibilidades de que retenga a un cliente frente a las posibilidades de que lo pierda?

Cuando usa probabilidades, está examinando dos resultados opuestos. Cualquiera tal
desconocido (es decir, uno que solo puede ser una cosa u otra) se conoce como variable ficticia. Pero si
sabe cómo examinar las variables ficticias correctamente, los resultados son todo menos tontos.

Cuando la regresión logística triunfa sobre la regresión lineal

Una regresión logística es similar a cualquier regresión lineal pero con una variación importante
eso tiene consecuencias críticas.

Piense en una métrica importante en marketing: la retención de clientes. Si Keepmoney Bank


quiere utilizar un análisis de regresión para examinar si retendrá a un cliente, establecerá
retención como su variable dependiente. En lugar de estar distribuido normalmente en una curva de campana en el
forma de variables continuas ( Figura 1 ), sin embargo, se asignará un 1 para representar al cliente
retención y un 0 representará la pérdida del cliente. Solo esos dos resultados son posibles. De nuevo, esto
es una variable ficticia, en la que lo que intenta predecir es una de dos opciones.

Esta nota técnica fue preparada por Shea Gibbs, asistente de investigación, y Rajkumar Venkatesan, Bank of America
Catedrático de Investigación en Administración de Empresas. Copyright © 2013 de la Universidad de Virginia Darden School
Fundación, Charlottesville, VA. Reservados todos los derechos. Para solicitar copias, envíe un correo electrónico a
sales@dardenbusinesspublishing.com . Ninguna parte de esta publicación puede reproducirse, almacenarse en un sistema de recuperación,
utilizado en una hoja de cálculo, o transmitido en cualquier forma o por cualquier medio: electrónico, mecánico, fotocopiado,
grabación, o de otro modo, sin el permiso de la Darden School Foundation.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 2

https://translate.googleusercontent.com/translate_f Page 1 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

-2- UV6767

Figura 1. Una distribución normal.

Beneficios

- 0 +
Fuente: Todas las cifras creadas por el autor del caso a menos que se especifique lo contrario.

Los estudios han demostrado que la regresión logística es el mejor modelo para examinar dummy
variables como la retención de clientes. 1 Pero, ¿por qué Keepmoney no puede usar su confiable regresión lineal?
para determinar la probabilidad de retención de clientes dado un conjunto de variables independientes? De nuevo,
Las regresiones lineales suponen una distribución de resultados en forma de campana (lo que se conoce como
distribución) desde el infinito negativo al infinito. La mayoría de las cosas en la vida siguen este tipo de distribución.
Piense en la estatura humana o las calificaciones escolares: algunas personas generalmente obtienen una C, algunas más obtienen una B−,
la mayoría ganará Bs y muy pocos obtendrán una A +. Pero al examinar un maniquí
variable como la retención de clientes, no existe una curva en una variedad de resultados. El resultado
solo puede ser 1 o 0.

Si Keepmoney intenta utilizar una regresión lineal para examinar la retención de clientes,
pueden resultar predicciones sin sentido. El banco puede encontrar que sus posibilidades de retención de clientes son
mayor que 1, lo que significa que tiene incluso más de un 100% de posibilidades de retener a un cliente. O la
banco puede encontrar que sus posibilidades son menores que 0. Se pueden redondear para aquellas predicciones que son menores
de 0 o redondear hacia abajo para los mayores de 1, pero los resultados de la regresión no serán
preciso.

Comportamiento de elección

El objetivo de la regresión logística en este ejemplo es representar la elección de los consumidores


comportamiento con la mayor precisión posible. Cuando los consumidores individuales eligen productos, el valor que
lugar en el producto normalmente no aumenta linealmente con aumentos en una característica preferida de
el producto. En cambio, la investigación indica que la valoración del consumidor de un producto generalmente sigue una S-
curva en forma con aumentos en los niveles de un atributo preferido.

1 Scott A. Neslin et al., “Detección de defección: medición y comprensión de la precisión predictiva de

Modelos de abandono de clientes ". Revista de Investigación de Mercados 43, no. 2 (2006): 204–211.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 3

-3- UV6767

Podemos probar si la curva en forma de S representa el comportamiento de elección de los consumidores con una
ejercicio simple. Imagina que en el eje x tenemos el nivel de descuento en un boleto de avión de $ 300
desde Charlottesville, Virginia, a Nueva York. Pregúntale a un grupo de tus amigos cuántos de ellos
compraría el vuelo. Entonces ofrezca un descuento de $ 20. ¿Cuántas personas adicionales dijeron que
compraría el boleto? Probablemente no muchos. Aumente el descuento a $ 40. Tal vez una persona mitad

https://translate.googleusercontent.com/translate_f Page 2 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

salta con entusiasmo.


el número A $ 60,
de compradores es probable
debería queen
aumentar vea un aumento
todos en los
los niveles; sin compradores. Y de $de
embargo, alrededor 60$a100,
$ 100,
el número de
los compradores adicionales disminuirán a medida que haya alcanzado el umbral superior.

En la mayoría de las situaciones de la vida real, esta curva en forma de S representa cómo las personas toman decisiones.
A medida que aumenta un descuento (es decir, una promoción), las probabilidades de que las personas tomen la decisión de comprar
incrementar. En este ejemplo, con un descuento de $ 60, es probable que 2 de cada 10 personas compren el vuelo a
Nueva York; Es poco probable que 8 de cada 10 compren el vuelo.

La Transformación Logística

Ahora vemos que una regresión lineal sería insuficiente para representar con precisión
las opciones de los consumidores individuales. En la Figura 2 , mostramos una distribución de probabilidades de 0 a 1
que representa la función logística
1

donde u p = obtiene de consumo utilidad de producto p = un + b 1 X .

Figura 2. Distribución de probabilidades para una distribución logística.

La función de utilidad ( u p ), también conocida como función de valor, se utiliza para describir la
valor que una persona otorga a un determinado bien o servicio. Tomemos el café, por ejemplo. Para encontrar la utilidad,
o valor, puede derivar de una taza de café, debe considerar todas las variables que pueden
entrar en la decisión de comprar esa taza en particular: el sabor, el precio, el logotipo, la ubicación de la
tienda donde lo compra, sus hábitos personales y la sacudida que le da por la mañana. Para
propósitos de conveniencia, y basados en estudios de comportamiento que indican cómo las personas procesan las variables
de forma aditiva: se supone que la función de valor es lineal.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 4

-4- UV6767

La función logística utilizada para describir las formas en que los consumidores toman decisiones toma
la forma del exponente de la función de valor sobre 1 más el exponente de la función de valor.
La distribución resultante parece una curva en forma de S, como se muestra en la Figura 2 . Las predicciones
de esta función están limitados entre 0 y 1 (lo que significa que si un resultado es 0.1, el opuesto
el resultado es 0,9).

Además, la probabilidad de éxito (retención) versus fracaso (abandono) es P ÷ (1 - P ),


donde P es la probabilidad de retención. Por ejemplo, si hay 10 resultados con 1 éxito y
9 fallas, las probabilidades son 1/9. Esta ( P ÷ (1 - P )) es lo que se conoce como la "función de probabilidades".
Sustituyendo por P usando la función logística anterior, la función de probabilidades es igual ae( a + b1 X ) . Si nosotros
son hacer una transformación de esta función exponencial en una función lineal a través del logaritmo natural, 2
encontraremos la función logarítmica de probabilidades, que es ln [ P ÷ (1 - P )] = a + b 1 X ( Figura 3 ). Este es
equivalente a la función de valor.

Figura 3. Función de registro de probabilidades.

https://translate.googleusercontent.com/translate_f Page 3 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

Esencialmente, hemos asumido que una persona tiene una función de valor lineal o una utilidad subyacente.
su decisión, entonces hemos transformado ese valor en algo útil sobre las posibilidades
él o ella tomará una decisión. Por lo tanto, el resultado crítico de una regresión logística es el
probabilidad, o porcentaje de probabilidad, un cliente permanecerá en una empresa o dejará la empresa, y
esa probabilidad se define en términos del valor que el cliente otorga al producto de la empresa.

Evaluación de compradores de videojuegos

¿Cómo puede un director de marketing utilizar técnicas de regresión logística para encontrar
información sobre la forma en que las personas se comportan? Considere los datos de la Figura 4 , que cuentan la
número de ventas de juegos de Xbox a través de la aplicación móvil de Best Buy, según lo informado por Kaggle. 3

2 Consulte el Apéndice 1 para obtener más información sobre la transformación de una función exponencial en una función lineal mediante la

tronco natural.
3 Kaggle es una comunidad de análisis empresarial generada por el usuario. Para obtener más información, visite http://www.kaggle.com.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 5

-5- UV6767

Figura 4. Ventas de juegos de Xbox a través de la aplicación móvil de Best Buy.


cliente cliente
regular revisión revisión
sku juego numsales abmedian browsetime nuevo precio contar promedio
1004622 Sniper: Ghost Warrior — Xbox 360 53 1 (0,00017) 0 19,99 7 3.4
1010544 Calles de monopolio: Xbox 360 12 1 (0,00285) 0 29,99 3 4
1011067 MySims SkyHeroes — Xbox 360 3 1 (0,00157) 0 19,99 1 2
1011491 FIFA Soccer 11: Xbox 360 85 1 (479.80822) 0 12,99 18 4.6
1011831 Hasbro Family Game Night 3: Xbox 360 6 1 0,00094 0 9,99 2 3,5
1012721 Los Sims 3: Xbox 360 140 1 (0,00031) 0 19,99 13 3.8
1012876 Two Worlds II: Xbox 360 5 1 0,00047 0 39,99 8 3.4
1013666 Call of Duty: The War Collection — Xbox 360 41 1 0,00115 0 68,18 2 4.5
1014064 Castlevania: Lords of Shadow — Xbox 360 15 1 (0,00235) 0 7,99 4 4.8
1032361 Need for Speed: Hot Pursuit — Xbox 360 168 1 (0,00039) 0 19,99 45 4.2
1052221 Marvel vs.Capcom 3: Destino de dos mundos: Xbox 360 28 1 (0,00092) 0 19,99 11 4

Fuente de datos: Kaggle, "Hackathon de minería de datos en el sitio web móvil de Best Buy de BIG DATA (7 GB)",
http://www.kaggle.com/c/acm-sf-chapter-hackathon-big (consultado el 5 de noviembre de 2013).

Cada uno de los juegos que se muestran en este conjunto de datos cuenta con ventas por encima de la media en comparación con
otros juegos disponibles. En otras palabras, se ha establecido una variable ficticia donde "por encima de la mediana
ventas ”está representado por un 1, y“ ventas por debajo de la mediana ”está representado por un 0. Ahora, que
variables independientes que se muestran en el gráfico (tiempo navegado, si el juego es nuevo, precio, número
de reseñas y promedio de reseñas) son buenos predictores de ser un 1, es decir, ventas por encima de la mediana?

El resultado de una regresión logística de estos datos ( Figuras 5 y 6 ) parece similar al


salida de una regresión lineal, y los puntos de datos más importantes, además de los coeficientes,
son r cuadrado y valor p; otros predictores de precisión e importancia tienen una variedad de nombres.

Figura 5. Salida de la regresión logística.

https://translate.googleusercontent.com/translate_f Page 4 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

Resumen estadístico:

Variable Categorías Frecuencias %


nrx_ind 0 1128 44.183
1 1425 55.817

Variable Observaciones Obs. con datos faltantes Obs. sin perder datos
llamadas de ventas 2553 0 2553
Mínimo Máximo Significar Std. desviación
0.000 12.000 2.396 2.128

Estadísticas de bondad de ajuste (variable nrx_ind):

Estadística Independiente Lleno


Observaciones 2553 2553
Suma de pesos 2553.000 2553.000
DF 2552 2551
−2 Log (probabilidad) 3504.580 3216.666
R² (McFadden) 0.000 0.082
R² (Cox y Snell) 0.000 0.107
R² (Nagelkerke) 0.000 0.000
AIC 3508.580 3220.666
SBC 3520.270 3232.356
Iteraciones 0 6

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 6

-6- UV6767

Figura 6. Estimaciones del modelo.

Parámetros del modelo (abmedian variable):

Fuente Valor SE Chi-cuadrado de Wald Pr> Chi²


Interceptar (1.097) 0.502 4.769 0,029
Nuevo (1.595) 1,467 1,182 0,277
Precio regular 0,006 0,011 0,279 0.597
Recuento de reseñas de clientes 0.066 0,030 4.943 0,026
Promedio de reseñas de clientes 0.399 0,116 11.878 0,001

La diferencia clave en el resultado de la regresión logística es que los coeficientes no son


interpretado como tal. Para que los coeficientes agreguen valor a su análisis, debe calcular
la razón de posibilidades. Por ejemplo, si una regresión logística arroja un coeficiente b de 2,303, la razón de posibilidades
dice que por cada unidad de aumento en la variable independiente (por ejemplo, número de promociones),
las probabilidades de que la variable dependiente sea igual a 1 (por ejemplo, el producto se compra)
aumentar por un factor determinado tomando el exponente del coeficiente: e b = e 2.303 = 10. Esto es

no es lo mismo que una transformación lineal directa.

Entonces, al examinar los valores p que se muestran en la columna del extremo derecho de la Figura 6 , ¿qué variables
¿Podemos decir que son predictivos de si un juego será un éxito de ventas? Promedio de reseñas de clientes,
seguida del número de opiniones de los clientes, es la variable más significativa. El precio es relativamente
insignificante, en este caso probablemente debido al hecho de que el rango de precios de los juegos es pequeño.

Utilizando los coeficientes determinados en el análisis de regresión, el director de marketing puede


luego, determine cuánto aumentan las probabilidades de que un juego sea un éxito de ventas si la revisión es promedio
aumenta en un punto ( Figura 7 ). En otras palabras, si el promedio de reseñas de un cliente de 3 arroja un
cierta probabilidad de éxito, ¿qué sucede si el promedio aumenta a 4? En promedio, el
coeficiente de revisión del cliente (coeficiente b , la pendiente de la línea) es 0.399, y el exponente de
b es 1,49, lo que significa que un aumento de un solo punto en las revisiones aumenta las probabilidades en un factor de
alrededor de 1,5. 4

https://translate.googleusercontent.com/translate_f Page 5 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

4 Para obtener más información sobre cómo se puede calcular la razón de probabilidades, consulte el Apéndice 2 .

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 7

-7- UV6767

Figura 7. Equivalencia del logaritmo de la razón de posibilidades y las probabilidades logísticas.

Coeficiente de cliente
Revisión promedio ( b ) 0.399
Para un aumento de la unidad en la revisión del cliente
exp ( b ) 1.490
puntuación, las probabilidades de vender un juego
aumenta en un 49% (manteniendo todo
más constante).
Cliente Cliente
Revisar Revisar
Promedio = 3 Promedio = 4
exp ( bx ) 3.310 4.933
Probabilidad de elección 0,768 0,831
Impares 3.310 4.933
Razón de probabilidades 1.490
Diferencia de probabilidad 0.063

Prob (venta) cuando el promedio de opiniones de los clientes es


3 = exp (0.399 × 3) ÷ [1 + exp (0.399 × 3)]
0,768 ÷ (1 - 0,768)

Prob (venta) cuando el promedio de opiniones de los clientes es


4 = exp (0.399 × 4) ÷ [1 + exp (0.399 × 4)]

Conclusión

Los gerentes de marketing a menudo quieren predecir los comportamientos de los clientes que no se distribuyen
en una variedad de resultados. Estos son casos en los que solo es posible uno de dos comportamientos: comprar o
no compre, retención de clientes frente a pérdida de clientes, etc. Aquí, si el gerente intenta
Si utiliza una regresión lineal tradicional para examinar los comportamientos, pueden resultar predicciones sin sentido.

Pero se puede utilizar una regresión logística para representar el comportamiento de elección de los consumidores. Por
transformando la función de valor en una función logística, podemos modelar cómo el valor de un consumidor
lugares en un producto aumenta con una característica preferida del producto. La salida crítica de la
La regresión logística es, por lo tanto, el aumento (o disminución) en el porcentaje de probabilidad de que un cliente
realizar un comportamiento basado en un aumento unitario en una variable correlacionada con ese comportamiento.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

https://translate.googleusercontent.com/translate_f Page 6 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

Página 8

-8- UV6767

Apéndice 1

REGRESIÓN LOGÍSTICA
Entendiendo las funciones exponenciales

Para comprender las regresiones logísticas, es útil examinar primero los valores exponenciales
funciones. La figura 1 muestra el ejemplo clásico de una distribución exponencial. Cuando se considera
las ventas acumuladas de un producto que ha ganado aceptación en el mercado a lo largo del tiempo (como
máquinas de ultrasonido), vemos que las ventas son lentas al principio, pero comienzan a aumentar a una mayor y
mayor tasa una vez que han alcanzado la masa crítica. En el gráfico, la línea roja son los datos reales, o
número de ventas por año desde su introducción. Lo que destaca es que la curva no es recta.
línea, mientras que los usados en regresiones lineales son. Esta es una distribución exponencial.

Figura 1. Un ejemplo de distribución exponencial.

Fuente: Creado por el escritor del caso.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 9

-9- UV6767

Apéndice 1 (continuación)

https://translate.googleusercontent.com/translate_f Page 7 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

La línea negra representa una función, creada con un programa de computadora, 1 que es la mejor
representa los datos que se muestran en el gráfico. El análisis de regresión de los datos disponibles ha
produjo una línea definida por la forma y = 4.0858 e 0.3225 x , donde 4.0858 es la intersección de la línea

y la pendiente (0.3225) cambia exponencialmente. (La constante e es un número irracional


aproximadamente igual a 2.71828, que está relacionado con la tasa de cambio en una función exponencial
y es la base del logaritmo natural. Esta función se encuentra de manera similar a una línea recta.
función al realizar un análisis de regresión lineal.

Una cosa a tener en cuenta sobre este análisis es que la línea de regresión encaja casi perfectamente.
Debido al volumen de datos utilizados, r cuadrados de hasta el 99% son posibles, en comparación con el r
cuadrados del 20% al 30% que se encuentran al ejecutar análisis lineales. Esto se debe a que los datos son
agregado y visto retrospectivamente, mientras que las regresiones lineales intentan describir el
comportamiento de los individuos. Si el mismo análisis de las ventas acumuladas de ultrasonido se realizó en
año dos, sin embargo, sería difícil predecir lo que sucedería en los años tres, cuatro o
cinco, porque r cuadrado se descompone en ese punto.

¿Qué tiene esto que ver con las regresiones logísticas? Considere la línea verde en la Figura 1 ,
que representa el logaritmo natural de las ventas acumuladas en cada período de tiempo x . La línea es casi
recta, lo que significa que un análisis de regresión lineal podría producir una función precisa que describa la
datos. En otras palabras, una transformación logística de datos distribuidos exponencialmente le permite
Vea los resultados de la regresión de la misma manera que lo haría con una regresión lineal. 2

1 Para obtener más información sobre cómo realizar una regresión logística utilizando software de computadora, visite

http://dmanalytics.org/.
2 En términos algebraicos, si y = 4.0858 e 03225 x , el logaritmo natural de y será igual a 4.0858 + 3.225 x , una función lineal donde

la intersección es 4.0858 y la pendiente es 3.225.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

Página 10

-10- UV6767

Apéndice 2

REGRESIÓN LOGÍSTICA
Cálculo de la relación de probabilidades

Consideremos los log odds ratios presentados en la Figura 7 y la regresión logística


salida en la Figura 6 . El logaritmo de la razón de posibilidades se define como la probabilidad de observar un evento ( p )
versus la probabilidad de no observar un evento (1 - p ). En el contexto de la elección de juegos
en la aplicación móvil, estamos considerando el factor por el cual las probabilidades de registro de comprar un juego
aumenta cuando la opinión del producto aumenta de 3 a 4. Una forma sencilla de calcular esto
sería tomar el exponente del coeficiente de revisiones del resultado de la regresión logística. En

https://translate.googleusercontent.com/translate_f Page 8 of 9
REGRESIÓN LOGÍSTICA 6/12/21, 17:28

nuestro caso, el coeficiente de revisiones es igual a 0,399. Entonces, las probabilidades de registro aumentarán en un factor de 1.49
o 149% (exp (0.399)) cuando las reseñas de un producto aumentan en una unidad.

En la Figura 7 mostramos que la fórmula para calcular el factor logarítmico de probabilidades es equivalente a (a)
calcular la probabilidad prevista de elección de producto cuando las revisiones de los productos son 3
y 4, y (b) luego tomando la razón de estas probabilidades respectivas. La probabilidad de producto
opción cuando la revisión promedio del producto es igual a 3 es 0,768 y las probabilidades logarítmicas correspondientes son 3,3.
De manera similar, la probabilidad de elección cuando la revisión promedio del producto es igual a 4 es 0.831 y el registro
la probabilidad es 4.933. La razón de las probabilidades logarítmicas (4.933 ÷ 3.3) es 1.4. Por lo tanto, las probabilidades logarítmicas aumentan en un
factor de 1.4 o 140% cuando el promedio de revisiones para el producto aumenta en una unidad.

Este documento está autorizado para su uso únicamente en MEDEX 2021-2023 AD de PAD en la Universidad De Piura (PAD) desde agosto de 2021 hasta febrero de 2022.

https://translate.googleusercontent.com/translate_f Page 9 of 9

También podría gustarte