Está en la página 1de 13

20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

Análisis de Regresión Múltiple


Fecha: 1999
From: Investigación de mercados(4th ed.)
Publisher: Cengage Learning Mexico
Tipo de documento: Topic overview
Páginas: 10
Content Level: (Level 5)

Texto completo: 

Análisis de Regresión Múltiple


La idea básica subyacente al análisis de regresión múltiple es la misma que en la regresión simple:
determinar la relación entre las variables independientes y dependiente, o variables de predicción
y de criterio. El análisis de regresión múltiple permite añadir diversas variables, de modo que la
ecuación refleje los valores de un cierto número de variables de predicción, no una sola. El objetivo
de esto es mejorar las predicciones de la variable de criterio.

Un observador irónico de muchos proyectos de investigación hizo diversos comentarios astutos


acerca del comportamiento de las variables y la forma en que suelen correlacionarse (Ventana de
investigación 21.2). Convendría que el lector los tenga en mente mientras lee este apartado del
análisis de regresión múltiple.

Nomenclatura modificada
Un marco de notación modificado y más formal es valioso para comentar el análisis de regresión
múltiple. Considere el modelo de regresión general con tres variables de predicción. La ecuación
modificada:

Y = α + β1 X1 + β3X3 + ∊

la cual es una estado simplificado de la más elaborada y precisa ecuación.

Página 687 

Disyuntiva ética 21.1

Se le asignó ia responsabilidad de desarrollar un método para estimar el potencial de mercado de


los productos de la compañía por regiones geográficas pequeñas a un analista recién contratado
del departamento de investigación de mercados de una empresa. El analista se dedicó a la tarea
de recopilar tantos datos secundarios como le fue posible. Luego, emprendió una sucesión de
análisis de regresión, en que usó las ventas como variable de criterio y los factores demográficos

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 1/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

como variables de predicción. Aunque se dio cuenta de que varios de los factores de predicción
estaban muy correlacionados (por ejemplo, ingreso promedio en la región con el nivel de estudios
promedio!, optó por no considerar este hecho cuando presentó los resultados a los directivos.

¿Cuál es la consecuencia de que estén muy correlacionados los factores prédictives en una
ecuación de regresión?
¿Está obligado moralmente el analista de investigación a aprender todo lo que sea posible
acerca de una técnica dada antes de aplicarla a un problema, para evitar la interpretación
errónea de los resultados?
¿Tiene el analista la obligación moral de recomendar cautela en la interpretación de los
resultados cuando se violan los supuestos básicos del método usado para producir los
resultados?
¿Cuáles son las responsabilidades del investigador si los directivos no se interesan en los
detalles técnicos que produc ir los resultados?

Coeficiente de regresión parcial (o neta)

Cantidad que resulta de un análisis de regresión múltiple e indica el cambio promedio en la


variable de criterio por cambio unitario en una variable predictiva, en igualdad de circunstancias
en todas los como variable de crición. La interpretación se aplica sólo cuando las variables de
predicción son independientes entre sí, como se requiere para la aplicación válida del modelo de
regresión múltiple.

En esta ecuación más precisa, tiene validez lo siguiente:

Y(123) es e‘ valor de Y que se calcula a partir de la ecuación de regresión, con Y como variable
de criterio y X1, X2 y X3 como variables de predicción
α(123) es el parámetro de intersección en la ecuación de regresión múltiple, con F como
variable de criterio Y X1 X2 y X3 como variables de predicción
β(123) es el coeficiente de X1 en la ecuación de regresión, con Y como variable de criterio y X,
X2 y X3 como variables de predicción o explicatorias. Se le llama coeficiente de regresión
parcial (o neta). Note los subíndices. Los dos situados a la izquierda del punto decimal se
llaman subíndices primarios. El primero identifica la variable de criterio, Y el segundo, la
variable de predicción de la cual es coeficiente este valor de β. Los subíndices primarios son
siempre dos. Los otros dos subíndices,

Página 688 

a la derecha del punto decimal, se denominan subíndices secundarios e indican cuáles otras
variables de predicción son parte de la ecuación de regresión. Su número varía desde cero en
la regresión simple hasta cualquier número k – 1, donde se tienen k variables de predicción
en el problema. En este caso, el modelo contiene tres variables de predicción (k = 3) y dos
subíndices secundarios

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 2/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

ε(123) es el error relacionado con la predicción de Y cuando Xi X2 y X3 son las variables de


predicción.

Es práctica común usar la versión simplificada de este modelo cuando se tiene clara la identidad de
las variables. Empero, la versión detallada es útil al interpretar la solución del problema de
regresión.

Supuesto de multicolinealidad
Los supuestos relativos al término de error en el modelo de regresión simple se aplican también a
la ecuación de regresión múltiple. Además, esta última es un modelo que requiere el supuesto
adicional de que las variables de predicción no se correlacionan entre ellas. Cuando el investigador
puede definir los niveles de estas variables, resulta fácil satisfacer dicho supuesto. Es frecuente que
se viole el supuesto cuando las observaciones resultan de una encuesta, no de un experimento, ya
que muchas variables de interés en mercadotecnia varían conjuntamente. Por ejemplo, los
ingresos altos suelen relacionarse con niveles de escolaridad elevados. Así pues, la predicción del
comportamiento de compra con los ingresos y nivel de estudios violaría el supuesto de que las
variables de predicción son independientes unas de otras. Se dice que hay multicolinealidad en un
problema de regresión múltiple cuando las variables de predicción están correlacionadas.

Multicolinealidad

Condición existente en un análisis de regresión múltiple, que consiste en que las variables de
predicción no son independientes unas de otras, como se requiere, sino que están
correlacionadas.

Coeficientes de regresión parcial


Considere qué ocurriría si se agrega cierto número de representantes de ventas al problema de la
predicción de las ventas por territorio. Podría investigarse la relación de dos variables, entre las
ventas y el número de representantes. Por supuesto, ello requeriría calcular la ecuación de
regresión simple que relaciona a dichos factores. Los cálculos guardarían paralelismo con los de la
relación entre las ventas y los anuncios televisivos. En forma alterna, sería posible considerar el
efecto simultáneo de los anuncios televisivos y el número de representantes de ventas, con el
análisis de regresión múltiple. En el supuesto de que se trate de un problema de investigación, el
modelo de regresión correspondería a la ecuación siguiente:

indicativa de que la variable de criterio, las ventas en un territorio, se predecirá con dos variables
de predicción, X1 (anuncios televisivos mensuales) y X2 (número de representantes de ventas).

Una vez más, los parámetros del modelo podrían estimarse a partir de los datos de la muestra con
los procedimientos de cuadrados mínimos. De nuevo, se distinguirá entre los estimados de la
muestra y los valores poblacionales verdaderos, que son desconocidos, con el uso del acento
circunflejo para denotar el valor estimado. En este punto, no se considerarán las fórmulas para el
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 3/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

cálculo de los coeficientes de regresión. De cualquier manera, es habitual que se obtengan con
computadora y son parte de casi todos los textos de fundamentos de estadística. La necesidad del
analista de mercadotecnia es cómo interpretar los resultados que le proporciona la computadora.

En este problema, la ecuación resulta ser:

Esta ecuación de regresión puede usarse para estimar el nivel de ventas esperado en un territorio,
dados el número de anuncios televisivos y el de representantes de ventas que atienden el
territorio. Al igual que en otras ecuaciones de cuadrados mínimos, la línea (en este caso una recta,
puesto que es un problema tridimensional) se adecúa a los puntos de manera tal que la suma de
las desviaciones en

Página 689 

tomo a la línea es igual a cero. En otras palabras, si se estimaran las ventas de cada uno de los 40
territorios a partir de esta ecuación, cabría esperar que las desviaciones positivas y negativas en
torno a la línea se contrarresten casi con exactitud.

El nivel en que el plano interseca al eje Y está dado por â(12) = 69.3. Considere ahora los
coeficientes de regresión parcial, β̂Y1 y β̂Y1.2 y β̂Y2.1En e‘ entendido de que se cumplió el supuesto
de multico-linealidad, esos coeficientes pueden interpretarse como el cambio promedio de la
variable de criterio relacionado con el cambio unitario de la variable de predicción apropiada, al
tiempo que se mantienen constantes las otras variables de predicción. Así, al suponer que no
existe multicolinealidad, β̂Y1.2 = 14.2 indica que, en promedio, cabe esperar un aumento de 14 200
dólares en las ventas con cada anuncio televisivo adicional en el territorio, si no cambia el número
de representantes de ventas. En forma similar, β̂Y2.1= 37.5 apuntaría en el sentido de que cada
representante de ventas adicional en un territorio producirá 37 500 dólares de ventas, en
promedio, si se mantiene constante el número de anuncios televisivos.

En el análisis de regresión simple, se puso‘a prueba la significancia de la ecuación de regresión


mediante el examen de la significancia del coeficiente de pendiente con la prueba t. El valor
calculado de t fue 11 .4 en cuanto a la relación de las ventas con los anuncios televisivos. También
habría sido posible verificar la significancia de la regresión con una prueba F. En el caso de una
regresión de dos variables, el valor calculado de F es igual al calculado para t, elevado a la segunda
potencia, es decir, F = t2 (11.4)2 = 130.6, mientras que en general el valor calculado de F equivale a
la proporción entre el cuadrado medio debido a la regresión y el cuadrado medio debido a los
residuos. En la regresión simple, el valor de F calculado se consultaría en una tabla de F con v1 = n –
2 grados de libertad. Esta conclusión sería equivalente a la derivada mediante la prueba de
significancia del coeficiente de pendiente con la prueba t.

En el análisis de regresión múltiple, es imperativo examinar la significancia de la regresión global


con iaprueba F. Los grados de libertad apropiados equivalen a v1 = k y v2 n – k – 1 con k variables
de predicción. Se tiene como valor crítico de F, con v1 = 2 y v2 = 40 – 2 – 1 = 37 grados de libertad,
mientras que el nivel de significancia de 0.05 es 3.25. El valor de F calculado para la regresión que
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 4/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

relaciona las ventas con los anuncios televisivos y el número de representantes de ventas es 128.1.
Puesto que resulta mayor que el valor crítico de F, se rechaza la hipótesis nula de la ausencia de
relación. Existe una relación lineal estadísticamente significativa entre las ventas y las variables de
predicción, o sea, el número de anuncios televisivos y el de representantes de ventas.

También es posible evaluar uno por uno los coeficientes de pendiente en cuanto a su significancia
estadística en un problema de regresión múltiple, puesto que la función global es significativa. De
nuevo, se usa la prueba t, si bien la validez del procedimiento depende mucho de la
multicolinealidad existente entre los datos. Si esta última es alta, se tiende a cometer errores tipo
II, es decir, se juzga que muchas de las variables de predicción no se relacionan con la de criterio
cuando en realidad sí guardan tal relación. Inclusive podría llegarse a la conclusión de que la
regresión global es estadísticamente significativa y ninguno de los coeficientes globales lo es. La
dificultad con las pruebas de significancia t de los coeficientes de pendiente surge porque el error
estándar de la estimación de los coeficientes de cuadrados mínimos, s$, aumenta al hacerlo la
dependencia entre las variables de predicción. Por tanto, a medida que se incrementa el
denominador del valor t calculado disminuye su valor, lo que en ocasiones lleva a la conclusión de
que no existe relación entre la variable de criterio y la variable de predicción.

¿Es la multicolinealidad un problema en el ejemplo? Considere una vez más la regresión simple de
las ventas en relación con los anuncios televisivos: β̂1 (β̂Y1 en el sistema de notación formal)
equivale a 25.3. Así, cuando se excluyó el número de representantes de ventas en el territorio, el
cambio promedio de las ventas relacionado con los anuncios televisivos fue de 25 300 dólares. Sin
embargo, al considerar el número de representantes, el cambio promedio de las ventas
relacionado con los anuncios televisivos fue de 14200 dólares, con β̂Y1.2 = 14.2. Una parte del
efecto en las ventas atribuido a los anuncios televisivos en realidad se debió al número de
representantes en el territorio. Por ello, se sobrestimó el efecto de los anuncios televisivos por la
forma histórica de tomar las decisiones en la compañía. De manera específica, los territorios con
mayor número de representantes de ventas tuvieron más apoyo publicitario en la televisión, o
viceversa. Tal vez eso sea lógico, ya que cuentan con una mayor proporción del público
consumidor. No obstante, el hecho de que las dos variables de predicción no hayan sido
independientes (el coeficiente de la correlación simple entre los anuncios televisivos y el número
de representantes de ventas fue 0.78) constituye una

Página 690 

violación del supuesto de factores de predicción independientes. Existe multicolinealidad en este


conjunto de datos:

La multicolinealidad en un conjunto de datos reduce la eficiencia de la estimación de los


parámetros de regresión. Ello se debe a que la cantidad de información acerca del efecto de cada
variable de predicción sobre la variable de criterio disminuye conforme la correlación entre las
variables de predicción aumenta. Tal disminución de eficiencia puede apreciarse fácilmente en el
caso límite, en que la correlación entre las dos variables de predicción del modelo se acerca a la
unidad. Esta situación se ilustra en la figura 21.7, donde se supone que existe una relación lineal
perfecta entre esas dos variables, los anuncios televisivos y el número de representantes de
ventas, además de que es fuerte la relación lineal de la variable de criterio, las ventas, con los
anuncios televisivos. Considere el cambio en las ventas de 75000 a 100000 dólares. Se acompaña
de la modificación del número de anuncios televisivos, de tres a cuatro. A su vez, este último
cambio guarda relación con el número de representantes de ventas, de cuatro a cinco. ¿Cuál es el
efecto de un anuncio televisivo en las ventas? ¿Puede decirse que es de 25 000 = 100000 - 75 000?

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 5/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

Lo más probable es que no, ya que históricamente se ha agregado un representante de ventas al


territorio cuando se incrementa en uno el número de anuncios televisivos, o viceversa. Los
números de representantes y anuncios varían en proporción

FIGURA 21.7 Reiación hipotética de las ventas con los anuncios televisivos y de éstos con el
número de representantes de ventas

Página 691 

perfecta y es imposible distinguir su efecto separado en las ventas, es decir, el que ejercen cuando
se mantiene constante la otra variable.

Es mínimo el significado que puede atribuirse a los coeficientes de regresión parcial cuando existe
multicolinealidad, como en el ejemplo. Simplemente no resulta válida la interpretación “normal” de
esos coeficientes, como “el cambio promedio de la variable de criterio relacionado con el cambio
unitario de la variable de predicción apropiada cuando se mantienen constantes las demás
variables de predicción“.9 La ecuación todavía sería útil para fines de predicción, en el supuesto de
que las condiciones sean estables. En otras palabras, se usaría para predecir las ventas en los
diversos territorios con valores dados de anuncios televisivos y representantes de ventas si cabe
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 6/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

esperar que continúe la relación histórica entre las ventas y cada una de las variables de
predicción, o la existente entre estas últimas.10 Empero, no deben usarse los coeficientes de
regresión parcial como base para la toma de decisiones mercadológicas estratégicas cuando es
significativa la multicolinealidad.11

Coeficientes de correlación múltiple y de determinación


múltiple
Un tema de gran importancia para analizar la regresión simple es la medida de la magnitud de la
relación entre las variables de criterio y de predicción. Se usan para dicho propósito el coeficiente
de correlación y su valor elevado a la segunda potencia, el coeficiente de determinación múltiple.
En la regresión múltiple existen coeficientes similares para el mismo propósito.

Coeficiente de determinación múltiple

En el análisis de determinación múltip ple, la proporción de variación en la variable de criterio que


se explica con la covariación de las variables predictivas.
Coeficiente de correlación múltiple

En el análisis de regresión múltiple, la raíz cuadrada del coeficiente de determinación múltiple.

El coeficiente de correlación múltiple se denota formalmente con Ry123, donde el subíndice


primario es la variable de criterio, y los subíndices secundarios, las variables de predicción. Cuando
es evidente cuáles variables forman parte de la relación, se usa la forma abreviada, R. Por su parte,
el coeficiente de determinación múltiple se denota formalmente con Ry.1232 e informalmente con
R2 y es la proporción de la variación de la variable de criterio que se compone de la covariación en
las variables de predicción. Cuando se investiga la relación de las ventas con los anuncios
televisivos y el número de representantes de ventas, Ry.122 = 0.874. Ello significa que 87.4% de la
variación de las ventas se relaciona con la existente en el número de anuncios y representantes. La
inclusión del número de estos últimos mejora el ajuste de la línea de regresión; 87.4% de la
variación en las ventas se explica con el modelo de dos variables de predicción, mientras que
apenas 77.5% se explica con el de una variable de predicción. La raíz cuadrada de dicha cantidad,
Ry.12 = 0.935, es el coeficiente de correlación múltiple, que siempre se expresa como número
positivo.

Coeficientes de correlación parcial


Existen dos cantidades adicionales que se consideran al interpretar los resultados de análisis de
regresión múltiple y no se incluyen en el de regresión simple: el coeficiente de correlación parcial y
su valor elevado al cuadrado, el coeficiente de determinación parcial.

Recordará el lector que en el análisis de regresión simple de las ventas y con los anuncios
televisivos X1 podía expresarse el coeficiente de determinación simple como sigue:

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 7/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

y que la variación inexplicada estaba dada por el error estándar de la estimación a la segunda
potencia, Sy-12, puesto que dicho error mide la variación de la variable de criterio no explicada con
la variable de predicción, X1. Por supuesto, la variación total está dada por la variación de la
variable de criterio Sy2. Así, se tiene:

Página 692 

El último término de la fórmula es la proporción de la variación residual de la variable de criterio,


después de considerar la variable de predicción X1 sobre la variación total de la variable de criterio.
Es una medición del grado relativo en que la relación de las dos variables aporta información sobre
la variable de criterio.

Ahora bien, considere el caso de la regresión múltiple con dos variables de predicción, X1 Y X2. El
error estándar de la estimación se denota con sy.12, y su valor a la segunda potencia, con sy.122.
Dicho error mide la variación residual de la variable de criterio Y después de tomar en cuenta las
dos variables de predicción, yX2. Puesto que sY.i2 mide la variación de la variable de criterio que
queda después de considerar la primera variable de predicción, es posible interpretar sY.122/Sy.12
como la medición del grado relativo en que la relación de las tres variables Y, X1 y X2 proporcionan
información sobre Y más allá de la obtenida con la relación de la variable de criterio Y la primera
variable de predicción, X1. En otras palabras, la proporción sY.122/SY.12 mide el grado relativo en
que X2 amplía los conocimientos acerca de Y después de utilizar plenamente X1. Esta razón es la
base del coeficiente de determinación parcial, que en el ejemplo de las ventas (Y) contra los
anuncios televisivos (X1) y número de representantes (X2) se calcula como sigue:

Coeficiente de determinación parcial

Cantidad que resulta del análisis de regresión múltiple e indica la proporción de variación de la
variable de criterio que no se explica con una o más variables previas y sí con la inclusión de una
nueva variable a la ecuación de regresión.

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 8/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

Lo anterior significa que 42.4% de la variación de las ventas que no guarda relación con los
anuncios televisivos la tiene de manera creciente con el número de representantes de ventas. En
forma alterna, los errores cometidos al estimar las ventas a partir de los anuncios televisivos se
reducen, según se mide con la varianza, en 42.4% cuando se agrega el número de representantes
de ventas (X2) a X1, como segunda variable de predicción. La raíz cuadrada del coeficiente de
determinación parcial es el coeficiente de correlación parcial.

Coeficiente de correlación parcial

En el análisis de regresión múltiple, la raíz cuadrada del coeficiente de determinación parcial.

En el ejemplo, eran dos las variables de predicción. Por tanto, se definió el coeficiente de
determinación parcial para el número de representantes de ventas (X2) como rY2.12. Habría sido
posible definir de manera similar un coeficiente de determinación parcial para los anuncios
televisivos. Se denotaría como rY1.22 y sería el porcentaje de la variación de las ventas no
relacionado con X2 que guarda relación creciente coneste último coeficiente mostraría la
contribución incremental de X1 después de considerar la relación de Y con X2.

Cuando se tienen más de dos variables de predicción, es posible definir muchos más coeficientes
de determinación parcial. Cada uno tiene dos subíndices primarios, que indican la variable de
criterio Y la variable de predicción recién añadida. Podría haber muchos subíndices secundarios,
que siempre corresponden a las variables de predicción ya consideradas. Así, si se tienen tres
variables de predicción, se calcularían rY2.1rY3.1rY1.2rY3.2rY1.3 y rY2.3. Todos serían coeficientes de
correlación parcial de primer orden, ya que tienen un subíndice secundario indicativo de que se
toma en cuenta una variable de predicción más. Asimismo, sería factible calcular rY1.23, rY2.13 y
rY3.12, que son coeficientes de correlación parcial de segundo orden. Cada uno de éstos tienen dos
subíndices secundarios, los cuales denotan la contribución creciente de la variable después de
haber tomado en cuenta las otras dos variables de predicción. Por supuesto, los coeficientes de
correlación simple no tienen subíndices secundarios, de modo que es frecuente denominar los
coeficientes de correlación parcial como de orden cero.

Variables binarias
El análisis de los datos de ventas del anexo 21.1 todavía está incompleto. No se ha prestado
atención al efecto de la distribución en las ventas, en particular como medida del índice de
eficiencia de los mayoristas. Una forma de considerar el efecto de tal eficiencia en las ventas sería
introducir el índice directamente, es decir, el valor X3 de cada observación simplemente sería el
valor registrado en la última columna del anexo mencionado. Sea X3 el índice de eficiencia de los
mayoristas, en cuyo caso la ecuación de regresión múltiple con la notación informal sería:

Y = α + β1X1 + β2 X2 + β3X3+ ε

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 9/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

Página 693 

El estimador de cuadrados mínimos de β3 en esta ecuación sería β̂3 = 11.5. Observe qué implica
este número si las variables de predicción son independientes: significa que el cambio promedio
estimado de las ventas es de 11 500 dólares por cada cambio unitario del índice de eficiencia de
mayoristas. En otras palabras, se espera que un distribuidor regular venda en promedio 11500
dólares más que un distribuidor malo; que un distribuidor bueno venda en promedio 11 500
dólares más que un distribuidor regular, y que un distribuidor excelente venda en promedio 11
500 dólares más que un distribuidor bueno. Se supone que los incrementos de ventas son
constantes con cada cambio de categoría de distribuidor. La consecuencia es que el índice de
eficiencia de distribuidores es una variable de escala a intervalos y que la diferencia entre
distribuidores malos y regulares es la misma que entre distribuidores buenos y regulares. Ése seria
un supuesto cuestionable con un índice que refleje calificaciones.

Una forma alterna de proceder sería la conversión del índice en un conjunto de variables binarias,
que asumen uno de dos valores, 0 o 1, de modo que pueden representarse con un solo dígito
binario. Estas variables se usan principalmente por la flexibilidad a la hora de definirlas. Pueden
constituir la representación numérica de atributos o características no esencialmente cuantitativos.
Por ejemplo, podría agregarse el género (sexo) en una ecuación de regresión con la variable binaria
Xi, donde

Variable binaría

Una a la que se asigna uno de dos valores, 0 o 1, y se usa para representar en forma numérica los
atributos o características que no son esencialmente cuantitativos.

Xi = 0, si se trata de una mujer

Xi= 1, si se trata de un hombre

Esta técnica se amplía fácilmente para el manejo de clasificaciones de dos o más categorías. Por
ejemplo, suponga que se requiere añadir la variable de clase social a una ecuación de regresión y
que son tres sus valores, a saber, clases alta, media y baja. La situación se podría manejar con dos
variables binarias, por ejemplo, X1 y X2, como sigue:

  X1 X2
• Si la persona es de clase alta 1 0
• Si la persona es de clase media 0 1
• Si la persona es de clase baia 0 0

Existen otros esquemas de codificación lógicamente equivalentes, por ejemplo, el siguiente:

  Xi X2
• Si la persona es de clase alta 0 0
• Si la persona es de clase media 1 0
• Si la persona es de clase baia 0 1

Por lo anterior, es de máxima importancia que el analista preste atención a la codificación de las
variables cuando interpreta los resultados de una regresión en que se utilizan variables binarias.
Debe estar claro que una clasificación con m categorías puede representarse de manera no
https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 10/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

ambigua con un conjunto de m – 1 variables binarias, en que el w-ésimo binario sería superfluo. De
hecho, el uso de m variables para codificar una variable de clasificación con m elementos haría
inoperantes muchos programas de regresión.

Suponga que se utilizan tres variables binarias para representar las cuatro categorías del índice de
eficiencia de distribuidores, en el ejemplo de bolígrafos, como sigue:

  X3 X4 X5
• Si el distribuidor es malo 0 0 0
• Si el distribuidor es regular 1 0 0
• Si el distribuidor es bueno 0 1 0
• Si el distribuidor es excelente 0 0 1

Página 694 

El modelo de regresión es:

Y α + β1X1 + β2X2 + β3X3 + β4X4 + β5X5 ε

Los estimadores de cuadrados mínimos de los parámetros de eficiencia de distribuidores son


como sigue:

Esos coeficientes indican que, en promedio, cabe esperar que un distribuidor regular, uno bueno y
uno excelente vendan 9200, 20 300 y 33 300 dólares más que uno deficiente, respectivamente.
Note que estos coeficientes se interpretan en relación con el estado “nulo”, es decir, la categoría
respecto de la cual se define que todas las variables binarias equivalen a cero: la categoría “malo”
en este caso.12

Un analista que pretenda indagar la diferencia entre la eficacia de ventas entre otras clasificaciones
debe estudiar esas diferencias de coeficientes. Por ello, si el investigador trata de calcular la
diferencia estimada en las ventas esperadas de un distribuidor bueno Y otro regular, la diferencia
promedio sería

. De igual modo, cabría esperar que un distribuidor excelente venda en promedio β̂5 – β4 = 33.3 –
20.3 = 13 (13 000 dólares) más que otro bueno.

El uso de variables binarias indica que la relación entre las ventas Y el índice de eficiencia de
mayoristas no es lineal, como se habría supuesto cuando se añadió como variable de escala a

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 11/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

intervalos. En vez de un aumento de 11 500 dólares con cada cambio de categoría, los aumentos
respectivos son de 9.2 (9200) de la categoría mala a la regular, 11.1 (11 100) de la regular a la
buena y 13 (13 000) ue la rela a la entrelasventasyel

Trasformaciones de variables
El uso de variables binarias amplía mucho el alcance del modelo de regresión. Hace posible añadir
variables con escalas de clasificación y nominales a los problemas de regresión. Como se
mencionó, también posibilita manejar relaciones no lineales de variables de criterio y de
predicción. Otra técnica que amplía el alcance evidente del modelo de regresión es la
transformación de variable.

Transformación de variable

Dícese del cambio en la escala con que se expresa una variable.

Una transformación de variable es simplemente un cambio en la escala con que se expresa una
variable dada. Considere el modelo siguiente:

donde se supone que es multiplicativa la relación entre las variables de predicción Y de éstas con el
error. A primera vista, parecería imposible estimar los parámetros α, β1, β2 y β3 con los
procedimientos normales de cuadrados mínimos. Ahora, considere el modelo:

W = α, + β1Z1 + β2Z2 + β3Z3 + ε,

Se trata de un modelo lineal, por lo que puede adecuarse a los procedimientos estándar de
cuadrados mínimos. Sin embargo, es equivalente precisamente al modelo multiplicativo si:

W = In Y

α’ = In α

Z1 = In X1

Z2 = In X2

Z3 = In X3

ε, = In ε

Página 695 

Disyuntivo ética 21.2

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 12/13
20/4/2020 Gale eBooks - Documento - Análisis de Regresión Múltiple

Sara estaba totalmente convencida de que existía relación entre las ventas del producto de la
compañía y las familias y su ingreso personal disponible total. Por tanto, ía desanimó mucho que
el primer vistazo a los datos del panel de diarios, de cuya contratación había convencido a su
superior, revelara la ausencia casi virtual de relación entre las compras del producto por familia y
su ingreso en la regresión simple de uno sobre el otro. Una serie de revisiones posteriores, en que
se intentaron diversas trasformaciones, resultó igualmente desalentadora. Por último, Sara optó
por dividir la variable de ingresos en categorías mediante un conjunto de variables binarias.
Cuando efectuó la regresión de las compras del producto por vivienda contra las categorías de
ingresos, descubrió una relación muy irregular a la vez que intensa, medida con R?. Las compras
aumentaban al hacerlo el ingreso, hasta 24 999 dólares, luego disminuían con ingresos de 25 000
a 59 999, aumentaban de nuevo con ingresos de 60 000 a 104 999 y no parecían ser afectadas
cuando los ingresos excedían de 105 000 dólares.

¿Cómo evaluaría el enfoque de Sara?


¿Piensa que es un buen procedimiento continuar la búsqueda de datos que sustenten una
hipótesis de la cual se está totalmente convencido o recomendaría una sola revisión de los
datos con el procedimiento que se consideró mejor a priori?
¿Cuáles son las responsabilidades éticas de Sara al presentar los resultados de su análisis?
¿Está obligada a comentar todos los análisis que realizó o es satisfactorio que informe
únicamente de los resultados de la regresión con variables binarias?

Se convirtió un modelo no lineal en otro lineal con las trasformaciones de variables. A fin de


resolver los parámetros del modelo multiplicativo, simplemente: 1) se toman los logaritmos
naturales de Y y de cada una de las X; 2) se despejan las ecuaciones resultantes con los
procedimientos normales de cuadrados mínimos; 3) se toma el antilogaritmo de α‘ para derivar
una estimación de a, y 4) se leen los valores de βi; ya que son los mismos en ambos modelos.

La transformación en logaritmos naturales incluye la de las variables de criterio y de predicción.


También es posible cambiar la escala de ambos tipos de variables. Las trasformaciones
exponenciales y logarítmicas son algunas de las más útiles, ya que sirven para resolver las
limitaciones que imponen los supuestos que siguen:13

La relación entre la variable de criterio y las variables de predicción es aditiva


La relación entre las variables de criterio y de predicción es lineal
Los errores son homoscedásticos (es decir, son iguales a una constante sin importar el valor
de las variables de prediccióne

Las variables binarias son un tipo de transformación, además de que se analizó de qué modo
permiten el tratamiento de las relaciones no lineales.

Texto completo: COPYRIGHT 2003 International Cengage Editores, S.A. de C.V.


Cita de fuente (MLA 8)   
Churchill, Gilbert6 A., Jr. "Análisis de Regresión Múltiple." Investigación de mercados, 4th ed.,
Cengage Learning, 1999, p. 686. Gale eBooks,
https://link.gale.com/apps/doc/CX4058900234/GVRL?u=unad&sid=GVRL&xid=dead9829.
Accessed 20 Apr. 2020.

Número de documento de Gale: GALE|CX4058900234

https://go.gale.com/ps/i.do?id=GALE%7CCX4058900234&v=2.1&u=unad&it=r&p=GVRL&sw=w&asid=49575112db86a0eb46dae86bbaf74cb9 13/13

También podría gustarte