Está en la página 1de 12

TENDENCIAS Vol. VI Nos.

1-2

TENDENCIAS
Revista de la Facultad de Ciencias
Econmicas y Administrativas.
Universidad de Nario
Vol. VI. Nos.1-2
Diciembre de 2005, pginas 97-108

MODELIZACIN ESTADSTICA DE VARIABLES CUALITATIVAS:


UNA INTRODUCCIN APLICADA
Por: Julio Csar Riascos1

Each day is a drive thru History


James Douglas Morrison
(1943-1979)

RESUMEN
El artculo introduce al lector en el manejo y aplicacin elemental de modelos
probabilsticos, asistidos por variables dictomas; para tal efecto determina su
trascendencia en el proceso de investigacin cientfica y su diseo a nivel
bsico. Se determinan, en este sentido, los modelos ANOVA de anlisis de
varianza; los modelos ANCOVA de regresores cualitativos y cuantitativos,
para finalmente abordar las ecuaciones de respuesta binaria.
1

Economista, Grado de Honor, Egresado Distinguido, Docente Hora Ctedra Universidad de


Nario. Email: julioriascos@mail.udenar.edu.co

Julio C. Riascos. Modelizacin estadstica de variables cualitativas: una introduccin


aplicada

PALABRAS CLAVE: Modelizacin estadstica,


ANCOVA, Modelos de respuesta cualitativa.

I.

Modelos

ANOVA,

GENERALIDADES

La aplicacin cada vez ms frecuente del modelamiento estadstico en el campo


de la investigacin cientfica, constituye acaso la prueba irrefutable del auge
cuantitativo, no slo como herramienta de medicin y prediccin, sino como
instrumento vital en la toma de decisiones.
As por ejemplo, el anlisis estadstico incorporado a la biologa, en el caso de
las ciencias de la salud, o lo que se conoce como bioestadstica, es asistido por
el examen de modelos probabilsticos en el estudio e identificacin de diversas
patologas.
Igualmente,
la misin del econmetra es la de expresar las teoras econmicas
en trminos matemticos para verificarlas por mtodos estadsticos
y para medir el impacto de una variable sobre otra, as como para
predecir los sucesos futuros o aconsejar la poltica econmica que
debe seguirse cuando se desea un resultado determinado2.
Ahora bien, la incidencia real de esta rama de la ciencia econmica no se
encuentra nicamente en la macroeconometra; su importancia prctica es igual
en la microeconometra, aplicada dentro de la investigacin de mercados y en el
diseo y evaluacin de proyectos empresariales.

VALAVANIS, Stefan. Introduccin a la Econometra. Citado por: BARBANCHO (1979:


182).

TENDENCIAS Vol. VI Nos.1-2

Una de las crticas convencionales a la modelizacin estadstica descansa en el


hecho de que se reduce aspectos cualitativos, a expresiones matemticas
implacables, suponiendo de ese modo una rigurosa mecnica entre relaciones
que dentro de la vida cotidiana rara vez existe; pues bien, por lo menos en el
trabajo del economista, no se debe perder de vista que la ciencia
permanentemente se ha desbordado en el desarrollo de conceptos tericos y
anlisis economtricos, y an cuando en retrospectiva lo concebido resulta
impresionante, no ha sido suficiente para afrontar los retos actuales. Con todo,
si el objeto social de la ciencia constituye su mximo fin, debe
asegurar para tal efecto las condiciones fundamentales de su trabajo
como son, en este caso, las herramientas conceptuales y
estadsticas; que tampoco constituyen el lmite de la economa, sino
ms bien, el eje que posibilita la extensin de su aporte3.
En ese orden de ideas, y dejando en claro que la modelizacin estadstica, as
como el conocimiento en general, constituyen solamente instrumentos de que se
sirve la ciencia para intentar clarificar la realidad y que, por consiguiente, en
ningn caso pueden ser un fin per se; el objeto central de este artculo ser
presentar al estudiante una introduccin aplicada, muy elemental por cierto, en
el manejo de modelos probabilsticos asistidos por variables ficticias, en la
cual se abordarn los modelos ANOVA, ANCOVA y de Respuesta
Cualitativa.
II.

DISEO DE VARIABLES

No todos los eventos estadsticos son obligatoriamente medibles, o


cuantificables, y el hecho de que ello sea as, no implica que la incidencia de
dichos elementos deba ignorarse. Es ms, en ocasiones estos factores basados
en aspectos cualitativos, sobrepasan con amplitud la significancia de aquellos
fenmenos pertenecientes a una determinada escala de razn4.
3

RIASCOS, Julio Csar. Principales determinantes econmicos del desempleo en San Juan
de Pasto. Tesis de grado para optar el ttulo de Economista. Facultad de Ciencias Econmicas y
Administrativas. Programa de Economa. Universidad de Nario. Pasto, 2004. Pg. 137.
4
Tradicionalmente el uso de escalas de razn se asoci al desarrollo de la investigacin
cuantitativa y, de manera similar, el uso de escalas nominales se vincul a la produccin de

Julio C. Riascos. Modelizacin estadstica de variables cualitativas: una introduccin


aplicada

La construccin de variables dummy es llevada a cabo mediante el uso del


sistema binario; la presencia de un atributo o cualidad implica que cada
observacin tomar valores equivalentes a 1 y, en caso de ausencia, cada evento
adoptar valores iguales a 0.
Para efectos prcticos considrese el modelo lineal expresado en la ecuacin
(1).
Yt = 1 + 2X2t + t

(1), donde:

Yt = Salarios Nominales (Variable Endgena)


X2t = Educacin (Variable Exgena)
t = Trmino de Error
1= Parmetro Autnomo5
2= Parmetro de Impacto6
Ahora supngase que se cuenta con la siguiente informacin: (Cuadro A)
El lector advertir que la educacin se descompone en 5 categoras diferentes:
Primaria, Secundaria, Tcnica, Pregrado y Postgrado. Intuitivamente, el diseo
de regresores ficticios supondr construir una variable para cada cualidad; as
entonces de X2t se generaran D2, D3, D4, D5 y D6, donde D2 representara la
educacin Primaria, siendo 1 cuando las observaciones presentan la existencia
de ese evento especfico y 0 para todo evento que le sea distinto. D3, D4, D5 y
D6 comprendern la educacin Secundaria, Tcnica, Pregrado y Postgrado,
respectivamente, teniendo en cuenta la presencia y ausencia de cada categora
mediante el sistema binario. De ese modo, las variables ficticias habrn
originado los datos del cuadro B
investigacin cualitativa; no obstante, en la actualidad buena parte de los avances en materia de
investigacin cientfica, tienen a bien asistir una combinacin de reas cuasicuantitativas o
cuasicualitativas en los recientes diseos de investigacin experimental.
5
El valor del intercepto estar asociado con el efecto promedio que sobre los salarios nominales
ejercen el conjunto de variables omitidas del modelo.
6
Reflejar la incidencia de los niveles educativos sobre los salarios nominales.

TENDENCIAS Vol. VI Nos.1-2

CUADRO A
INFORMACIN GENERAL EMPLEADOS ALFAOMEGA S.A.
(Ejemplo hipottico)
SALARIOS

NIVELES EDUCATIVOS

GNERO

PROCEDENCIA

Primaria

Putumayo

205

Primaria

Nario

220

Secundaria

Cauca

228

Secundaria

Nario

252

Tcnica

Nario

264

Tcnica

Putumayo

272

Tcnica

Putumayo

315

Pregrado

Cauca

324

Pregrado

Putumayo

340

Pregrado

Putumayo

618

Postgrado

Nario

720

Postgrado

Nario

800

Postgrado

Cauca

(Miles de pesos)
200

Fuente: RIASCOS, Julio. Economa: Retos y Posibilidades. (Investigacin en


curso), 2003, 2004, 2005.

Julio C. Riascos. Modelizacin estadstica de variables cualitativas: una introduccin


aplicada

Se entiende que, aunque la educacin es una variable no medible, como sucede


con elementos de estirpe cualitativa, es posible aproximarse, sino a su
cuantificacin, s por lo menos a la incidencia de su participacin.
Errneamente podra formularse el siguiente modelo:
Yt = 1 + 2D2i + 3D3i + 4D4i + 5D5i + 6D6i + t

(2).
-1

Al aplicar M. C. O. para estimar los parmetros estimado = (XX) (XY),


el clculo de la matriz inversa A exp.-1 = (1/ A)* (Adj. A) encontrar que el
determinante A ser equivalente a 0, con lo que dicha matriz se hace
singular. Si A exp.-1 tiene n*n filas y columnas, en este caso el rango es menor
que n, implicando que existe una relacin lineal perfecta entre los regresores
que componen el modelo; por lo tanto, existira multicolinealidad exacta7,
ocasionada a su vez por lo que se conoce como la trampa de las variables
ficticias.
III.

MODELOS ANOVA
VARIANZA

MODELOS

DE

ANLISIS

DE

El apartado anterior ha dejado una leccin valiosa en cuanto al manejo y


precaucin de variables dictomas. Ntese el cuadro B, para comprender la
existencia de multicolinealidad perfecta al estimar la ecuacin (2). En la
primera fila, la presencia de D2i implica la ausencia de D3i, D4i, D5i y D6i. De
igual forma, en cualquier observacin se tiene que la existencia de cualquier
evento explica de manera exacta la carencia de las dems. El desacierto estriba
en abarcar todas las posibilidades en que incurre un mismo fenmeno sin
determinar una categora que sirva de base. En otras palabras, el investigador
debe sacrificar una posibilidad en favor de las dems, lo que supone eliminar
una variable que haga las veces de referencia.
7

Los parmetros a estimar son indeterminados y por lo tanto sus errores tpicos sern
infinitos.

TENDENCIAS Vol. VI Nos.1-2

De acuerdo con los propsitos del anlisis, la modelizacin estadstica definir


qu elementos sern prioritarios y qu factor se omitir para establecerse como
base; no obstante, recurdese que 1, o el parmetro autnomo, ponderar,
entre las variables excluidas, la incidencia de aquella que se ha dejado de lado.
Si, verbigracia, el investigador tomara como referencia la Educacin Primaria,
formulara el modelo de la ecuacin (3)
Yt = 0 + 3D3i + 4D4i + 5D5i + 6D6i + t

(3), donde

Yt = Salario Nominal (Variable Endgena)


D3i = Educacin Secundaria (Variable Exgena)
D4i = Educacin Tcnica (Variable Exgena)
D5i = Educacin de Pregrado (Variable Exgena)
D6i = Educacin de Postgrado (Variable Exgena)
t = Trmino de Error.
0 = Parmetro Autnomo8
3, 4, 5 y 6 = Parmetros de Impacto; cada uno reflejar
correspondientemente la incidencia de la Educacin Secundaria, Tcnica, de
Pregrado y de Postgrado.
El mensaje es: si una variable cualitativa tiene m categoras, solo
hay que agregar (m-1) variables dictomas (GUJARATI, 2004: 289)
La expresin (3) es un modelo estadstico, que explica el comportamiento de
los salarios nominales en funcin de la Educacin Secundaria, Tcnica, de
Pregrado y de Postgrado; modelo que puede ser estimado a travs de M. C. O.

La teora supone que en 0 se cuantificarn los efectos de los trminos excluidos y entre ellos,
el que le asiste a la educacin primaria que ha servido de referente.
8

Julio C. Riascos. Modelizacin estadstica de variables cualitativas: una introduccin


aplicada

Ahora bien, es posible que el investigador omita una categora que sea
precisamente la ms importante; para evitar entonces este tipo de riesgos, es del
todo viable incluir esa variable que se podra haber excluido, de tal modo que
nuevamente se consideraran el conjunto total de eventos, dejando de lado esta
vez el intercepto, cuya justificacin aparentemente desaparecera al incluir
todas las posibilidades9.
En tal sentido podra formularse, de manera alternativa, el siguiente modelo:
Yt = 2D2i + 3D3i 4D4i + 5D5i + 6D6i + t

(4), donde

2 = Educacin Primaria
9

Aunque lo anterior es vlido, existe una amplia discusin sobre variables que explican un
fenmeno y que sin embargo no se tienen en cuenta, es lo que se denomina externalidades;
aqu por lo tanto podra tambin existir una contradiccin cuando se elimina el trmino que
pondera tales eventos.

TENDENCIAS Vol. VI Nos.1-2

D2i = Parmetro de Impacto, que pondera la incidencia de la Educacin


Primaria al explicar los Salarios.

Los modelos que explican una variable cuantitativa en funcin de variables


cualitativas, como la ecuacin (3) y (4), se conocen como Modelos ANOVA y,
en trminos generales, aplican las mismas pruebas estadsticas de un modelo de
estirpe cuantitativa.
IV.

MODELOS ANCOVA Y DE RESPUESTA CUALITATIVA

Los modelos ANCOVA combinan al mismo tiempo variables exgenas


cualitativas y cuantitativas, en la explicacin de un fenmeno medible o de
escala de razn. Supngase que se tiene adems la siguiente informacin:

Julio C. Riascos. Modelizacin estadstica de variables cualitativas: una introduccin


aplicada

CUADRO E
GASTOS FAMILIARES Y DE CONSUMO INDIVIDUAL
EMPLEADOS ALFAOMEGA S. A
(Miles de pesos)
GASTO FAMILIAR

CONSUMO PERSONAL

125

50

130

65

140

80

142

86

162

90

172

90

200

70

215

80

225

80

400

100

325

130

360

140

380

160

Ahora el investigador perfectamente podra aadir al modelo (3) los datos del
cuadro E, teniendo como resultado la ecuacin (5):
Yt = 0 + 3D3i + 4D4i + 5D5i + 6D6i + 3X3t + 4X4t + t
donde

(5),

X3t = Gasto Familiar (Variable Exgena)


X4t = Consumo Personal
3 y 4 = Parmetros de Impacto que miden la incidencia del Gasto Familiar y
del Consumo Personal sobre el salario nominal respectivamente.

TENDENCIAS Vol. VI Nos.1-2

Por ltimo, los modelos de respuesta cualitativa se caracterizan


fundamentalmente porque la variable endgena es una regresada binaria; es
decir, el fenmeno que se est explicando es de naturaleza nominal.
En ese orden de ideas podra plantearse, a manera de ejemplo, el siguiente
modelo uniecuacional:
Yt = 1 + 2 D7i + 3 X5t + t

(6), donde:

Yt = Educacin de Postgrado (Variable Endgena Binaria)


D7i = Procedencia (Variable Exgena Binaria)
X5t = Salarios (Variable Exgena Cuantitativa)
t = Trmino de Error
1= Parmetro Autnomo
2= Parmetro de Impacto que medir la incidencia de la regin de
procedencia sobre la Educacin de Postgrado

Julio C. Riascos. Modelizacin estadstica de variables cualitativas: una introduccin


aplicada

3= Parmetro de Impacto, reflejar el impacto que ejercen los salarios sobre la


educacin de postgrado.
El lector advertir que la variable procedencia est constituida por 3 categoras,
y que por lo tanto debern construirse 2 variables dictomas; no obstante y an
cuando la estimacin se haga mediante M.C.O., es posible sus propiedades
estadsticas no sean las deseables10.
Sin embargo, los desarrollos inferenciales han posibilitado formas alternativas
de estimacin al de M.C.O., mediante mtodos de clculo binario en modelos
logit para funciones de distribucin acumulativa (logstica), y en modelos
probit para funciones de distribucin normal acumulativa, conceptos cuya
exposicin desbordara con amplitud los alcances de este anlisis introductorio,
pero que pueden ser trabajados por el estudiante en los textos de Gujarati y
Gourieroux, con la obvia asistencia de un paquete estadstico relativamente
reciente.
REFERENCIAS BIBLIOGRFICAS
BARBANCHO, Alfonso (1979). Fundamentos y Posibilidades de la
Econometra. Editorial Ariel. Barcelona.
CARRASCAL, Ursicinio (2004). Anlisis Economtrico con Eviews.
Alfaomega. Madrid.
GOURIEROUX, Christian (2000). Econometrics of Qualitative Dependent
Variables. University Press. Nueva York.
GUJARATI , N. Damodar (2004). Econometra. Mc. Graw-Hill. Mxico.
MADALLA, G. S. (2001). Introduccin a la Econometra. Prentice-Hall.
Mxico.
PINDYCK, Roberts (2001). Econometra: Modelos y Pronsticos. Mc. GrawHill. Mxico.

10

Los errores residuales no siguen una distribucin normal, toda vez que su distribucin es la
Bernoulli; las probabilidades de Heterocedasticidad se incrementan, las estimaciones son
proclives a rebasar los valores entre 0 y 1 y, entre otros inconvenientes, los valores de R
cuadrado no tendrn a priori mayor poder explicativo

También podría gustarte