Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lo que no es tan clarao es que la reexpresin tambin consiga linealizar los Scatter plots
correspondientes. Podramos pensar que linealidad y normalidad son independientes y que la
transformacin de una variable ahcia su normalizacin podra no tenner ningn efecto sobre su
ajuste lineal con otra, como de hecho ocurre. Sin embargo, nonormalidad y nolinealidad amenudo
van de la mano, y la reexpresin puede responder a ambos problemas. Para comprender porqu,
es necesario en primer lugar hacer una distincincin entre transformaciones lineales y no lineales.
TIPOS DE TRANSFORMACIONES
Suma, resta, multiplicacin y divisin, de una variable por una constante, o cualquier
combinacin de estas operaciones, no slo preserva el orden entre los datos sino la distancia entre
ellos, por lo que la forma de la relacin no se ve afectada. De este modo un Scatter Plot entre los
nuevos valores y los originales produce una linea recta, de ah la denomionacin de transformacin
lineal. Transparencia
Por el contrario la trnasformacin de una variable por logaritmos, raices, potencias o
exponenciales cambia la distancia relativa entre los datos, produciendo por tanto distribuciones con
diferentes formas, por lo que un Scatter Plot entre los valores originales y los tranformados produce
un grfico no lineal, de ah el nombre de transformacin no lineal. Transparencia
Las transformaciones no lineales no lineales no monotnicas, alteran la cambian la
informacin de manera substancial , pues modifican los valores absolutos de los datos, la distancia
entre ellos e incluso el orden entre los mismos. Debido a ello es poco recomendable su utilizacin
aplicada a los fenmenos que son nuestro objeto de estudio.
Podemos ver pues, que en estos trminos la ecuacin de regresin lineal produce un
conjunto de valores estimados de Y que son una transformacin lineal de los valores observados
de X Y= a+bX
Simplemente consiste en multiplicar a X por una constante y aadirle otra. De este modo la forma
de la distribucin de los valores de Y y los de X es la misma, o si la relacin es un reflejo de los
de X. Para que ambas variables estn relacionadas deben pues tener una forma similar o de espejo.
Estono significa que variables sesgadas, en la misma direccin es decir parecidas en su forma, no
estn relacionadas lienalmente, pero si las simetrizaramos la relacin lineal entre no se vara
alterada y su nueva forma sera beneficiosa para otro tipo de anlisis y relacin con otras variables.
Por todo ello si la distribucin de Y difiere sustancialemnte de la de X la transformacin no
puede ser lineal ya que no cambiara la forma de la relacin entre las variables. En este caso la
transformacin ha de ser no lineal. En otras palabras. La relacin entre dos distribuciones no iguales
ha de ser no lineal, como en el caso de una distribucin simtrica con una sesgada, pues es
imposible dibujar una linea recta que satisfaga los contrastes impuestos por las dos distribuciones.
Esto no quiere decir que la relacin entre variables con distribuciones similares distribuciones haya
de ser necesariamente lineal sino slo que las distribuciones con formas diferentes no pueden tener
una relacin lineal. Debido a ello no todas las situaciones de no linealidad son tratables. Sin
embargo la reexpresin sigue siendo una herramienta til de la aproximacin exploratoria ya que a
menudo responde simultneamente a los problemas de no linealidad y no normalidad.
Esta relacin entre la forma de la distribucin y la forma de la relacin entre las varibles,
ofrece las bases de una aproximacin sistemtica a la modelizacin de las relaciones no lienales. En
primer lugar el analista debiera comenzar el anlisis simetrizando las variables y a
continuacin trabajar, en los futuros anlisis, con las variables simetrizadas. Las ventajas de
ello son :
1.- En primer lugar los problemas de no linealidad por distribuciones sesgadas, quedaran eliminados. Por
supuesto no se eliminaran todos los casos de no linealidad, pero los ms comunes pueden ser abordados de este modo,
ya que cualquier resto de no linealidad puede ser ms fcilmente modelada si las variables son simtricas y adems
tienden a la normal.
2.- En segundo lugar, la simetra es una cualidad y propiedad deseable en si misma. En estos
casos las relaciones con otras variables en cualquier tipo de anlisis se hacen ms fciles, cuando
los datos no estn concentrados en un rea. Adems incluso los estadsticos ms robustos se ven
alterados cuando las distribuciones no son simtricas por tener una desproporcionada concentracin
de casos en un determinado rango. Y si como es sabido la mayor parte de los anlisis se basan en al
utilizacin de estos estadsticos de localizacin y dispersin, los resultados de los mismos pueden
aparecer sesgados.
ELIGIENDO EL TIPO DE TRANSFORMACIN
no slo cambia sus valores absolutos sino que modifica las distancias relativas entre ellos. Las
funciones ms complejas afectan tambin al orden entre los datos, es decir a las tres caractersticas.
Estos tres tipos de cambios indican la disntincin principal entre las funciones aritmticas:
entre lineales y no lineales y monotnicas y no monotnicas. Una funcin monotnica no cambia
el orden entre los casos minetras que una monotnica lo hace y las lineales no alteran la disntnacia
entre los casos mientras que las no lineales lo hacen. Asi que todas las funciones lineales son
monotnicas y todas las no lineales no monotnicas. As pues en orden a su complejidad, quedan
clasificadas : lineales, no lineales monotnicas, y no lineales no monotnicas.
De este modo, las relaciones no lineales monotnicas pueden ser modeladas con
reexpresiones que simplemente ajusten las distnacias de unos valores con otros em ambas variables.
Las no monotnicas, sin embargo, requieren reexpresiones que cambien el orden entre los datos en
orden a modelar los cambios en la direccin de la relacin, en resumen requiren funciones no
monotnicas.
+6
+3
+ 10
+9
+3
-3
-6
-4
TPE=(4+ 3 - 3)=4
TPE = ( Yi Yr)
MINIMOS CUADRADOS
MINIMIZAR ( Yi Yr)2
TSS
= RSS
( Yi Y)2
ESS
= ( Yr Y)2 + ( Yi Yr)2
CONCEPTO DE CORRELACIN
MLTIPLE
X1
R
Y
X
.
.
.
XK
REGRESIN MLTIPLE PROCEDIMIENTO PASOS
SUCESIVOS
DEPENDIENTE : SALARIO
INDEPENDIENTES:
SEXO
NIVEL EDUCATIVO ALCANZADO
EXPERIENCIA LABORAL
EDAD
CLASE SOCIAL
1.- INCREMENTO DE R MLTIPLE
2.- TOLERANCIA = 1 R2ix
R2ix : correlacin mltiple al cuadrado entre cada
independiente y el resto
3.- COEFICIENTE t
B
t = __________
SEB
La linealidad
Todo lo anterior pone de manifiesto el supuesto bsico de la regresin mltiple: la relacin
de interdependencia entre las variables debe de responder a un modelo lineal. Al igual que muchas
otras tcnicas estadsticas derivadas del modelo lineal general, su formulacin presupone que los
fenmenos sociales analizados a travs de ellas pueden explicarse en trminos de linealidad. Para
averiguar si sta est presente en los datos -pues se desconoce, ya que es un presupuesto del que se
parte, pero no una constatacin del mismo- es conveniente analizar los grficos de dispersin
-scatter plot- para observar su cumplimiento. En este caso, el anlisis de los valores residuales
tambin es fundamental. Generalmente, stos se representan en un grfico de dispersin de
residuales, respecto a los valores estimados a partir de la ecuacin de regresin o respecto a los de
cada variable independiente. De este modo y mediante la observacin de la dispersin de estos
valores puede realizarse un diagnstico sobre el cumplimiento del supuesto de linealidad. Pero un
modo ms preciso de llevar a cabo este diagnstico es el que puede realizarse a travs de los
grficos de regresin parcial. En ellos, una vez eliminados los efectos lineales del resto de las
variables independientes, se aprecia la regresin parcial entre la dependiente y la independiente
seleccionada. Si se confirma el no cumplimiento de este primer supuesto se presentan
fundamentalmente dos alternativas. Una de ellas, pasara por la realizacin de un profundo anlisis
exploratorio para proponer un modelo alternativo. Otra opcin, la ms comnmente practicada,
consiste en realizar las transformaciones o re-expresiones oportunas sobre la variable/s que
provoca/n la desviacin del supuesto de linealidad. Adems de ello las transformaciones
generalmente utilizadas, -las no lineales monotnicas como logaritmos y races- no slo pueden
hacer que el modelo recobre la linealidad sino que pueden solucionar problemas de normalidad y
variabilidad, aspectos relacionados con otros tantos supuestos de la regresin lineal.
Una vez que se ha optado por esta segunda alternativa, la eleccin concreta de la
transformacin a realizar depende de diversas consideraciones. Generalmente, como se ha indicado,
las transformaciones ms frecuentes son la no lineales monotnicas 23 . Para seleccionar la ms
23
Ello es debido, fundamentalmente, a que las lineales monotnicas no afectan a la distancia ni al valor de los datos, por lo que
no resuelven problemas de linealidad ni normalidad. Por otra parte, las no lineales no monotnicas no slo alteran el valor de los
datos originales y su distancia sino que adems modifican el orden entre ellos, lo cual supone una transformacin total de la
Aditividad y multicolinealidad24
Del mismo modo que la ecuacin de regresin pone de manifiesto el supuesto de la
linealidad, otras caractersticas del mismo quedan patentes a partir de esta funcin matemtica. Una
de ellas, es el requisito de aditividad y no multicolinealidad entre las variables. Es decir: los efectos
de las variables deben ser aditivos, por lo que no es conveniente que las variables independientes
estn correlacionadas. El significado ltimo de la asuncin y utilizacin de modelos semejantes
supone que los fenmenos o procesos sociales que se pretenden explicar son fruto de otros sucesos
o variables independientes entre si . De nuevo nos topamos aqu con otro de los supuestos que
constituyen una construccin artificiosa de la realidad social para hacerla susceptible de ser tratada
mediante determinados modelos. Son, precisamente, estos modelos los que conllevan unos
determinados requisitos para su aplicacin, supuestos que tanto en este caso como en otros no son la
caracterstica esencial de lo social. Desde el punto de vista de la complejidad, es difcil concebir una
realidad social no compleja no multidimensional en la que el todo es simplemente la suma de las
partes. En cierto sentido, el supuesto de no multicolinealidad lleva implcita la idea de aditividad de
elementos independientes que configuran un todo; por el contrario, el funcionamiento de un sistema
complejo es inconcebible sin la interaccin de sus mltiples dimensiones, que engendran nuevos
procesos distintos e independientes de ellas. Por tanto, asumir un modelo aditivo y de interaccin
restrictiva entre las variables supone renunciar a una visin sistmica y estructural de la realidad
social, al tiempo que nos traslada a un mbito reduccionista y empobrecido, tanto desde el punto de
vista terico, como metodolgico.
Para comprobar el cumplimiento de este supuesto, ya que al igual que en el caso anterior se
parte de l y no de su constatacin, existen una serie de procedimientos y tcnicas precisas. Uno de
los modos ms frecuentes suele ser la simple observacin de la matriz de correlaciones inicial. La
existencia de altos coeficientes de correlacin entre pares de variables independientes puede ser un
buen indicador de la existencia de multicolinealidad. Sin embargo, el problema en torno a esta
24
La multicolinealidad hace referencia a ciertos niveles de correlacin o interaccin entre las variables independientes, es decir
al hecho de que unas variables se aproximan a ser combinacin lineal de otras. Por el contrario el modelo de regresin parte del
supuesto de ausencia de correlacin entre las variables independientes de modo que puedan calcularse, con suficiente
confianza, los efectos de cada una de las independientes sobre la dependiente controlndose el efectos del las restantes. Si la
relacin entre ellas es alta se dice que hay una alta multicolinealidad lo que produce sesgos que restan fiabilidad, no slo a los
coeficientes de regresin parcial, sino al resto de los estadsticos y parmetros hallados en la regresin.
cuestin es que puede existir multicolinealidad a pesar de que dichos coeficientes no sean
apreciablemente altos. Debido a ello, y para una deteccin ms precisa de la existencia de
multicolinealidad, suele recurrirse a otro criterio: el de la tolerancia. Este criterio est ntimamente
relacionado con la multicolinealidad, ya que indica en qu medida una variable independiente dada
est relacionada con el resto de las independientes. En un modelo de regresin lineal, la tolerancia
de una determinada variable es la proporcin de varianza no explicada por el resto de las
independientes y es:
Tolerancia = 1 -- R2 ix
dnde R2
ix
S21
F = ------------S22
Siendo S21 > S22
Normalidad univariable y normalidad multivariable
Bajo este supuesto, todas las variables incluidas en el anlisis deben ajustarse a la
distribucin normal. Un requisito para la mayor parte de los anlisis paramtricos multivariables es
la normalidad multivariable, que a su vez incluye como condicin la normalidad univariable. Este
requisito es una condicin necesaria pero no suficiente, ya que el hecho de que todas las variables se
ajusten a la ley normal no implica que conjuntamente sigan una distribucin normal multivariable.
Es necesario, por tanto, que todas las variables, incluida la dependiente, se distribuyan normalmente
para los valores dados de las otras variables.
Para que los datos procedan de esta distribucin es necesario que cada variable
sea normal y que el conjunto de las variables tengan una buena unidad
experimental, de modo que sea apropiado estudiarlas conjuntamente...La
normalidad univariante de cada una de las variables X i, no es condicin suficiente
de normalidad multivariante. Se puede construir diferentes familias de
distribuciones multivariantes no normales, cuyas marginales sin embargo lo sean.
(C. M. Cuadras: 1991, pp.38-43)
Bajo estas condiciones, una primera aproximacin para comprobar el cumplimiento o no de
la normalidad multivariable, supone la constatacin de la normalidad univariable. Respecto a ello,
cabe destacar una vez ms la conveniencia de realizar un anlisis exploratorio previo a cualquier
anlisis multivariable, con el objeto de poder detectar desviaciones a los supuestos paramtricos, as
como la estructura latente a los datos. De este modo, es fcil corregir y detectar desviaciones en
torno a la normalidad, a la igualdad de varianzas, a la linealidad, etc. En este caso, si se observa que
algunas de las variables no se distribuyen normalmente, se realizarn las transformaciones
oportunas para aproximarlas a la normal, con lo que es ms probable que el supuesto de normalidad
multivariable tienda a cumplirse.
Como en casos anteriores, los grficos de residuales -histograma de residuales
estandarizados, normal probability (P-P) plot y casewise plot of residuals outliers- pueden ser
de gran utilidad, pues permiten diagnosticar la existencia de casos extremos en alguna de las
variables -lo que permite concluir que no se distribuye normalmente- y ciertas asimetras y sesgos.
Pero, como se ha indicado ms arriba, comprobar el supuesto de normalidad univariable es
condicin necesaria pero no suficiente para la normalidad multivariable. Por ello, son necesarias
algunas pruebas adicionales que permitan determinar si sta se encuentra presente en los datos o no.
En este caso, Cuadras recomienda una prueba de normalidad de las componentes principales
Si efectuamos un anlisis de componentes principales a las n variables y
aplicamos una prueba de normalidad a cada una de las componentes principales,
tenemos una prueba de normalidad conjunta que adems es suficiente. En efecto,
la distribucin x1,..., xn es normal multivariante si y slo si es normal univariante
de la distribucin de las n componentes. Es una consecuencia de la propia
definicin de la normal multivariante. (C. M. Cuadras: op. cit., p. 71)
Nivel de medida interval
Otro de los supuestos del anlisis de regresin mltiple obliga a que todas las variables que
forman parte de la ecuacin de regresin tengan, como mnimo, un nivel de medicin de intervalo.
De nuevo, en este caso, los intereses tericos y metodolgicos de la investigacin pueden topar con
una dificultad que no es inherente al anlisis mismo, sino que se deriva de la utilizacin de ciertos
modelos para el anlisis social. Dado que la mayor parte de los fenmenos que podemos abordar
tienen una naturaleza nominal -cualitativa, hacen referencia a cualidades ms que a cantidades- u
ordinal, es necesario realizar ciertas transformaciones para poder incluir estas variables en la
investigacin. En estos casos, la solucin es la creacin de variables dummy -variables ficticias-
que sustituyan a las originales, de modo que stas puedan ser tratadas matemticamente como si
fueran continuas. De este modo, a partir de una variable categrica, obtenemos K-1 variables
ficticias -siendo K el nmero de categoras de la variable original-. Dichas variables presentan una
estructura dicotmica y pueden as pasar a formar parte del anlisis. Esto es debido a que las
variables codificadas como 0 y 1 son equivalentes a las variables continuas dicotomizadas -y
relacionadas linealmente- que se analizan a partir de la correlacin tetracrica. De este modo, al
expresar as la variable original sta adquiere ciertas caractersticas que permiten incluirla en la
ecuacin de regresin. En la construccin de este tipo de variables, el nivel que queda excluido, (K1), sirve de base de comparacin del resto de las categoras, pero no existe ningn criterio para
determinar cual de las categoras ha de eliminarse; esta consideracin slo depende de los intereses
particulares de cada investigacin. La necesidad de eliminar una de las categoras responde al hecho
de que, en caso contrario, cualquiera de ellas sera una combinacin lineal de las dems, lo que
redundara en problemas de multicolinealidad.
En definitiva, de todos estos supuestos, como de otros muchos de la estadstica
confirmatoria tradicional, podemos decir que obtienen "buenos ajustes", "medidas precisas" y
resultados estadsticos muy significativos", pero quiz no podamos decir que la significacin
obtenida corresponda a una significacin real, sustantiva, que las medidas sean tales y que los
ajustes sean fruto de la variabilidad real de los fenmenos.
En virtud de la necesidad de ofrecer una alternativa viable a esta compleja problemtica,
surgen en la actualidad tcnicas no paramtricas, cada vez ms potentes, cuya utilizacin se
generaliza. La proliferacin y generalizacin del uso de estas tcnicas aparamtricas demuestra la
tendencia creciente a considerar las limitaciones de las tcnicas tradicionales, en su aplicacin a
realidades a las que no se adaptan tan adecuadamente como cabra esperar.
...ms recientemente se han desarrollado otras tcnicas que no exigen tantas
restricciones sobre la naturaleza de la poblacin. Tales tcnicas aparamtricas, o
de libre distribucin, permiten obtener conclusiones con menos condiciones. El
tipo de conclusin que se puede obtener con el uso de tales tcnicas ser de la
forma: Con independencia de la forma de la poblacin se puede concluir que...
Algunos autores denominan tambin a las tcnicas aparamtricas como pruebas
de ordenacin, lo que sugiere la existencia de otro factor diferencial entre las
tcnicas paramtricas y las aparamtricas. En efecto, en el clculo de las pruebas
paramtricas se pueden realizar todas las operaciones aritmticas con los valores
obtenidos de las muestras. Si tales procedimientos aritmticos se aplicaran a
valores que no son realmente numricos se introduciran distorsiones en estos
datos y las conclusiones que se obtuvieran vendran sesgadas. As, pues, slo se
pueden emplear tcnicas paramtricas cuando los valores son verdaderamente
numricos. Sin embargo las pruebas aparamtricas atienden a la ordenacin de los
datos, no a su valor numrico e incluso algunas tcnicas pueden utilizarse con
datos meramente clasificatorios que no pueden siquiera ser ordenados. (Manuel
Garca Ferrando: 1986, p.156)
Adems de ello, tambin cabe resaltar la importancia creciente que adquiere la perspectiva
exploratoria en el anlisis de datos, cuya utilizacin facilita la deteccin de irregularidades en las
distribuciones respecto a los supuestos paramtricos de partida, ofreciendo la posibilidad de
aplicacin de estadsticos que se adecuen a su fiel representacin. Se ponen as de manifiesto, en los
primeros pasos del anlisis, aspectos relevantes de los datos que, de otro modo, hubieran pasado
inadvertidos y que alertan en cuanto a la idoneidad de aplicacin de anlisis con serias restricciones
paramtricas.
En definitiva, todas estas consideraciones anteriores, vuelven a remitirnos al problema
central que se aluda anteriormente y Coombs expresa como el dilema del socilogo. Y es,
precisamente, a este dilema al que los diferentes enfoques tratan de dar respuesta. Por una parte, la
asuncin de los supuestos paramtricos implcitos, por parte de la estadstica tradicional
(normalidad linealidad, parsimonia...) tiene como resultado la referencia al primer aspecto de este
dilema, "escoger entre poner sus datos en un orden sencillo...". Este orden sencillo encaja
TEORAS
FORMACIN DE
CONCEPTOS, FORMACIN DE
PROPOSIOCIONES
Y ORDENAMIENTO
DE PROPOSICIONES
DEDUCCIN
LGICA
INFERENCIA
LGICA
GENERALIZACIONES
EMPRICAS
DECISIONES PARA
ACEPTAR O
RECHAZARHIPTESIS
HIPTESIS
CONTRASTACIN
DE HIPTESIS
MEDICIN, RESUMEN
INTERPRETACIN,
DE MUESTRAS
INSTRUMENTACIN,
Y ESTIMACIN
ESCALAJE
Y MUESTREO
DE PARMETROS
OBSERVACIONES
Este grfico pretende relacionar los diferentes elementos del proceso de investigacin a la
vez que reflejar la conexin entre teora e investigacin emprica. De este modo la perspectiva que
se ha dado en denominar "confirmatoria" se centra en la zona deductiva del grfico, la zona derecha
del mismo, que partiendo de la teora, supuestos e hiptesis derivadas de ella, pretenden una
contrastacin emprica volviendo de nuevo a la teora.
El
anlisis
estadstico
tradicional
-regresin,
factorial,
de
ecuaciones