Está en la página 1de 12
REGRESION ORTOGONAL Y COMPONENTES PRINCIPALES J. ALBERTO MARTINEZ ARNAIZ* Escuela de Empresariales. Bilbao In this work the Principal Components Analysis is presented, starting Jrom the orthogonal regression plane. On this basis, the data reduc- tion technique is exposed in the three-dimensional case. Finally, the correlation matriz analysis is considerated, as well as its eztension to p dimensions. INTRODUCCION Parece que el objetivo final al que debe apuntar la ensefianza de la Estadistica en una Escuela de Empresariales se podria formular como sigue: capacitacién al futuro diplomado para realizar, mediante un Ordenador y el software estadistico adecuado, el anilisis de los datos reales existentes en su empresa y en el ambito econémico en el que ésta se encuentra inmersa. Si se entra en el detalle de objetivos concretos, se daria un consenso am- plio en torno a la utilidad del Andlisis de Componentes Principales mediante el programa SPAD. En telacién con el dilema en toro a si se opta por una presentacion rigurosa de tal técnica, o bien se prefiere ofrecer al alumno los conocimientos precisos para saber interpretar las “salidas” que suministra el Ordenador, cabria preguntarse, jexiste alguna opcidn intermedia? Este trabajo pretende defender precisamente una posible solucién de com- promiso, consistente en. ~ exponer al alumno, ya familiarizado con la regresiGn convencional, el plano de regresién ortogonal, “J. Alberto Martinez Araiz. Doctor en Ciencias Econémicas. Profesor ée Estadistica. Escuela de Empresariales. Bilbao. 285, ~ a continuacién, presentar la técnica de reduccién de rango en el caso tri- dimensional ~ por iiltimo, tratar el caso del andlisis de la matriz de correlacién, asi como su extensién a p dimensiones. 2. PLANO DE REGRESION ORTOGONAL Y VARIANZA RESI- DUAL La regresi6n convencional exige la separacidn de las variables en dos clases: la variable a explicar por un lado, y los regresores por otro. La regresién ortogonal, en cambio, estudia el conjunto de variables en un solo bloque: todas las variables son a la vez explicativas y explicadas El objetivo de la regresién ortogonal (en IR*) consiste en ajustar un plano a la nube de puntos. El criterio utilizado es el minimo cuadrdtico; la diferencia con la regresién convencional radica en que el error de regresin ya no se define como diferencia entre valor predicho y valor observado. Sea (z, y,) una variable tridimensional, y Mo(zo, yo, zo) una de las observa- ciones de la misma. Sea, ademas, ar+ By+yz+6=0 la ecuacién del plano de regresin ortogonal que deseamos obtener. Impondremos al plano la restriccién +P 477 =1 Pues bien, el error de regresién se define aqui como la distancia del punto ob- servado al plano €0 = lary + Byo + 720 +4] El criterio de obtencién del plano se establecera del siguiente modo : “el plano de regresién ortogonal es aquel cuya media de cuadrados de distancias a los puntos observados sea minima” Si suponemos que hay m observaciones, la funcién a minimizar sera: 1 ari + 9 +72 +6)? #=(1,2,...,m) m 286 funcién que al incluir la restriccién impuesta se transforma en: 1 L 2 wa? 4g? 44? i, molar + By +721 +6)? - pla? + 6? +47 -1) que, a su vez, derivando con respecto a 6 da lugar a la condicion necesaria: 1 Alani + By +72 +6) =0> 1 adler + By t72%44+6)=0> OF + P+ 77h Esta titima expresin prueba que el plano buscado pasa por el centro de gravedad de la nube: (9,2) De esta primera conclusién extraemos una recomendacién operative: ~ en primer lugar, debemos centrar las variables (restar de cada una de ellas su media) en segundo lugar, obtendremos el plano de regresién ortogonal que pasa por el origen de coordenadas. E] resultado que acabamos de obtener nos invita a replantear ligeramente nuestro problema tedrico. Supondremos que operamos sobre variables centradas, y nuestro objetivo consistird en hallar el plano de regresién ortogonal que pase por el origen de coordenadas. Sean, (z, y, 2) una variable centrada tridimensional, y My(20,¥o, 20) una de las observaciones de la misma. Sea, ademés, art By +z laecuacién del plano de regresién ortogonal que deseamos obtener. Impondremos al plano la restriccion: +P tyPal El error de regresién se define como la distancia del punto observado al plano €0 = laze + Byo + 720] La funcién a minimizar ser: 206)? = Aden + By +78), isl 287 funcin que al incluir la restriccién impuesta se transforma en: if 2 24 B® pa? og at + Bae +74) — no? + 6? +7? -1) que, a su vez, da lugar a las condiciones necesarias de minimo: 12 mayor + By: + y2)zi — pa 0 Ay ae: + bu +75) - Id = 0 1a 7 i ji + 2; )2i — 2, So may (ax; + By: + y2i)zi — Quy 0 -(a? + 6? +4? -1) Las tres primeras ecuaciones son equivalentes a (52)? + Assy +7822 = po (sey)? + Als)? +75y2 = 8 (ses)? +855, +7(82)? = pry que, en expresién matricial 82 sey S22 ] [a a Sey 82 yz B)=|8 hu Sez Sy: 8 7 7 nos indican que (a 8 7) forman un vector propio de la matriz de covarianzas. j Cual de los tres ? Para resolver esta duda es preciso volver a la funcién media de cuadrados de los errores: Ye? 2 a2; + By: + 72)? = et = a°(sz)? + B°(sy)? +77(82)? + 2aBsey + 2ayse, + 2Gys, ye = 2 fy se) [a = [a Bow] sy sf Sys 6)=p Sr: Sy: 9? 7 Ahora bien, si la funcién que se quiere minimizar equivale a j1, de los tres valores propios posibles 11 fz fs debemos seleccionar el minimo. Convengamos en que este sea yg, En este punto podemos enunciar la solucién al problema que nos 288 hemos planteado: el plano (que pase por el origen de coordenadas) de regresin ortogonal que mejor se ajusta a una nube de puntos (cuyo centro de gravedad coincida con el origen) tiene por coeficientes los elementos del vector propio de la matriz de covarianzas (a3 3 75) correspondientes al valor propio minimo jig, 3. COMBINACION LINEAL OPTIMA DE (z,y,:). VARIANZA EXPLICADA Se ha dicho que Ja regresién ortogonal es un instrumento del andlisis de interdependencias. La utilizacién de esta técnica se realiza en forma de reduccién de rango: se trata de sustituir las tres variables (x,y,z) por dos, siendo éstas combinacién lineal de aquellas tres. El vector (a3 83 a) nos informa de la direccién perpendicular al plano de regresin ortogonal. Los otros dos vectores propios de la matriz de covarianzas (simétrica real), correspondientes a los valores propios 4, p12 (supondremos #1 > M2 > us), (a1 Aion) (a2 fa 2) conforman con aquel una matriz ortogonal P. Esta matriz P permite pasar .un nuevo sistema de ejes coordenados, mediante una rotacién que pivota sobre el origen. Las nuevas coordenadas se obtendran del siguiente modo: Fr = ar+fiytnz Fy ant + Boy + y22 € = art Bayt ysz Esta tercera coordenada mide la distancia de los puntos de la nube al plano de regresién ortogonal. Las dos primeras coordenadas corresponden a las pro- yecciones de los puntos de la nube sobre el citado plano. Pues bien, nuestra técnica de reduceién de rango propone precisamente a Fi, Fz como combinaciones lineales simplificadoras de la variable tridimensional, en tanto que la combinacién lineal quedaria como elemento residual Teniendo en cuenta que 289 se prueba rapidamente que la media de F; es cero. Andlogamente se tiene que la media de F2 es cero y que la media de los residuos es igualmente cero La varianza de la combinacién lineal F; (supondremos que todos los vectores propios estén normalizados) resulta ser: Bde = LM est bint ne = a a = (01%)? + Gr)*(6)? + Ono)? + + 2arBisey + 2arnse: + 271 sy: = 82 try 22: ] [oy = [ax A x] Sey 55 Sy: | | | =n ez Syz 22 | Ln es decir, el mayor valor propio. De igual modo se puede establecer que la varianza de la combinacién lineal Fr es el valor propio 12; y también que la varianza residual es el valor propio jis Los valores de F; estan incorrelados con los residuos. En efecto, la covarianza entre ambas variables sera: 12 Shue = = eazi + it nzilaar: + Boys + 7921) = A uo =1 = araa(sz)? + 618a(sy)? + 1179(82)? + (ars + a5f1)Sey + + (e178 + 03q1)822 + (S173 + Ban )5y: = a = [a a n]fsy sf sie] | a] = Pez Sy: 2? Ys [ = [a & a] | bs Jas Del mismo modo se establece la incorrelacién entre la variable F» y los residuos, o entre las variables F, y Fo 290 Designaremos combinacién lineal éptima a F, por ser la de maxima varianza; a F, la calificaremos de combinacién lineal subéptima; por tiltimo, la combi. nacién lineal e se denominaré residual. La parte de varianza explicada por el par (Fi, F2), es decir, por el plano de regresién ortogonal, se calculard mediante: Hit He Ait H2+ ps Los planos formados por (F2,e) 0 por (Fs,e) también contienen informacién interesante; la parte de varianza explicada sera en cada uno de los casos: Hi + Ha He + M3 A + Ha + Bs Ait a + pa 4. UN EJEMPLO Consideremos la base de datos', y 1 16.9680 —15.3420 2 -18.3820 —13.3400 3 -18.3820 —12.0080 166 = 16.2610 13.4450 17.0120 167 20.5030 12.0290 13.0100 168 16.2610 12.5020 17.3450 169 = 20.5030 11.0860 = 13.3430 conformada por 169 puntos del espacio R® que son parte de la estructura de un avion (figura 1). ‘Los datos estén disponibles como fichero “avion.dat” en: anonymous ftp from port- hos.bio.ub.es directory: /pub/multicua. 291 Ejes Cxuy) ot Figura 1 El anélisis de regresién ortogonal ofrece los siguientes resultados. — vector de medias. [3-723 3.185 2.827] = matriz de covarianzas: 163.7 39.4 63.5 39.4 40.0 59.8 63.5 59.8 137.2 — raices propias [239.1 90.9 10.9] ~ vectores propios (en filas) 708 —.236 ~.666 [> 070 .915 ~.398 [ 703 ~.329 -.631 292 ~ coordenadas sobre nueva base: i = Fy 1 29.5338 -.014 -1.133 2 28.334 -3.014 758 3 28.733 -3.013 —3.223 167 —21.132 -2.992 2.857 167 —21.125 3.010 2.858 168 -21.033 -2.991 1.862 169 ~21.025 3.010 1.863 El plano principal (F;, F2), que pone de manifiesto la estructura basica del avién, es decir, fuselaje y alas (figura 2) explica el 96.8% de la varianza, en efecto: Factores 1 y 2 : J pin 0° S8DOaeamsee, Bie > Figura 2 El plano de la figura 3 (F;,e) muestra el perfil del avién y explica el 73.3% de la varianza. 293 Figura 3 5. REGRESION ORTOGONAL Y ANALISIS EN COMPO: ENTES PRINCIPALES La técnica expuesta coincide plenamente con el analisis de componentes prin- cipales. Conviene, si acaso, aclarar que nuestro trabajo se ha realizado sobre datos centrados y por tanto se ha analizado la matriz de covarianzas, en tanto que el ACP habitual (conocido como normado) se suele realizar por motivos de igualacién de escalas, sobre datos tipificados, y consiguientemente se basa en el andlisis de la matriz de correlacién El resumen de operaciones necesarias para realizar un ACP normado sobre una base de datos p—dimensional seria: ~ tpificacion de los datos: t1,t2,...,tp ~ diagonalizacién de la matriz de correlacién (valores y vectores propios) Hi > 2 > Wa >> pp 294 mor (a Bom) v2: (a2 By 42 +++) v3: (a3 Bs 43 1) % : (a> Be rp ~ se puede, entonces, reducir el rango; supongamos que se decide sustituir las p vatiables por 3 combinaciones lineales de aquellas: anti + Bite + nits ++ aati'+ Bate vats + ast + Bate + ats +" ~ la parte de varianza explicada por estas tres combinaciones lineales se calcularia mediante: Hi + Ha + Hs +H Fat + ap ~ aunque los vectores propios nos informan sobre la relacién entre las varia- bles y las combinaciones lineales, es muy interesante conocer las cortela- ciones entre unas y otras: corr (t1, Fi) corr (t1,F2) corr (43, F5) corr (t2, Fi) corr (t2,F2) corr (t2, F) cort (tp, Fi) corr (tp, F2) corr (tp, Fs) como las combinaciones lineales estan incorreladas entre si, por simple suma de los cuadrados de los coeficientes de correlacién se llega a saber la parte de varianza explicada de cada variable: ty: corr?(ty, Fy) + corr?(t;, Fz) + corr?(ty, Fs) ty: corr?(tz, Fy) + corr?(t2, F2) + corr?(ta, F3) cort?(tp, Fi) + corta(ty, F2) + corr?(tp, Fs) 295 BIBLIOGRAFIA i} Cuadras, C.M. (1991) “Ejemplos y aplicaciones insdlitas en regresién y correlacién”. Questiid, 15, 367-382 Martin-Guzman, Martin Pliego (1987). Curso bdsico de Estadistica Econémica. Editorial AC. 296

También podría gustarte