Está en la página 1de 5
Lectura 1 (2018-03-02) Introduccién En las tltimas décadas se ha producido un gran crecimiento del uso de las técnicas estadisticas imultivariantes en todos los campos de la investigacion cientifica, Aunque podrian darse muchas razones para este uso, quizas las dos mas importantes son: la necesidad de analizar relaciones simulténeas entre tres 0 mas variables y el desarrollo de los ordenadores. En efecto, se parte de la medici6n de las caracterfsticas de una persona, planta, animal © cosa mediante el uso de variables, las cuales pueden representar una relacion de interés 0 simplemente, una realidad latente por descubrir. Sin embargo, la gran telarafia de interrelaciones y procedimientos algebraicos y estadisticos obliga el uso de un ordenador, a través de un lenguaje de programacién o software estadistico, De esta manera, es posible afirmar que el anélisis multivariante no es nds que una extension del anilisis bivariante que se enfoca en la investigneiOn simultanea de dos o mas variables medidas en un conjunto de objetos, referenciados generalmente en un espacio y en un tiempo, ¢s decit, ditige su atenci6n al andlisis de correlacion y covarianza entre tres 0 més variables, tanto desde una perspectiva transversal como longitudinal En definitiva, se podria decir que el anslisis inultivariante comprende el estudio estadistico de varias variables medidas en elementos de una poblacidn con el objetivo de: (1 Resumir datos mediante nuevas variables, construidas como transformaciones de las originales, con la ininima pérdida de informacion. 02 Encontrar grupos en los datos, si existen. 03 Clasificar nuevas observaciones en grupos definidos. 04 Relacionar dos conjuntos de variables. No obstante, desde un punto de vista estadistico se puede plantear a dos niveles: (05 Si queremos extraer Ia informacion que contienen los datos disponibles, es decir un andlisis exploratorios de datos. 06 Si queremos obtener conclusiones de la poblacion que ha generado los datos, esto ¢s un andlisis inferencial Precisamente, estos dos tiltimos objetivos del andlisis multivariante, requiere de elementos del Algebra lineal y de la teorfa de la probabilidad c inferencia estadistica. Variables aleatorias y datos Por lo tanto, independientemente del enfoque que se pretenda desarrollar con win anlisis de datos multivariantes, las respuestas 0 atributos observados sobre un conjunto de objetos estara asocindo con una variable aleatoria. Dicho lo anterior, medir es el proceso mediante el cual se asocian nfimeros simbolos a determinadas caracterfsticas de los objetos, de acuerdo con reglas preestablecidas. Por ejemplo, a los individuos se les puede describir con respecto a caracteristicas como la edad, la Actualizacion PAC2017 - Anilisis de Datos Pag 1 Multivariantes Lectura 1 Representacion grafica de datos multivariantes La informacion de partida en el andlisis multivariante es una tabla de datos correspondiente a distintas variables medidas en los elementos de un conjunto. La descripcién de datos parte de las posiciones de las observaciones como puntos en el espacio. En efecto, el objeto y materia prima del trabajo estadistico est contenido en los datos, los cuales suministran informacion referente a un objeto, en un tiempo determinado, Resultan entonces tres componentes del trabajo estadistico: « Los objetos sobre los que se intenta desarrollar algun estudio, (2s) « Las caracteristicas 0 atributos inherentes a los objetos, variables. (Vj). « Elespacio que estan inscritos los objetos y las variables, (71) ‘Tiempo, T; Xie Variables, Vj Objetos, O: Representacién multivatiada de datos Se puede concebir entonces tna colcecién de informacion sobre un objeto i = 1, ...m con earacteristicn j= 1.-...pen un tiempo t = 1,...,8. Un punto Xize corresponde al valor del atributo j-ésimo, para ‘1 i-ésimo individuo, en el instante ¢ y en un espacio determninado. Las diferentes técnicas estadisticas trabajan en alguna region de este espacio. Las regiones paralelas al plano OV son estudiadas por la mayorta de las téenicas del anilisis multivariado, se les Tanna estudio transversales. Por su parte, las regiones paralelas a VT se ocupan lo métodos de series Cronologicas, estudios Iongitudinales. En general, los procedimientos estadisticos consideran constantes 0 fijos algunos de los tres componentes mencionados Estructura de los datos Definicion. Se llama vector de dimensién n una tupla de n miimeros reales, de tal manera que cualquier vector, x, que pertenece a un expacio R" se puede representar como: x= (21,23.03)---5tn), donde x € R" En efecto, un conjunto de n datos numéricos de una variable puede representarse geométricamente acociando cada valor de la variable a una dimension del espacio n dimensional, obteniendo un punto ‘Actualizacion PAC2017 - Anilisis de Datos Pag 3 3 de marzo Multivariantes Lectura 1 de 2018, Observ: importantes: mn. Las caracteristicas aleatorias de las variables permiten obtener algunos resultados = Si la variables tienes media cero, entonces la covarianza es el producto escalar de ambos vectores. += Silas variables tienen media cero y des de correlacion, icién tipica uno, entonces la covarianza es el coefiiente + Sila norma de dos vectores es uno, el producto escalar es el coseno del éngulo. Esta es la interpretacién geométrica del coeficiente de correlacién, + La implicacion estadistica de ortogonalidad es incorrelacién. Definicién. Una combinacién lineal do un sistema de vectores es un vector de la forma para un conjunto finito de vectores, x;, y escalares cj ER, Definicién. Un conjunto de vectores {;})=1 1uotsn» Som linealmente independientes si existen esealares, cj €R, donde la ecuacién 0= Dax: se satisface tinicamente cuando dichos escalares son todos ceros. Caso contrario diremos que dicho stemia de vectores es linealmente dependiente. Desde el punto de vista estadistico, un conjunto de vectores linealmente independientes correspond a un conjuutto de variables que no estén relacionadas linealmente de forma exacta, caso contrario Seréin dependientes, lo que implica que existe alguna variable que se ha generado como una combinacién Tineal de las otras, Actualizacion PAC2017 - Anilisis de Datos Pag 5 3.de marzo Multivariantes Lectura 1 de 2018

También podría gustarte