Está en la página 1de 29

Datos y objetos

simblicos
Anlisis multidimensional de datos
Anlisis multidimensional de
datos (AMD)
Anlisis multidimensional clsico: se estudian
conjuntos de objetos individuales representados
por elementos atmicos de datos.


Anlisis multidimensional de
datos
Describir cualquier situacin, por ejemplo, las
caractersticas fsicas de una persona, la situacin poltica
en un pas, las propiedades de una imagen, el
rendimiento de un proceso, el anlisis de una obra de
arte, requiere tener en cuenta simultneamente varias
variables. Para describir las caractersticas fsicas de una
persona podemos utilizar variables como su estatura, su
peso, la longitud de sus brazos y de sus piernas, etc. Para
describir la situacin poltica de un pas, variables como
la existencia o no de un rgimen democrtico, el grado
de participacin poltica de los ciudadanos, el nmero
de partidos y sus afiliados, etc. El anlisis de datos
multivariantes tienen por objeto el estudio de varias
variables evaluadas en unidades de anlisis de una
poblacin. Pretende los siguientes objetivos:
Objetivos del anlisis
multivariado
Resumir el conjunto de variables en una pocas nuevas
variables, construidas como transformaciones de las
originales, con la mnima prdida de informacin.

Por ejemplo, el crecimiento de los precios en una
economa se resume en un ndice de precios, la calidad
de una universidad o de un departamento se resume en
unos pocos indicadores y las dimensiones del cuerpo
humano se resumen en la ropa de confeccin en unas
pocas variables indicadoras del conjunto. Disponer de
estas indicadores tiene varias ventajas: (1) si son pocas
podemos representarlas grficamente y comparar
distintos conjuntos de datos o instantes en el tiempo; (2)
simplifican el anlisis al permitir trabajar con un nmero
menor de variables; (3) si las variables indicadoras
pueden interpretarse, podemos mejorar nuestro
conocimiento de la realidad estudiada. El anlisis
multivariante de datos proporciona mtodos objetivos
para conocer cuntas variables indicadoras, que a
veces se denomina factores, son necesarias para
describir una realidad compleja y determinar su
estructura.


Objetivos del anlisis
multivariado
Encontrar grupos en los datos si existen.

Si observamos un conjunto de variables en un estudio
sobre empresas, esperamos que los datos indiquen una
divisin de las empresas en grupos en funcin de su
rentabilidad, su eficacia comercial o su estructura
productiva.

En muchas situaciones los grupos son desconocidos a priori
y queremos disponer de un procedimiento objetivo para
obtener los grupos existentes y clasificar las observaciones.
Objetivos del anlisis
multivariado
Clasificar nuevas observaciones en grupos
definidos.

los grupos estn bien definidos a priori y queremos clasificar nuevas
observaciones. Por ejemplo, queremos clasificar a clientes que solicitan
crditos como fiables o no, personas como enfermas o no, o disear una
mquina que clasifique monedas o billetes en clases prefijadas.

Para alcanzar estos tres objetivos una herramienta
importante es entender la estructura de dependencia entre
las variables, ya que las relaciones entre las variables son las
que permiten resumirlas en variables indicadoras, encontrar
grupos no aparentes por las variables individuales o clasificar
en casos complejos. Un problema distinto es relacionar dos
conjuntos de variables. Por ejemplo, podemos disponer de
un conjunto de variables de capacidad intelectual y otros de
resultados profesionales y queremos relacionar ambos
conjuntos de variables. En particular, los dos grupos de
variables pueden corresponder a las mismas variables
medidas en dos momentos distintos en el tiempo o en el
espacio y queremos ver la relacin entre ambos conjuntos.

Las tcnicas de anlisis multivariante tienen
aplicaciones en todos los campos cientficos y
comenzaron desarrollndose para resolver
problemas de clasificacin en Biologa, se ex-
tendieron para encontrar variables indicadoras y
factores en Psicometra, Marketing y las Ciencias
sociales y han alcanzado una gran aplicacin
en Ingeniera y Ciencias de la computacin
como herramientas para resumir la informacin y
disear sistemas de clasificacin automtica y
de reconocimiento de patrones
Administracin de Empresas: Construir tipologas de clientes. Agricultura: Clasificar terrenos de
cultivo por fotos areas.

Arqueologa: Clasificar restos arqueolgicos.

Biometra: Identicar los factores que determinan la forma de un organismo vivo.

Ciencias de la Computacin: Disear algoritmos de clasificacin automtica.

Ciencias de la Educacin: Investigar la efectividad del aprendizaje a distancia.

Ciencias del medio ambiente: Investigar las dimensiones de la contaminacin ambiental.

Documentacin: Clasificar revistas por sus artculos y construir indicadores bibliomtricos.

Economa: Identificar las dimensiones del desarrollo econmico.

Geologa: Clasificar sedimentos.

Historia: Determinar la importancia relativa de los factores que caracterizan los periodos
prerevolucionarios.
I
Ingeniera: Transmitir ptimamente seales por canales digitales.

Lingstica: Encontrar patrones de asociacin de palabras.

Medicina: Identificar tumores mediante imgenes digitales.

Psicologa: Determinar los factores que componen la inteligencia humana

Sociologa y Ciencia Poltica: Construir tipologas de los votantes de un partido.


DESCRIPCIN DE DATOS
MULTIVARIANTES

La informacin de partida para los mtodos estudiados puede
ser de varios tipos.
La ms habitual es una tabla donde aparecen los valores de p
variables observadas sobre n elementos. Las variables pueden
ser cuantitativas, cuando su valor se exprese numricamente,
como la edad de una persona, su estatura o su renta, o
cualitativas, cuando su valor sea un atributo o categora, como
el gnero, el color de los ojos o el municipio de nacimiento. Las
variables cuantitativas pueden a su vez clasificarse en continuas
o de intervalo, cuando pueden tomar cualquier valor real en un
intervalo, como la estatura, o discretas, cuando slo toman
valores enteros, como el nmero de hermanos. Las variables
cualitativas pueden clasificarse en binarias, cuando toman
nicamente dos valores posibles, como el gnero (mujer,
hombre) o generales, cuando toman muchos valores posibles,
como el municipio de residencia.

Ejemplo
En 100 estudiantes de una universidad medimos la edad, el gnero (1
mujer, 0 hombre), la calificacin media, el municipio de residencia (que se
codifica en 4 categoras en funcin del tamao) y el curso ms alto en que
se encuentra matriculado. Los datos iniciales se representan en una tabla
de 100 filas, cada una de ellas correspondiente a los datos de un
estudiante. La tabla tendr 5 columnas, cada una de ellas conteniendo los
valores de una de las 5 variables definidas. De estas 5 variables 3 son
cuantitativas, una binaria (el gnero) y otra cualitativa general (municipio
de residencia, que tomar los valores 1, 2, 3, y 4). Alternativamente
podramos codificar el municipio de residencia con tres variables binarias, y
entonces, la matriz de datos tendr n =100 filas y p = 7 columnas
correspondientes a las tres cuantitativas, el gnero, y las tres variables
binarias adicionales para describir el tamao del municipio de residencia.

Ejemplo
En 400 puntos de una ciudad instalamos controles que
proporcionan cada hora las medidas de 30 variables
ambientales y de contaminacin atmosfrica en
dicho punto. Cada hora tendremos una matriz de
datos con 400 filas, los puntos de observacin, y 30
columnas, las 30 variables observadas.

Objeto simblico
Modo de representacin de
datos complejos.
Surge de analizar diferentes
bases de datos
Datos y objetos
simblicos
Tradicionalmente se
representan las UA como
entidades simples y las
variables adoptando un valor
o categora en cada individuo
Datos y objetos simblicos
Los valores de las variables pueden no ser
atmicos
Grupo de valores, un intervalo de valores o una
distribucin de probabilidad
Ejemplo:
La variable y: tiempo dedicado a la prctica
de deporte.
Evaluada como el nmero de minutos
dedicados a la prctica del deporte por da
Un objeto simblico
puede describir:
Un grupo
Una clase de entidades
Ejemplo Tabla simblica:
SEXO EDAD PROFESIN
OS1 {Mujer 0,33
Varn 0,67}
[25,57] {Profesionales
0,35, personal
directivo 0,25,
jefes administ.
0,4}
OS2 [mujer 0,50
Varn 0,50}
[18.42] {comerciantes-
vendedores 0,55;
administrativos
0,45}

Datos simblicos relativos a
las variables sexo,
residencia y estado civil
Diagrama de Diday
P() P()
y
y
h h
y
E

E

: conjunto de unidades de anlisis
descripcin de los elementos de

Y:
Asocia a cualquier w de su descripcin

D: conjunto de descripcin de subconjunto de


OS: es un conjunto de propiedades
concernientes
a un subconjunto de
D
Ejemplo (Patricia Calvo, Cristina Prado, Yolanda Prez, Marina Ayestarn;
Eustat, Instituto Vasco de Estadstica):

A partir de la informacin obtenida acerca de los accidentes de trfico
y sus posibles causas se crean 18 objetos simblicos en funcin de
Factores concurrentes al accidente y en funcin de su gravedad.
Las nueve modalidades que corresponden a los factores concurrentes
son: distraccin, infraccin-velocidad, alcohol-drogas, mal estado del
vehculo, mal estado del camino, meteorologa adversa, cansancio-
enfermedad, inexperiencia, otros no definidos.


En cuanto a la gravedad del accidente se diferencian dos modalidades
Segn haya habido muertos o no.

Dos modalidades que al cruzar con los nueve anteriores crea dieciocho
objetos simblicos.

Uno de esos objetos simblicos se expresa por el siguiente bloque
de texto:
"alcohol-drogas con muertos"(16) =

[epoca ={"primavera"(0.0625),"invierno"(0.25), "verano"(0.4375),
"otoo"(0.25)}] ^ [facatmo = {"otros fact.atmos."(0.0625), "con
lluvia"(0.0625), "buen tiempo"(0.875)}] ^ [hora = {"7-9
horas"(0.1875), "16-18"(0.125), "0-6 horas"(0.0625), "21-
23"(0.25), "10-12 horas"(0.25), "19-20"(0.125)}] ^ [intersec =
{"no en intersec."(1)}] ^ [lumino = {"pleno da"(0.5625), "noche ilum.suf."(0.125),
"noche ilum.insuf."(0.1875), "noche sin ilumi."(0.125)}] ^
[superf = {"seca y limpia"(0.875), "mojada"(0.125)}] ^
[tipoacc = {"salida de calzada"(0.1875), "frontal"(0.375), "vuelco"(0.0625),
"atropello"(0.125), "choque con obstculo"(0.125), "otro"(0.125)}] ^[tipodia =
{"laborable"(0.25), "vspera de festivo" (0.375), "festivo"(0.375)}] ^
[tipovia = {"autopista o autova"(0.25), "va convencional"(0.5),
"resto vas"(0.25)}] ^ [zona =
{"variante"(0.0625), "zona urbana"(0.0625), "carretera"(0.875)}]



Diagrama de Kiviatt

También podría gustarte