Documentos de Académico
Documentos de Profesional
Documentos de Cultura
manualSPAD PDF
manualSPAD PDF
Servei dEstadstica
Universitat Autnoma de Barcelona
Edificio D (Servei dInformtica)
08193 Bellaterra (Barcelona)
Tel. +34 93 581 13 47
Fax +34 93 581 20 94
s.estadistica@uab.es
www.uab.es/s-estadistica/
4 Caracterizacin de variables............................................................. 27
7 Casos propuestos.............................................................................. 63
8 Bibliografa ....................................................................................... 68
Actualmente, los mtodos factoriales se enmarcan en las tcnicas de Data Mining (o minera
de datos). stos permiten confrontar numerosas informaciones, lo cul es ms rico que
anlisis separados. Las representaciones simplificadas de grandes tablas de datos se han
manifestado como un instrumento de sntesis notable, debido a su capacidad para reducir la
dimensionalidad. Permiten extraer las tendencias ms destacadas, jerarquizarlas y eliminar
los efectos marginales o puntuales que perturban la percepcin global de los hechos
recogidos en los datos. El desarrollo de algoritmos de clasificacin resulta ser en muchas
ocasiones un complemento ideal a los mtodos factoriales y permiten describir tipologas
de individuos segn las variables en estudio.
SPAD (Systme Portable pour lAnalyse de Donnes), permite implementar una estrategia de
anlisis adecuada al tratamiento exploratorio multivariante de grandes tablas de datos. Su
concepcin es original y adaptada para un proceso natural de aprendizaje a partir de los
datos (data learning).
Este sencillo manual pretende ser una herramienta para aquellas personas con
conocimientos de estadstica multivariante que quieran iniciarse al tratamiento de los datos
con SPAD. El manual est divido en diversos apartados. En los primeros, se centra el
inters en el manejo de bases de datos, para pasar luego a la prctica de los anlisis
factoriales y la obtencin de grficos. Es por tanto aconsejable realizar una lectura lineal. Se
ha utilizado la versin 4.5 de SPAD.
Esta ventana se organiza en cuatro subventanas, accesibles por men va Fentre o bien
con los iconos de la barra de herramientas:
Ejemplo 2. Crearemos una base con 10 individuos con los datos siguientes:
Primeramente debemos definir las variables y su tipo. Por defecto ya viene definido un
identificador de individuo y su etiqueta. Debemos por tanto aadir tres nuevas variables:
una nominal (N), otra continua (C) y otra textual (T). Debemos tambin definir su rango y
las etiquetas de las modalidades de la variable nominal.
Ya podemos introducir los datos. El editor de bases de SPAD permite realizar las
operaciones Copiar / Cortar / Pegar usuales en Windows. As pues, puede interaccionar
con otras aplicaciones que contengan datos, como WORD, EXCEL, SPSS,...
Una vez los hayamos introducido debemos guardar la base, utilizando la opcin
Enregistrer del men Fichier y debemos indicarle el nombre y el directorio donde
se guardar el fichero de datos. Supongamos que guardamos el fichero con el nombre
Prueba.sba.
Supongamos que disponemos de un archivo ASCII (.txt o .dat) que contiene los datos del
ejemplo 2, donde los valores de las variables estn separados por un espacio tabulador. Le
indicaremos a SPAD dnde se encuentra este archivo. Si tuvisemos nuestros datos en un
archivo EXCEL, bastara con guardarlo en formato texto para poder luego realizar la
importacin desde SPAD. Aconsejamos que siempre se trabaje con archivos de texto
separados por tabuladores.
Cliqueamos sobre el botn Suivant y nos aparece una nueva ventana donde debemos
indicar de qu tipo son las variables
Se abrir una pantalla donde tendremos que especificar el tipo de cada una de las variables.
La filire es el objeto bsico para realizar anlisis con SPAD. En ella, se indican el
archivo BASE que se utiliza y se parametrizan los anlisis. Toda la informacin y resultados
se puede guardar en una filire, mediante un archivo con extensin .fil.
Por defecto, al abrir SPAD ya nos aparecer una filire vaca, con el siguiente aspecto:
El primer paso que se debe realizar es indicar con qu archivo BASE se desea trabajar. Para
ello se puede ejecutar la opcin Slectionner Base del men Filire o bien
Ejemplo 3. Retomemos los datos del archivo Enquete.sba. Abriremos una nueva
filire y seleccionaremos este archivo. La filire debera tener el siguiente aspecto:
Para introducir un nuevo mtodo a la filire basta con seleccionar la opcin Insrer
Mthode del men Mthode o bien cliquear con el botn de la derecha en el icono
BASE, y seleccionar la misma opcin en el submen que aparece.
Esta accin nos insertar un nuevo icono vaco, donde deberemos indicar el mtodo que
deseemos ejecutar.
Para parametrizar el mtodo basta con realizar un doble clic sobre el icono Stats. Se nos
abrir una ventana de parametrizacin donde debemos indicarle las variables continuas y
categricas que queremos analizar.
En las otras subventanas podramos definir con que subgrupo de individuos desearamos
realizara los anlisis (Individus), establecer una variable de ponderacin
(Pondration), o segmentar el archivo de datos segn variables categricas (Tris
dits par modalits). En nuestro ejemplo, los parmetros por defecto sern
suficientes. Por tanto, cliqueraremos sobre el botn OK. De esta forma, la filire ya estar
parametrizada y, por tanto, lista para ejecutar.
Podemos realizar un doble click sobre cada uno de los iconos. Los smbolos de los iconos
nos indicarn el tipo de los resultados:
Tanto los iconos de resultado como las parametrizaciones de los mtodos no se pierden y
son de immediato editables. Cabe destacar que SPAD utiliza muchos ficheros intermedios,
muchos de los cules van ligados a la filire. Es recomendable crear un directorio propio
para cada anlisis o bien para cada archivo BASE. No es recomendable copiar la filire a
otro directorio, pues dara problemas en la localizacin de ficheros.
Cabe destacar que el modo de encadenar los anlisis no es indiferente. Hay anlisis que se
alimentan de anlisis anteriores. Esto provoca que ciertos encadenamientos sean imposibles
de ejecutar. El caso de los anlisis factoriales es un ejemplo. Primero debe realizarse el
anlisis factorial para luego aplicar la clasificacin sobre los ejes factoriales creados.
Un mismo mtodo puede ser encadenado tantas veces consecutivas como se desee. En el
caso de disponer de bases de datos complejos, es aconsejable realizar diversas filires,
separando los anlisis.
SPAD dispone de una opcin para crear filires predefinidas, es decir, encaradas a
realizar un anlisis clsico. Para crear una nueva filire predefinida debe ejecutarse la
opcin Filire prdfinie del men Filire.
Otros mdulos
Segmentacin. Mtodos para ajustar rboles de regresin y clasificacin.
Decisin Modelos. Mtodos para ajustar modelos de regresin lineales, log-
lineales, lineales generales,...
Tablas mltiples. Mtodos para construir tablas mltiples y realizar anlisis
factoriales mltiples.
Amado. Mtodos que interaccionan con el software AMADO.
SPAD ordena las caractersticas influyentes por el p-valor asociado a la prueba estadstica y
adems incorpora un nuevo elemento, el valor-test. Este estadstico se distribuye segn una
normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a 2 se considerar
que una caracterstica es influyente, con un nivel de significacin asociado de 0,05.
Los hombres presentan mayor frecuencia de situacin laboral en activo, trabajando a tiempo completo, y su
frecuencia de haber estado en el paro, sufrido una depresin, conflictos de trabajo o nerviosismo es menor que
el de las mujeres, que presentan mayor desempleo y mayores niveles de depresin, conflictos, ... Se observa
tambin que los hombres presentan un salario superior al de las mujeres y por otro lado, las mujeres atorgan
mayor importancia a la familia y nios.
Por ejemplo, observamos que en general un 45,40% de los individuos encuestados trabajan
a tiempo completo. En el caso de los hombres este porcentaje aumenta al 63,77 %, y
observamos que el 61,54% de las personas que trabajan a tiempo completo son hombres.
En el caso de las tablas para variables continuas caractersticas, las columnas representan:
Podemos observar relaciones obvias, como por ejemplo que las personas jubiladas
(retraits) presentan una media de edad superior, y otras ms interesantes como que las
personas que cada da ven la televisin presentan una media de edad superior a la global.
Por el otro lado observamos que la edad est relacionada positivamente con el nmero de
hijos y la importancia atorgada a la religin y est relacionada inversamente con el nmero
de personas con el que se convive, el monto de prestaciones familiares recibido, la
importancia atorgada al trabajo y la importancia atorgada al tiempo libre.
Valores propios del ACP. En nuestro ejemplo observamos que los dos primeros ejes
factoriales conservan un 70,69% de la inercia.
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 6.0000
SOMME DES VALEURS PROPRES .... 6.0000
HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 2.7120 | 45.20 | 45.20 | ******************************************************************************** |
| 2 | 1.5297 | 25.49 | 70.69 | ********************************************** |
| 3 | 0.7817 | 13.03 | 83.72 | ************************ |
| 4 | 0.5795 | 9.66 | 93.38 | ****************** |
| 5 | 0.3965 | 6.61 | 99.99 | ************ |
| 6 | 0.0006 | 0.01 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
Se nos abrir una nueva pantalla donde indicaremos el tipo de grfico a realizar.
Bsicamente hay tres grficos factoriales interesantes:
Grfico de las proyecciones de los individuos (pases) sobre los ejes factioriales
Para editar todas las etiquetas de una sola vez, podemos seleccionar la opcin De tous les
points en el men Selection y luego la opcin crire les libelles en
Habillage. Para deseleccionar los puntos, basta con ejecutar la opcin Dslection
totale en Slection.
Grfico de las proyecciones de las variables y individuos utilizando los ejes unitarios
Portugal , Grecia, Italia y Espaa tienden a dedicar ms recursos publicitarios en televisin y radio y muy
poco en el cine. Francia y Blgica dedican ms recursos en revistas y outdoor. Por el otro lado, pases
nrdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan ms recursos a los
diarios. Suiza, Holanda y Alemania en concreto dedican ms recursos al cine.
Realizamos un doble clic sobre el icono del mtodo y debemos indicar qu variables
definen las columnas y las filas de la tabla de contingencia. Para ello, debemos cliquear en el
botn Construction du tableau de la subventana Comandes.
Tabla de contingencia. Definida por las dos variables categricas. Podemos observar las
frecuencias absolutas y las frecuencias relativas por fila y por columna. Tambin se realiza
un contraste de independencia de ji-cuadrado, en el que observamos que se rechaza la
hiptesis de independencia.
EDITION DES COMMANDES
COMMANDE 1
TABLEAU 1 EN LIGNE : 32 . Opinion sur les conditions de vie venir
EN COLONNE : 7 . Niveau d'tudes de l'enqut(e)
EDITION DES TABLEAUX
TABLEAU 1 EN LIGNE : Opinion sur les conditions de vie venir POIDS TOTAL : 315.
EN COLONNE : Niveau d'tudes de l'enqut(e)
EFF. | | | | | | | | | |
%COL | Dip1 | Dip2 | Dip3 | Dip4 | Dip5 | Dip6 | Dip7 | Dip8 | Dip9 | TOT.
%LIG | | | | | | | | | |
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 0 | 1 | 5 | 1 | 0 | 2 | 3 | 9 | 0 | 21
Ftr1 | 0.00 | 1.85 | 8.93 | 3.57 | 0.00 | 11.76 | 6.67 | 20.93 | 0.00 | 6.67
| 0.00 | 4.76 | 23.81 | 4.76 | 0.00 | 9.52 | 14.29 | 42.86 | 0.00 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 7 | 11 | 12 | 7 | 2 | 4 | 14 | 10 | 2 | 69
Ftr2 | 12.96 | 20.37 | 21.43 | 25.00 | 22.22 | 23.53 | 31.11 | 23.26 | 22.22 | 21.90
| 10.14 | 15.94 | 17.39 | 10.14 | 2.90 | 5.80 | 20.29 | 14.49 | 2.90 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 16 | 17 | 14 | 8 | 4 | 6 | 16 | 10 | 4 | 95
Ftr3 | 29.63 | 31.48 | 25.00 | 28.57 | 44.44 | 35.29 | 35.56 | 23.26 | 44.44 | 30.16
| 16.84 | 17.89 | 14.74 | 8.42 | 4.21 | 6.32 | 16.84 | 10.53 | 4.21 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 19 | 13 | 17 | 10 | 1 | 3 | 9 | 14 | 2 | 88
Ftr4 | 35.19 | 24.07 | 30.36 | 35.71 | 11.11 | 17.65 | 20.00 | 32.56 | 22.22 | 27.94
| 21.59 | 14.77 | 19.32 | 11.36 | 1.14 | 3.41 | 10.23 | 15.91 | 2.27 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 6 | 11 | 5 | 1 | 2 | 0 | 3 | 0 | 1 | 29
Ftr5 | 11.11 | 20.37 | 8.93 | 3.57 | 22.22 | 0.00 | 6.67 | 0.00 | 11.11 | 9.21
| 20.69 | 37.93 | 17.24 | 3.45 | 6.90 | 0.00 | 10.34 | 0.00 | 3.45 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 6 | 1 | 3 | 1 | 0 | 2 | 0 | 0 | 0 | 13
Ftr6 | 11.11 | 1.85 | 5.36 | 3.57 | 0.00 | 11.76 | 0.00 | 0.00 | 0.00 | 4.13
| 46.15 | 7.69 | 23.08 | 7.69 | 0.00 | 15.38 | 0.00 | 0.00 | 0.00 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 54 | 54 | 56 | 28 | 9 | 17 | 45 | 43 | 9 | 315
TOT. | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00
| 17.14 | 17.14 | 17.78 | 8.89 | 2.86 | 5.40 | 14.29 | 13.65 | 2.86 | 100.00
---------------------------------------------------------------------------------------------------------------------------------------
KHI2 = 63.41 / 40 DEGRES DE LIBERTE / 34 EFFECTIFS THEORIQUES INFERIEURS A 5
PROBA ( KHI2 > 63.41 ) = 0.011 / V.TEST = 2.30
---------------------------------------------------------------------------------------------------------------------------------------
Valores propios del anlisis factorial. Observamos que con los dos primeros ejes
conservamos un 83% de la inercia.
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.2013
SOMME DES VALEURS PROPRES .... 0.2013
HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 0.1112 | 55.27 | 55.27 | ******************************************************************************** |
| 2 | 0.0571 | 28.36 | 83.63 | ****************************************** |
| 3 | 0.0193 | 9.59 | 93.22 | ************** |
| 4 | 0.0114 | 5.66 | 98.88 | ********* |
| 5 | 0.0022 | 1.12 | 100.00 | ** |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
Primeramente debemos crear una nueva filire, indicar el archivo de datos e inserir el
mtodo CORMU.
Realizaremos un doble clic sobre el icono CORMU. Debemos indicar las variables
nominales que deseamos analizar. Podemos dejar el resto de parmetros con sus valores
por defecto.
Estos iconos son los mismos que para el caso de correspondencias simples. Destacaremos
los siguientes resultados:
Ejemplo 8
Retomaremos la filire del ejemplo 7 para realizar una clasificacin de los clientes del banco
segn sean sus caractersticas.
881
856
8% 8% 808
857
786
867
739
732
10%
796
819
866
804
874
11% 863
850
886
829
876
42%
861
805
869
11%
836
877
879
851
7%
842
832
882
3%
862
870
798
884
9% 843
825
818
800
880
50% 872
19% 885
858
859
883
868
864
14%
873
834
823
8% 839
875
838
3 10
Tambin indicaremos que deseamos que nos indique en que grupo se ha situado cada uno
de los individuos.
Datos:
Estrategia A: Los EEUU deberan provocar la derrota del poder Norte Vietnamita con
bombardeos intensivos de sus industrias, puertos y aeropuertos y con una invasin
terrestre.
Estrategia B. Los EEUU deberan proseguir con su poltica actual en Vietnam.
Estrategia C. Los EEUU deberan reducir sus actividades militares, para el bombardeo
del Vietnam del Norte e intensificar sus esfuerzos para la abertura de negociaciones.
Estrategia D. Los EEUU deberan retirar inmediatamente sus fuerzas militares del
Vietnam.
El sondeo se repiti durantes cinco aos consecutivos, con un total de 3.147 estudiantes.
Datos:
Mujer A 13 5 22 12 19 71
B 19 9 29 21 27 105
C 40 33 110 58 128 369
D 5 3 6 10 13 37
Seleccionar las razas de perros ms en acuerdo con la funcin que se le pide (compaa,
casa o utilidad), a partir de calidades fsicas y psquicas de las razas. Realizar una
clasificacin de las razas segn sus cualidades.
Datos:
Bass 1 1 1 1 1 2 2
Beau 3 2 3 2 2 2 3
Boxe 2 2 2 2 2 2 1
Buld 1 1 1 2 2 1 1
Bulm 3 3 1 3 1 2 3
Cani 1 1 2 3 2 1 1
Chih 1 1 1 1 2 1 1
Cock 2 1 1 2 2 2 1
Coll 3 2 3 2 2 1 1
Dalm 2 2 2 2 2 1 1
Dobe 3 2 3 3 1 2 3
Dogo 3 3 3 1 1 2 3
Foxh 3 2 3 1 1 2 2
Foxt 1 1 2 2 2 2 1
Galg 3 2 3 1 1 1 2
Gasc 3 2 2 1 1 2 2
Labr 2 2 2 2 2 1 2
Masa 3 2 3 3 2 2 3
Mast 3 3 1 1 1 2 3
Peki 1 1 1 1 2 1 1
Podb 2 2 2 3 2 1 2
Podf 3 2 2 2 1 1 2
Poin 3 2 3 3 1 1 2
Sett 3 2 3 2 1 1 2
Stbe 3 3 1 2 1 2 3
Teck 1 1 1 2 2 1 1
Tern 3 3 1 2 1 1 3
Bcue M., Lebart L., Salem A. (2002) Anlisis estadstico de datos textuales. Editorial Milenio.
Lleida.
Crivisqui E., Fine J. (1994) Introduccin al anlisis de los datos multidimensionales. PRESTA -94.
Escofier B., Pags J. (1990) Anlisis factoriales Simples y Mltiples. Servicio Editorial
Universidad del Pas Basco. Bilbao.
Lebart L., Morineau A., Piron M. (1984) Multivariate Descriptive Statistical Analysis. John
Wiley. Nueva York.
Morineau A. (1984) Note sur la caractrisation statistique dune classe et les valeurs-test. Technique
du CESIA, 2, pgs. 20-27. Pars.