Documentos de Académico
Documentos de Profesional
Documentos de Cultura
manualSPAD PDF
manualSPAD PDF
Servei d’Estadística
Universitat Autònoma de Barcelona
Edificio D (Servei d’Informàtica)
08193 Bellaterra (Barcelona)
Tel. +34 93 581 13 47
Fax +34 93 581 20 94
s.estadistica@uab.es
www.uab.es/s-estadistica/
4 Caracterización de variables............................................................. 27
7 Casos propuestos.............................................................................. 63
8 Bibliografía ....................................................................................... 68
Actualmente, los métodos factoriales se enmarcan en las técnicas de Data Mining (o minería
de datos). Éstos permiten confrontar numerosas informaciones, lo cuál es más rico que
análisis separados. Las representaciones simplificadas de grandes tablas de datos se han
manifestado como un instrumento de síntesis notable, debido a su capacidad para reducir la
dimensionalidad. Permiten extraer las tendencias más destacadas, jerarquizarlas y eliminar
los efectos marginales o puntuales que perturban la percepción global de los hechos
recogidos en los datos. El desarrollo de algoritmos de clasificación resulta ser en muchas
ocasiones un complemento ideal a los métodos factoriales y permiten describir tipologías
de individuos según las variables en estudio.
SPAD (Système Portable pour l’Analyse de Données), permite implementar una estrategia de
análisis adecuada al tratamiento exploratorio multivariante de grandes tablas de datos. Su
concepción es original y adaptada para un proceso natural de aprendizaje a partir de los
datos (data learning).
Este sencillo manual pretende ser una herramienta para aquellas personas con
conocimientos de estadística multivariante que quieran iniciarse al tratamiento de los datos
con SPAD. El manual está divido en diversos apartados. En los primeros, se centra el
interés en el manejo de bases de datos, para pasar luego a la práctica de los análisis
factoriales y la obtención de gráficos. Es por tanto aconsejable realizar una lectura lineal. Se
ha utilizado la versión 4.5 de SPAD.
Esta ventana se organiza en cuatro subventanas, accesibles por menú vía Fenêtre o bien
con los iconos de la barra de herramientas:
Ejemplo 2. Crearemos una base con 10 individuos con los datos siguientes:
Id Etiqueta Sexo Salario anual ¿Qué es lo que más le gustó del viaje?
1 Juan Hombre 18.000 La gente, el ambiente de la ciudad
2 Silvia Mujer 15.000 La cocina tradicional
3 José Hombre 25.000 La cultura, el ambiente cultural
4 Pedro Hombre 17.000 Las noches y el ocio.
5 Ana Mujer 19.000 Las comodidades del transporte público.
6 David Hombre 30.000 La gente. Son muy agradables.
7 Cristina Mujer 22.000 Cultura, comida, museos,...
8 Marta Mujer 10.000 Disfrutar de la ciudad, con todos sus
equipamientos culturales y turísticos
9 Vanesa Mujer 13.000 Ir al teatro.
10 Carlos Hombre 21.000 El buen ambiente.
Primeramente debemos definir las variables y su tipo. Por defecto ya viene definido un
identificador de individuo y su etiqueta. Debemos por tanto añadir tres nuevas variables:
una nominal (N), otra continua (C) y otra textual (T). Debemos también definir su rango y
las etiquetas de las modalidades de la variable nominal.
Ya podemos introducir los datos. El editor de bases de SPAD permite realizar las
operaciones Copiar / Cortar / Pegar usuales en Windows. Así pues, puede interaccionar
con otras aplicaciones que contengan datos, como WORD, EXCEL, SPSS,...
Una vez los hayamos introducido debemos guardar la base, utilizando la opción
Enregistrer del menú Fichier y debemos indicarle el nombre y el directorio donde
se guardará el fichero de datos. Supongamos que guardamos el fichero con el nombre
Prueba.sba.
Supongamos que disponemos de un archivo ASCII (.txt o .dat) que contiene los datos del
ejemplo 2, donde los valores de las variables están separados por un espacio tabulador. Le
indicaremos a SPAD dónde se encuentra este archivo. Si tuviésemos nuestros datos en un
archivo EXCEL, bastaría con guardarlo en formato texto para poder luego realizar la
importación desde SPAD. Aconsejamos que siempre se trabaje con archivos de texto
separados por tabuladores.
Cliqueamos sobre el botón Suivant y nos aparece una nueva ventana donde debemos
indicar de qué tipo son las variables
Se abrirá una pantalla donde tendremos que especificar el tipo de cada una de las variables.
La filière es el objeto básico para realizar análisis con SPAD. En ella, se indican el
archivo BASE que se utiliza y se parametrizan los análisis. Toda la información y resultados
se puede guardar en una filière, mediante un archivo con extensión .fil.
Por defecto, al abrir SPAD ya nos aparecerá una filière vacía, con el siguiente aspecto:
El primer paso que se debe realizar es indicar con qué archivo BASE se desea trabajar. Para
ello se puede ejecutar la opción Sélectionner Base del menú Filière o bien
Ejemplo 3. Retomemos los datos del archivo Enquete.sba. Abriremos una nueva
filière y seleccionaremos este archivo. La filière debería tener el siguiente aspecto:
Para introducir un nuevo método a la filière basta con seleccionar la opción Insérer
Méthode del menú Méthode o bien cliquear con el botón de la derecha en el icono
BASE, y seleccionar la misma opción en el submenú que aparece.
Esta acción nos insertará un nuevo icono vacío, donde deberemos indicar el método que
deseemos ejecutar.
Para parametrizar el método basta con realizar un doble clic sobre el icono Stats. Se nos
abrirá una ventana de parametrización donde debemos indicarle las variables continuas y
categóricas que queremos analizar.
En las otras subventanas podríamos definir con que subgrupo de individuos desearíamos
realizara los análisis (Individus), establecer una variable de ponderación
(Pondération), o segmentar el archivo de datos según variables categóricas (Tris
édités par modalités). En nuestro ejemplo, los parámetros por defecto serán
suficientes. Por tanto, cliqueraremos sobre el botón OK. De esta forma, la filière ya estará
parametrizada y, por tanto, lista para ejecutar.
Podemos realizar un doble click sobre cada uno de los iconos. Los símbolos de los iconos
nos indicarán el tipo de los resultados:
Tanto los iconos de resultado como las parametrizaciones de los métodos no se pierden y
son de immediato editables. Cabe destacar que SPAD utiliza muchos ficheros intermedios,
muchos de los cuáles van ligados a la filière. Es recomendable crear un directorio propio
para cada análisis o bien para cada archivo BASE. No es recomendable copiar la filière a
otro directorio, pues daría problemas en la localización de ficheros.
Cabe destacar que el modo de encadenar los análisis no es indiferente. Hay análisis que se
alimentan de análisis anteriores. Esto provoca que ciertos encadenamientos sean imposibles
de ejecutar. El caso de los análisis factoriales es un ejemplo. Primero debe realizarse el
análisis factorial para luego aplicar la clasificación sobre los ejes factoriales creados.
Un mismo método puede ser encadenado tantas veces consecutivas como se desee. En el
caso de disponer de bases de datos complejos, es aconsejable realizar diversas filières,
separando los análisis.
SPAD dispone de una opción para crear filières predefinidas, es decir, encaradas a
realizar un análisis clásico. Para crear una nueva filière predefinida debe ejecutarse la
opción Filière prédéfinie del menú Filière.
Observamos que hay muchas opciones para escoger la filière predefinida. Más
adelante entraremos en detalle.
• Otros módulos
• Segmentación. Métodos para ajustar árboles de regresión y clasificación.
• Decisión – Modelos. Métodos para ajustar modelos de regresión lineales, log-
lineales, lineales generales,...
• Tablas múltiples. Métodos para construir tablas múltiples y realizar análisis
factoriales múltiples.
• Amado. Métodos que interaccionan con el software AMADO.
SPAD ordena las características influyentes por el p-valor asociado a la prueba estadística y
además incorpora un nuevo elemento, el valor-test. Este estadístico se distribuye según una
normal estandarizada, por lo que cuando sea superior a 2 o bien inferior a –2 se considerará
que una característica es influyente, con un nivel de significación asociado de 0,05.
Los hombres presentan mayor frecuencia de situación laboral en activo, trabajando a tiempo completo, y su
frecuencia de haber estado en el paro, sufrido una depresión, conflictos de trabajo o nerviosismo es menor que
el de las mujeres, que presentan mayor desempleo y mayores niveles de depresión, conflictos, ... Se observa
también que los hombres presentan un salario superior al de las mujeres y por otro lado, las mujeres atorgan
mayor importancia a la familia y niños.
Obviamente, se podrían entrar más en detalle sobre los porcentajes implicados en cada
caso, pero muchas veces podemos conformaremos con hallar los perfiles generales.
Por ejemplo, observamos que en general un 45,40% de los individuos encuestados trabajan
a tiempo completo. En el caso de los hombres este porcentaje aumenta al 63,77 %, y
observamos que el 61,54% de las personas que trabajan a tiempo completo son hombres.
En el caso de las tablas para variables continuas características, las columnas representan:
Podemos observar relaciones obvias, como por ejemplo que las personas jubiladas
(retraités) presentan una media de edad superior, y otras más interesantes como que las
personas que cada día ven la televisión presentan una media de edad superior a la global.
Por el otro lado observamos que la edad está relacionada positivamente con el número de
hijos y la importancia atorgada a la religión y está relacionada inversamente con el número
de personas con el que se convive, el monto de prestaciones familiares recibido, la
importancia atorgada al trabajo y la importancia atorgada al tiempo libre.
• Valores propios del ACP. En nuestro ejemplo observamos que los dos primeros ejes
factoriales conservan un 70,69% de la inercia.
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 6.0000
SOMME DES VALEURS PROPRES .... 6.0000
HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 2.7120 | 45.20 | 45.20 | ******************************************************************************** |
| 2 | 1.5297 | 25.49 | 70.69 | ********************************************** |
| 3 | 0.7817 | 13.03 | 83.72 | ************************ |
| 4 | 0.5795 | 9.66 | 93.38 | ****************** |
| 5 | 0.3965 | 6.61 | 99.99 | ************ |
| 6 | 0.0006 | 0.01 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
Se nos abrirá una nueva pantalla donde indicaremos el tipo de gráfico a realizar.
Básicamente hay tres gráficos factoriales interesantes:
• Gráfico de las proyecciones de los individuos (países) sobre los ejes factioriales
Para editar todas las etiquetas de una sola vez, podemos seleccionar la opción De tous les
points en el menú Selection y luego la opción Écrire les libellées en
Habillage. Para deseleccionar los puntos, basta con ejecutar la opción Désélection
totale en Sélection.
• Gráfico de las proyecciones de las variables y individuos utilizando los ejes unitarios
Portugal , Grecia, Italia y España tienden a dedicar más recursos publicitarios en televisión y radio y muy
poco en el cine. Francia y Bélgica dedican más recursos en revistas y outdoor. Por el otro lado, países
nórdicos como Suiza, Noruega, Suecia, Dinamarca, Finlandia y Irlanda destinan más recursos a los
diarios. Suiza, Holanda y Alemania en concreto dedican más recursos al cine.
Realizamos un doble clic sobre el icono del método y debemos indicar qué variables
definen las columnas y las filas de la tabla de contingencia. Para ello, debemos cliquear en el
botón Construction du tableau de la subventana Comandes.
• Tabla de contingencia. Definida por las dos variables categóricas. Podemos observar las
frecuencias absolutas y las frecuencias relativas por fila y por columna. También se realiza
un contraste de independencia de ji-cuadrado, en el que observamos que se rechaza la
hipótesis de independencia.
EDITION DES COMMANDES
COMMANDE 1
TABLEAU 1 EN LIGNE : 32 . Opinion sur les conditions de vie à venir
EN COLONNE : 7 . Niveau d'études de l'enquêté(e)
EDITION DES TABLEAUX
TABLEAU 1 EN LIGNE : Opinion sur les conditions de vie à venir POIDS TOTAL : 315.
EN COLONNE : Niveau d'études de l'enquêté(e)
EFF. | | | | | | | | | |
%COL | Dip1 | Dip2 | Dip3 | Dip4 | Dip5 | Dip6 | Dip7 | Dip8 | Dip9 | TOT.
%LIG | | | | | | | | | |
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 0 | 1 | 5 | 1 | 0 | 2 | 3 | 9 | 0 | 21
Ftr1 | 0.00 | 1.85 | 8.93 | 3.57 | 0.00 | 11.76 | 6.67 | 20.93 | 0.00 | 6.67
| 0.00 | 4.76 | 23.81 | 4.76 | 0.00 | 9.52 | 14.29 | 42.86 | 0.00 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 7 | 11 | 12 | 7 | 2 | 4 | 14 | 10 | 2 | 69
Ftr2 | 12.96 | 20.37 | 21.43 | 25.00 | 22.22 | 23.53 | 31.11 | 23.26 | 22.22 | 21.90
| 10.14 | 15.94 | 17.39 | 10.14 | 2.90 | 5.80 | 20.29 | 14.49 | 2.90 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 16 | 17 | 14 | 8 | 4 | 6 | 16 | 10 | 4 | 95
Ftr3 | 29.63 | 31.48 | 25.00 | 28.57 | 44.44 | 35.29 | 35.56 | 23.26 | 44.44 | 30.16
| 16.84 | 17.89 | 14.74 | 8.42 | 4.21 | 6.32 | 16.84 | 10.53 | 4.21 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 19 | 13 | 17 | 10 | 1 | 3 | 9 | 14 | 2 | 88
Ftr4 | 35.19 | 24.07 | 30.36 | 35.71 | 11.11 | 17.65 | 20.00 | 32.56 | 22.22 | 27.94
| 21.59 | 14.77 | 19.32 | 11.36 | 1.14 | 3.41 | 10.23 | 15.91 | 2.27 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 6 | 11 | 5 | 1 | 2 | 0 | 3 | 0 | 1 | 29
Ftr5 | 11.11 | 20.37 | 8.93 | 3.57 | 22.22 | 0.00 | 6.67 | 0.00 | 11.11 | 9.21
| 20.69 | 37.93 | 17.24 | 3.45 | 6.90 | 0.00 | 10.34 | 0.00 | 3.45 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 6 | 1 | 3 | 1 | 0 | 2 | 0 | 0 | 0 | 13
Ftr6 | 11.11 | 1.85 | 5.36 | 3.57 | 0.00 | 11.76 | 0.00 | 0.00 | 0.00 | 4.13
| 46.15 | 7.69 | 23.08 | 7.69 | 0.00 | 15.38 | 0.00 | 0.00 | 0.00 | 100.00
-----+--------+--------+--------+--------+--------+--------+--------+--------+--------+--------
| 54 | 54 | 56 | 28 | 9 | 17 | 45 | 43 | 9 | 315
TOT. | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00
| 17.14 | 17.14 | 17.78 | 8.89 | 2.86 | 5.40 | 14.29 | 13.65 | 2.86 | 100.00
---------------------------------------------------------------------------------------------------------------------------------------
KHI2 = 63.41 / 40 DEGRES DE LIBERTE / 34 EFFECTIFS THEORIQUES INFERIEURS A 5
PROBA ( KHI2 > 63.41 ) = 0.011 / V.TEST = 2.30
---------------------------------------------------------------------------------------------------------------------------------------
• Valores propios del análisis factorial. Observamos que con los dos primeros ejes
conservamos un 83% de la inercia.
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.2013
SOMME DES VALEURS PROPRES .... 0.2013
HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 0.1112 | 55.27 | 55.27 | ******************************************************************************** |
| 2 | 0.0571 | 28.36 | 83.63 | ****************************************** |
| 3 | 0.0193 | 9.59 | 93.22 | ************** |
| 4 | 0.0114 | 5.66 | 98.88 | ********* |
| 5 | 0.0022 | 1.12 | 100.00 | ** |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
Primeramente debemos crear una nueva filière, indicar el archivo de datos e inserir el
método CORMU.
Realizaremos un doble clic sobre el icono CORMU. Debemos indicar las variables
nominales que deseamos analizar. Podemos dejar el resto de parámetros con sus valores
por defecto.
Estos iconos son los mismos que para el caso de correspondencias simples. Destacaremos
los siguientes resultados:
Ejemplo 8
Retomaremos la filière del ejemplo 7 para realizar una clasificación de los clientes del banco
según sean sus características.
881
856
8% 8% 808
857
786
867
739
732
10%
796
819
866
804
874
11% 863
850
886
829
876
42%
861
805
869
11%
836
877
879
851
7%
842
832
882
3%
862
870
798
884
9% 843
825
818
800
880
50% 872
19% 885
858
859
883
868
864
14%
873
834
823
8% 839
875
838
3 10
También indicaremos que deseamos que nos indique en que grupo se ha situado cada uno
de los individuos.
Datos:
• Estrategia A: Los EEUU deberían provocar la derrota del poder Norte Vietnamita con
bombardeos intensivos de sus industrias, puertos y aeropuertos y con una invasión
terrestre.
• Estrategia B. Los EEUU deberían proseguir con su política actual en Vietnam.
• Estrategia C. Los EEUU deberían reducir sus actividades militares, para el bombardeo
del Vietnam del Norte e intensificar sus esfuerzos para la abertura de negociaciones.
• Estrategia D. Los EEUU deberían retirar inmediatamente sus fuerzas militares del
Vietnam.
El sondeo se repitió durantes cinco años consecutivos, con un total de 3.147 estudiantes.
Datos:
Mujer A 13 5 22 12 19 71
B 19 9 29 21 27 105
C 40 33 110 58 128 369
D 5 3 6 10 13 37
Seleccionar las razas de perros más en acuerdo con la función que se le pide (compañía,
casa o utilidad), a partir de calidades físicas y psíquicas de las razas. Realizar una
clasificación de las razas según sus cualidades.
Datos:
Bass 1 1 1 1 1 2 2
Beau 3 2 3 2 2 2 3
Boxe 2 2 2 2 2 2 1
Buld 1 1 1 2 2 1 1
Bulm 3 3 1 3 1 2 3
Cani 1 1 2 3 2 1 1
Chih 1 1 1 1 2 1 1
Cock 2 1 1 2 2 2 1
Coll 3 2 3 2 2 1 1
Dalm 2 2 2 2 2 1 1
Dobe 3 2 3 3 1 2 3
Dogo 3 3 3 1 1 2 3
Foxh 3 2 3 1 1 2 2
Foxt 1 1 2 2 2 2 1
Galg 3 2 3 1 1 1 2
Gasc 3 2 2 1 1 2 2
Labr 2 2 2 2 2 1 2
Masa 3 2 3 3 2 2 3
Mast 3 3 1 1 1 2 3
Peki 1 1 1 1 2 1 1
Podb 2 2 2 3 2 1 2
Podf 3 2 2 2 1 1 2
Poin 3 2 3 3 1 1 2
Sett 3 2 3 2 1 1 2
Stbe 3 3 1 2 1 2 3
Teck 1 1 1 2 2 1 1
Tern 3 3 1 2 1 1 3
Bécue M., Lebart L., Salem A. (2002) Análisis estadístico de datos textuales. Editorial Milenio.
Lleida.
Crivisqui E., Fine J. (1994) Introducción al análisis de los datos multidimensionales. PRESTA -94.
Escofier B., Pagès J. (1990) Análisis factoriales Simples y Múltiples. Servicio Editorial
Universidad del País Basco. Bilbao.
Lebart L., Morineau A., Piron M. (1984) Multivariate Descriptive Statistical Analysis. John
Wiley. Nueva York.
Morineau A. (1984) Note sur la caractérisation statistique d’une classe et les valeurs-test. Technique
du CESIA, 2, págs. 20-27. París.