Está en la página 1de 185

Catalina Canals Cifuentes

Anlisis Estadstico
Apuntes tericos, uso de SPSS, uso de AMOS


1
CONTENIDOS
INTRODUCCIN....6
Estadstica ........................................................................................................................................................... 7
Conceptos claves ............................................................................................................................................ 7
Anlisis de datos ............................................................................................................................................. 7
Modelos estadsticos ...................................................................................................................................... 7
Modelos formales ........................................................................................................................................... 8
Modos de hacer ciencia .................................................................................................................................. 8

I PARTE: Estadstica descriptiva univariada.....10
Estadstica descriptiva ...................................................................................................................................... 11
Tabla de frecuencias ..................................................................................................................................... 11
Tabla de frecuencia para variables cuantitativas ..................................................................................... 11
Grficos ......................................................................................................................................................... 11
Propiedades de las variables cuantitativas ................................................................................................... 12
Medidas de tendencia central .................................................................................................................. 12
Medidas de posicin ................................................................................................................................. 12
Medidas de dispersin ............................................................................................................................. 13
Estandarizacin de variables .................................................................................................................... 13
Estimacin de parmetros ............................................................................................................................ 13
Estimacin Puntual: .................................................................................................................................. 13
Estimacin por intervalos ......................................................................................................................... 14

Procedimientos en spss .................................................................................................................................... 15
Seleccin de valores perdidos ...................................................................................................................... 15
Recodificacin de variables .......................................................................................................................... 15
Tabla de frecuencias de frecuencia, medidas de tendencia central, de posicin, de dispersin, asimetra y
curtosis, grficos de barras, sectores e histograma ..................................................................................... 16
Anlisis de las salidas ................................................................................................................................ 16
Normalidad, medidas de tendencia central con intervalo de confianza, medidas de dispersin, asimetra,
curtosis, percentiles, grfico de caja ............................................................................................................ 19
Anlisis de las salidas ................................................................................................................................ 19
Grficos de barra y de lneas ........................................................................................................................ 21
Puntaje Z ....................................................................................................................................................... 22
Intervalos de confianza para medias ............................................................................................................ 23
Anlisis de las salidas ................................................................................................................................ 23

II PARTE: Estadstica bivariada....24
Estadstica bivariada ......................................................................................................................................... 25
Tabla de contingencia ................................................................................................................................... 25
Asociacin de variables categricas ............................................................................................................. 25
Estadsticos de asociacin ........................................................................................................................ 25
Control de una tercera variable ................................................................................................................ 26
Covarianza y correlaciones ........................................................................................................................... 27
Coeficientes .................................................................................................................................................. 27

Procedimiento en spss ..................................................................................................................................... 28
Tablas de contingencia y Estadsticos de asociacin .................................................................................... 28
Interpretacin tablas sin variable control ................................................................................................ 29
Interpretacin tablas con variable control ............................................................................................... 30
Correlacin de Pearson y Spearman ............................................................................................................ 32
Correlacin de pearson, spearman y Covarianza ......................................................................................... 33

2
Correlacin parcial ........................................................................................................................................ 34
III PARTE: Prueba de diferencia de medias y proporciones........36
Pruebas de hiptesis ........................................................................................................................................ 37
Tipos de pruebas .......................................................................................................................................... 37
a) Paramtricas ................................................................................................................................... 37
b) No paramtricas .............................................................................................................................. 37
Hipotesis ....................................................................................................................................................... 37
Nivel de significacin .................................................................................................................................... 37
Tipos de error ............................................................................................................................................... 37
Potencia de test ............................................................................................................................................ 37
Pruebas Paramtricas ................................................................................................................................... 37
Muestras Grandes: Prueba Z .................................................................................................................... 38
Muestras Chicas: prueba T ....................................................................................................................... 39
ANOVA ...................................................................................................................................................... 41

Procedimiento en SPSS ..................................................................................................................................... 43
Prueba Z para proporciones ......................................................................................................................... 43
Interpretacin de salidas .......................................................................................................................... 44
Prueba t para medias, muestras relacionadas ............................................................................................. 45
Anlisis de las salidas ................................................................................................................................ 45
Prueba t para medias, muestras independientes ......................................................................................... 46
Anlisis de las salidas ................................................................................................................................ 47
Anova de 1 factor, Prueba de Levene ........................................................................................................... 47
Anlisis de las salidas ................................................................................................................................ 48

IV PARTE: Muestreo.50
Muestreo no probabilstico .............................................................................................................................. 51
Tipos ............................................................................................................................................................. 51
Muestreo probabilstico ................................................................................................................................... 52
Tamao de la muestra .................................................................................................................................. 52
Varianza ........................................................................................................................................................ 53
Fraccin de muestreo y coeficiente de elevacin ........................................................................................ 53
Muestreo aleatorio simple y muestreo sistemtico ..................................................................................... 53
Efecto diseo (DEFF) ................................................................................................................................. 54
Muestreo estratificado ................................................................................................................................. 54
Muestreo por conglomerados ...................................................................................................................... 55
Muestro con probabilidad de seleccin proporcional al tamao ................................................................ 55
Muestro polietapico. .................................................................................................................................... 56
Muestreo por replicas .................................................................................................................................. 56
Ponderacin y expansin de las muestras ................................................................................................... 56
Formulario muestreo .................................................................................................................................... 56

V PARTE: Estadstica Multivariable..58
Anlisis multivariable ....................................................................................................................................... 59
Procedimientos multivariables ..................................................................................................................... 59
Clasificaciones .............................................................................................................................................. 59
Clasificacin segn objetivo de investigacin .......................................................................................... 59
Matriz de datos............................................................................................................................................. 60
Valores missing ......................................................................................................................................... 60
Valores outliers ......................................................................................................................................... 60
Condiciones de aplicacin ............................................................................................................................ 60
Distribucin normal .................................................................................................................................. 61

3
Linealidad ................................................................................................................................................. 61
Homocedasticidad .................................................................................................................................... 61
Matrices de correlaciones no singulares ni multicolineales ..................................................................... 61
Regresiones ...................................................................................................................................................... 61
Regresin lineal ............................................................................................................................................ 61
Condiciones de aplicacin del modelo ..................................................................................................... 62
Pasos a seguir ........................................................................................................................................... 63
Regresin lineal simple ............................................................................................................................. 63
Regresin Lineal Mltiple ......................................................................................................................... 64
Regresin logstica ........................................................................................................................................ 65
Condiciones de aplicacin ........................................................................................................................ 65
Modos de evaluar el modelo .................................................................................................................... 65
Od ratio ..................................................................................................................................................... 66
Relaciones no lineales .................................................................................................................................. 66
Polinomios Octogonales ........................................................................................................................... 67
Anlisis de tipologas ........................................................................................................................................ 67
Objetivos ...................................................................................................................................................... 68
Definicin de tipologa .................................................................................................................................. 68
Seleccin de variables .................................................................................................................................. 68
Etapas de clasificacin .................................................................................................................................. 69
Similitud ........................................................................................................................................................ 69
Distancias .................................................................................................................................................. 69
Tcnicas de clasificacin ............................................................................................................................... 70
Tcnicas jerrquicas o aglomerativas ....................................................................................................... 71
Tcnicas de optimizacin.......................................................................................................................... 72
Informe de tipologas ............................................................................................................................... 73
Vigilancia epistemolgica ......................................................................................................................... 73
Validacin de resultados .............................................................................................................................. 73
Anlisis discriminante ....................................................................................................................................... 73
Condiciones de aplicacin ............................................................................................................................ 74
Ordenamiento de Informacin ..................................................................................................................... 74
Funciones discriminantes ............................................................................................................................. 74
Calculo de las funciones discriminantes ................................................................................................... 75
Indicadores de la importancia de las funciones ....................................................................................... 75
Interpretacin de la funcin discriminante .............................................................................................. 76
Interpretacin espacial ................................................................................................................................. 77
Clculo de las puntuaciones discriminantes ............................................................................................. 77
Variables a incluir en el modelo ................................................................................................................... 77
Tolerancia ................................................................................................................................................. 77
F de Fisher Snedecor.............................................................................................................................. 78
Clasificacin .................................................................................................................................................. 78
Clasificacin mediante funciones de clasificacin .................................................................................... 78
Clasificacin mediante regla de bayes...................................................................................................... 78
Matriz de clasificacin .............................................................................................................................. 79
Eficacia de la clasificacin ......................................................................................................................... 79
Anlisis factorial ............................................................................................................................................... 80
Aplicaciones del anlisis factorial ................................................................................................................. 80
Tipos de anlisis factorial ............................................................................................................................. 80
Factores ........................................................................................................................................................ 81
Extraccin de factores y componentes ........................................................................................................ 81
Condiciones de aplicacin ............................................................................................................................ 82
El modelo en trminos grficos .................................................................................................................... 82
Etapas en anlisis factorial ........................................................................................................................... 82

4
Matriz de saturaciones ................................................................................................................................. 83
Rotacin ........................................................................................................................................................ 84
Procedimientos de rotacin ..................................................................................................................... 84
Puntuaciones factoriales .............................................................................................................................. 85
Reproduccin de la matriz de correlaciones ................................................................................................ 85
Informe del anlisis ...................................................................................................................................... 85
Anlisis de correspondencias ........................................................................................................................... 85
Anlisis de correspondencias simples .......................................................................................................... 86
Tabla de contingencia ............................................................................................................................... 86
Perfil fila.................................................................................................................................................... 86
Grficos ..................................................................................................................................................... 86
Distancia de benzecri ................................................................................................................................ 87
Mapa perceptual ...................................................................................................................................... 87
Metfora analgica de la tabla ................................................................................................................. 87
Normalizacin ........................................................................................................................................... 88
Interpretacin de la solucin factorial ..................................................................................................... 88
Aplicaciones especiales ............................................................................................................................ 89
Anlisis de correspondencias mltiples ....................................................................................................... 89
Puntuaciones objeto y cuantificacin de categoras ................................................................................ 89
Comparacin Anlisis factorial y Anlisis de correspondencias ................................................................... 90
Modelos logaritmicos ....................................................................................................................................... 90
Modelos matemticos .................................................................................................................................. 91
Logaritmos .................................................................................................................................................... 91
Tabla de contingencia ................................................................................................................................... 91
Efectos .......................................................................................................................................................... 91
Odd ............................................................................................................................................................... 92
Odd ratio ...................................................................................................................................................... 92
Tipos de modelos logaritmico ...................................................................................................................... 93
Tabla de dos dimensiones ............................................................................................................................ 93
Efectos ...................................................................................................................................................... 94
Tablas multidimensionales ........................................................................................................................... 94
Etapas de modelizacin ................................................................................................................................ 94
Especificacin del modelo ........................................................................................................................ 94
Seleccin del modelo ................................................................................................................................ 95
Estimacin de coeficientes ....................................................................................................................... 95
Verificacin del modelo ............................................................................................................................ 95
Interpretacin del modelo........................................................................................................................ 96
Modelos logit y probit ...................................................................................................................................... 96
Modelos causales no recursivos ....................................................................................................................... 97
Condiciones de aplicacin de modelo causal ............................................................................................... 97
Etapas del modelo ........................................................................................................................................ 97
Efectos .......................................................................................................................................................... 97
Tipos de modelos causales ........................................................................................................................... 98
Ecuacin estructural ..................................................................................................................................... 98

Procedimiento en SPSS ..................................................................................................................................... 99
Regresin lineal multiple .............................................................................................................................. 99
Anlisis de multicolinealidad ex-ante ....................................................................................................... 99
RLM y evaluacion de supuestos ex post ................................................................................................. 100
Anlisis de perfiles .................................................................................................................................. 103
Regresin logstica ...................................................................................................................................... 104
Anlisis de las salidas .............................................................................................................................. 106
Tipologas .................................................................................................................................................... 112

5
Objetivos ................................................................................................................................................ 112
Tcnicas de optimizacin........................................................................................................................ 113
Tcnicas jerrquicas ............................................................................................................................... 116
Caracterizacin de conglomerados ........................................................................................................ 120
discriminante .............................................................................................................................................. 121
Inclusin simultnea de las variables ..................................................................................................... 122
Inclusin por pasos de las variables ....................................................................................................... 133
Anlisis Factorial ......................................................................................................................................... 137
Interpretacin de las salidas ................................................................................................................... 141
Analisis de correspondencias ..................................................................................................................... 150
Anlisis de Correspondencias Simples .................................................................................................... 150
Anlisis de Correspondencias Mltiples ................................................................................................. 155
Modelos logartimicos ................................................................................................................................ 164
Modelo Logartmico Saturado ................................................................................................................ 165
Modelo Logartmico de Independencia .................................................................................................. 170
Modelo Logit saturado ........................................................................................................................... 172
Modelos causales ....................................................................................................................................... 175
Anlisis de los resultados........................................................................................................................ 179



















6









INTRODUCCIN
ESTADSTICA: ANLISIS DE DATOS, MUESTREO Y MODELOS













7
ESTADSTICA
La estadstica es un rea de las matemticas, es un saber altamente formalizado y, simultneamente, es
una herramienta metodolgica al servicio de otros saberes (p.15). Segn Kendall y Buckland, esta es una
ciencia de recogida, anlisis e interpretacin de datos (p.16).
CONCEPTOS CLAVES
DATO: resultado de una medicin de un aspecto de la realidad (p.17). Puede ser un nmero o una
categora.
CASO: entidad susceptible de ser medida (p.26).
VARIABLE: magnitud que vara asumiendo distintos valores dentro de un rango determinado (p.17).
caractersticas que definen a los casos en una situacin concreta (p.26).
Se clasifican segn el nivel de medida en:
- Cualitativas: elementos no numricos.
o Nominales
o Ordinales
- Cuantitativas: elementos numricos.
Pueden ser continuas o discretas.
o De intervalo
o De razn
Se clasifican segn la posicin que asumen las variables al relacionarse:
- Dependientes / Explicadas: aquellas que varan en funcin de las independientes
- Independientes / Explicativas: explicacin inicial de variacin en los elementos sujetos a
medicin
ANLISIS DE DATOS
Se asocia a la seleccin, manipulacin y anlisis de informacin cuantitativa. La informacin producida
puede ser determinista (se determina con exactitud el resultado) o aleatorio, cuando iguales condiciones
generan resultados diferentes. En ciencias sociales la informacin aleatoria es comn dado que hay muchos
efectos difciles de controlar. El anlisis de datos permite controlar la incertidumbre ante resultados
aleatorios.
Las tcnicas de anlisis de datos a utilizar dependen de la naturaleza de la informacin y de los objetivos
de la investigacin. Los anlisis que se distinguen son:
- Univariable: estudios descriptivos. Procesamiento secuencial.
- Bivariable: estudios relacionales.
- Multivariable: estudios explicativos. Tratamiento global y simultneo.
MODELOS ESTADSTICOS
Corresponde a modelos realizados a partir de un conjunto de variables (independientes y dependientes).
No pretenden dar cuenta de dinmica de un sistema, sino que responden a pregunta particular, utilizando
ecuaciones para ello.

8
Los sistemas son, redes de relaciones. Los modelos estadsticos estudian redes de relaciones (entre
variables), no la dinmica ni operatoria de sistema, pero si una parte sustantiva de un sistema. Los modelos
estadsticos logran cierta equivalencia entre el sistema real y el modelo estadstico. Logran ordenar las
relaciones segn la ecuacin de un algoritmo (automatismo).
Permiten construir sentido al relacionar las variables y organizar la informacin de la base de datos en
funcin de un algoritmo. Transforma lo atomizado en relaciones comprensibles, rearticula la red de
relaciones. Los Modelos estadsticos logran pasar del desorden al orden.
MODELOS FORMALES
El lenguaje formal es estandarizado e inequvoco. Por ejemplo: Newton genero un modelo mediante
ecuaciones diferenciales (lenguaje formal) que describe el mecanismo del sistema planetario.
Al modelar se busca encontrar la mecnica del
sistema; aprehender las relaciones de un sistema
real. Esto se codifica llegando a una
representacin del mismo que es el sistema
formal; para luego aprehender el sistema real se
decodifica el sistema formal.
Los formalismos no son fines en s mismo, el modelo se justifica al representar de forma adecuada el sistema
real. Los sistemas formales son morfolgicamente diferentes al sistema real.
No todos los mecanismos pueden aprehenderse mediante modelos. La teora del valor trabajo de Marx por
ejemplo utiliza el lenguaje verbal para aprehender la forma de acumulacin capitalista. No solo el lenguaje
formal permite aprehender un fenmeno.
MODOS DE HACER CIENCIA
Hay 4 modos de hacer ciencia y de aprehender el objeto de estudio, esto es por la causalidad, la prediccin,
la clasificacin y la comparacin. En la estadstica hay tcnicas para c/u de estos. Existe una suerte de
epistemologa estadstica, un modo de conocer, que resuelve estos 4 de modo peculiar; estas tcnica
sostienen como supuesto que la realidad es numerizable, y se basan en el trabajo con variables y sus
relaciones. La epistemologa estadstica incluye nmeros, variables, modelos (sistemas, estadsticos y
basados en agente).







9



10





I PARTE: ESTADSTICA DESCRIPTIVA
UNIVARIADA
















11
ESTADSTICA DESCRIPTIVA
La estadstica descriptiva sirve para describir, simplificar y ordenar un conjunto de datos.
TABLA DE FRECUENCIAS
Para describir una variable, lo ms comn es utilizar una tabla de frecuencia, esta puede incluir:
- Frecuencia absoluta: nmero de casos por categora
- Frecuencia relativa: nmero de casos por categora divido en los casos totales.
- Frecuencia acumulada (absoluta o relativa): la suma de la frecuencia de la categora, con las
categoras anteriores.
- Porcentaje: frecuencia relativa multiplicada por 100.
TABLA DE FRECUENCIA PARA VARIABLES CUANTITATI VAS
Si se considera a cada nmero como una categora, la tabla es difcil de interpretar, por ello tienden a
agruparse los nmeros en subcategoras: clases. La distancia entre el valor mximo y mnimo de esta se
llama intervalo de clase, y lo que se busca es que este sea igual o similar entre las distintas clases para
facilitar la interpretacin de los datos. La marca de clase es el punto medio de la clase (si son 2 se
promedian).
Para realizar esto hay que recodificar la variable cuantitativa, como una categrica, donde cada categora
corresponda a una clase.
GRFICOS
Los grficos pueden clasificarse segn el tipo de variables:
Variables categricas:
- Grfico de torta: Se usa ms para pocas categoras y para nominales.
- Barras: Se suele usar para ordinales (mostrar orden), da la idea de discontinuidad.
- De lneas: se usa para la idea de continuidad (aun cuando no necesariamente se midan de forma
continua).
Variables cuantitativas:
- Histograma: Variante del grfico de barras, con las barras pegadas, dando la idea de continuidad;
se pone al centro de la barra la marca de clase.
- De lneas: No agrupa clases, se considera el valor como un punto. Se puede suavizar el dato para
omitir cambios particulares.
- De cajas y extensiones. Sirve para detectar casos extremos. Este muestra la desviacin
intercuartlica como una caja, y al medio de la caja hay una lnea que indica la mediana. Los casos
lejanos a la caja son atpicos, a ms de tres desviaciones intercuartlicas de distancia los casos son
extremos.

12
PROPIEDADES DE LAS VARIABLES CUANTITATIVAS
- Simetra: Una distribucin es simtrica si esta es uniforme en torno al promedio. El coeficiente de
Fisher (g1) mide la simetra: la curva es simtrica si g1 se encuentra entre 0,5 y -0,5; la asimetra es
positiva (la mayora de datos estn sobre la media) si g1>0,5; la simtrica es negativa (la mayora de
los datos estn bajo la media) si g1<-0,5.
- Curtosis: Da cuenda del grado en que la curva se concentra en valores centrales. La curva es
leptocrtica cuando la mayora est en el centro, asumiendo valores > 0,5 el coeficiente; es
mesocrtica si hay gran parte en el centro, asumiendo el coeficiente valores entre -0,5 y 0,5; es
platicrtica si hay pocos casos en el centro, asumiendo el coeficiente valores < -0,5.
- Normalidad: una curva normal es una curva simtrica y mesocrtica, donde la moda, media y
mediana coinciden en un mismo valor. Para medir normalidad hay distintas formas:
o Anlizar la curtosis y simetra
o Prueba de Kolmogorov: para muestras grandes. Si el valor p es > 0,05 (95% de confianza)
no se rechaza H
0
, que establece que la curva es normal.
o Prueba Shapiro Wilks: para muestras pequeas. Si el valor p es > 0,05 (95% de confianza)
no se rechaza H
0
, que establece que la curva es normal.
MEDIDAS DE TENDENCIA CENTRAL
En las variables cuantitativas hay valores alrededor de los cuales se agrupan los dems:
- Promedio/Media aritmtica: Es la sumatoria de todos los datos divididos en el total de datos. En el
caso se estar los datos agrupados se calcula como la sumatoria de la multiplicacin de la marca de
clase por su respectiva frecuencia, divididos en el total de casos. Es muy sensible a los valores
extremos.
- Mediana: Es el valor que divide la distribucin en dos, de modo que haya igual cantidad de casos a
cada lados. Si se ordenan de mayor a menor, es el valor central; en caso de ser 2 estos se
promedian. Es menos sensible a los extremos.
- Moda: Es el valor con mayor frecuencia. Puede ser ms de uno.
MEDIDAS DE POSICIN
Las medidas de posicin establecen puntos de corte en la distribucin numrica, dejando cierta proporcin
de casos sobre o bajo ellos. Cuando cae en dos valores, estos se promedian y cuando los valores se repiten
se incluyen en un solo segmento, lo que puede alterar un poco el porcentaje del segmento.
- Mediana: Es un valor que separa la distribucin en 2; en el 50% menor y el 50% mayor.
- Quartiles: Son tres valores que separan la distribucin en cuatro. El cuartil 1 separa el 25% menor
del 75% mayor, el 2 corresponde a la mediana, el tres al 75% menor del 25% mayor.
- Quintiles: Son cuatro valores que separan la distribucin en cinco segmentos de 20%.
- Deciles: Son nueve valores que dividen la distribucin en 10 segmentos de un 10%.
- Percentiles: son noventa y nueve valores que dividen la distribucin en 100 segmentos de un 1%.


13
MEDIDAS DE DISPERSIN
Miden que tan separados o cercanos estn los datos de la distribucin.
- Rango: Es el valor mximo y mnimo de la distribucin. Es muy sensible a los extremos.
- Desviacin/Amplitud intercuartlica: Es la diferencia del cuartil 3 y el 1. Establece un rango menos
sensible a los extremos, dando cuenta de qu tan disperso es el 50% central.
- Desviacin estndar(S): Es un promedio de las distancias de los casos respecto al promedio. Es ms
til cuando no hay valores extremos. Cuando la distribucin es normal entre S y S hay un 70% de
los casos, entre -2S y 2S hay 95% y entre -3S y 3S hay 97%.
- Varianza: Es la desviacin estndar al cuadrado.
- Coeficiente de varianza: Es la razn entre S y el promedio. Si se mltiplica por 100 da qu
porcentaje del promedio es la S. Si el valor es alto, el promedio tiene poco valor como medida de
descripcin, ya que la distribucin es muy dispersa. Si el coeficiente =0, la desviacin es igual a
promedio; si es >0, la desviacin estndar es mayor que el promedio, si es <0, la desviacin
estndar es menor que el promedio.
ESTANDARIZACIN DE VARIABLES
Consiste en transformar las puntuaciones brutas para que tengan mayor potencial interpretativo.
- Transformar puntajes en percentiles
- Transformar puntajes en puntuaciones Z: es poner los valores en unidades de desviacin estndar.
El puntaje Z =(x
i
- )/s. Es la desviacin de un caso, divido en la desviacin promedio; indica a cuantas
S de distancia se encuentra del promedio. La ventaja es que permite comparar valores con distintas
unidades de medidas.
ESTIMACIN DE PARMETROS
Un parmetro es una caracterstica que posee la poblacin (se designa con alfabeto griego), mientras que
un estadstico es el valor del parmetro en la muestra (se designa con letras latinas).
ESTIMACIN PUNTUAL:
Se considera el valor del estadstico equivalente al parmetro poblacional. El problema de esto es que si
sacsemos ms de una muestra, los valores de los estadsticos seran diferentes, producto del error de
muestreo.
Si sacramos todas las muestras posibles de una poblacin, y calculamos la media en cada una de ellas
generamos una distribucin muestral de medias. Esta curva es normal. El Error tpico/Estndar estima la
desviacin estndar de la distribucin de medias basado en una sola muestra. Esto permite inferir la S de
la poblacin, lo cual es indispensable para calcular el intervalo de confianza. Su frmula es:





14
ESTIMACIN POR INTERVALOS
Un intervalo de confianza es el rango de valores dentro de los cuales es ms probable que flucte el
parmetro poblacional. Usa el estimador puntual, la probabilidad de ocurrencia de este en puntaje Z, y el
error estndar. A > precisin > IC. A mayor S > error ; a > error > IC. A > n, < error, a < error, < IC. No se usa
cuando hay muestro no probabilstico (no hay error conocido).
- IC para medias:


Si el IC es de 95% de confianza el valor del nivel del confianza en puntaje Z es 1,96; si es de 99% de
confianza ser de 2,58
Formulas insesgadas para poblaciones finitas:

n es de la muestra, N de la poblacin.
El punto medio del rango corresponde a la estimacin puntual.
- IC para proporciones:

La ltima parte (correccin para poblacin finita) se saca si el N es desconocido.



P: es la presencia del atributo (en decimales)
Q es 1-p
Pq=


Cuando IC es de 99% de confianza, es de 1%; cuando es de 95% es
de 5%.
Error mximo admisible = . Es la mitad de la amplitud del intervalo de confianza.





15
PROCEDIMIENTOS EN SPSS
SELECCIN DE VALORES PERDIDOS
Cuando hay valores que queremos considerar como perdidos y por ende no
considerar en el anlisis. Vamos a la vista de variables, y hacemos clic en la
columna de perdidos, y luego en el cuadrado con 3 puntos que saldr en dicha
celda. Ah se abre la siguiente ventana, donde podemos (1) Seleccionar 3
valores perdidos discretos, o bien (2) seleccionar un rango de valores
perdidos (ms un valor discreto adicional opcionalmente). Luego pinchamos
aceptar, y estos valores ya estarn ya considerados como perdidos.
RECODIFICACIN DE VARIABLES
1. Para recodificar variables en una nueva se pincha en Transformar
Recodificar en distintas variables, y se abre
una ventana.
2. En la ventana siguiente a la izquierda
seleccionamos la variable a recodificar,
haciendo clic en la flecha azul, y a la derecha le
ponemos el nuevo nombre y etiqueta, y
pinchamos en cambiar. Luego pinchamos en
valores antiguos y nuevos.

3. Se abre una nueva ventana donde
para cada valor antiguo (valor en la variable
existente) se le asigna un valor nuevo (el valor
que asumir en la nueva variable). Para
transformar una variable cuantitativa en una
categrica, establecemos un rango de valores
antiguos a los cuales le asignamos un nmero
entero como valor nuevo. Una vez que
seleccionamos un valor nuevo, para cada
antiguo, pinchamos en aadir. Cuando ya
aadimos todos los valores ponemos
continuar.


4. Ahora, si vamos a la vista de variables, se observa
que hay una nueva variable en el listado. Para definir qu
significa cada nmero nuevo asignado, hacemos clic en la
casilla de la variable correspondiente a la columna de
valores, donde aparece un cuadrado con tres puntitos, en el
cual hacemos clic.

16
5. Se abre una nueva ventana correspondiente a las etiquetas, donde podemos seleccionar para cada
valor nuevo, cual es la etiqueta/descripcin adecuada. En este caso, por ejemplo seleccionamos
que el valor 1, tendr como etiqueta 0 - 0,2, ya que corresponde al rango de la variable original
que iba entre esos dos valores.
TABLA DE FRECUENCIAS DE FRECUENCIA, MEDIDAS DE TENDENCIA CENTRAL, DE
POSICIN, DE DISPERSIN, ASIMETRA Y CURTOSIS, GRFICOS DE BARRAS, SECTORES
E HISTOGRAMA
1. Para obtener una tabla de frecuencias se pincha en Analizar
Estadsticos descriptivos Frecuencias.
2. Con esto se abre una ventana, donde en el listado de la
izquierda seleccionamos la variable de inters. En este
caso se eligi al ndice de aprobacin de gobierno. Se
pincha en estadsticos y se abre una nueva ventana.
3. En Valores percentiles se marcan todas las
opciones. Con cuartiles obtenemos los puntos que
cortan la distribucin en 4. Con puntos de corte para __
grupos iguales podemos pedir cualquier medida de
posicin; si queremos quintiles, por ejemplo pedimos
puntos de corte para 5 grupos iguales, si queremos la
mediana para 2 grupos iguales, etc. Adems podemos
pedir percentiles, en este caso pediremos el percentil
50, que equivale a la mediana, el percentil 5 y el 95.
Para esto en el cuadrado a la derecha de donde dice
percentiles anotamos el nmero del percentil de
inters y pinchamos en Aadir.
4. En Tendencia central, seleccionamos media,
mediana y moda, para pedir estas medidas de
tendencia central.
5. En Dispersin seleccionamos desviacin
tpica, varianza y rango, para pedir estas medidas de
dispersin.
6. Para pedir la asimetra y la curtosis, marcamos ambas opciones
en distribucin, y luego marcamos continuar y volvemos a la
ventana inicial, donde pinchamos en grficos.
7. Aqu podemos seleccionar grfico de barras, de sectores, o
histograma (con o sin curva normal). Se elige una opcin y se
marca continuar.
ANLISIS DE LAS SALI DAS

La primera salida da cuenta primero de la cantidad de casos vlidos y perdidos. Luego presenta los valores
de las medidas de tendencia central, de dispersin, la asimetra, la curtosis y las medidas de posicin.

17
Ac se observa que el rango del ndice es 39.
Dentro de estos 39, si observamos los
percentiles notamos que el 5% menor est
bajo 23, y el 5% mayor est sobre 46, que la
mitad est sobre 34.
Adems se observa un promedio y una
mediana =34; y una moda de 33, siendo la
desviacin tpica =7.
Si analizamos la curtosis y la asimetra, es una
curva mesocrtica y simtrica (en ambos
casos el coeficiente est entre -0,5 y 0,5),
dando cuenta de que es una curva normal.
La segunda tabla es la tabla de frecuencia
(solo se muestra una parte), donde se puede
observar, por ejemplo, que el valor 16, es el
0,1% de la distribucin, y que los casos con 22
puntos de aprobacin al gobierno o menos,
constituyen el 4,4% del total.





Indice Aprobacion Gobierno

Frecuencia Porcentaje Porcentaje vlido
Porcentaje
acumulado
Vlidos 16,00 1 ,1 ,1 ,1
18,00 1 ,0 ,1 ,2
19,00 4 ,2 ,3 ,5
20,00 12 ,8 1,0 1,5
21,00 9 ,6 ,8 2,3
22,00 23 1,6 2,1 4,4
23,00 17 1,2 1,5 5,9
Finalmente, el histograma da cuenta de la distribucin de los casos, y de su ajuste a la curva normal.

Estadsticos
Indice Aprobacion Gobierno
N Vlidos 1126
Perdidos 310
Media 34,1122
Mediana 34,0000
Moda 33,00
Desv. tp. 7,04729
Varianza 49,664
Asimetra ,231
Error tp. de asimetra ,073
Curtosis -,275
Error tp. de curtosis ,146
Rango 39,00
Percentiles 5 23,0000
20 27,0000
25 29,0000
40 32,0000
50 34,0000
60 36,0000
75 39,0000
80 40,0000
95 46,0000


18
Si hubisemos elegido una
variable categrica como la
Regin, y hubisemos pedido
en vez de un histograma en la
ventana de grficos, un grfico
de sectores, obtenemos el
siguiente. En este se puede
observar claramente, que hay
una mayora de la regin
Metropolitana.
A su vez, si con la misma
variable, hubisemos pedido un
grfico de barras, hubisemos
obtenido esta misma
informacin pero representada
de otro modo. Este grfico nos
permitira llegar a las mismas
conclusiones: en la muestra es
preponderante la presencia de la regin de
Metropolitana.















19
NORMALIDAD, MEDIDAS DE TENDENCIA CENTRAL CON INTERVALO DE CONFIANZA,
MEDIDAS DE DISPERSIN, ASIMETRA, CURTOSIS, PERCENTILES, GRFICO DE CAJA
1. Para obtener estos estadsticos, pinchamos en
AnalizarEstadsticos DescriptivosExplorar.
2. Se abre la ventana Explorar, donde a la izquierda
seleccionamos la variable de inters, y presionamos la primera
flecha, que la incluye en la lista de dependientes. Luego
pinchamos en Estadsticos.
3. En la ventana de estadsticos marcamos la opcin
descriptivos y percentiles. Seleccionando para el
primer caso el porcentaje de confianza elegido para
el intervalo de confianza de la media. Pinchamos en
Continuar.




4. Volviendo a la
ventana anterior
pinchamos en Grficos.
Con esto se abre una
nueva ventana donde
seleccionamos en
Diagramas de caja, la primera opcin; dejamos las dos opciones de
descriptivo vacas, y marcamos abajo grfico con pruebas de normalidad.
ANLISIS DE LAS SALI DAS
La primera tabla indica la cantidad de casos vlidos y perdidos, y sus respectivos porcentajes.
Resumen del procesamiento de los casos

Casos

Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Dimension salud IDH 34 100,0% 0 ,0% 34 100,0%

Luego, la segunda tabla llamada Descriptivos, indica la media, su intervalo de confianza, la mediana, la
varianza, la desviacin tpica, el rango (y su mnimo y mximo), la amplitud intercuartilica, la asimetra y la
curtosis. Al estar ambas dentro del rango -0,5 y 05, diramos que la variable es normal.


20
Descriptivos

Estadstico Error tp.
Dimension salud IDH Media ,78200 ,012323
Intervalo de confianza para la
media al 95%
Lmite inferior ,75693

Lmite superior ,80707

Media recortada al 5% ,78304

Mediana ,77750

Varianza ,005

Desv. tp. ,071854

Mnimo ,596

Mximo ,913

Rango ,317

Amplitud intercuartil ,118

Asimetra -,097 ,403
Curtosis ,006 ,788
La tabla siguiente muestra los percenteiles, de 5 en 5.


Percentiles

Percentiles

5 10 25 50 75 90 95
Promedio
ponderado(definicin 1)
Dimension
salud IDH
,66500 ,70150 ,73050 ,77750 ,84800 ,88300 ,91000
Bisagras de Tukey Dimension
salud IDH

,73400 ,77750 ,84500

Finalmente la tabla Pruebas de Normalidad muestra la significacin en cada estadstico, siendo en ambos
casos es mayor que 0,05 no se rechaza la hiptesis nula de normalidad.
Pruebas de normalidad

Kolmogorov-Smirnov
a
Shapiro-Wilk

Estadstico gl Sig. Estadstico gl Sig.
Dimension salud IDH ,087 34 ,200
*
,973 34 ,536
a. Correccin de la significacin de Lilliefors
*. Este es un lmite inferior de la significacin verdadera.

21
Finalmente aparecen los grficos, en el grfico Q-Q normal.
En este van los valores observados y los esperados de una
recta normal. En caso de coincidir los puntos con la recta, la
curva es normal. En el grfico siguiente: grfico Q-Q normal
sin tendencia muestra la diferencia entre la puntuacin Z
observada con la Z esperada para una curva normal. Si la
variable tuviera una distribucin normal, los puntos
debiesen oscilar en torno al 0 de forma aleatoria. Las
pautas de variacin no aleatorias, indican desviaciones de la
normalidad.
Finalmente se presenta el grfico de cajas, que fue
solicitado, donde se muestra la mediana, y los quartiles.
GRFICOS DE BARRA Y DE LNEAS
1. Para realizar un
grfico de barras o lneas se
pincha en Grficos
Generador de Grficos
2. Se abre una
ventana donde si es necesario redefinir el nivel de medida
de alguna variable ponemos Definir propiedades de
variables o si no aceptar.
3. Al poner aceptar se abre la ventana de
Grficos, donde en el listado de abajo a la izquierda se puede elegir el tipo de grfico, y se desplaza
hacia el cuadrado grande que muestra el grfico. Luego a la izquierda se elige la o las variables y se
desplazan a los ejes del grfico. Luego se pincha en Aceptar, y obtenemos las salidas.


22










PUNTAJE Z
1. Se pincha en Analizar Estadsticos Descriptivos
Descriptivos.
2. Se
selecciona en
el listado de la
izquierda la
variable,
pinchando en la flecha. Y luego se selecciona la casilla de
Guardar valores tipificados como variables. Se marca
aceptar.
3. Luego una va a vista de variables y tiene una

23
nueva variable, en este caso ZIDH, que corresponde a la variable ndice de desarrollo humano en
puntaje Z.

INTERVALOS DE CONFIANZA PARA MEDIAS
1. Se pincha en Analizar Comparar Medias Prueba
T para una muestra.
2. Se abre una ventana, donde a la izquierda se
selecciona la variable, y se pincha en la flecha. Luego se
pincha en opciones.
3. En la nueva ventana se seala el nivel de confianza, en
el cuadrado blanco al lado del porcentaje. Y se marca
continuar, y luego en la ventana anterior Aceptar.




ANLISIS DE LAS SALI DAS

Estadsticos para una muestra

N Media Desviacin tp.
Error tp. de la
media
IDH 34 ,76179 ,078620 ,013483
La primera tabla presenta el promedio y desviacin estndar de la variable. La segunda, presente el extremo
inferior y superior del intervalo, por lo que se puede concluir, con un 95% de confianza, que la media de IDH
se encuentra entre 0,73 y 0,79.

Prueba para una muestra

Valor de prueba = 0

t gl Sig. (bilateral)
Diferencia de
medias
95% Intervalo de confianza para la
diferencia

Inferior Superior
IDH 56,499 33 ,000 ,761794 ,73436 ,78923



24





II PARTE: ESTADSTICA BIVARIADA
MEDIDAS DE ASOCIACIN Y CORRELACIN















25
ESTADSTICA BIVARIADA
Estudia la forma en que se distribuyen conjuntamente 2 variables. Esto se realiza mediante grficos, tablas
de contingencia, estadsticos de asociacin para variables categricas y estadsticos de correlacin para
variables cuantitativas.
TABLA DE CONTINGENCIA
Es una representacin numrica de distribucin de un conjunto de sujetos sobre 2 variables categricas a
la vez. Por ejemplo:
Particular Pagado P. Subvencionado Municipal Total
Violencia si 91 414 772 B
no 19 53 664 B
Total A A A C
Las letras A corresponden a marginales columna (suma de los valores de la columna), las B a marginales fila
(suma de los valores de la fila) y la C a la cantidad total de casos.
Los porcentajes fila, corresponden a la proporcin entre cada casilla y el marginal fila (B), expresada en
porcentaje. El porcentaje columna corresponde a la proporcin entre cada casilla y el marginal columna (A).
Los porcentajes totales corresponden a la proporcin entre cada casilla y el total (C).
Si todas las casillas tuvieran igual cantidad de casos no hay asociacin.
ASOCIACIN DE VARIABLES CATEGRICAS
Se considera que dos variables estn asociadas cuando los valores de una dependen de la otra.
ESTADSTICOS DE ASOCIACIN
- Coeficiente phi: Mide la intensidad de la asociacin entre variables nominales dicotmicas (dan
lugar a tablas de 2 x 2). Corresponde a las diferencias de las diagonales, divido en la
raz de la multiplicacin de los marginales. Cuando las diagonales se descompensan
(hay mucha diferencia entre una y otra), hay asociacin. Si | =1 hay asociacin
mxima, si 1>| >0,7 hay asociacin fuerte, si 0,7| 4 hay asociacin de regular
intensidad, di 0,4>| 0,2 hay asociacin dbil, si | =0 hay asociacin nula.
( )( ) ) )( ( d b c a d c b a
bc ad
+ + + +

= |
- Q de Yule: Mide la intensidad de la asociacin entre variables nominales dicotmicas (dan lugar a
tablas de 2 x 2). Toma valores entre 1 (cd>ab) y -1 (ab>cd), correspondiendo ambos a
dependencia mxima y 0 a dependencia nula. No es calculado por el programa SPSS.

a b
c d

26
ab cd
ab cd
Q
+

=
- V de Cramer: Corresponde a una generalizacin de phi para tablas ms grandes que de 2x2. Mide
la intensidad de la asociacin
N= nmero de casos k= nmero mnimo de filas o
columnas de la tabla
x2= chi cuadrado
) 1 (
2

=
k N
x
V
- Chi cuadrado: Mide si existe o no asociacin entre dos variables categricas. Corresponde a la
sumatoria de la siguiente frmula aplicada a cada casillero de la tabla. Para aplicarse requiere que
no ms del 25% de las casillas tenga una frecuencia esperada igual o menor a 5.
2
) (
ij
ij j
FE
FE FO

i= fila
j= columna
FO: valor observado en cada casilla (n de casos)
FE: valor esperado en cada casilla (si las variables
no estuvieran asociadas).

Los residuos corresponden a FO-FE. Si chi cuadrado = 0, las variables son independientes, si chi
cuadrado = 1 son dependientes. Si P obs < P terico (0,05 por lo general), hay asociacin entre las
variables.
- Coeficiente gamma de Goodman y kruskal: Mide la intensidad de asociacin entre variables
ordinales. Se basa en la nocin de coherencia. Si =1, hay relacin directa mxima, si =0 hay nula
relacin, si =-1 hay relacin inversa mxima. Si es >0,7 hay asociacin fuerte, si est entre 0,4-0,7
hay asociacin de intensidad regular, si est entre 0,2-0,4 hay asociacin dbil

- Prueba exacta de Fisher: Cuando Chi cuadrado no es aplicable, se usa este. Si P obs < P terico
(0,05 por lo general), hay asociacin entre las variables. En SPSS solo se realiza para tablas de 2 x 2.
CONTROL DE UNA TERCERA VARIABLE
Para verificar que una asociacin entre 2 variables, no se deba a una 3era, se puede calcular la asociacin
usando una 3era variable. Esto es se realiza una tabla de contingencia y un coeficiente de asociacin, para
cada categora de la 3era variable.
- Asociacin robusta entre la 1era y 2da variable: Es tal, si la asociacin persiste en todas las
categoras de la 3era variable.
- Asociacin Condicionada entre la 1era y 2da variable: Es tal si la asociacin persiste en algunas
categoras de la 3era variable, pero no en todas. Da cuenta de que hay interaccin.

27
- Asociacin espuria entre la 1era y 2da variable: Es tal si la asociacin desaparece en todas las
categoras de la 3era variable.

COVARIANZA Y CORRELACIONES
La covarianza corresponde a la dispersin (desviacin) conjunta de dos variables. Es el rea promedio que
se distancia los puntos del punto medio para ambas variables. Signo positivo indica que a mayor valor en x,
mayor valor en y. Si tiene signo negativo indica que a mayor valor en x, menor valor en y. No tiene rango,
por lo que es difcil de interpretar.


Por su parte la correlacin corresponde a la relacin entre dos variables cuantitativas. Se considera que
dos variables estn correlacionadas cuando al variar una, vara la otra.
COEFICIENTES
- Correlacin lineal de Pearson: Mide la relacin lineal entre dos variables cuantitativas. Asume
valores =-1 cuando hay una relacin lineal inversa fuerte, valores =1 cuando hay una relacin
lineal directa fuerte, y =0 cuando no hay relacin.


- Coeficiente de determinacin: Da cuenta de la correlacin, en trminos de una proporcin. Si se
multiplica por 100, se interpreta como porcentaje. Se usa en la regresin (ver procedimiento en
SPSS de regresin lneal).


- Correlacin mltiple: Da cuenta de la correlacin de varias variables con una. Corresponde a la
capacidad de predecir y (variable dependiente), conociendo x
1
, x
2
y x
3
(independientes). La
correlacin mltiple de la variable dependiente 1, con las independientes 2 y 3 corresponde a:


Se usa en la regresin (ver procedimiento en SPSS de regresin lneal).
- Correlacin parcial: Da cuenta de la correlacin de dos variables, suponiendo que una 3era
permanece constante. Corresponde a la capacidad de predecir y (variable dependiente),
conociendo x
1
, x
2
y x
3
(independientes). La correlacin mltiple de la variable dependiente 1, con las
independientes 2 y 3 corresponde a:


- Correlacin de Spearman: Da cuenta de la correlacin de dos variables ya sean estas cuantitativas
u ordinales. Se interpreta igual a la correlacin de Pearson.



28
PROCEDIMIENTO EN SPSS
TABLAS DE CONTINGENCIA Y ESTADSTICOS DE ASOCIACIN
Supongamos que se quiere determinar si el nivel socioeconmico se encuentra asociado a la calificacin que
se haga de la situacin econmica actual, su hiptesis nula sera la inexistencia de asociacin, mientras que
la hiptesis alternativa es que ambas variables se encuentran asociadas.
Pues bien, para poner a prueba lo anterior es pertinente el uso de Chi cuadrado, que permitira ver si ambas
variables se encuentran asociadas, como tambin el uso de V de Cramer, para evaluar la intensidad de sta.
Tambin resulta pertinente usar el coeficiente gamma. Para ejecutar estos estadsticos en una base de SPSS,
es menester seguir los pasos que a continuacin se presentan:
1. Ir a Analizar, luego a estadsticos descriptivos,
y pinchar en tablas de contingencia.
2. En tablas de contingencia, ingresar las variables
que son de su inters. En el espacio de las filas,
ubicar la variable dependiente (la que
pretendemos explicar), mientras que en las
columnas la variable dependiente. Agregar, si se
desea una variable control, por ejemplo sexo,
donde dice capa. Luego hay que pinchar en
estadsticos, y se les abrir una ventana externa.
En ella hay que pinchar las opciones: Chi
Cuadrado, Phi y V de Cramer y Gamma.
3. Volviendo al cuadro de dilogo inicial, hay que pinchar en
casillas. All se abrir otro cuadro externo, donde se aprecian
diversas opciones. En cuanto a las frecuencias, hay que
marcar en esperadas, debido a que de esta manera es ms
fcil corroborar si se cumplen los casos mnimos para cada
casilla
requeridos
para aplicar
chi
cuadrado. En cuando a los porcentajes, presionan
porcentajes por columna, puesto que de esta manera se
pueden leer los porcentajes en referencia a la variable
independiente; en este caso el NSE. Con esta informacin
lista, presionan Continuar.
5. En el cuadro de dilogo principal, presionan Aceptar, y se
les generarn las salidas a interpretar.


29
INTERPRETACIN TABLAS SIN VARIABLE CONTROL


La primera tabla que se observa es netamente descriptiva, pues evidencia los casos vlidos para el anlisis,
y los casos perdidos, correspondientes a aquellos que no presentan respuesta en alguna de las preguntas, o
que son casos no sabe/no contesta.



La segunda tabla que aparece es la tabla de contingencia que muestra el comportamiento de ambas
variables en conjunto. En este caso, se muestra la frecuencia esperada para cada casilla, tal como fue
solicitado en la etapa anterior, y el porcentaje en relacin a la variable independiente. Deben fijarse que la
frecuencia no sea menor a 5 casos en alguna casilla, pues ello viciara el clculo de chi cuadrado.

La tabla de contingencia puede leerse considerando todos los porcentajes de sta; sin embargo, para este
caso se presentar un ejemplo: el 46,6% de la clase alta tiene una visin positiva de la actual situacin
econmica del pas, mientras que slo el 16,4% de la clase baja comparte esa opinin. La gente de clase
media en general presenta una evaluacin neutra, pues dicha opcin concentra el 48,7% de las respuestas.

Esta es la prueba estadstica propiamente
tal. Lo que muestra es el resultado del
clculo de chi cuadrado, el cual se
interpreta comparando el chi cuadrado
esperado con el chi cuadrado observado,
en funcin de los grados de libertad que
genera el cruce, los que son 4 en este caso
Resumen del procesamiento de los casos
1423,308
a
99,1% 12,692 ,9% 1436 100,0%
Cmo calif icara
Ud. la actual
situacin econmica
del pas? * NSE
N Porcentaje N Porcentaje N Porcentaje
Vlidos Perdidos Total
Casos
El nmero de casos v lidos es dif erente del recuento total de la tabla de contingencia porque
se han redondeado las f recuencias de casilla.
a.
Tabla de contingencia Cmo cal ificara Ud. l a actual si tuacin econmi ca del pas? * NSE
14,5 180,7 159,8 355,0
8,6% 22,2% 29,5% 24,9%
29,6 369,6 326,8 726,0
44,8% 48,7% 54,1% 51,0%
14,0 174,6 154,4 343,0
46,6% 29,1% 16,4% 24,1%
58,0 725,0 641,0 1424,0
100,0% 100,0% 100,0% 100,0%
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
1 Negativa
2 Neutra
3 Posit iv a
Cmo calif icara Ud.
la actual situacin
econmica del pas?
Total
1 ALTO 2 MEDIO 3 BAJO
NSE
Total
Pruebas de chi -cuadrado
51,638
a
4 ,000
52,452 4 ,000
45,264 1 ,000
1424
Chi-cuadrado de Pearson
Razn de v erosimilitudes
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
0 casillas (,0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mnima esperada es 13,97.
a.

30
(tabla de 3x3: GL= 2x2). Para ello, es necesario recurrir a una tabla de resultados esperados.

Sin embargo, lo que ms se utiliza para comprobar la asociacin entre ambas variables, es observar la
significacin que acompaa al estadstico. Si trabajamos con un 95% de confianza, que es lo usual en
investigaciones sociales, la significacin que buscamos debe ser 0,05 o menor; ahora, si decidimos trabajar
con un 99% de confianza, la significacin debiera ser 0,01 o menor. En este caso, la significacin es de 0,000,
por tanto podemos afirmar con un 95% o 99% de confianza (determinado a priori), que las variables se
encuentran asociadas.


La siguiente salida presenta la V de Cramer. En este caso se analiza tanto la significacin como el valor del
estadstico. Esta cifra oscila entre 0 y 1; cifras inferiores a 0,2 indican una baja asociacin, entre 0,2 y 0,3 se
habla de asociacin media, mientras que valores iguales o 0,3 evidencian alta asociacin. En este caso el
valor de V de Cramer es de 0,135 y la significacin es de 0,000, por tanto podemos afirmar con un 95% de
confianza que la asociacin entre las variables es baja, cuestin que confirma el estadstico Gamma=-0,3
indicando una asociacin dbil e inversa. Si la tabla de contingencia fuese de 2 x2, podramos interpretar de
igual los valores y significacin del estadstico phi, de igual modo que la V de cramer.
En consideracin a lo anterior podemos concluir que hay una relacin dbil entre ambas. Para evaluar la
direccionalidad hay que observar la tabla de contingencia, donde se ve que a mayor NSE, tiende a haber una
percepcin ms positiva; y a menor NSE tiende a haber una ms negativa.
INTERPRETACIN TABLAS CON VARIABLE CONTROL
Las salidas que son propias de la inclusin de la variable control son las siguientes.
La manera de leer la tabla de contingencia es muy similar a la anterior. Se tiene que el 51,9% de los
hombres de NSE alto califican de forma positiva la actual situacin econmica, mientras que slo el 22,2%
de los hombres de NSE bajo generan igual calificacin. En el caso de los hombres de NSE medio, la mayora
(42,2%) califica como positiva la situacin econmica de Chile. En el caso de las mujeres, el 10% de las
mujeres de estrato alto califica como negativa la actualidad econmica, mientras que el 37,6% de las
mujeres de NSE bajo generan igual evaluacin. Para el estrato medio, por ejemplo, la mayora genera una
evaluacin neutral (54,4%).



31



Lo que se observa en la
tabla precedente es el
valor de chi cuadrado
para el cruce entre NSE
y la pregunta escogida,
dividido por sexo. Se
observa que tanto en el
caso de los hombres
como en el de las
mujeres, la asociacin
existe y es significativa,
por tanto es posible
afirmar que el sexo de
los sujetos es
independiente a la
relacin observada entre la manera en que se evala la actualidad econmica del pas y el nivel
socioeconmico del entrevistado (asociacin robusta).
En la tabla de medidas simtricas aparecen los estadsticos. Para interpretar el estadstico V de Cramer o Phi,
tambin el proceso es similar. Se observa en este caso que tanto para hombres como para mujeres la
intensidad de la relacin es baja, en ambos casos con significacin 0,000, por tanto con un 95% de
confianza que la variable dependiente y la variable independiente se encuentran dbilmente asociadas,
independiente de la variable de control sexo. Adems el coeficiente gamma da cuenta de la existencia en
ambos casos de una asociacin dbil e inversa.

Tabla de contingencia Cmo cal ificara Ud. la actual situacin econmica del pa s? * NSE * Sexo
5,2 60,8 69,9 136,0
7,4% 16,3% 23,1% 19,4%
13,0 151,1 173,8 338,0
40,7% 41,5% 54,7% 48,3%
8,7 101,1 116,2 226,0
51,9% 42,2% 22,2% 32,3%
27,0 313,0 360,0 700,0
100,0% 100,0% 100,0% 100,0%
9,1 124,6 85,3 219,0
10,0% 26,7% 37,6% 30,2%
16,1 220,8 151,1 388,0
46,7% 54,4% 53,2% 53,6%
4,8 66,6 45,6 117,0
43,3% 18,9% 9,2% 16,2%
30,0 412,0 282,0 724,0
100,0% 100,0% 100,0% 100,0%
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
Frecuencia esperada
% de NSE
1 Negativa
2 Neutra
3 Positiv a
Cmo calif icara Ud.
la actual situacin
econmica del pas?
Total
1 Negativa
2 Neutra
3 Positiv a
Cmo calif icara Ud.
la actual situacin
econmica del pas?
Total
Sexo
1 Hombre
2 Mujer
1 ALTO 2 MEDIO 3 BAJO
NSE
Total
Pruebas de chi -cuadrado
36,362
a
4 ,000
37,035 4 ,000
29,167 1 ,000
700
35,200
b
4 ,000
33,449 4 ,000
29,766 1 ,000
724
Chi-cuadrado de Pearson
Razn de v erosimilitudes
Asociacin lineal por
lineal
N de casos vlidos
Chi-cuadrado de Pearson
Razn de v erosimilitudes
Asociacin lineal por
lineal
N de casos vlidos
Sexo
1 Hombre
2 Mujer
Valor gl
Sig. asinttica
(bilateral)
0 casillas (,0%) tienen una f recuencia esperada inf erior a 5. La f recuencia
mnima esperada es 5, 25.
a.
1 casillas (11, 1%) tienen una f recuencia esperada inf erior a 5. La
f recuencia m nima esperada es 4,85.
b.

32

CORRELACIN DE PEARSON Y SPEARMAN
Supongamos que nos interesa ver que tan estatista es la gente segn su edad; en virtud de ello
consideraremos la variable: Dnde se ubicara Ud. Si 1 significa la principal responsabilidad est en el
estado y 10 significa la principal responsabilidad est en las personas?

Para poder analizarla lo primero es sacar los casos perdidos. En este caso 88 y 99 (No sabe y No contesta).
Luego hay que ir a AnalizarEstadsticos descriptivos Tablas de contingencia. En la ventana se pone en
la fila, la variable dependiente: la que queremos explicar. Mientras que en la columna se pone la
independiente, es decir la que explica la variacin de la dependiente. Luego hay que marcar la opcin
Suprimir tablas.
Luego se pincha en estadsticos y se selecciona Correlaciones; esto implica automticamente considerar
en la salida la correlacin de Pearson y la correlacin de Spearman.

33
Al observar los resultados se observa una significacin =0,001 en ambos casos; esta es menor a 0,05 por
tanto podemos decir que efectivamente R es distinto de cero; y por tanto la correlacin NO es nula. Sin
embargo R de Pearson =0,088. Esta correlacin muy baja adems es positiva; esto quiere decir que a mayor
edad abra una mayor tendencia hacia asumir a las personas como responsables. Si observamos los valores
de la correlacin de Spearman, las conclusiones son las mismas.
CORRELACIN DE PEARSON, SPEARMAN Y COVARIANZA
Para analizar la covarianza de las variables ndice de aprobacin al gobierno y el ndice de Percepcin de
conflictividad, hay que ir a Analizar CorrelacionesBivariadas. En la ventana abierta, se incluyen ambas
variables y se marcan en Coeficientes de Correlacin: Pearson y Spearman. Luego hay que pinchar en
opciones y se abre otra ventana.
En la nueva ventana hay que marcar la opcin
Productos cruzados diferenciales y
covarianzas. Luego hay que poner continuar y
aceptar.
La primera salida presenta la correlacin de
Pearson y la Covarianza entre las dos variables (en amarillo en la tabla). La covarianza es difcil de
interpretar, pero el Pearson=-0,043 indicara la inexistencia de correlacin.
Correlaciones

Indice
Aprobacion
Gobierno
IndiceMedio
Ambiente
Indice
Aprobacion
Correlacin de Pearson 1 -,043
Sig. (bilateral)

,160
Medidas simtricas

Valor Error tp. asint.
a
T aproximada
b

Sig.
aproximada
Intervalo por intervalo R de Pearson ,088 ,026 3,271 ,001
c

Ordinal por ordinal Correlacin de Spearman ,087 ,026 3,261 ,001
c

N de casos vlidos 1386

a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis nula.
c. Basada en la aproximacin normal.

34
Gobierno Suma de cuadrados y productos cruzados 55879,803 -1191,149
Covarianza 49,664 -1,121
N 1126 1064
IndiceMedio
Ambiente
Correlacin de Pearson -,043 1
Sig. (bilateral) ,160

Suma de cuadrados y productos cruzados -1191,149 17427,021
Covarianza -1,121 13,400
N 1064 1302

La segunda salida presenta la correlacin de Spearman. En esta se confirmara la conclusin anterior.
Correlaciones

Indice
Aprobacion
Gobierno
IndiceMedio
Ambiente
Rho de Spearman Indice Aprobacion Gobierno Coeficiente de correlacin 1,000 -,045
Sig. (bilateral) . ,149
N 1097 1039
IndiceMedio Ambiente Coeficiente de correlacin -,045 1,000
Sig. (bilateral) ,149 .
N 1039 1265
CORRELACIN PARCIAL
Para analizar la covarianza de las variables ndice de
aprobacin al gobierno y el ndice de Percepcin de
conflictividad, suponiendo que la edad es constante,
hay que ir a Analizar CorrelacionesParcial. En
la ventana abierta, se incluyen las dos variables a
correlacionar en variables, y la variable edad a
controlando para. Luego se pincha en aceptar. La
salida, presenta una correlacin =-0,2 dando cuenta
de una dbil correlacin parcial entre ambas.

Correlaciones
Variables de control
Indice
Aprobacion
Gobierno
Indice de
percepcin de
conflictividad
EDAD (en grupos) Indice Aprobacion Gobierno Correlacin 1,000 -,210
Significacin (bilateral) . ,000
gl 0 1061
Indice de percepcin de
conflictividad
Correlacin -,210 1,000
Significacin (bilateral) ,000 .
gl 1061 0

35




























36









II PARTE: PRUEBAS DE DIFERENCIA DE
MEDIAS Y PROPORCIONES














37
PRUEBAS DE HIPTESIS
Consiste en determinar si hay diferencias estadsticamente significativas al comparar 2 o ms muestras.
Son estadsticamente significativas las diferencias lo suficientemente grandes como para no ser atribuidas al
azar.
Las pruebas de hiptesis se basan en la distribucin muestral de diferencias.
TIPOS DE PRUEBAS
A) PARAMTRICAS
Requieren Muestreo probabilstico. Sirven para variables cuantitativas y dicotmicas, con distribuciones
normales (o T). Pueden realizarse con muestras grandes (prueba Z) o muestras chicas (prueba T).
B) NO PARAMTRICAS
Requieren Muestreo probabilstico. Sirven para variables categricas o cuantitativas, sin necesariamente
distribuirse normalmente.
HIPOTESIS
La hiptesis Nula (H0) ( 1=2) suele asumir la igualdad de los parmetros en dos muestras, y la hiptesis
alternativa asume su diferencia.
NIVEL DE SIGNIFICACI N
Corresponde a la probabilidad de rechazar H0 y aceptar con confianza H1. Puede ser de 0,05 0,01
TIPOS DE ERROR
I(o) Probabilidad de rechazar H0 cuando es verdadera (se fija a priori: 0,05 0,01)
II(|) Probabilidad de aceptar H0 cuando es falsa (no se fija a priori, a < muestra, > error tipo II)
Ambos estn inversamente relacionados.
POTENCIA DE TEST
Probabilidad de rechazar Ho cuando esta es falsa. A > tamao muestral > potencia de test (1-|).
PRUEBAS PARAMTRICAS
Pasos:
- Definir hiptesis
- Seleccionar prueba
- Definir significacin

38
- Calcular
- Anlisis y conclusin.
El anlisis de la prueba permite concluir con un determinado porcentaje de confianza si existen o no
diferencias estadsticamente significativas entre A y B.
MUESTRAS GRANDES: PRUEBA Z
1 PRUEBA Z PARA MEDIAS:
1.1 PRUEBA Z PARA MEDIAS, EN MUESTRAS INDEPENDIENTES
A) PRUEBA DE 2 COLAS: La H1 establece la diferencia de las dos muestras.

Prueba Z =


Si el Z observado > Z terico se rechaza H0. Si Z observado < Z terico No se rechaza H0
Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.
B) PRUEBA DE 1 COLA: La H1 establece una direccionalidad en la diferencia de las dos muestras.


Prueba Z =



Si Z observado > Z terico (+1,64 (95%) +2,32(99%)) P observado < p terico, se
rechaza H0.
Si Z observado < Z terico (-1,64 (95%) -2,32(99%)) Si P observado > p terico, no se
rechaza Ho




39
1.2 PRUEBA Z PARA MEDIAS, EN MUESTRAS RELACIONADAS

(



La interpretacin es igual que en los casos anteriores.
2 PRUEBA Z PARA PROPORCIONES:
2.1 PRUEBA Z PARA PROPORCIONES, EN MUESTRAS INDEPENDIENTES


Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.
2.2 PRUEBA Z PARA PROPORCIONES, EN MUESTRAS RELACIONADAS (MC NEMAR)

2 medicin
+ -
1 medicin

+ a B a+B
- c d C+d
a+c B+d A+b+c+d
Prueba z=


Si b+c > 20 normal
Si b+c <20 se usa distribucin binomial para encontrar zona de rechazo de H0
Si Z obs. < Z terico aceptar H0
Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.
MUESTRAS CHICAS: PRUEBA T
Cuando son muestras pequeas, las distribuciones no son normales: entonces se usa distribucin T:
campana simtrica, con dispersin dependiente del tamao muestral (si este >, S <), mientras mayor
tamao muestra ms se asemeja a curva normal. Si GL >120 normal.

40
Grados de libertad: Determinan la forma de distribucin. Es la libertad de variacin entre un conjunto de
puntajes. GL= n- n de grupos.
Supuestos: variables cuantitativas, muestreo probabilstico, muestras pequeas (y grandes).
1. PRUEBA T PARA DIFERENCIA DE MEDIAS
1.1 PRUEBA T PARA DIFERENCIA DE MEDIAS, EN MUESTRAS INDEPENDIENTES
Pasos: definir nivel de significacin, calcular GL, buscar T terico, calcular.
Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.
1.11 PRUEBA T PARA DIFERENCIA DE MEDIAS, EN MUESTRAS INDEPENDIENTES DE IGUAL
TAMAO


T obs. > t. tericose rechaza h0. Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P
observado < p. terico Se rechaza H0.

1.12 PRUEBA T PARA DIFERENCIA DE MEDIAS, EN MUESTRAS INDEPENDIENTES DE DISTINTO
TAMAO


(


T obs. > t. tericose rechaza h0. Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P
observado < p. terico Se rechaza H0.
1.2 PRUEBA T PARA DIFERENCIA DE MEDIAS, EN MUESTRAS RELACIONADAS
Prueba T=



Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0. Si
IC incluye cero, no se rechaza Ho



41
2. PRUEBA T PARA PROPORCIONES
2.1 PRUEBA T PARA PROPORCIONES, EN MUESTRAS INDEPENDIENTES
Prueba T=


Se usa con variables dummy (0-1)
Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.
2.2 PRUEBA T PARA PROPORCIONES, EN MUESTRAS RELACIONADAS (MC NEMAR )
2 medicin
+ -
1 medicin

+ a B a+B
- c d C+d
a+c B+d A+b+c+d
T=


GL= (r-1)(c-1)
T obs. > t. terico: rechazo H0. T obs < t. terico no rechazo H0.
Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.
ANOVA
Es una extensin de la prueba T. Anova de 1 factor: Se usa para variables dependientes cuantitativas y
variables independientes categricas de ms de dos categoras (si fueran 2 se usa T). H0 X1=X2=X3. H1
al menos 2 diferentes.
Si hay mucha variacin entre grupos, y poco dentro de los grupos, se tiende a rechazar H0. Estadstico F da
cuenta de varianza explicada / Varianza no explicada. Si F obs > F teorico, se rechaza H0. So P obs < P teorico
se rechaza H0.
Anova de 2 factores: permite conocer el efecto de 2 variables y de su interaccin en la variable
dependiente.
Supuestos: (1) distribucin normal de variables independientes, (2) independencia de los errores (no sirve
para muestras relacionadas), (2) Hocedasticidad igualdad de varianza entre grupos-. ANOVA es robusta a la
violacin de supuestos: 1 y 2 son violables.
Esta incluye adems otros test que compara cada par posible entre las variables ingresadas, dando cuenta
de la existencia o inexistencia de diferencias entre ellas. Aqu nuevamente la hiptesis nula sera la igualdad
de medias.
Si P observado > p terico (0.05/0,01) no se rechaza H0. Si P observado < p. terico Se rechaza H0.

42
TEST DE LEVENE (IGUALDAD DE VARIANZA PARA GRUPOS DE SIMILAR TAMAO)
Si P observado > p terico (0.05/0,01) no se rechaza H0 (igualdad de varianza). Buscamos no rechazar H0
para que haya homocedasticidad.
TEST DE WALCH (IGUALDAD DE VARIANZA PARA GRUPOS DE DISTINTO TAMAO)
Si P observado > p terico (0.05/0,01) no se rechaza H0 (igualdad de varianza). Buscamos no rechazar H0
para que haya homocedasticidad.






















43
PROCEDIMIENTO EN SPSS
PRUEBA Z PARA PROPORCIONES
1. Se pincha en Analizar Tablas Tablas
personalizadas
2. En la ventana que se abre se selecciona del
listado de la izquierda las variables
que son desplazadas a la columna y a
la fila de la tabla de contingencia.
3. Se pincha en estadsticos de
resumen, opcin que se encuentra
debajo de definir.
4. Se selecciona en la nueva
ventana, en el listado de la izquierda
% del N de columna, y se hace clic
en la flecha azul para incluirlo. Luego
se pincha en Aplicar a la seleccin.
5. Se vuelve a la ventana
anterior y se pincha en Estadsticos
de contraste.

6. Se pincha en la nueva
ventana la opcin: comparar
las proporciones de columna
(pruebas z), y se selecciona a la
derecha el nivel de confianza
requerido (donde dice Alfa). Se
marca aceptar.

44

INTERPRETACIN DE SALIDAS
La primera salida, es la tabla de contingencia con los porcentajes columnas y los recuentos.


r2: Sexo

Hombre Mujer

Recuento
% del N de la
columna Recuento
% del N de la
columna
Su ncleo, tiene en uso o
funcionamiento? Lavadora
automtica
S 31103 56,7% 13084 43,5%
No 23312 42,5% 16602 55,2%
No responde 486 ,9% 369 1,2%
La siguiente tabla presenta para cada columna la letra de la otra columna (la letra B en la Columna A; la letra
A en la columna B) cuando la primera tiene un porcentaje columna significativamente mayor que la segunda
(en trminos estadsticos). En este ejemplo, eL porcentaje columna de No y no se en mujeres es mayor
que en hombres, pero el porcentaje columna de Si es mayor en hombres que en mujeres.
Comparaciones de proporciones de columnas
r2: Sexo

Hombre Mujer

(A) (B)
Su ncleo, tiene en uso o
funcionamiento? Lavadora
automtica
S B

No

A
No responde

A

45
Comparaciones de proporciones de columnas

r2: Sexo

Hombre Mujer

(A) (B)
Su ncleo, tiene en uso o
funcionamiento? Lavadora
automtica
S B

No

A
No responde

A
Los resultados se basan en pruebas bilaterales con un nivel de
significacin 0.05. Para cada par significativo, la clave de la categora
con la proporcin de columna menor aparece debajo de la categora con
mayor proporcin de columna.
PRUEBA T PARA MEDIAS, MUESTRAS RELACIONADAS
1. Pinchar en Analizar Comparar medias Prueba
T para muestras relacionadas
2. En la ventana que se abre, en el listado de la
izquierda se selecciona la primera variable, haciendo clic en
la flecha azul, y luego la segunda del par (que es la variable
relacionada).
3. Luego se pincha en opciones.
4. En la ventana que se
abre, se estipula el nivel de
confianza, y se marca
continuar. Se vuelve a la
ventana anterior y se marca
aceptar.

ANLISIS DE LAS SALI DAS

Estadsticos de muestras relacionadas

Media N Desviacin tp.
Error tp. de la
media
Par 1 Ingreso Monetario en el hogar 604359,69 246924 835322,833 1681,019
Ingreso Monetario Percapita 155113,51 246924 237661,867 478,275
La primera tabla da cuenta de la mediana, el N, y la desviacin estndar para ambas variables relacionadas.
La segunda, muestra la correlacin entre ambas. Siendo esta ltima 0,8 dara cuenta de una correlacin alta.

46

Correlaciones de muestras relacionadas

N Correlacin Sig.
Par 1 Ingreso Monetario en el hogar y
Ingreso Monetario Percapita
246924 ,844 ,000
Finalmente la tercera tabla da cuenta del resultado de la prueba T, siendo la significacin =0, y por ende
menor a 0,05, se rechaza la hiptesis nula de la igualdad de medias.

Prueba de muestras relacionadas

Diferencias relacionadas
t gl
Sig.
(bilater
al)

Media
Desviacin
tp.
Error tp.
de la
media
95% Intervalo de confianza
para la diferencia

Inferior Superior
Par
1
Ingreso
Monetario en
el hogar -
Ingreso
Monetario
Percapita
449246,178 647387,653 1302,815 446692,696 451799,661 344,82 246923 ,000
PRUEBA T PARA MEDIAS, MUESTRAS INDEPENDIENTES
1. Pinchar en Analizar Comparar Medias
Prueba t para muestras independientes.
2. En la ventana que se abre, seleccionar en el listado
de la izquierda las variables a contrastar, presionar la
flecha azul, para que estas queden seleccionadas.
3. Seleccionar luego, del mismo listado, las variables
de agrupacin. Pinchar en Definir grupos.
4. En la ventana recin abierta, se detalla el
valor que define cada grupo. En este caso 1=
Hombre, 2= Mujer, por ende se ponen 1 y 2 como
los valores de grupo. Pinchar luego en continuar.
Volvemos a la ventana anterior, y pinchamos en
opciones, se abre una nueva ventana, donde se
define el nivel de confianza deseado. En este caso
95%.




47
ANLISIS DE LAS SALI DAS
La primera tabla presenta el N, Media y desviacin estndar para cada grupo de la variable de contraste.
Estadsticos de grupo

r2: Sexo N Media Desviacin tp.
Error tp. de la
media
Nmero de personas Mujer 125822 5,27 1,811 ,005
Hombre 121102 4,28 1,810 ,005
La segunda tabla, presenta la significacin de la prueba T, siendo esta = 0,021 y por ende menor al nivel de
significacin terico (0,05), se rechaza la hiptesis nula de igualdad de medias. Adems si observamos el
intervalo de confianza, este no pasa por el valor =0, demostrado con un 95% de confianza, que la diferencia
de las medias no es igual a cero.
Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias


95% Intervalo de
confianza para la
diferencia

F Sig. t gl
Sig.
(bilater
al)
Diferen
cia de
medias
Error tp.
de la
diferencia Inferior
Superio
r
Nmero
de
personas
en el
hogar
Se han
asumido
varianzas
iguales
4,573 ,032 -2,044 246922 ,021 -,015 ,007 -,029 -,01
No se han
asumido
varianzas
iguales

-2,044 246564,747 ,021 -,015 ,007 -,029 -,01
ANOVA DE 1 FACTOR, PRUEBA DE LEVENE
1. Ir a analizar Comparar medias Anova de 1
factor.
2. Seleccionar del listado de la izquierda, la variable
dependiente, y el factor.

3. Hacer clic en Post hoc y en la
nueva ventana elegir la prueba Tukey
de la seccin asumiendo varianzas
iguales y la prueba Games-Howell de la
seccin de no asumiendo varianzas
iguales.

48
4. Hacer clic en
Opciones, pedir la prueba
de homogeneidad de
varianzas y el grafico de
medias. Pinchar en
continuar. Y luego
aceptar.


ANLISIS DE LAS SALI DAS

El estadstico da cuenta (P <0,05) de que no hay
homogeneidad de varianza.



El valor 0,039 da
cuenta de que se
rechaza H0
(igualdad de
medias).


La salida de Comparaciones mltiple prueba para cada par de grupos (regiones en este caso), si presentan
medias diferentes. Si la significacin es menor a 0,05 rechazamos la igualdad de medias. En este caso Tukey
no sirve dado que no hay homogeneidad de varianza.

La salida que se interpreta en este caso es el de Games-Howell, donde el valor P = 1 da cuenta de la igualdad
de medias entre Tarapac y Antofagasta.



Prueba de homogeneidad de varianzas
EDAD (en grupos)
Estadstico de
Levene gl1 gl2 Sig.
2,927 14 1421 ,000
ANOVA
EDAD (en grupos)

Suma de
cuadrados gl Media cuadrtica F Sig.
Inter-grupos 25,201 14 1,800 1,761 ,039
Intra-grupos 1452,711 1421 1,022

Total 1477,912 1435


49




























50












III PARTE: MUESTREOS













51
MUESTREO NO PROBABILSTICO
Es aquel donde no conocemos que probabilidad tienen los elementos de la poblacin de ser parte de la
muestra. Sus resultados son difciles de extrapolar a la poblacin.
El muestro probabilstico no requiere que variables se distribuyan normalmente para hacer una buena
estimacin del parmetro poblacional. Pero para que funciones el muestreo por cuotas es importante que si
se distribuyan normalmente; porque como se van a elegir por cuotas es importante que se acerquen al
parmetro poblacional. En el otro no es necesario, porque las medias se distribuyen normalmente (dada la
probabilidad conocida de elegirlos).
Ventajas Desventajas
- Bajo Costo
- Fcil de realizar
- Sin problema de reemplazos
- No hay garanta de que sea
representativo de la poblacin; no
permite la generalizacin.
TIPOS:
- Intencionado:
El investigador decide a priori las caractersticas que quiere que estn en la muestra.
- De Voluntarios:
Se seleccionan a quienes voluntariamente accedan a ser parte de la muestra. El problema es que el sujeto
medio suele no ser voluntario.
- Accidental o Errtico:
Se seleccin a quin se encuentra que cumpla con los requisitos. Cumple fines exploratorios.
- De expertos:
Selecciona a los que saben del tema.
- Bola de nieve:
A partir de un sujeto se contacta a otros. La muestra se va construyendo. Muy usado en estudios
cualitativos. El problema es que no se sabe quines son excluidos.
- Muestreo por cuotas:
Es el ms usado. El muestreo probabilstico tiene una gran limitacin y es que es muy fcil no encontrar al
individuo que se quiere. Ante la tasa de no respuesta puede reducirse la muestra, reemplazarlo por el de al
lado-suponiendo que tienen caractersticas similares- (pero siendo alta la tasa de elevacin, considerando
que cada elemento representa mucho ms que uno es complicado), o puede hacer una muestra ms
grande, para que, despus de las no respuestas se llegue al nmero deseado. En el muestreo por cuotas no
existe la no respuesta; no requiere marco muestral. Su desventaja es que no amerita usar la teora de la
estimacin, la inferencia estadstica no cabe (IC, y formulas propias del MP). La proporcin de elementos
que hay en la poblacin, respecto a las variables de cuotas, sea replicada de manera adecuada en la
muestra. Para mayor representatividad se requieren ms variables de cuotas, pero implica demasiadas
casillas por lo que suele usarse 2 o 3. En este muestreo el muestrista debe dar el valor de n, dar el numero
por casilla, eso se divide en cierto nmero de encuestadores, a cada uno de los cuales se le asigna un
numero por cada casilla. Este muestreo es representativo bajo ciertas condiciones: (1) 3 variables de cuota

52
y cuotas de la muestra que sean proporcionales a las de la poblacin, (2) el entrevistador seleccione
aleatoriamente (insesgado) esto no ocurre, cierra la cuota de la forma ms fcil-. La desventaja es que
subrepresenta a los elementos difciles; es completado de forma falaz la cuota (si se pide > de 60, se
buscaran los ms cercanos a 60 porque responden ms rpido). Para resolver lo ltimo se HACE UN SISTEMA
DE RUTAS Aleatorias, se le da poco grado de libertad en su ruta al entrevistador (parta de tal esquina y gire
segn manillas del reloj, etc.), esto permite supervisin y hace su camino replicable la ruta. Existe tambin
el muestreo semi-probabilistico por cuotas, este es polietpico, y es en todas sus etapas probabilstico
menos en la ltima (personas), donde es por cuota.
MUESTREO PROBABILSTICO
Es aquel donde existe una probabilidad conocida de seleccionar elementos de la poblacin para la
muestra. Permite inferir.
La seleccin aleatoria de elementos permite controlar la certidumbre, pero no necesariamente la hace
representativa. Se es representativo cuando los valores de la muestra y de la poblacin son semejantes o
idnticos, pero esto nunca va a ser verificado empricamente.
El dispositivo epistemolgico (que permite conocer) para estimar lo que ocurre en la poblacin es el
intervalo de confianza, que opera en trminos probabilsticos. A cada estrategia de seleccin (muestreo)
le corresponde un tipo de intervalo de confianza.
Una muestra puede ser mejor que un censo, por errores de encuestador, de digitacin, etc.
TAMAO DE LA MUESTRA
Hay tres elementos que inciden en el n:
(1) Objetivos: varianza de la poblacin, estimacin del error.
(2) Subjetivos: nivel de confianza de la estimacin, el error mximo admisible el investigador los
decide-
(3) Tcnicos: estrategia de seleccin de elementos, calidad del marco muestral, etc.
Coeficiente de
confianza (CC)
1,28 1,64 1,96 2 2,58 3
Nivel de
confianza (NC)
80% 90% 95% 95,5% 99% 99,7%
o 20% 10% 5% 4,5% 1% 0,3%
El CC se relaciona con un NC, que es el complementario de un alfa. En el n incide el error asociado a la
estimacin; el valor del error depende del tipo de variable que se est midiendo, si el erros es pequeo, el n
es grande.
n=





53
Con un NC de 95%, el n, segn error es: Con un error de 3%, el n segn NC es:



Se demuestra que el tamao de la poblacin no incide en el
tamao de la muestra, al menos de forma proporcional.
Para determinados tamaos de n, el aumento de N ya no
incide en la precisin de la medicin. Una muestra de 111 (3
de error, y 95% de NC) es operativa para 100.000 casos y
10.000.000 casos. La influencia del N es marginal sobre la
precisin del parmetro poblacional.

VARIANZA
Se pueden usar estudios secundarios para ver la varianza asociada a cierto tema o con un pretest de pocos
casos; as se decide la varianza a usar en la frmula para determinar el n. mientras ms homognea es la
poblacin, menor es la varianza y menor el n.
El error en el intervalo no coincide con el que se calculo antes, pues la varianza de la muestra no coincide
con la utilizada en la frmula del n. Hay una gran distancia entre la potencia predictiva de la teora de la
estimacin y sus cimientos febles. Se pueden estar sacando casos de ms y nunca saber; se puede estar
sobremuestriando (mayor n del necesario) o submuestreando (menor n del necesario).
Para calcular el n, en el caso de las frmulas para proporciones si no se tiene la varianza, se usa la varianza
mxima (0,5*0,5), por lo que posiblemente se sobremuestrea.
FRACCIN DE MUESTREO Y COEFICIENTE DE ELEVACIN
Fraccin de muestreo (n/N) es la probabilidad de que un individuo pertenezca a la muestra. Esta suele ser
extremadamente baja. N/n es el coeficiente de elevacin, indica cuantos casos de la poblacin representa
cada elemento de la muestra.
MUESTREO ALEATORIO SIMPLE Y MUESTREO SISTEMTICO
El MAS es aquel donde:
- Todos los elementos tienen equiprobabilidad de seleccin.
- Se selecciona al azar.
- Es mono etpico
- Es autoponderado: el peso de elementos en la poblacin es igual al peso en la muestra, todos
pesan lo mismo.
error N
1 10.000
2 1.111
3 400
NC N
95,5% 1.111
99,7% 2.500

54
- Opera sin reposicin: Cuando las muestras son muy grandes es muy poco probable que un
elemento sea seleccionado 2 veces. Se trabaja sin reposicin pues las formulas son ms fciles.
El MS es una derivacin del anterior donde se selecciona aleatoriamente un caso del marco muestral, y
luego por repeticin de una cifra, se selecciona el resto de la muestra. El primer paso es establecer un punto
de arranque aleatorio; esta dado entre el uno y el valor de n (pivote); el segundo paso es la seleccin
aleatoria de un nmero. Se le va sumando al nmero inicial el nmero aleatorio seleccionado.
Ventajas: conceptualmente sencillo, intuitivo, altamente preciso, formula sencilla. Desventaja; requiere
listado de elementos, alto costo, problema de no respuesta. No se usa tanto porque es muy difcil
contactar a todos los casos seleccionados (repartidos por todo chile por ejemplo), puede ser poco eficaz por
requerir muchos recursos (dado la reparticin de los casos).
Los diseos tienen que resolver: como seleccionan elementos, cuantos elementos componen la muestra y
como se estima el parmetro poblacional. Un diseo es tal si tiene estrategia de seleccin de casos, formula
de n, y modo de estimar el error Por esto el MAS, en rigor, no es diseo muestral porque no hay estrategia
de seleccin de casos. Pero, dado que es tan puro sirve de espejo para los otros diseos, permite ver el
efecto del diseo.
EFECTO DISEO (DEFF)
Consiste en la Varianza del diseo/ Varianza del MAS efecto de diseo. Si es mayor que uno, el diseo
es menos preciso que el MAS, si es menor que uno es ms preciso que el MAS.
Muestreo estratificado es ms preciso que el Mas, y este es ms preciso que el Muestreo por
conglomerados. El muestreo estratificado tiene una varianza igual o menor que uno, el Mas = a 1, el MC
mayor o igual que uno. El peor estrato es un MAS, el mejor conglomerado es un MAS.
MUESTREO ESTRATIFICADO
Se usa cuando la poblacin tiene grupos muy homogneos internamente (baja varianza interna) y muy
diferentes entre s (alta varianza entre grupos), llamados estratos. Requiere conocer caractersticas de la
poblacin y tener el marco muestral. No implica necesariamente equiprobabilidad. Puede subrepresentar o
sobrerepresentar a algn estrato, por lo que para sacar conclusiones sobre la poblacin total se ponderan
los casos.
Para generar estratos se requiere variable auxiliar. Es ms preciso que el MaS, manteniendo todo cte. Para
= precisin el Mas requiere ms n. el efecto de diseo (deff) en muestro estratificado es menor que uno, la
varianza en el ME es menor que en el MAS. En el peor de los casos es como el MAS.
Los estratos son elementos ordenados por variable auxiliar que los organiza, cada estrato es una entidad
muestral independiente, se puede trabajar con cada estrato por separado, en cada uno de ellos los
elementos se seleccionan con MS. En el ME para cada estrato de la poblacin, se saca una muestra, que se
juntan en una muestra general que permite estimar el parmetro poblacional.
La cantidad de estratos no pueden ser ni muchos, ni pocos. Siendo dos difcilmente hay la homogeneidad
requerida, si se tienen muchos se rompen homogeneidades existentes; se recomienda entre 3 y 10.

55
Cuando la varianza al interior de los grupos es igual a la varianza entre grupos, es decir cuando la variable de
estratificacin no genera estratos (grupos homogneos) el ME es igual de preciso que el MAS.
Ventajas: precisin, permite inferir el parmetro poblacional por estrato. Desventaja: requiere marco
muestral, alto costo y problema de no respuesta.
Hay varios tipos de afijaciones (ordenados de menos a ms preciso), los criterios de afijacin son nmero de
elementos, varianza y costo.
- Afijacin igual: Todos los estratos de igual tamao. Casi no se usa.
- Afijacin proporcional: El porcentaje de la muestra que ocupa determinado estrato, es equivalente
al porcentaje que el mismo estrato ocupa en la poblacin.
- Afijacin ptima de varianza: el nmero de elementos depende de la varianza del estrato. Se
seleccionan ms casos en los estratos con mayor varianza.
- Afijacin ptima de costos: El nmero de elementos depende de la varianza y de los costos. El
estrato ms caro se selecciona menos que el ms barato. Se busca maximizar la precisin y
minimizar el costo.
Nomenclatura
La nomenclatura de un elemento es y12, donde 1 es el estrato, y 2 es el puesto dentro del estrato.
La media muestral es la suma ponderada de la media de los diferentes estratos.
, donde w es el peso del estrato, y la suma de w1 y w2 es uno.
MUESTREO POR CONGLOMERADOS
Se usa cuando la poblacin tiene grupos muy heterogneos internamente y muy parecidos entre s,
llamados conglomerados y que por tanto no tiene sentido medir todos los conglomerados. La distincin
entre conglomerado y estratos es terica. Requiere conocer caractersticas de la poblacin.
Hay conglomerados naturales, ejemplo regimientos, secciones, etc. solo se requiere el listado de las
ultimas unidades de muestreo (Ej solo de soldados de ciertas secciones seleccionadas). Se puede usar tabla
de kish o por cuotas para seleccionar en el ltimo nivel.
Sus ventajas son (1) permite el muestreo polietpico: se seleccionan conglomerados dentro de la poblacin
(ej. Cursos), y luego dentro de estos otros grupos (ej. Sexo), y luego dentro de estos otros, etc; (2) no
requiere el listado de elementos de toda la poblacin, (3) es menos preciso que el MAS. Su desventaja son
el alto costo, requiere muestras grandes (por gran variacin), requiere marco muestral por conglomerado,
problema de la no respuesta.
MUESTRO CON PROBABILIDAD DE SELECCIN PROPORCIONAL AL TAMAO
Si el tamao de entidades son ms grandes, es ms probable que el seleccionado sea de ah. Es
recomendable si lo estudiado se relaciona con el tamao de la entidad. Es una suerte de variante del ME con
afijacin proporcional. Es autoponderado porque la fraccin de muestreo es igual en todas las entidades.
(nh/Nh).

56
MUESTRO POLIETAPICO.
Tiene al menos dos fases. Ej: 1ero, a todos los ancianos de un lugar, encuestarlos sobre calidad de vida,
luego sacar una pequea muestra de ellos para preguntarles medir su colesterol. La 2da fase se hace a una
muestra ms pequea porque es ms cara. Se usa en esta situacin, o cuando se requiere gente poco
comn o accesible.
El muestreo polietapico da espacio al cuasiprobabilistico. Una seleccin probabilstica en las primeras
unidades de muestreo probabilstico, y en las segundas no.
MUESTREO POR REPLICAS
En vez de una muestra de 500, se sacan 10 muestras de 50: esto xq la varianza del estimador resulta ms
pequea; y porque se obtiene un resultado preliminar ms rpido.
PONDERACIN Y EXPANSIN DE LAS MUESTRAS
Ponderacin: Generar va manipulacin de la muestras en los grupos que la para que un grupo quede sub o
sobrerepresentado. Es desproporcionar la muestra. Ej: poner ms del grupo socioeconmico A; para poder
inferir sobre l.
Son autoponderados los diseos en que todos los grupos tienen igual fraccin de muestreo.
Cuando la muestra est desproporcionada, para cada grupo no es necesario ponderar, pero si para hablar
de la poblacin. El coeficiente de ponderacin le devuelve a la muestra el peso q le corresponde a los
distintos grupos en la poblacin.
Expansin: Es otra forma de estimar el parmetro poblacional. Corresponde a: % de elementos en
N/porcentaje de elementos en n. La elevacin es lo inverso a la fraccin de muestreo. (N/n).

FORMULARIO MUESTREO
e = error mximo admisible (para medias: nmero entero; para proporciones: decimal)

= Coeficiente de confianza
Coeficiente de confianza
(CC)
1,28 1,64 1,96 2 2,58 3
Nivel de confianza (NC) 80% 90% 95% 95,5% 99% 99,7%
N = Tamao de la poblacin
S
2
= Varianza de la poblacin
h= Estrato
n= Tamao de la muestra


57
Tipo Medias Proporciones
MAS Tamao de la muestra:




Intervalo de confianza:


Tamao de la muestra:



Intervalo de confianza:


ME Peso del estrato: Media: Proporcin:


M
E

p
r
o
p
o
r
c
i
o
n
a
l

Tamao de la muestra:



Tamao del estrato:
n
h
=nW
h


Intervalo de confianza:



Tamao de la muestra:



Tamao del estrato:
n
h
=nW
h


Intervalo de confianza:



M
E

p
t
i
m
o

d
e

v
a
r
i
a
n
z
a

Tamao de la muestra:



Tamao del estrato:


Intervalo de confianza:



Tamao de la muestra:



Tamao del estrato:


Intervalo de confianza:






58









PARTE IV: ANLISIS MULTIVARIABLE

















59
ANLISIS MULTIVARIABLE
PROCEDIMIENTOS MULTI VARIABLES
No hay consenso respecto a qu es el anlisis multivariable.
- Visin restrictiva: exige que existan dos o ms variables dependientes e independientes (p.18)
- Visin ampliada: estudia la relacin entre ms de dos variables (p.18).
Segn Cuadra el anlisis de multivariable es la: rama de la estadstica y del anlisis de datos que estudia,
interpreta y elabora material estadstico sobre la base de un conjunto de p>1 variable, que pueden ser de tipo
cuantitativo o cualitativo o una mezcla de ambos () las p variables son dependientes, de naturaleza similar y
ninguna de ellas tiene una importancia superior a las dems
La existencia y desarrollo de distintas escuelas ha generado distintas perspectivas:
- Tradicional: de origen anglosajn. Considera a la inferencia como inherente al anlisis, incluyendo
pruebas para evaluar la generalizacin de los resultados de la muestra a la poblacin.
- Francesa: descriptiva. Busca generar una sntesis analtica y representacin grfica de los datos
observados

CLASIFICACIONES
Se utilizan como criterios:
- Dependencia / independencia de las variables
- N de variables dependientes
- Nivel de medida de las variables
- Diferenciacin entre tcnicas exploratorias-descriptivas o confirmatorias-explicativas.
- Objetivo de la investigacin
CLASIFICACIN SEGN OBJETIVO DE INVESTIGACIN
- Tcnicas predictivas: Predecir valores de la variable dependiente
o Anlisis Discriminante
o Regresin Logstica
o Modelos Logartmicos
o Anlisis de Regresin
o Anlisis de Varianza
- Tcnicas reductivas: Reducir dimensiones en un conjunto de variables interdependientes
o Anlisis Factorial
o Anlisis de Correspondencia
o Anlisis de Tipologas
o Escalamiento multidimensional


60
MATRIZ DE DATOS
A cada procedimiento multivariable le corresponde una matriz compuesta por la observacin de p variables
sobre n casos (p.26). Se busca corregir las deficiencias generadas en la produccin y digitalizacin de
informacin.
VALORES MISSING
Casos sin puntuacin en alguna de las variables. No son aquellos que no saben o no es aplicable; sino donde
debiera haber un valor y no lo hay. Cuando hay muchos valores perdidos, o cuando sistemticamente se
asocian a ciertas variables induce a sesgos.
Paliativos posibles son:
- Borrar los casos con valores perdidos
- Borrar las variables (til cuando se concentran en pocas variables).
- Asignarle un valor (ej. La media. Tiene la desventaja de que el coeficiente de correlacin de una
variable compuesta de dichas medias disminuye. Considerando que diversos procedimientos
multivariables utilizan el coeficiente de correlacin en sus clculos, disminuciones de estos afectan
los resultados).
- Dicotomizar la variable (sobre y bajo la mediana), y asignarle un valor en base a presunciones
tericas o empricas.
VALORES OUTLIERS
Son los valores extremos que distorsionan las medidas de dispersin y los coeficientes de correlacin. Hay
casos que no son extremos en 1 variable, pero s en sentido multivariable (ej. Hombre de 2 metros que pesa
50 kilos). En situacin univariable se consideran outlier a casos distantes ms de tres desviaciones estndar de
la media; en el caso multivariable se usa la distancia de Mahalanobis, para ver la distancia al centroide de
todos los casos.
Los posibles tratamientos son:
- Eliminarlos. Disminuye el tamao de la muestra
- Eliminacin de las variables.
- Cambiar las puntuaciones.
CONDICIONES DE APLICACIN
En opinin de Harris (1975) las tcnicas multivariables no se ven seriamente afectadas cuando se violan los
supuestos en muestras suficientemente grandes. En tal caso, son procedimientos resistentes y robustos
(p.33).




61
DISTRIBUCIN NORMAL
De una variable o de un conjunto de estos. Para evaluar la normalidad de una se usa la prueba de
Kolmogorov-Smirnov, coeficientes de asimetra y de curtosis. Para que haya normalidad multivariable se
requiere normalidad univariable, pero esto no es suficiente; en la prctica se calcula solo la univariable.
LINEALIDAD
Es tal cuando la relacin entre las variables se grafica como recta. Para usar modelos que requieran
linealidad, sin ser lineal la relacin, esta se linealiza. La linealidad puede evaluarse grficamente mediante
scattergrams.
HOMOCEDASTICIDAD
Es tal cuando hay igualdad de varianzas en todos los grupos de la poblacin de origen de la muestra (p.33).
Se evala la matriz de varianzas y covarianzas; utilizando la prueba M de Box.
MATRICES DE CORRELACIONES NO SINGULARES NI MULTICOLINEALES
Hay multicolinealidad cuando los coeficientes de la matriz de correlaciones son muy altos y por tanto hay
relacin intensa entre variables; en estos casos el determinante es cercano a cero. Cuando este es cero hay
singularidad. El determinante debe ser distinto de cero para calcular la inversa de una matriz.
La solucin ms simple es borrar la variable que genera problemas (al correlacionarse con otra que se
mantiene, no debiera haber perdida de informacin), otro modo es ingresar sucesivamente las variables, de
forma que no participen las variables correlacionadas en el mismo modelo.
REGRESIONES
REGRESIN LINEAL
Una Regresin es una curva que representa la lnea central a la nube de pts. Es la funcin que se adapta ms a
la nube. Hay una variable y que se intenta predecir conociendo a x, en el caso de la regresin lineal simple, o
ms variables, en el caso de la regresin lineal mltiple (RLM). Es por tanto, un modelo predictivo.
Hay varias rectas posibles, para elegir la que mejor representa la nube de puntos, hay que:
- Ver el valor del R
2
asociado a la recta (indica ajuste de puntos y recta), a mayor valor, mejor es la
recta. Interesa minimizar el error (los residuos), que es la variacin entre lo estimado y lo
observado (entre Y e Y ). Siempre va a haber errores porque las VI no pueden predecir totalmente
la VD (en Cs. Sociales).
- Analizar la parsimonia ya que se busca un modelo lo ms simple posible para explicar la realidad
- Considerar la visibilidad, segn a quien se dirige investigacin.



62
CONDICIONES DE APLICACIN DEL MODELO
- El modelo debe ser lineal (linealidad de las variables). No debe haber multicolinealidad; las VI
deben ser independientes entre s, con una baja correlacin entre s.
- El modelo no debe incluir valores aberrantes (estos se dan entre dos variables; Ej: es aberrante ser
bajo y pesar mucho, pero no solo ser bajo o solo pesar mucho).
- Las variables deben distribuirse normalmente y deben ser cuantitativas.
Si se incluyen variables cualitativas con ms de dos categoras, el programa asumir que poseen carcter de
razn: asumir que la categora 2 es el doble de la categora 1, cosa que no es tal en la realidad. Por lo
anterior, y por la poca cantidad de variables intervalares o de razn que se pueden obtener en la realidad
social, es que para poder ingresar variables cualitativas es que se deben dicotomizar, es decir debemos
recodificar las variables de nuestro inters en variables dummy: al dejar una variable con dos categoras,
cuyos valores de respuesta sean 0=ausencia y 1=presencia, el programa no alcanza a considerarla como
cuantitativa, por ende entrega informacin para la prediccin, sin caer en el error previamente descrito.
Para transformar una variable categrica en una variable dummy, hay varias opciones:
- Si tiene dos categoras (por ejemplo, hombre =1, mujer =2), debemos asignarle a una de ellas el
valor 0 y a la otra el 1.
- Si tiene ms de dos categoras (por ejemplo: muy en desacuerdo =4, desacuerdo=3, acuerdo=2, muy
de acuerdo =1), podemos dicotomizar la variable, agrupando las categoras en dos, donde una
asuma el valor 1(por ejemplo de acuerdo, que agrupara al anterior 2 y 1) y otra el valor 0 (por
ejemplo desacuerdo, donde se agrupa a la anterior 3 y 4).
- Si tiene ms de dos categoras, se puede dicotomizar cada categora, creando tantas variables como
categoras, donde 1 sea presencia de la caracterstica y 0 ausencia, por ejemplo: NSEAlto 1=Si, 0=No,
NSE Medio 1=Si, 0=No, NSE Bajo 1=Si, 0=No. Luego, para ingresarlas al modelo, deben escogerse
slo la cantidad de variables equivalentes a la cantidad categoras menos 1 (en este caso 2), pues si
se ingresan las 3 juntas, existe informacin redundante.
CONDICIONES DE APLICACIN DE RESIDUOS
- Los errores deben ser incorrelados (la
covarianza de los errores debe ser igual a
cero)
- Los errores deben distribuirse
normalmente. La normalidad de los
errores se puede evaluar grficamente
(en los grficos de ejemplo, en ambos
casos los errores se distribuyen
normalmente)
- Debe haber homosedasticidad (la
varianza de los errores debe ser pareja).
Esta tambin se puede observar
grficamente; al ser las rectas paralelas


63
(grafico 1) demuestra una variacin pareja de las varianzas de los errores.
PASOS A SEGUIR
- Especificar el modelo: Identificar variables a incluir: 1) variable dependiente; 2) variable(s)
independientes(s). El criterio de eleccin de la variable es la parsimonia: Mxima explicacin con la
misma informacin.
- Estimar
1
los coeficientes del modelo: Suele usarse el Procedimiento de los mnimos cuadrados. Este
consiste en:
o Tanteo: Se tira una recta cualquiera y se calcula la distancia de cada punto a la recta; las
eleva a dos y las sumas.
o Iteracin: Se repite el proceso, hasta elegir al recta que d el menor valor
o Estimacin de parmetros
El mtodo de los mnimos cuadrados genera ecuaciones estructurales. Busca minimizar la suma de:
2
1
( )
n
i
Y Y
=

O
2
1
( )
n
i
ei
=


Por qu al cuadrado? Para que se anulen los valores negativos.
- Verificar la capacidad explicativa del modelo: Qu tan bien predice? La prediccin se evala tanto
en funcin del modelo como tal como de sus residuos. Para la verificacin del modelo, es preciso
considerar la varianza total como: [VT= V Explicada + V No Explicada]
Los procedimientos de verificacin son:
o R de Pearson: Entendido como [VE / VT]. Se lee como el % de varianza explicada. Es lo
central de la regresin lineal (cunto explica el modelo).
o Estadstico F: Generalizacin de la T de Student. Considera la [VE / V NE]
- Interpretacin
REGRESIN LINEAL SIMPLE
La funcin de la recta (ecuacin de la recta) es y= a + bx. a y b son parmetros de la recta (constantes): a es el
punto donde la recta cruza eje Y (al variar sube o baja la recta) y b indica cuanto cambia y, por cada cambio
de 1 en X (al variar cambia inclinacin de la recta).
Para estimar estos coeficientes del modelo, se usan las frmulas
siguientes.
A Y BX = (Donde parte la recta en eje Y)
2
CoV
B
S x
= (Pendiente)

1
Estimar es diferente a calcular ya que no hay solo 1 resultado posible.



64
El modelo de regresin simple trata de conocer el

, dado x. Por ejemplo: siendo Xi= 14, Yi 8 y 4; la prediccin


es que Yi sea 6 (es decir el promedio de los valores que alcanza Y, cuando X es igual a 14). La prediccin es
muy precisa pero el modelo de regresin lineal simple es muy restrictivo.
REGRESIN LINEAL MLTIPLE
Hay un conjunto de VI que configura un hiperplano, con un eje para cada VI. Se genera una esfera de
puntos.
Las variables ms adecuadas para el modelo son las ms importantes (tericamente las que explican la
variacin de X -las variables correlacionadas con X-) y las estadsticamente relevantes (computador elija el
mejor modelo posible, dadas muchas variables).
PROCEDIMIENTOS COMPUTACIONALES PARA LA SELECCIN DE VARIABLES
1. Backward: ingresar todas las variables, se eliminan las que son poco importantes estadsticamente.
(Sirve si se quiere conocer la importancia relativa de todas las variables).
2. Forward: Proceso inverso. Solo se ingresan las ms importantes (desde la primera a la ltima).
3. Stepways: paso a paso. Van entrando y saliendo variables (si hay dos correlacionadas, luego se saca
una de ellas).
COEFICIENTES PARA REGRESIN MLTIPLE
1. Coeficiente de correlacin mltiple: indica la correlacin de Y con las VI. Ryx1x2x3x4
2. Coeficiente de determinacin (R
2
): Porcentaje de explicacin de Y a partir de las VI. Porcentaje de la
varianza explicada de Y, por los x de las VI. Ry
2
x1x2x3x4.
3. Incremento de R
2
: Al aumentar una variable aumenta la capacidad explicativa del modelo. Este ser
grande cuando la variable ingresada explica bastante, da cuenta de la importancia relativa de la VI
en la explicacin de VD.
4. Correlacin Parcial: Busca detectar las relaciones espurias entre variables, la variable que incide en
dos variables haciendo parecer que hay correlacin. Para ello se establece la relacin entre x e y,
controlando el efecto de X2 y X3.
EVALUACIN DE B
B es la constante por el cual se multiplica el valor de cada VI, hay B
1
, B
2
, etc. Es el nmero de veces que
aumenta Y, cuando x aumenta en una unidad. Para evaluar la importancia del B, se usa la T de students,
prueba de significacin estadstica. Lo importante es que B sea distinto de cero, porque si no la recta sera
una constante.
ANLISIS DE PERFIL
Con la RLM se pueden analizar perfiles de individuo, en funcin de los valores que el perfil toma para ciertas
variables.



65
REGRESIN LOGSTICA
Es ms usada, y nuevamente hay simple (2 variables: una VD y una VI) y mltiple (varias VI). Lo central es
determinar la magnitud de la relacin de las VI con la VD (ot ratio), ms que la capacidad predictiva. Es una
variante de regresin lineal cuando la VD es dicotmica (asume valores 0 y 1). Para estos casos no sirve la
regresin lineal, pues predice valores superiores a 1.
La ventaja de la regresin logstica es heterogeneidad de variables que puedan incluirse en el modelo: las VI
pueden ser de cualquier tipo (Intervalares, dicotmicas o politmicas). En caso de ser de las ultimas, estas se
recodifican en variables dummy. El nmero de variables dummy corresponde al nmero de categoras de la
variable menos uno. Ej: Habiendo las categoras catlico, protestante, y otro; catlico ser (0,0), protestante
(0,1) y otro (1,1) (los valores entre parntesis explicitan los valores que toman en cada caso ambas variables
dummy).
Este tipo de regresin pretende aprehender las relaciones entre VD y VI (la
incidencia de la ltima al primero). Intenta ver cuales favorecen y
desfavorecen el suceso. La regresin logstica permite predecir en trminos
de probabilidades de que suceda un suceso (Y=1); esto lo permiten los
nmeros binarios. El lugar geomtrico al cual da origen es una curva como la
graficada (esta relacin se da por ejemplo entre ir al dentista y el ingreso).
Permite aprehender respecto a perfiles que favorecen y desfavorecen que la
probabilidad de un suceso sea 1 (la capacidad protectoras y de riesgo de algo).
Pasos:
- Especificar las variables del modelo, manteniendo el principio de parsimonia.
- Estimar los coeficientes del modelo, mediante el procedimiento de mxima verosimilitud.
- Verificar la capacidad explicativa, y la posibilidad de error.
CONDICIONES DE APLICACIN
- No multicolinealidad de VI
- Eliminacin de casos extremos
MODOS DE EVALUAR EL MODELO
- R cuadrado
Da cuenta del nivel de ajuste del modelo: cuanto de la Varianza es explicada por el modelo.
- Evaluacin de coeficiente B
Lo que interesa es que B sea distinto de cero ya que cuando B es = a cero, no hay relacin entre VI y VD. El
estadstico de Wald permite avaluarlo. En el estadstico de Walt lo que interesa es que b sea diferente de
cero (H1); para ello el grado de significacin debe ser menor que 0,05.



66
W= b
2
/S
2
b
En esta regresin B se interpreta en funcin del signo; si es + la variable asociada a B favorece que ocurra y=1
(es convencional que es y=1); si es lo desfavorece.
- Tabla de valores observados y esperados
Se pueden comparar los valores observados y esperados, buscando minimizar los errores. Ejemplo:
Las casillas amarillas representaran los errores; es decir cuando lo observado no
corresponde con lo esperado. El modelo asigna lo que es > o = a 0,5 como 1, y lo < a
=,5 como 0.
La tabla puede dar tambin el porcentaje de casos bien clasificados.
- Histograma
A un lado de 0,5 tienen que ir los casos de un tipo; y al otro lado los otros casos. En la medida que esto ocurre
as el modelo es bueno, en caso contrario es deficiente.
- Chi cuadrado va mejorando sucesivamente, al hacerse ms pequeo, el modelo es mejor.
- -2 log livelihood es igual a cero cuando el modelo es perfecto, va disminuyendo en sucesivos pasos
OD RATIO
La verificacin del modelo consiste en evaluar la relacin entre la VD y la VI. Ot ratio (e
b
) mide la magnitud
de dicha relacin. Cuando B=0, el ot ratio es uno, por tanto el 1 del ot ratio se considera como el cero, el
punto de corte. Al ser uno (que implica B= 0), quiere decir que hay independencia de variables.
Ejemplo: si 1 es ser de izquierda y 0 es ser de derecha; y hay un ot ratio de 2,7, quiere decir que cuando la
escolaridad aumenta en un ao la probabilidad de ser de izquierda aumenta 1,7 veces. Si el ot ratio es de 0,36,
quiere decir que cuando la escolaridad aumenta en uno disminuye la probabilidad de ser de izquierda en un
74% (complementario).
Para ver cunto vara al aumentar no una unidad sino varias, el exponente del ot ratio se cambia, en vez de
B se pone 100b por ejemplo. Ej: e
10.000b
= 4. Al aumentar el ingreso en 10.000, la probabilidad de ir al colegio
aumenta en 4 veces.
RELACIONES NO LINEALES
Hay de diferentes tipos:
Se debe tomar una decisin respecto a qu lugar geomtrico corresponde a
ecuacin que d cuenta de la relacin. Viendo las nubes de punto se puede ver
cual se ajusta ms.
Hay dos tipos de linealidad, la que hace referencia al lugar geomtrico y la que
hace referencia a la ecuacin (combinacin lineal de los x, quiere decir que las
incgnitas tienen exponente 1). Puede haber una relacin lineal y un lugar
Obs/Esp 1 0
1 80 14
0 3 60


67
geomtrico no lineal; puede haber una relacin no lineal y un lugar geomtrico no lineal. En este ltimo caso
puede la ecuacin ser linealizable (como la logstica); o puede ser un modelo intrnsecamente no lineal (no
linealizable).
La regresin parablica es lineal por ser sumatoria de VI (aun no dando origen a un lugar geomtricamente
lineal)
En base al coeficiente, al grfico, la teora y la experiencia se decide que regresin usar.
Es probable que hayan pocas relaciones lineales (en cuanto lugar geomtrico), pero muchas no lineales son
linealizables; la exponencial, mediante el uso de logaritmo se linealiza por ejemplo.
Al hacer varias regresiones la que de un R de Pearson mayor es la que mejor describe la relacin; al ajustar
simultneamente (graficable en SPSS) se pude ver cul es la ms similar.
POLINOMIOS OCTOGONALES
Las regresiones polinomiales son para aprehender las relaciones no lineales entre variables evaluando el
grado que mejor se ajusta. Un polinomio de grado 1, pasa por 2 lugares, un polinomio de grado 2 pasa por 3,
etc. Siempre pasa por 1 + grado lugares.
Grado 1. Y =a+bx
1
1
Grado 2. Y= a + bx
1
1
+b
2
x
2
2
Habiendo 100 casos, un polinomio de grado 99, pasara por los 100 lugares y el ajuste sera perfecto; pero
esto no explicara nada nuevo. En Cs. Sociales se usa hasta grado 4.
Para evaluar la pertinencia de uso de un polinomio de determinado grado se usa la prueba de significacin
de Fisher (Varianza explicada/Varianza no explicado). Para que tenga un buen ajuste la significacin debe
ser menor que 0,5. El programa Ortopred da los valores.
Si con un grado 4 el error sigue siendo muy alto se considera que no se pudo aprehender el patrn (por
parsimonia no se puede aumentar de grado).
ANLISIS DE TIPOLOG AS
Consisten en procedimientos para agrupar casos o variables () a fin de organizarlos en grupos
homogneos (p.35), mediante la aplicacin de un algoritmo sencillo. Sierra Bravo lo define como tcnica de
anlisis de datos, de carcter clasificatorio, que tiene como finalidad la formacin de clases, tipos o grupos,
tan similares entre s como sea posible, partiendo de un conjunto de datos multivariables (p.35).
La generacin de tipologas, refiere a clasificar los casos en grupos que no existen a priori segn los valores
que presentan en ciertas variables. Para una utilizacin adecuada de esta tcnica es preciso disponer de
referencias tericas que permitan discernir respecto a la seleccin de variables, medidas de similaridad entre
casos y tcnicas de agrupacin (p.36). Para clasificar se una la nocin de proximidad, expresada en la
similaridad o disimilaridad entre los distintos casos.



68
OBJETIVOS
Ball (1971) destaca los siguientes:
- Establecer tipologas
- Buscar esquemas conceptuales tiles de agrupar
- Generar hiptesis en estudios exploratorios

- Contrastar hiptesis en estudios confirmatorios
- Verificar tipologas definidas mediante otros procedimientos de anlisis
- Reducir informacin (p.37)
Se presenta una paradoja: con este anlisis se busca una estructura / patrn y se impone una estructura /
patrn. Se intenta encontrar agrupamientos que la observacin no encuentra en los datos, y opera,
imponiendo los agrupamientos que derivan del algoritmo. Se aspira a encontrar un patrn de clasificacin,
sin embargo, el mecanismo utilizado para agrupar incide en el resultado de la clasificacin (p.37).
DEFINICIN DE TIPOLOGA
No hay una definicin formal de qu es una tipologa. Solo acercamientos:
- La tipologa se compone por casos de intenta similaridad (definida mtricamente). La distancia entre
dos puntos de la tipologa es menor a la distancia con algn punto ajeno a esta.
- La tipologa corresponde a una nube de puntos en el hiperplano, donde los ejes son las variables de
clasificacin y los casos son puntos.
- La tipologa corresponde a una regin continua del plano con una alta densidad de puntos,
separada de otras reas densas por zonas de baja densidad.
- La densidad implica baja dispersin de los puntos de la tipologa, que se mide mediante la varianza
(se relaciona con la distancia de los puntos respecto a la media del grupo). La tipologa implica una
varianza pequea al interior de esta, y una varianza grande entre grupos.
-
SELECCIN DE VARIABLES
Los mismos casos se clasifican de distinto modo segn las variables de clasificacin, de ah que sea
importante un cuerpo terico para decidir qu variables utilizar. En cuanto al nmero, siempre es preferible
que sean ms a menos variables, pero este depender de criterios tericos y prcticos.
La escala de medida de las variables puede ser nominal, ordinal, intervalo o razn. Los procedimientos se
ven afectados si estas presentan magnitudes distintas; la estandarizacin no siempre es solucin ya que
genera otros sesgos, por ejemplo, disminuye la importancia relativa de aquellas variables que ms aportan a
generar diferencias entre grupos. Si es necesario estandarizar, se recomienda utilizar distancias no eucldeas
dada su mayor resistencia (p.40). Sin embargo, la bibliografa seala que ante la disyuntiva de utilizar
distintas unidades de medida o transformar los valores originales es preferible esta ltima alternativa
(p.51).


69
ETAPAS DE CLASIFICACIN
1. El origen es una matriz, donde se ubican los casos y sus valores en las variables de clasificacin (base de
datos).
2. Se define mtricamente similaridad y disimilaridad. El clculo de las distancias genera una matriz
simtrica que incluye 0 en la diagonal (distancia del elemento consigo mismo = 0). Esta matriz, generada
en base a la distancia eucldea es simtrica (matriz de similaridad).
3. Se aplica un algoritmo que utiliza un criterio para asignar casos similares a un mismo grupo; los ms
comunes es la jerarquizacin y optimizacin.
4. Se evala la calidad de la clasificacin.
SIMILITUD
Segn la similitud entre los casos estos se asignan a ciertos grupos. La similitud debe expresarse
mtricamente. Hay 5 propiedades comunes a la similitud mtrica, donde las 3 primeras competen a toda
similitud:
-

. La distancia entre i y j es mayor o igual a cero.


-

. La distancia de i consigo mismo es igual a cero.


-

. La distancia entre i y j es igual a la distancia entre j e i.


-

. Propiedad triangular: estando T


1
sobre la lnea entre I y J; y no estando T
2

sobre ella: la distancia entre i y j es mayor o igual a la suma de las distancias entre i y t, y
entre t y j. La distancia entre i y j es igual a la suma de las distancias entre i y t
1
, y entre
t
1
y j. la distancia entre i y j es mayor a la suma de las distancias entre i y t
2
(cuando este
punto no est sobre la lnea), y entre t
2
y j.

La cuantificacin se puede realizar por diversos coeficientes. La matriz de similaridad originada, a partir de la
matriz original, vara en funcin del coeficiente mtrico usado.
Sokal y Sneath sealan 4 tipos de coeficientes apropiados para medir similitud entre casos:
- Coeficiente de Correlacin de Pearson, para variables de intervalo o razn
- Medidas de distancias (en general la Eucldea). Es una medida geomtrica. Tcnicamente las
distancias son las mejores medidas de similitud (p.42).
- Coeficientes de asociacin, para variables dicotmicas o nominales.
- Medidas probabilsticas. Operan directamente sobre la matriz de casos, sin generar una nueva.
DISTANCIAS
La similaridad en estadstica es mtrica (numrica). Son parecidos cuando la distancia entre ellos es
pequea. La matriz de similaridad es una matriz de distancia donde la diagonal son ceros y los tringulos que
quedan separados por esta diagonal son iguales.
I T
1
j

T
2



70
La similitud se mide segn la distancia entre puntos (p.42). Hay distintas medidas de distancia, que no
suelen presentar valor mximo y dependen de la unidad de medida. Las ms comunes son las distancias
eucldeas; pero tambin lo son en menor medida la distancia de Mahalanobis, Chebychev y Manhattan.
Distancias distintas darn lugar a clasificaciones distintas () para determinar la distancia que mejor
reproduce la estructura de clasificacin es preciso conocer el patrn natural de agrupamiento de los casos. Sin
embargo, el objetivo del anlisis es descubrir el modo de agrupamiento; si ste fuera conocido no se aplicara
la tcnica. En la prctica, la eleccin de la distancia se realiza segn supuestos tericos. (p.43)
La distancia eucldea entre 2 casos, corresponde a la raz cuadrada de la suma de las diferencias entre los
casos al cuadrado (p.42).
Distancia (a,b) =

. Siendo las coordenadas de los casos (x


1
,y
1
) e (x
2
,y
2
), esto es:
D
ab
=

; siendo las coordenadas de los casos (x


1
,y
1,
z
1
) e (x
2
,y
2,
z
1
), esto es:
D
ab
=


La diferencia eucldea al cuadrado evita el uso de la raz elevando la sumatoria de la diferencia al cuadrado.
Distancia al cuadrado de (a,b) =


Ejemplo:
d
ij
=
(


d
ij
=



Limitaciones: Se ven afectadas por las unidades de medida. Las variables con magnitudes grandes anulan los
efectos de las con magnitudes pequeas. Si las unidades de medida difieren, un eje puede quedar muy largo y
otro muy pequeo, descuadrndose el plano. La solucin es estandarizarlo (usando puntaje z). Pero
estandarizar genera el problema de que se pierde de referencia la medicin real de las variables, dificulta la
interpretacin.
TCNICAS DE CLASIFICACIN
Hay diversas tcnicas. Cormarck distingue 5:
1. Tcnicas jerrquicas. Clasificacin etpica que replica la estructura de un rbol.
2. Tcnicas de optimizacin. Se realizan iteraciones sucesivas de un criterio de clasificacin.
3. Tcnicas de espacios densos. Opera segn zonas de densidad de frecuencia en el hiperplano.
4. Tcnicas de agrupamiento mltiple. Considera la pertenencia a ms de un grupo
5. Otras tcnicas. Variaciones de otras tcnicas multivariables.



8
.


4 .

2
5


71
TCNICAS JERRQUICAS O AGLOMERATIVAS
Los procedimientos jerrquicos generan grupos paso a paso, en cada etapa se unen o separan casos. Para
determinar el nmero de grupos adecuados no hay una norma definida, sino que se decide en consideracin
de una representacin grfica de las sucesivas etapas.
Se usa para conocer el proceso de clasificacin (se pueden ver pasos). Solo sirve para pocos casos. La
aglomeracin es un automatismo, donde no se puede volver a tras, no se puede intervenir lo que se est
generando.
El proceso termina con un grfico, etnograma, que hay que interpretar. Al decidir cuntos grupos, se pueden
describir sus caractersticas en torno a las medias por variable, por ejemplo. Hay dos procesos:
CLASIFICACIN JERRQUICA AGLOMERATIVA /ASCENDENTE
Comienza considerando a cada caso como un grupo y sucesivamente se van uniendo
casos entre s, finalizando cuando todos pertenecen a un mismo grupo. Definen como
similares a objetos cercanos entre s los que se agrupan en espacios prximos (p.45). Es
el que realiza el SPSS.
A) SINGLE LINKAGE O NEAREST NEIGHBOUR
Los grupos se unen entre s, cuando alguno de los miembros est prximo a un miembro de otro. Se
considera como distancia entre grupos a la distancia entre los miembros ms prximos de cada grupo. Genera
pocos grupos heterogneos. Se le critica por dar lugar a resultados que no se condicen con la realidad, y se le
defiende por ser el que da resultado al encadenamiento natural, tiene la menor influencia del investigador.
B) COMPLETE LINKAGE O FURTHEST NEIGHBOUR
Los grupos se unen entre s, segn la distancia mxima entre las unidades a agrupar. Se considera como
distancia entre grupos a la distancia entre los pares de casos ms lejanos. Genera muchos grupos
homogneos.
C) AVERAGE LINKAGE O TCNICA DEL CENTROIDE
Solucin intermedia a los otros dos. El centroide es un punto imaginario que corresponde al centro del
espacio de cada grupo (p.46). La distancia entre grupos se define como la distancia entre centroides de
grupos.
CLASIFICACIN JERRQUICA DIVISIVA / DESCENDENTE
Comienza considerando a todos los casos como un mismo grupo y sucesivamente se
van separando hasta terminar cada caso aislado. Se les llama procedimientos de
segmentacin, ya que realiza sucesivas divisiones de una poblacin en segmentos
excluyentes.
Cuadra distingue en:


72
- Divisin monottica: se considera un atributo de los casos a clasificar. Las subdivisiones se realizan
segn presencia o ausencia del atributo (p.47).
- Divisin polittica: considera varios atributos.
EJEMPLO
SPSS te entrega la siguiente tabla de distancias, se ve ah los elementos con menor distancia entre si (el 3 y el
2). Se juntan, y se genera nueva tabla. Se repite el proceso hasta juntar todos. Si hay dos
con igual distancia hacia otro elemento, da lo mismo cual se junta primero.
Se genera tambin un etnograma. Si ac las
lneas horizontales son muy largas, es que fue
difcil juntarlo con el otro grupo o elemento, es que no se parecen
mucho. La decisin de cuantos grupos en un etnograma es
discutible.
TCNICAS DE OPTIMIZACIN
Son menos comunes; buscan dividir los casos en grupos usando un algoritmo, intentando optimizar una
medida numrica que indica la solucin adecuada. Esta tcnica permite realizar correcciones en cada etapa.
Se usa cuando interesa conocer el nmero de grupos y sus propiedades sin importar su estructura de
clasificacin. Se recomienda para muestras grandes donde no se requiere una representacin grfica.
En general se define el nmero de grupos k, y se escogen aleatoriamente k puntos en el hiperplano, que
operan como estimaciones iniciales de los centroides de los grupos. Tambin pueden definirse los k casos
ms lejanos entre s como los centroides iniciales. Sucesivamente los casos son asignados al centroide ms
cercano. Los centroides son recalculados en funcin de los casos del grupo. Luego se optimiza la clasificacin
reasignando elementos y calculando nuevamente los centroides; la reasignacin se detiene cuando no se
puede mejorar la clasificacin.
Con esta tcnica solo es posible encontrar un ptimo local () no existe manera de saber si el ptimo
corresponde a la mejor solucin absoluta. Ntese que para descubrir la particin ptima de datos es
obligatorio realizar todas las particiones posibles.
Lo que se busca optimizar es la varianza entre (cluster) y dentro (error). El F es la (V entre)/(V dentro); lo
que interesa es que la primera sea grande, y la siguiente pequea, por tanto se busca un F grande. El proceso
se detiene cuando se encuentra un F as. En los resultados hay tantos F como nmeros de variables, a mayor F
es mayor su capacidad discriminatoria. Se deja la cantidad de grupos, donde la sumatoria de F es mayor. Por
ejemplo: si hay 4 grupos la sumatoria de F es 80, si hay 5 es 89, si hay 6 es 96, si hay 7 es 60; lo mejor sera
quedarse con los 6 grupos.
La tabla resultante incluye los elementos, los grupos de estos, y la distancia al centroide. El caso con la menor
distancia al centroide de su grupo es el ms caracterstico de este. Para interpretar las caractersticas de los
grupos, se cruzan la variable grupo, con las otras variables, y segn la cantidad de casos por casilla, se
caracterizan los grupos.
1 2 3
1 0 3 2
2 0 1
3 0
1 2,3
1 0
2,3 0


73
INFORME DE TIPOLOGAS
Se seala:
1. Variables (que discriminan)
2. Se usa la jerga propia (single linkage)
3. La medida de similaridad (tipo de distancia)
4. Establecer algoritmo,
5. Cuantos grupos, porque va se llego a ellos (etnograma o F).

VIGILANCIA EPISTEMOLGICA
Debe haber vigilancia epistemolgica pues en el cluster-anlisis el investigador toma decisiones (subjetivas)
que influyen en el resultado y por la relacin conflictiva que hay entre instrumento y observado. En toda
observacin hay una seleccin; se observa por categoras analticas que se eligieron para ello. Hay que
desmitificar el algoritmo como verdad prstina. Lo que diferencia los resultados de un investigador y el de
otro, es el anlisis sociolgico a partir de resultados. Aqu entra la distincin de la tcnica como ordenadora
de informacin y el investigador como ordenador de sentido.
Hay que considerar el Carcter intrnsecamente ateorico (estadsticamente) de tipologas (es automatismo), y
para buena utilizacin requiere buena dosis de teora por parte de investigador.; si no se llega a empirismo
ingenuo. En procedimientos ms tericos (Ej. Regresin), se pude confiar ms en resultado e interpretarlo sin
tanta carga terica.
VALIDACIN DE RESULTADOS
El coeficiente de correlacin cofentico se utiliza para evaluar el dendograma (procedimientos jerrquicos).
Para los de optimizacin se usan pruebas de significacin estadstica. Tambin se puede evaluar mediante la
replicacin con distintas muestras.
ANLISIS DISCRIMINANTE
Procedimientos usados para discriminar y clasificar, habiendo una variable dependiente cualitativa y ms
de una independiente cuantitativa. Permite determinar las variables independientes con mayor poder de
discriminacin. Busca responder a la pregunta: Qu variables explican mejor la pertenencia de los casos a
diferentes grupos? (p.66).
Tiene como propsito:
1. Habiendo grupos que ya existen (ejemplo derecha, izquierda y centro), se trata de establecer
cules son las variables que discriminan sobre la pertenencia a un grupo. Por ejemplo: establecer cmo se
combinan variables independientes para ser de centro, izquierda o derecha.
2. Reclasificar segn las variables independientes (no lo que dice la persona, si no lo que es segn
variable). Permite evaluar el modelo (si tericamente coincide lo original. Se ve si el modelo est funcionando


74
(validez). Sucede tambin que hay alguien que no es de ningn grupo (NS/NR), y el modelo permite
reclasificarlo y ponerlo en un grupo. Es til para el tema del voto blanco.

CONDICIONES DE APLICACIN
1. Dos o ms grupos excluyentes. Pueden haber casos no clasificados en ninguno de ellos, que pueda
clasificarse a posteriori.
2. La variable dependiente debe ser nominal. Las variables independientes son de intervalo o razn
(numricas).
3. Mnimo de 2 casos por grupo.
4. Un conjunto de variables independientes con capacidad discriminatoria (definido tericamente).
5. Las variables no deben estar relacionadas; ninguna debe ser una combinacin lineal de otras, ni
debe haber multicolinealidad (coeficiente correlacin superior a 0,8).
6. Homogeneidad de varianzas y covarianzas: La matriz de varianzas y covarianzas de la variable
independiente debe ser similar en los distintos grupos segn VD (la diagonal de la matriz de
varianzas es la covarianza). Las varianzas deben ser similares y pequeas, debe evitarse el
solapamiento entre los valores de diferentes grupos. Segn Tabachnik y Fidell, hay robustez respecto
a la violacin de este supuesto.
7. Las variables independientes deben distribuirse segn la ley normal multivariable tal que la VI en
un grupo segn VD se distribuya normalmente. Ejemplo en la derecha el ingreso se distribuya
normalmente, y as en los diferentes grupos. Esto porque para evaluar la significacin de la funcin
discriminante se considera el chi cuadrado, que es derivacin de la curva normal. Nuevamente dichos
autores consideran que la violacin de este supuesto no invalida la aplicacin del anlisis.
ORDENAMIENTO DE INFORMACIN
En la base de datos la informacin es ordenada a partir un dispositivo inventado, esto es las funciones
discriminantes. "Del desorden surge el orden" el orden odontolgico, no existe en s mismo, todo orden tiene
fecha de caducidad. Hay complementariedad y antagonismo entre orden y desorden. Moran: orden y
desorden por separado son metafsicos, juntos son fsicos.
FUNCIONES DISCRIMINANTES
Corresponden a ejes, variables y ecuaciones.
- Ecuacin: Las funciones discriminantes son combinaciones lineales de las variables incluidas en el
modelo. Hay G-1 funciones, siendo G el nmero de grupos. Las funciones estn compuestas de
coeficientes y de variables. F1= a + bx1+b2x2
- Eje: Si se tiene una funcin discriminante
hay dos grupos, si son 3 grupos hay un plano
con funciones. Los ejes generan planos o
hiperplanos. Desde el punto de vista
grafico-espacial las funciones son ejes. El
individuo se posiciona segn los valores que asume en las funciones.


75
- Variable: las funciones son variables latentes. Con variables originales no se puede trabajar porque
estn relacionadas entre s, por eso se usan funciones discriminantes, variables inventadas e
independientes entre s.
La 1 funcin es la de mayor poder discriminatorio, seguida por la 2, y as sucesivamente. An as, no todas
las funciones se incluyen en la solucin. Las funciones discriminantes son independientes entre s () la
segunda funcin es independiente de la anterior y opera sobre informacin no considerada por la primera
(p.70).
CALCULO DE LAS FUNCI ONES DISCRIMINANTES
Corresponden a la frmula: Fi= B
0
+b
1
X
1
+b
2
X
2
++b
k
X
k,
donde b corresponde a los coeficientes, y x a las
variables. La lgica es la de maximizar la diferencia de medias entre grupos y minimizar la dispersin en cada
grupo; lo que corresponde a maximizar el cociente de discriminacin (o de discriminalidad): varianza entre
grupos / varianza dentro de los grupos.
Los coeficientes de la funcin discriminante se obtienen a partir de las matrices de varianza entre grupos y
de varianza dentro de los grupos. La matriz total, corresponde a la suma de la matriz entre y la matriz dentro.
A partir de la discriminalidad se puede obtener los autovalores, que indican el porcentaje de discriminacin
explicada para la funcin y los autovectores que son los coeficientes de la funcin; con la propiedad de
maximizar en cociente entre/dentro.
La primera funcin se calcula buscando que explique al mayor informacin (varianza) posible. La segunda
tratando de explicarlo mximo posible, sin considerar lo ya explicado por lo anterior. Hay un porcentaje de
informacin explicada (varianza explicada) por funcin, cada vez explica menos. Entre todos explican el
100% de informacin disponible.
INDICADORES DE LA IMPORTANCIA DE LAS FUNCIONES
Para decidir cuntas funciones sern relevantes; el indicador ms habitual es el Valor propio o lambda de
wilks o bien el estadstico U.
VALOR PROPIO ()
Resulta del cuociente entre la suma de cuadrados entre grupos y la suma de cuadrados dentro de grupos
(varianza explicada y no explicada). Tiene un origen diferente a F, se genera diagonalizando la matriz de
varianza y covarianza.
Permite evaluar la capacidad discriminatoria de las funciones, siendo valores altos ante mayor capacidad
discriminatoria (implica que la dispersin entre centroides de los grupos es superior a la dispersin de los
casos dentro de los grupos). Para conocer la importancia relativa de la funcin se divide su autovalor por la
sumatoria de autovalores, interpretndose como un porcentaje.
Los autovalores son jerrquicos, de manera que es mayor en la 1 funcin. Para determinar cuntas funciones
se incluyen en la solucin hay que definir hasta qu valor de lambda se acepta en la solucin.


76
ESTADSTICO U O LAMDA DE WILKS
Se utiliza para realizar una prueba de significacin estadstica que permita contrastar la hiptesis nula de no
diferencia entre los centroides de grupos en la poblacin () corresponde a la proporcin de variacin total en
las puntuaciones discriminantes que no es explicada por la diferencia entre grupos (p.74).
La lambda de wilks da 1 cuando la funcin tiene capacidad discriminatoria y 0 cuando no la tiene.
A travs del lambda de wilks se puede evaluar la significacin. Si la funcin no es significativa no debe
utilizarse. El Lamda de Wilks: incluyen en la frmula el auto valor; da valores entre cero y uno. Si es 0
discrimina mucho, si es uno no discrimina nada. Hay un lamda de Wilks para el modelo (residuo
discriminante) y para cada variable. El residuo discriminante es la divisin o descomposicin de la informacin
total en diferentes funciones.
Residuo?
2
Sign.
1-2 0 0,1 80 0
1 1 0,8 4 0,4
En el primer el lamda es menor, el chi cuadrado es mayor, y es significativo (menor que 0,05). La
interpretacin, es que al tener 2 funciones se genera un modelo que discrimina, pero si se le saca la ms
importante, queda con un residuo, que no alcanza a discriminar.
INTERPRETACIN DE LA FUNCIN DISCRIMINANTE
A) COEFICIENTES DE LA FUNCIN DISCRIMINANTE
Se usan como indicadores de la relevancia de las variables en la funcin, sin embargo no consideran en forma
aislada a cada variable manifestndose la multicolinealidad. El coeficiente original depende de la unidad de
medida.
Los estandarizados son comnmente usados para calcular las puntuaciones discriminantes. Adems permiten
conocer la contribucin relativa de una variable a una funcin discriminante, interpretndose a modo de un
coeficiente de correlacin, donde valores altos implican mayor contribucin de la variable.
B) COEFICIENTES DE CORRELACIN ENTRE FUNCIN DISCRIMINANTE Y VARIABLE
Permiten definir la importancia de las variables en la funcin. El procedimiento consiste en calcular la
correlacin de Pearson considerando para cada caso la puntuacin en la variable y en la funcin. Dos tipos de
coeficientes es posible obtener: estructurales e intragrupos. Los coeficientes estructurales miden en el total de
la muestra la correlacin entre cada funcin y cada variable. Los coeficientes intra grupo miden dentro de cada
grupo la relacin entre funcin y variable (p.75).
Los coeficientes estructurales se interpretan como un R de Pearson; cuando es 1 indica que la variable y la
funcin tienen la misma informacin.



77
C) CORRELACIN CANNICA
Sirve para conocer las relaciones de las funciones y los grupos. Se calcula el coeficiente de correlacin
cannico que mide la asociacin entre dos conjuntos de variables (p.67): la variable dependiente (grupos) y
las funciones discriminantes.1 indica alta relacin; 0, nula. corresponde a la proporcin de la dispersin total
explicada por la dispersin entre grupos(p.76).
INTERPRETACIN ESPACIAL
Las funciones discriminantes corresponden a ejes de un hiperplano, donde se maximiza la distancia entre
centroides de los grupos y minimiza la distancia entre los puntos de cada grupo y su centroide. En el
hiperplano de las funciones discriminantes la dispersin entre grupos se mide segn la dispersin entre
centroides y la dispersin dentro del grupo segn la distancia de los puntos al centroide (p.70)
Siendo las primeras funciones las ms importantes, la representacin con estos dos ejes es bastante
ilustrativa.
El espacio de funciones discriminantes se genera porque los individuos tienen puntuaciones discriminantes.
Ese espacio es artificial, pues los ejes son construcciones artificiales - de variables no medidas- (y de distinta
importancia).
CLCULO DE LAS PUNTUACIONES DISCRIMINANTES
Para dar cuenta de la distribucin espacial de los puntos hay que conocer la puntuacin discriminante para
cada caso, que se obtiene resolviendo la ecuacin de la funcin. Analizar la posicin de cada caso tiene
sentido cuando son pocos casos (y por tanto la grfica es interpretable) o cuando se quiere conocer a los
casos mal clasificados. Ms importante es analizar a los centroides de los grupos.
VARIABLES A INCLUIR EN EL MODELO
Solo debiesen incluirse las variables que satisfagan ciertas condiciones. En base a la teora y buscando
parsinomia se seleccionan las variables. Hay 3 mecanismos de seleccin:
1. Forward: comienza incluyendo la variable de mayor poder discriminatorio, evaluando sucesivamente
cada variable; se detiene cuando las variable son incluidas no aportan informacin de inters.
2. Backward: comienza con todas las variables incluidas, eliminndose aquellas que no aportan
informacin, detenindose cuando la eliminacin restara informacin relevante.
3. Stepwise: se incluyen de forma sucesiva variables, entrando y saliendo hasta lograr una combinacin
ptima.
TOLERANCIA
La prueba de la tolerancia se realiza para detectar variables que son combinacin lineal de variables
previamente incorporadas en el modelo (p.80); el valor 0 indica combinacin lineal, el valor 1 indica que la
variable es independiente a la informacin aportada por las dems.


78
La frmula corresponde a: T = 1 r
2
X
1
. X
p
. Esto indica que la tolerancia corresponde a la diferencia de 1 con
la proporcin de varianza explicada; si la varianza explicada es 0,9, la tolerancia ser 0,1.
F DE FISHER SNEDECOR
Hay un F de ingreso y salida del modelo.
a) F de ingreso: es una prueba de significacin para evaluar la relevancia de la informacin aportada
por la nueva variable () si el valor F es pequeo no interesa ingresar la nueva variable(p.81).
b) F de salida: evala la significacin del decremento en la discriminacin si una variable se retira del
modelo () la variable con el mayor F de salida es la ms importante (p.81).
CLASIFICACIN
Corresponde al 2 propsito del anlisis discriminante reclasificar los casos, permitiendo evaluar la validez del
modelo en funcin de los casos correctamente clasificados. Tambin sirve para clasificar a casos que no
estaban clasificados inicialmente.
Los distintos procesos de clasificacin suelen basarse en la nocin de distancia, considerando la proximidad
del caso al centroide de cada grupo. La clasificacin puede hacerse en base a las variables o las puntuaciones
discriminantes no defiriendo los resultados.
CLASIFICACIN MEDIANTE FUNCIONES DE CLASIFICACIN
Para cada grupo se calcula una funcin y los casos son clasificados en el grupo con mayor puntuacin en la
funcin de clasificacin. () la funcin de discriminacin es una combinacin lineal de las variables
discriminantes (p.77). Se distinguen las funciones de clasificacin simples de las de distancia generalizadas en
tanto las ltimas se usan cuando las variables corresponden a distintas unidades de medida.
CLASIFICACIN MEDIANTE REGLA DE BAYES
Consiste en la asignacin de casos a grupos en trminos de probabilidades. A partir de las puntuaciones
obtenidas en las funciones discriminantes, se calcula la probabilidad de pertenencia de cada caso a cada
grupo, asignando el caso al de mayor probabilidad.
TEOREMA DE LA PROBABILIDAD TOTAL
Dado un evento A (circulo) y la siguiente particin del espacio muestral:
La probabilidad del evento A, corresponde a la sumatoria del evento A
dado Bi por la probabilidad de Bi. P(A)=
La probabilidad del evento A, corresponde a la suma de: la probabilidad
de A, dado B1 por la probabilidad de B1; la probabilidad de A dado B2
por la probabilidad de B2 y la probabilidad de A, dado B3 por la probabilidad de B3. AP(A)= P(A/B1) P(B1) +
P(A/B2) P (B2) + P (A/B3) P (B3).
B1 B3

B2


79
Ejemplo:
A = Hay abejas; B1= Flores Rojas, B2= Flores Blancas; B3= Flores azules.
Flor Roja (B1) Blanca (B2) Azul (B3) Total
Sin abeja ( 10 1 2 13
Con Abeja (A) 20 15 20 55
total 30 16 22 68
P(A)=


TEOREMA DE BAYES
Dada la misma particin y evento, la probabilidad de Bi dado A, equivale al cuociente entre la probabilidad de
A dado Bi por la probabilidad de Bi y la sumatoria de la probabilidad de A dada Bj por la Probabilidad de Bj.
P(Bi/A)=

.
En el ejemplo sera: La probabilidad de que sea una flor roja, siendo una flor con abeja corresponde al
cuociente entre: la probabilidad de que haya una abeja, dada una flor roja, por la probabilidad de que haya
una flor roja y la probabilidad de que haya una abeja, dada una flor roja por la probabilidad de una flor roja,
ms la probabilidad de que haya una abeja, dada una flor blanca, por la probabilidad de una flor blanca, mas
la probabilidad de que haya una abeja, dada una flor azul, por la probabilidad de una flor azul.
MATRIZ DE CLASIFICACIN
Esta permite conocer el porcentaje de casos correctamente clasificados en cada grupo. Sirve de indicador de
la calidad de la clasificacin.
EFICACIA DE LA CLASI FICACIN
Para analizar esta se debe comparar si la prediccin realizada a partir de las funciones discriminantes es mejor
que la realizada por el azar. El coeficiente Kappa de concordancia sirve para ello.
Grupo 1 Grupo 2
Clasificados en Grupo 1 a b a + b
Clasificados en Grupo 2 c d c +d
a + c b + d N = a +b +c +d
Dada la tabla anterior los casilleros a y d corresponden a los casos correctamente clasificados, mientras que b
y c a los incorrectamente. La cantidad esperada para cada casillero corresponde a la multiplicacin de los
marginales correspondientes dividido en N; por ejemplo la cantidad esperada en el casillero a: corresponde a:

. El coeficiente Kappa corresponde a


, donde E(a) y E(d) corresponden a los valores


esperados para a y d respectivamente. Estos indicaran cuantos casos quedaran en dicha casilla en una
clasificacin realizada al azar, permitiendo el coeficiente kappa dar cuenta de cun lejos del azar se encuentra
la clasificacin realizada segn las funciones discriminantes, de modo que valores cercanos a 1 indicaran que
el modelo mejora sustancialmente la clasificacin respecto al azar.


80
ANLISIS FACTORIAL
Tcnica que busca, a partir de ciertas variables observadas y de la informacin solapada en la matriz de
correlaciones; reducir la informacin a dimensiones subyacentes (factores). La pregunta es cmo descubrir
dimensiones subyacentes a esta matriz. El objetivo es organizar informacin a partir del hecho de que hay
relacin entre variables.
Los factores son una combinacin lineal de variables y permiten identificar las dimensiones subyacentes a
una matriz de correlaciones. Condicin necesaria para generar factores es que las variables se encuentren
relacionadas entre s relacin en el sentido medido por el coeficiente r de Pearson (p.93).
Es una Tcnica de interdependencia. Aqu no hay variables independientes: se estudia la relacin entre una
serie de variables dependientes.
APLICACIONES DEL ANLISIS FACTORIAL
Hay varias aplicaciones:
- Estudio de estructura de relaciones, estudios de independencia y de bsqueda de patrones
- Simplificacin y reduccin de datos
- Clasificacin: generar tipologas a partir de variables latentes
- Evaluar instrumentos de medida (escalas con preguntas de una misma dimensin)
- Transformacin de datos: las puntuaciones factoriales pueden usarse como informacin original para
otros anlisis multivariables que requieran independencia de variables (los factores son
independientes entre s).
- Parsimonia: mantener la mayor informacin posible, en menos variables.
- Mapeo: establecimiento de conceptos principales en un rea de conocimiento (p.95)
TIPOS DE ANLISIS FACTORIAL
Tipo de investigacin

Exploratoria Confirmatoria
Para conocer la estructura de relaciones en un
conjunto de variables (p.94) y a partir de all
generar hiptesis.
Para contrastar hiptesis respecto a las dimensiones
que subyacen.
Elemento que define el hiperplano

Anlisis R Anlisis Q
Busca p factores en el hiperplano formado por un
conjunto k de variables originales (p<k)(p.95)
Consiste en buscas p factores en el hiperplano
formado por n casos (p<n)(p.95)
Procedimiento de extraccin de factores

Anlisis factorial clsico Anlisis de componentes principales
Buscan maximizar la varianza extrada por las nuevas variables factores o componentes- de las variables
originales- Ntese que mientras mayor sea la varianza extrada ms informacin es mantenida en las


81
nuevas variables, y en consecuencia, mejor es la solucin (p.96)
Considera solo lo que tienen en comn las variables
originales (comunalidades), y no lo especfico de
ellas. Resumen la informacin comn.
Busca extraer la mayor varianza de las variables
originales considerando tanto lo comn como lo
especfico (toda la varianza). Es un resumen
emprico de la informacin disponible(p.96)
FACTORES
Un factor es un eje, una variable y una ecuacin. Hay que hacer diferencia entre espacio de las variables y de
los factores. Hay tantos factores como variables. Los factores son independientes entre s, la informacin que
est asociada al primero e independiente es el segundo. Los factores son jerrquicos, segn la informacin
asoci a ellos. Se puede proyectar puntos sobre un factor.
Los puntos se proyectan en los factores; aquellos factores donde se proyectan
ms puntos, se conserva ms informacin. En el dibujo el factor dos permite
la proyeccin del 90% de los puntos. Mientras que respecto al factor uno muy
poco se proyecta.
Mantener la informacin se relaciona con la varianza, el factor dos tiene
mayor varianza que factor uno, por tanto en mayor proyeccin de puntos. El
factor 2 es ms importante. El anlisis factorial permite discernir cules son
los factores ms importantes, pueden entrar a la solucin factorial. Esto ser segn la matriz de
saturaciones.
Debieran entrar a la solucin factorial los factores que tengan un auto valor mayor que uno. Eso se vincula
con la informacin asociada a ese factor. La informacin tiene que ver con la varianza, si la varianzas menor
que uno no tiene sentido ingresar las porque posee poca informacin. En el anlisis factorial son
descubiertos, exista previo a este.
EXTRACCIN DE FACTORES Y COMPONENTES
El origen del algoritmo es la matriz de correlaciones, y el resultado son las variables latentes. La varianza
presente en una variable se descompone en comunalidad (variacin que tienen en comn las variables
(p.97)) y la especificidad (variacin especfica de la variable; corresponde a la unicidad (varianza no
compartida por la variable y al error (parte de la especificidad que es aleatoria). Entre dos variables
correlacionadas la comunalidad ser elevada y la especificidad ser el componente diferenciador, entre ellas
(p.97).
Calcular la comunalidad es necesario para extraer factores, generalmente se hace utilizando el cuadrado del
coeficiente de determinacin mltiple, valor que reemplazar la diagonal en la matriz de correlaciones, donde
se expresaba la relacin de una variable consigo misma. La suma de los valores de la diagonal de la matriz de
correlaciones indica la proporcin de la varianza de las variables originales que se mantiene en las nuevas
variables. La variacin a mantener en el anlisis factorial es menor o igual al nmero de variables la
comunalidad asume valores entre cero y uno. Cada variable contribuye con la comunalidad a la variacin total
() En anlisis de componentes principales la diagonal de la matriz de correlacin es uno y la variacin a
mantener es igual al nmero de variables (p.98).


82
Con ambas tcnicas, el n de variables latentes es igual al de las variables originales, pero al ser estas
jerrquicas (tener la 1 ms informacin que la 2 y as sucesivamente), se puede reducir la cantidad de
variables, manteniendo la mayor parte de la informacin.
La expresin matemtica de factores o componentes corresponde a: F
j
=W
1
X
1
+W
2
X
2
++W
k
X
k
, donde F
j

corresponde al factor / componente, W
k
son los coeficientes del modelo y X
k
las variables originales.
CONDICIONES DE APLICACIN
- Variables de intervalo o razn; eventualmente dicotmicas (discutible). Esto pues se calcula las
correlaciones mediante el r de Pearson.
- Muestras grandes para obtener resultados fiables. Comrey recomienda sobre 300 casos y Tabachnik
y Fidell consideran que entre 100 y 200 es igualmente bueno, si no existen demasiadas variables y los
valores de los casos son relativamente homogneos.
- Variables correlacionadas entre s. Se recomienda correlacin superior a 0,3.
- Ausencia de Singularidad y Multicolinealidad para la extraccin de factores (no as para componentes
principales ya que no requieren invertir la matriz). El determinante de la matriz de correlaciones de
ser diferente a cero.
- Sin muchos valores ausentes ni aberrantes en las variables de entrada. Los valores aberrantes de
salida se recomienda eliminarlos cuando sirven como
variables de ingreso de otras tcnicas multivariables.
EL MODELO EN TRMINOS GRFICOS
Las dimensiones subyacentes deben conservar la mxima
informacin / varianza posible. Grficamente la mantencin
de la informacin original se expresa haciendo que las
proyecciones de la nube de puntos formada por las
observaciones sobre los nuevos ejes sea la mejor, de modo que
a mayora de los puntos originales sean reproducidos en el
hiperplano de menor dimensin formado por los nuevos ejes. Se trata de que la distorsin de la nube de puntos
sea mnima. Es decir, que la distancia entre los puntos originales y los puntos en su nueva representacin sea
mnima.(p.100).
En la imagen, el F1 mantiene mejor la nube de puntos generada por las variables originales que el F2.
ETAPAS EN ANLISIS FACTORIAL
1. Seleccin de una muestra representativa y numerosa. Deben haber casos suficientes para asegurar la
fiabilidad, y un n de variables (de intervalo, razn o dicotmicas) apropiado, se recomienda que para
cada factor de la solucin hayan 4 variables de las originales.
2. Calcular la matriz de correlaciones de Pearson; donde se da cuenta de las variables cruzadas con las
variables. Si las correlaciones son bajas no sirve hacer un anlisis factorial.
3. Elegir el procedimiento de extraccin de factores (Anlisis Factorial, comnmente extrae factores
mediante la factorizacin ejes principales, o bien, Anlisis de Componentes Principales).


83
4. Para el caso de Anlisis factorial, calcular las comunalidades, mediante el coeficiente de correlacin
mltiple (hay otros mtodos, pero este recomienda Rummel).
5. Determinar el nmero de factores de la solucin. Kaiser recomienda no considerar a aquellos cuya
varianza sea menor 1, pues explicaran menos de la variacin, que una de las variables originales.
6. Calcular la matriz de saturacin y Rotar los ejes factoriales. Cuando la solucin obtenida no es fcil de
interpretar se giran los ejes. Esta operacin matemtica permite mantener la solucin optimizando la
distribucin de las comunalidades, facilitando la interpretacin.
7. Calcular las puntuaciones factoriales. Esto sirve cuando los factores sern variables a usar en nuevas
tcnicas o anlisis.
8. Identificar los factores. Las variables latentes son nombradas en funcin de las variables originales
con que se relacionan.
MATRIZ DE SATURACIONES
La matriz de correlaciones es el origen de los algoritmos de clculo, y una de las resultantes es la matriz de
saturaciones, que es una matriz de correlaciones resumidas entre los factores (columnas) y variables (filas).
Esta se analiza solo considerando los factores que se usarn en la solucin.
A cada uno de los coeficientes de la matriz se le denomina peso o saturacin y va entre 0 y 1; estos miden la
relacin entre cada factor y cada variable. Las variables con saturaciones altas (en trminos absolutos) estn
asociadas con los factores.
Se le denomina valor propio o eigenvalue a la suma de los elementos columna al cuadrado y se representa
con la letra griega lamda (). Ntese que en virtud de la obtencin jerrquica de los factores el primero de
estos tendr asociado el valor propio mayor (), es el que ms explica la dispersin de las variables (p.103).

i
= a
2
1i
+a
2
2i
++a
2
ji
, donde
i
es el valor propio del factor i, a
j1
es el peso/saturacin de la variable jota en el
factor i
El nmero mximo de pesos es uno y corresponde a una variable cuya variabilidad es explicada totalmente
por un factor. El nmero mnimo es cero e indica que la variable no tiene relacin con el factor (p.103). Si el
valor propio correspondiese al nmero de variables, este sera el nico factor, que explicara toda la
variabilidad de las variables; si todos los factores tuviesen igual auto valor, como hay tantos factores como
variables, este sera 1, com slo se consideran los que tiene un auto valor mayor que uno, ningn factor sera
relevante: cada factor tiene tanta informacin como la variable, por tanto no descubren nada.
La comunalidad corresponde en la matriz de saturaciones a la suma de los elementos fila al cuadrado, y se le
denomina con la letra h. Este corresponde a la varianza de la variable explicada por el conjunto de factores
considerados; cuando se acerca a 1 es que parte importante de la dispersin de la variable es explicada por los
factores, sucediendo lo contrario cuando esta es 1.
h
j
= a
2
1i
+a
2
2i
++a
2
ji
, donde h
j
es la comunalidad de la variable j y a
j1
es el peso de la variable j en el factor i.
EJEMPLO: Siendo el lamda del F1: 8, y el de f2: 7.
F1 F2
Castellano 0,8* 0,1
Historia 0,9* 0,1


84
La comunalidad se puede calcular como la sumatoria de (x1)
2
(fila), por
ejemplo 0,8 elevado a 2 por ,1 elevado a dos, da la comunalidad para
castellano. La sumatoria de los pesos o saturacin al cuadrado
(columna) genera el lambda.
ROTACIN
Una buena solucin factorial es simple y fcil de interpretar. Una variable compleja es aquella que se asocia
fuertemente al menos dos factores, tiene alta con una comunalidad. La solucin a esto es usar una
estructura factorial simple. Esta se logra mediante la rotacin de factores. En el espacio factorial pueden
presentarse infinitos sistemas de referencia y algunos sern ms interpretables que otros (p.104), la rotacin
permite mejorar la interpretacin, manteniendo las propiedades matemticas de la solucin.
Al rotar se mantiene el n de factores y la comunalidad de cada variable, puesto que no se modifica la varianza
explicada por el factor.
La solucin es fcil de interpretar cuando:
- Cada factor se asocia a saturaciones cercanas a 0 o a 1
- Cada variable se asocia con 1 solo factor
- Dos factores no presentan pesos elevados o bajos en las mismas variables.

EJEMPLO:
La primera tabla al ser rotada queda como la segunda.
La primera tabla es difcil
de interpretar, al ser
rotada, queda como la segunda, facilitando al
interpretacin.
PROCEDIMIENTOS DE ROTACIN
Hay diversos, las dos opciones bsicas son:
- Rotacin oblicua: los ejes estn relacionados entre s, los factores forman ngulos inferiores a 90
- Rotacin ortogonal: los ejes son independientes entre s, los factores forman un ngulo de 90
o Rotacin Varimax: busca maximizar las varianzas de los factores; la columna (factor) de la
matriz rotada presentar valores especialmente altos y bajos.
o Rotacin Quartimax: busca maximizar la varianza que el conjunto de factores explica en
cada variable; la fila (variable) de la matriz rotada presentar valores especialmente altos y
bajos.
o Rotacin Equimax: busca maximizar la dispersin de las saturaciones en las variables y los
factores. Es una mezcla de las 2 anteriores.


Gimnasia 0,1 0,2
Fisica 0,1 0,9*
Quimica 0,1 0,9*
F1 F2
V1 0,7 -0,19
V2 0,05 -0,63
V3 0,98 -0,02
V4 0,02 0,84
F1 F2
V1 0,5 0,5
V2 0,5 -0,4
V3 0,7 0,7
V4 -0,6 0,6


85
PUNTUACIONES FACTORI ALES
Estas dan cuenta de qu valor obtendra el sujeto en el factor si este fuse medido directamente. No son
interesantes de analizar por s mismas, pero sirve de insumo para otras tcnicas que requieran variables
independientes, como lo son los factores en el caso del Anlisis de componentes principales
2
. Cada
puntuacin factorial corresponde a una combinacin lineal de los coeficientes de la matriz y las puntuaciones
de las variables originales (p.107).
REPRODUCCIN DE LA MATRIZ DE CORRELACIONES
El modelo en Anlisis de componentes principales puede ser evaluado en calidad reproduciendo la matriz de
correlaciones original y comparando la observada con la terica. Reducir dimensiones implica reducir
informacin, por lo que el coeficiente de correlacin del modelo diferir del original; an as, a menor
diferencia mejor es la solucin en tanto mantiene la mayor informacin posible.
La correlacin se obtiene de la sumatoria de las saturaciones de los factores de la solucin, mientras que la
correlacin terica corresponde a: r
ij
= r
1i
r
1j
+ r
2i
r
2j
++ r
ki
r
kj,
donde k es el nmero de factores comunes y r
ij
es
la correlacin entre la variable i y la variable j. Mientras ms informacin explique el factor, ms pequea ser
la diferencia entre la correlacin de pearson real y terica.
INFORME DEL ANLISIS
Debe presentar:
1. Objetivo de la aplicacin de factorial, explorar, confirmar, etctera.
2. Tipo de variables, construidas por uno o existentes.
3. Tipos de datos: primarios o secundarios.
4. Correlaciones.
5. Procedimientos de extraccin de factores, y justificacin de la forma para hacerlo.
6. comunalidades, como la calculan.
7. Rotacin, tipo y por qu.
8. Estudio de matriz saturacin, nmero factores que ingresan e importancia.
9. Nmero factores con auto valor mayor que uno, y sustantivo.
10. Porcentaje informacin asociada a explicacin.
11. Darle sentido los factores.
12. Puntuaciones factoriales, si son de gusano para un segundo anlisis.
13. Evaluacin del modelo, correlaciones observadas y tericas. Si stas se parecen o no. Como son los
residuos.
14. Evaluar el significado y sentido que se le atribuye los factores.
ANLISIS DE CORRESPONDENCIAS
Es una tcnica de reduccin de dimensiones; busca representar grficamente la estructura de relaciones de
dos o ms variables cualitativas (nominales u ordinales). Su objetivo es situar las distintas categoras de los
datos en un plano cartesiano y estudiar como las tablas de datos se organizan alrededor de los centros de

2
Los factores en Anlisis Factorial Tradicional, estn relacionados entre s.


86
gravedad (p.121). Esta tcnica puede entenderse como un anlisis factorial a partir de tablas de
contingencia. Tampoco tiene variable dependiente.
Clsicamente las asociaciones entre dos variables se analizan mediante tablas de contingencia y chi cuadrado;
pero esto no permite operar con ms de 3 variables, ni sacar conclusiones sobre las relaciones entre
categoras de variables, ni evaluar el sentido de las relaciones, adems de verse afectado por el tamao de la
muestra. El anlisis de correspondencia permite superar estas limitaciones, para lo cual genera mapas
perceptuales.
Generar un mapa perceptual implica operaciones complejas: esto es, cuantificar las categoras y generar un
sistema de referencia (ejes y origen), esto es, informacin analgica.
ANLISIS DE CORRESPONDENCIAS SIMPLES
Solo considera 2 variables, permitiendo analizar la relacin entre variables, entre categoras de cada variable y
entre las categoras de ambas.
El objetivo es estudiar la relacin entre variables segn las distancias en puntos representados en un plano.
Las categoras fila y columna asumen valores numricos segn los cuales figuran como puntos en un mapa de
posicionamiento () Las categoras de las variables se representan como puntos y las distancias entre los
puntos sern indicadoras de intensidad de relacin. En particular, puntos cercanos implican relacin y puntos
lejanos no relacin (p.123-124).
TABLA DE CONTINGENCI A
En el anlisis de correspondencias simples, la correspondencia entre variables se mide a travs de las
frecuencias. En la tabla de contingencia las filas y columnas corresponden a categoras de variable, mientras
que las casillas poseen las frecuencias de los cruces entre dichas categoras.
A partir de esta se puede definir una tabla de frecuencias relativas. La frecuencia relativa equivale a la divisin
de la frecuencia de la casilla en la frecuencia marginal correspondiente. A partir de las frecuencias relativas se
establecen coordenadas de puntos, donde los puntos corresponden a las categoras.
PERFIL FILA
Corresponde a las frecuencias relativas de una fila. El perfil fila expresara numricamente la categora de una
variable. Se puede elaborar una tabla de perfiles filas, sealando en las casillas las frecuencias relativas en
funcin del marginal fila.
Perfiles fila similares darn lugar a puntos cercanos; si son iguales ocuparn el mismo punto en el mapa
perceptual.
GRFICOS
Los programas computacionales y la tcnica permiten generar un grfico de 3 dimensiones y uno plano. Este
ltimo es ms fcil de interpretar. En ambos casos los ejes asumen el mismo rango que las frecuencias relativa
(entre 0 y 1).


87
DISTANCIA DE BENZECRI
El clculo de las distancias entre los puntos se realiza usando una variacin de la frmula de chi cuadrado
conocida como distancia e Benzecri. Recurdese que la frmula de chi cuadrado considera la sumatoria de la
diferencia entre frecuencias observadas y esperadas al cuadrado. La distancia de benzecri opera con la
sumatoria de la diferencia de las frecue3ncias relativas de cada fila respecto al centroide del perfil fila. Se
denomina centroide de un perfil fila al promedio de las frecuencias relativas de la fila (p.127).
La distancia de Benzecri corresponde a: B
j
=

, donde f
ij
es la frecuencia relativa y C
i
el centroide.
MAPA PERCEPTUAL
Corresponde a una representacin grfica plana de 2 ejes de coordenadas; para lo cual se define el origen de
dicho plano como el centroide de la nube de puntos. El centroide corresponde a la media de la nube de
puntos (p.128). Los ejes se eligen buscando optimizar la solucin de modo que explique de la mejor forma la
dispersin de los puntos, medida mediante la inercia. la inercia es una medida de dispersin de las categoras
de las variables () indica la dispersin de los puntos respecto al punto de referencia. La inercia total permite
evaluar la dispersin de la nube respecto al centroide general. La frmula matemtica () corresponde a la
suma ponderada de todas las distancias al centroide dividida por el nmero de puntos (p.128)
I =

, donde B
i
corresponde a la distancia de Benzecri (frmula anterior) y N es el nmero de puntos.
Los ejes se obtienen jerrquicamente, segn la inercia asociada a c/u; el primero explica ms que el segundo y
as sucesivamente. Cada eje busca maximizar la inercia no explicada por los dems, por tanto son ortogonales
e independientes entre s.
La cantidad de ejes a obtener corresponde al mnimo de categoras fila o columna, menos 1; pero para la
solucin suelen usarse los 2 principales. Para ubicar a las categoras en el mapa, las coordenadas se obtienen a
partir de los perfiles fila, pero no corresponden a estos.
Los posibles sistemas de referencia a usar son infinitos, pero se elige el que permita una ptima proyeccin de
los puntos sobres los ejes. Las etapas para construir un sistema de referencias son:
a) Clculo de perfiles fila
b) Nube de puntos de perfiles fila en espacio eucldeo
c) Clculo de baricentro de nube de puntos
d) Definicin de ejes ortogonales que pasen por dicho punto
e) Clculo de la inercia y descomposicin de esta en los ejes
f) Identificar los ejes que maximizan la inercia.
Los ejes del sistema de referencia son los factores, calculados mediante el mismo procedimiento que en el
anlisis factorial clsico: la diagonalizacin de la matriz de inercia ya no de varianzas y covarianzas- permite
obtener valores propios que indicaran la importancia de cada factor (p.129)
METFORA ANALGICA DE LA TABLA
1. Es posible representar la informacin de la tabla (nmero) en un espacio eucldeo.


88
2. El traslado del nmero (tabla) al mapa se sustenta en que es posible establecer un nuevo sistema
de referencia de ah que se pretende pasar de lo digital halo analgico.
3. Es posible representar una nube de puntos como inercia de informacin disponible. La inercia hace
referencia a la varianza. Se puede calcular la distancia total (distancia de puntos al baricentro), si
no hay inercia todos los puntos estaran en este, no hay dispersin. La inercia es una variante de la
nocin de informacin. Esta se puede representar en trminos de nubes de puntos. La inercia se
puede distribuir en cada uno de los ejes (indican su importancia relativa) se puede descomponer.
4. Es posible generar un sistema de referencia: hay ejes, baricentro y coordenadas. Sistema vectorial
eucldeo.
5. Los ejes se eligen para generar el mejor sistema de referencia. Este es aquel que da lugar a una
mejor proyeccin de la nuve puntos (que maximice la inercia, que contenga ms informacin.)
6. La representacin factorial de la nube de puntos conserva la inercia. Si se verifica la distancia entre
los puntos en el espacio vectorial, en el mejor espacio se conserva la inercia total.
7. Complementario a la representacin analgica hay nmeros para evaluar la calidad de la solucin
grfica.
8. El objetivo del mapa perceptual es:
o Analizar toda la informacin contenida en la tabla de contingencia (categoras v1 x
categoras v2). De la informacin bruta (base de datos), se pasa a la resumida (tabla de
contingencia), y de sta se pasa al informacin interpretable (mapas).
o Representar grficamente las estructuras de relacin de la tabla.
o Producir informacin analtica (coeficientes) para comprender mejor el mapa.
NORMALIZACIN
La normalizacin se realiza para distribuir la inercia a travs de filas, columnas o ambas simultneamente
(p.130), segn la importancia analtica de las variables. La Inercia corresponde al (autovalor)
2
y habla de la
informacin asociada al factor. Este proceso mantiene la inercia total y la asociada a cada factor, pero
maximiza las distancias de las categoras filas y/o columna.
Hay tres tipos.
1. Distribucin en filas (Row principal). Ej: Como se agrupan los sntomas (fila) por enfermedad
2. Distribucin en columnas (Column principal). Ej: como salud con las enfermedades (columna) por
sntoma.
3. Cannica (las 2).
INTERPRETACIN DE LA SOLUCIN FACTORIAL
1. Una forma interpretar es ver la nueve puntos, y considerar a los cercanos, similares; y a los lejanos
disimiles.
2. Se pueden ver los valores asociados a los ejes. En lo
analgico se puede estudiar cada eje de forma
independiente, como se proyectan los puntos a ese eje.
Tambin se puede interpretar en trminos polares.
3. Se pueden interpretar las contribuciones: cunto
contribuyen las variables a la informacin del eje. Si todas
son bajas, el factor tiene poca relevancia, tiene bajo auto


89
valor.
4. Los puntos cerca del baricentro son puntos no relevantes. No influye mucho en la construccin del
espacio vectorial. Se puede hacer una lectura del mapa por cuadrante. Los de menor contribucin
van ms al centro, los extremos son ms relevantes.
APLICACIONES ESPECIALES
La tabla de burt es una variedad de tabla de contingencia en que se relaciona cada categora con todas las
dems. Las casillas de la tabla presentan las frecuencias de las dos categoras implicadas. Esta permite, como
informacin de entrada, efectuar anlisis propios del anlisis de correspondencias mltiples.
ANLISIS DE CORRESPONDENCIAS MLTIPLES
Considera 2 o ms variables, estudiando relaciones entre variables y categoras. Esto permite ingresar
variables objetos. Las variables objeto corresponden a aquellas donde cada categora tiene frecuencia 1. La
matriz de entrada puede incorporar solo variables o variables y objetos. En el primer caso se estudiar la
relacin entre categoras de las variables segn su posicin en un mapa perceptual y, en el segundo caso, se
conocer la posicin de los objetos respecto a las categoras de las variables (p.141).
El enfoque computacional ms popular es el de escalamiento de objetos: se obtienen valores mtricos para
los objetos y las categoras de las variables. Las puntuaciones objeto y categora sern las coordenadas en los
ejes del mapa perceptual () Independiente del enfoque los resultados coincidiran (p.141).
El anlisis pretende generar mapas perceptuales para descubrir relaciones en funcin de las distancias entre
puntos. Estos representan objetos y categoras de variables.
El sistema de referencia se establece de igual modo que en el Anlisis de Correspondencias simples: se
diagonaliza la matriz de inercia a fin de calcular para cada eje un valor propio y los vectores propios asociados
a estos. Los ejes del espacio reducido reciben el nombre de factores. Los factores se obtienen de forma
jerrquica. Igual que en el caso anterior, la importancia del factor depende de la capacidad de mantener
informacin original: a mayor proyeccin de los puntos sobre los ejes, y menor distorsin, ms informacin de
mantiene.
La representacin de los puntos es en espacios eucldeos; usando mapas de 2 dimensiones/factores.
PUNTUACIONES OBJETO Y CUANTIFICACIN DE CATEGORAS
Para representar los objetos y categoras en el mapa perceptual estos deben ser cuantificados. Esto se realiza
en dos etapas, cuantificando primero los objetos, luego las categoras. En la matriz de datos, los objetos son
filas y las variables columnas. En consecuencia, corresponde un valor para cada fila y en cada columna habr
tantos valores como categoras tenga la variable () La puntuacin de los objetos se obtiene mediante un
sencillo algoritmo que permite medir a nivel intervalo informacin medida originalmente como categoras
nominales. () Las puntuaciones de las categoras se obtienen como promedio de las puntuaciones objeto en
todos los objetos asociados a la categora () en un mapa perceptual los objetos de una misma categora
forman una subnube de puntos objetos y el valor de la categora cuantificada ser el centroide (p.143).


90
Para asignar valor numrico a los objetos, el procedimiento consiste en asignar valores arbitrarios a cada uno,
con la condicin de que estos sumen cero. Luego, se calcular el valor estandarizado de cada valor arbitrario.
El valor estandarizado ser la puntuacin objeto () La puntuacin de cada categora corresponde a la media
de las puntuaciones objeto en los objetos asociados a la categora () El mximo nmero de factores posibles
es igual al total de categoras menos el nmero de variable (p.145-146).
OPTIMIZACIN DE LA SOLUCIN
La solucin inicial no es la mejor. La solucin ptima se logra mediante una serie de iteraciones que se detiene
cuando la dispersin de las categoras de una variable es mxima (mxima heterogeneidad entre las
subnubes), y la de las puntuaciones objeto en una categora mnima (mxima homogeneidad entre los puntos
de una misma subnube).
Para evaluar el cumplimiento de estas exigencias se calcula un indicador para medir la dispersin de las
categoras y otro para medir la homogeneidad de los puntos en torno a la categora correspondiente. El
primero es la varianza entre puntos categora de una misma variable y el segundo es la varianza de puntos
objetos respecto a su punto categora ste recibe el nombre de loss.. El proceso de iteraciones se detiene
entonces cuando la varianza entre categoras es mxima y el loss; mnimo.
COMPARACIN ANLISIS FACTORIAL Y ANLISIS DE CORRESPONDENCIAS
- En el anlisis factoriales de correspondencia no hay ecuaciones, si dimensiones subyacentes. Tiene
un punto de partida dismil al anlisis factorial. Pero en ambos hay una suerte de reduccin de
dimensiones (en correspondencia no tan central).
- AFC hay dimensiones, ejes, jerrquicas, ortogonales ( ndependientes). El nmero de dimensiones es
el mnimo de categoras filas/columnas -1. En el anlisis factorial el nmero de factores es igual al de
las variables.
- Por el auto valor se puede evaluar la importancia de la dimensin, da cuenta de la inercia asociada.
Hay ejes que se interpretan igual, pero se calculan diferentes.
- Hay una matriz de saturacin para ambos casos. Hay distribucin de informacin en los ejes.
- Para ambos hay un fenmeno de rotacin (con distinto nombre). en AFC es normalizacin (por
defecto es cannica), mientras en AF por defecto es varimax.
- hay tambin un modo de interpretar el mapa que es anlogo. Pero en el mapa de AF hay variables,
en el de AFC hay categoras.
- EN ambas no ay variable dependiente.
- AF parte de matriz de correlacin y el AFC solo tiene un coeficiente de correlacin.
MODELOS LOGARITMICOS
Sirve para estudiar relaciones de influencia entre ms de 2 variables cualitativas. Buscan conocer la
importancia de las variables consideradas y analizar la existencia de relaciones. Adems, permite conocer la
importancia de cada categora de cada variable. el criterio utilizado para jerarquizar es la capacidad de las
variables y sus categoras para explicar las frecuencias observadas en las casillas de la tabla (pag.182). Hay
dos tipos de modelo:


91
- Modelo Logaritmico general: estudia interdependencia entre el conjunto de variables cualitativas.
Los coeficientes se calculan mediante un algortimo iterativo condicionado a satisfacer un criterio de
convergencia (pag.182)
- Modelo Logaritmico Predictivo: estudia la dependencia de una variable cualitativa respecto a otra(s)
cualitativas independientes. Para explicar la variable dependiente se utilizan funciones de
distribucin probabilstica. Estos se subdividen en modelos logit y probit.
MODELOS MATEMTICOS
Un modelo es una representacin simplificada de la realidad que busca explicarla, para lo cual es sometido a
contrastacin emprica. Un modelo es adecuado si la diferencia entre la informacin empirica y la teorica es
menor.
La formalizacin diferencia un modelo matemtico de uno terico, siendo en el primero sus componentes
variables y coeficientes. En los modelos matemticos las relaciones entre variables se expresan mediante
ecuaciones.
Los modelos logartmicos son matemticos, generalmente uniecuacionales; siendo solo multiecuacionales los
modelos logartmicos causales. Todos los modelos logartmicos son lineales o linealizables.
LOGARITMOS
EL dato primario para estudiar las relaciones entre variables es un cuociente de las frecuencias observadas;
especficamente, el logaritmo de la razn de las frecuencias. Se usan logaritmos ya que facilitan los clculos,
permitiendo, por ejemplo, la transformacin de un modelo multiplicativo en uno aditivo.
Los modelos logartmicos son una expresin del modelo lineal general. EL modelo lineal logartmico tiene la
propiedad de expresar cada observacin en funcin de los coeficientes que componen el modelo. (pag.183).
TABLA DE CONTINGENCI A
En la tabla de contingencia de 2x2, los valores son tales porque las variables se relacionan de una forma
determinada. Cuando hay valores iguales hay independencia, cuando son diferentes hay relacin.
Con los modelos logartmicos se busca las relaciones; esto quiere decir que la tabla tiene cierto orden, cierta
organizacin, cierta varianza, cierta informacin. Cuando hay independencia quiere decir que hay
equiprobabilidad. En algunos casos el no encontrar relaciones tambin puede ser importante.
Por ejemplo: relacin felicidad, sexo e ingreso. La variable ingreso probablemente es la organizadora, puesto
que explicara la diferente felicidad, no as el sexo.
Se habla de tabla entre comillas porque no es tabla propiamente tal en tanto si hay muchas variables deja de
serlo.
EFECTOS
Se usa el trmino efecto para indicar la importancia e influencia de las variables sobre los datos observados;
se refiere a la eficacia de la variable para explicar las frecuencias observadas en una casilla de la tabla


92
(pag.183). Los coeficientes indican la magnitud de los efectos. Coeficientes altos indican mayor influencia de
las variables.
Hay tres efectos relevantes, los cuales llevan asociados un coeficiente:
- Efecto promedio: se relaciona con la media general del conjunto de observaciones.
- Efectos principales: consideran la influencia de cada variable de forma independiente.
- Efectos de interaccin: refieren a la influencia de la relacin entre variables.
ODD
Una forma de estudiar relaciones entre variables es el clculo del odd. Este trmino se usa para designar las
proporciones marginales y condicionales de una tabla de contingencia. () Los modelos logartmicos utilizan
como informacin de entrada los odd.(pag.185)
Odd es el cociente entre frecuencias de una fila de una tabla. Sus
componentes son la frecuencia de pertener a una categora y la
frecuencia de no pertenecer a la categora (pag.185). Hay dos
tipos:
- Odd marginales: cociente de las frecuencias marginales de
la tabla (de las frecuencias que estn en los mrgenes de la tabla). Ejemplos:
o Odd marginal fila: 25/55
o Odd marginal columna: 40/40
- Odd condicionales: cociente entre las frecuencias comunes que componen la tabla, excluidas las
marginales. Odd condicionales diferentes indican relaciones entre variables. Mediante una prueba de
significacin estadstica se puede evaluar la relevancia de la relacin.
o Odd condicional fila:
(Sexo/ Fuma) 10/30
(Sexo/No fuma): 15/25
o Odd condicional columna:
(Consumo de Tabaco/Hombre) 15/10
(Consumo de Tabaco/Mujer) 25/30
ODD RATIO
El odd ratio es el cuociente entre dos odd condicionales; al ser resultante de la divisin de nmeros positivos,
no asumen nunca valores negativos. Para facilitar su interpretacin como coeficiente de asociacin se usa el
logaritmo natural del odd ratio que presenta rango positivo y negativo. Valores positivos indican asociacin
directa y valores negativos asociacin inversa. Ntese que en variables medidas a nivel nominal el sentido de
la asociacin directa o inversa- es irrelevante.
Ejemplo: 10/30 : 15/25 = 10/30 x 25/15 = 2/30 x 25/ 2 = 2/6 x 5/2= 5/6
El clculo de los coeficientes del modelo se realizan usando el logaritmo natural del odd ratio.

Fuma No
fuma
Total
Hombre 10 15 25
Mujer 30 25 55
Total 40 40 80


93
TIPOS DE MODELOS LOGARITMICO
Segn el orden de inclusin de los efectos al modelo se distinguen los modelos:
- Jerrquicos: Se usan ms frecuentemente. Incluye todos los efectos inferiores al efecto considerado.
Por ejemplo: si considera el efecto de interaccin de las variables AB, tambin incluir el efecto de A
y B. El trmino AB recibe el nombre de clase generadora. Los modelos logartmicos son una
maquina de relaciones, genera las relaciones desde la clase generadora hacia abajo.
- No jerrquicos: son tericamente posibles pero de gran complejidad matemtica. No se tratarn
aqu.
Segn cantidad de efectos incluidos, se distinguen los modelos:
- Saturados: incluye los efectos de todas las variables y sus interacciones. El nmero de coeficientes a
calcular coincide con el nmero de casillas de la tabla, () reproduce las frecuencia sobservadas. No
existe error.
- No saturados: Se eliminan del modelo saturados efectos no influyentes segn las hiptesis. Las
frecuencias tericas y observadas no coinciden, y por tanto hay error; sin embargo en un buen
modelo no saturado el error es pequeo y las diferencias entre valores observados y esperados no
son significativos.
Son modelos de independencia, donde se contrasta la hiptesis de no relacin ente una o ms
variables, al considerarlos no importantes para predecir los resultados obtenidos. Al eliminar efectos,
disminuyen tambin los coeficientes considerados, aumentando la parsinomia.
La calidad de estos modelos se evala mediante pruebas de significacin estadstica y comparacin
de residuos.
TABLA DE DOS DIMENSI ONES
En una tabla de contingencia de 2 x 2, la suma de 4 efectos explican el valor de cada casilla: el efecto
promedio, efecto de la variable fila, efecto de la variable columna y efecto de interaccin de variables fila y
columna. La ecuacin del modelo es una combinacin lineal de los coeficientes que lo componen. Un
coeficiente es la expresin numrica de un efecto (pag. 188).
Log F
ij
= +
i
A
+
i
B
+
ij
AB
; donde:
- F
ij
= frecuencia de la casilla ij
- = efecto promedio o general
-
i
A
= efecto de la variable fila
-
i
B
= efecto de la variable columna
-
ij
AB
= efecto de la interaccin entre A (variable fila) y B (variable columna)
La ecuacin del modelo permite evaluar la capacidad explicativa de este. El modelo saturado, no genera error
(Frecuencias esperadas = Frecuencias observadas), e incluye todos los efectos sealados en la ecuacin.
Los coeficientes son la base para predecir, mediante la ecuacin, el valor terico de las frecuencias
observadas.


94
EFECTOS
- Efecto promedio: media de los logaritmos de las
frecuencias en todas las casillas de la tabla. Ej:


- Efecto de las filas: media de los logaritmos de los odd
condicionales fila. Ej:


- Efecto de las columnas. media de los logaritmos de los odd condicionales columna. Ej:


- Efecto de interaccin: media del cociente de odd. Ej:



TABLAS MULTIDIMENSIONALES
El aumento en la cantidad de variables implica una multiplicacin de los efectos. El clculo de los coeficientes
no se realiza como en las tablas de 2 x 2, sino que mediante procedimientos iterativos.
Modelos de 3 variables:
- Modelo saturado: incluye 3 efectos principales, 3 interacciones dobles y una interaccin triple.
- Modelo de independencia mutua: se plantea la hiptesis de independencia entre las 3 variables;
incluye solo efectos principales.
- Modelo de independencia condicional: se plantea la hiptesis de que los efectos de dos variables (A y
B) son independientes para cada categora de la 3era variable C. Corresponde a la ecuacin:
Ln F
ijk
= +
i
A
+
i
B
+
i
C
+
ij
AC
+
ij
BC
Modelo de independencia mltiple: se plante la hiptesis de asociacin entre dos variables (A y B) e
independencia respecto a una tercera variable C. Corresponde a la ecuacin: Ln F
ijk
= +
i
A
+
i
B
+
i
C

+
ij
AB
La inclusin de variables presenta como limite la capacidad del procesamiento computacional. Sin embargo la
construccin de modelos que incluyen mltiples interacciones es difcil de interpretar () Los modelos se
contrastan en funcin de la capacidad de cada uno para predecir las frecuencias de las casillas en la tabla
multidimensional. La diferencia entre las frecuencias observadas y tericas permite evaluar la calidad de los
diferentes modelos (pg. 192).
ETAPAS DE MODELIZACI N
ESPECIFICACIN DEL MODELO
Para representar matemticamente la conceptualizacin elaborada respecto a la realidad, se eligen las
variables y establecen hiptesis respecto a las relaciones entre ellas. Luego, las relaciones son planteadas en
una ecuacin.
Para analizar si un modelo es adecuado se considera la parsinomia, las normas estadsticas y aspectos
sustantivos.
Fuma No
fuma
Total
Hombre 10 15 25
Mujer 30 25 55
Total 40 40 80


95
SELECCIN DEL MODELO
Se busca el equilibrio entre simplicidad (para fcil interpretacin) y complejidad (para el ajuste a al realidad).
Para construir un buen modelo se sugieren 3 etapas:
- Etapa inicial: se establece un modelo exploratorio
- Etapa intermedia: se modifica el modelo sistemticamente para determinar cules variables
continan y cules se eliminan (procedimientos backward y forward)
- Etapa final: resultados e interpretaciones. Se elige un modelo que ajuste y que sea consistente con la
teora.
Otros sugieren iniciar con el modelo saturado y mantener solo los efectos con coeficientes estandarizados
superiores a 1,96; que serian estadsticamente significativos, y por tanto, efectos producidos por variables que
son importantes para el ajuste entre la realidad y lo esperado.
si un modelo de determinada jerarqua no cumple con las exigencias estadsticas tampoco cumplirn modelos
alternativos de orden inferior. Cuando un modelo es estadsticamente inviable solo cabe plantear un modelo
de mayor jerarqua o especificar un modelo con nuevas variables (pag. 194).
ESTIMACIN DE COEFICIENTES
El nmero de coeficientes, se relaciona con el nmero de efectos del modelo; su valor indicara la importancia
del efecto. en el modelo logartmico lineal la estimacin de coeficientes es funcin de los logaritmos odd y
odd ratio. Los coeficientes se estiman mediante un algoritmo iterativo que finaliza cuando se satisface un
criterio de convergencia () el criterio de convergencia indica que la diferencia entre sucesivas iteraciones no
es importante. En los modelos jerrquicos predictivos logit y probit- la estimacin de los coeficientes se
realizan mediante mnimos cuadrados o mxima verosimilitud (p.194).
El clculo de los coeficientes se basa en la restriccin de que los coeficientes de las categoras de una variable
sumen 0.
El computador se detiene no en el de mayor ajuste sino cuando hay una bondad de ajuste relativo (no es
ajuste absoluto).
VERIFICACIN DEL MODELO
Se verifica:
- Evaluando el ajuste de las frecuencias esperadas respecto a las observadas (la diferencia no debe ser
estadsticamente significativa). En general se usa chi cuadrado o chi cuadrado basado en la razn de
mxima verosimilitud. Chi cuadrados bajos indican buen ajuste del modelo, ya que las diferencias
seran pequeas. Si la significan es superior a 0,05 el modelo se acepta. Se elige uno con chi cuadrado
bajo y p cercano a 1.




96
El problema de esto es que el valor de chi cuadrado aumenta cuando el tamao de la muestra
tambin lo hace.
- El coeficiente de determinacin (r
2
), soluciona dicho problema, ya que no incide en l, el tamao de
la muestra. Pero en los modelos logartmicos no da resultados viables.
- Knoke sugiere considerar el estadstico de mxima verosimilitud. se selecciona un modelo base cuyo
valor L
2
ser la referencia para evaluar la validez de modelos alternativos ms complejos. L
2
base
indica la dispersin no explicada por las variables incluidas en el modelo. Si el modelo alternativo
explica parte importante del L
2
base se considera que el modelo alternativo permitir un satisfactorio
ajuste de los datos. La frmula del r
2
de Knoke y burje es la siguiente:
R
2
KyB
=


R
2
KyB
cercano a uno indica que el modelo alternativo explica parte importante de la variacin del
modelo base (p.195)
- Se busca un modelo de residuos pequeos, pero cuando son 0, es saturado.
INTERPRETACIN DEL MODELO
Se basa en:
- Los coeficientes asociados a todos los efectos. para evaluar un efecto se considera el valor del
coeficiente, su signo y significacin estadstica. Se eliminan del modelo los coeficientes con valores
bajos y estadsticamente no significativos (p.196)
- Pruebas de significacin estadstica. Permiten evaluar el modelo en su conjunto y la influencia de
variables y sus interacciones. Se usa chi cuadrado clsico y de mxima verosimilitud; valores
pequeos indican ajuste del modelo. Adems la prueba chi cuadrado parcial, permite conocer la
contribucin de los trminos individuales () Corresponde a la diferencia entre valores chi cuadrado
de dos modelos que solo difieren en un efecto. () Valores altos del estadstico indican que el efecto
en estudio es estadsticamente significativo, es decir, relevante en el ajuste del modelo
- Los residuos (diferencia entre frecuencias observadas y estimadas) indican la calidad del modelo: un
modelo ajustado tiene residuos bajo o cero (saturado).
MODELOS LOGIT Y PROBIT
Son modelos predictivos aplicables cuando las variables estn medidas a nivel nominal u ordinal.
Corresponden a modelos no lineales y son un tipo particular de modelo logartmico jerrquico. Se define una
variable dependiente y se ajusta una curva respecto a la nube de puntos formada por los datos () la
diferencia entre logit y probar es que los datos se ajustan a dos curvas diferentes (p.197).
Son una aplicacin especial de los modelos de regresin. En los modelos de regresin no es adecuado usar
variables dependientes cualitativas, cuestin posible con estos modelos.
El modelo logit no analiza las relaciones entre variables segn frecuencias observadas. El odd ratio es la
fuente de anlisis. El logaritmo del odd ratio recibe el nombre de logit por su aplicacin en este modelo () En
el modelo logit se utiliza la funcin logstica y en el modelo probit la funcin normal () las funciones logstica
y normal son similares y dan lugar a resultados parecidos. Se observa diferencias en muestras grandes cuando
un nmero importante de observaciones se distribuye en el extremo de la curva(p.197).


97
MODELOS CAUSALES NO RECURSIVOS
Los modelos causales hacen suyo el principio de causalidad. Son multi-ecuacionales. Las relaciones pueden
ser de asociacin (entre 2 categricas), de covarianza (variacin conjunta), correlacin o causalidad. Son
modelos aditivos (variable endgena Y es combinacin lineal de variables exgenas x).
Los modelos causales no recursivos son aquellos donde hay variables exgenas (no tienen causas, Y), y
exgenas (causadas, X), a diferencia de los recursivos donde son todas son causadas. Los modelos causales
no recursivos (MCNR) son cerrados, entre variables exgenas hay covariacin (medida por el coeficiente phi).
A cada variable exgena le corresponde una ecuacin.
Los modelos causales tienen coeficientes que dan cuenta de la intensidad causal de una variable respecto a la
otra. Estos, son una variante de los modelos de regresin.
CONDICIONES DE APLICACIN DE MODELO CAUSAL
- Se asume que hay antecedente y consecuente
- Relacin causal tiene consistencia: estabilidad temporal
- El modelo es cerrado (MCNR)
- Es asimtrico. La funcin de y=f(x), no implica x= f(y).
ETAPAS DEL MODELO
1. Especificar variables a incluir. Se debe justificar la causalidad tericamente.
2. Hacer un diagrama de flujos
3. Generar un sistema de ecuaciones. Identificar el modelo
4. Calcular los coeficientes del modelo: beta (2 endgenas), gamma (1 exgena y 1 endgena), phi (2
exogenas). A cada flecha en el diagrama de flujos le corresponden un y solo un coeficiente.
5. Se agregan al diagrama los valores de los coeficientes
6. Evaluar la capacidad explicativa del modelo. R cuadrado (porcentaje de la varianza explicada)
7. Interpretar coeficiente Path: Interpretar intensidad de relacin de los efectos directos e indirectos
EFECTOS
Es un concepto diferente al efecto en modelos logartmicos. Se refiere a intensidad causal sobre una variable
sobre otra. Tipos:
1.- Efectos directos. Intensidad causal.
2.- Efectos indirectos. Producto de 2 directos.
3.- efectos espurios. El efecto entre 1 y 2 es directo, el efecto entre 1 y 3 es directo, el efecto entre 2 y 3 es
espurio.
4.- Efectos conjuntos.



98
TIPOS DE MODELOS CAUSALES
- Identificado: Nmero de ecuaciones = nmero de incgnitas. Tiene solucin. La incgnita =
coeficiente path.
- Sub-identificado: Nmero de ecuaciones < nmero de incgnitas. Hay infinitas soluciones. Se
generan restricciones para hacerlo resoluble.
- Sobre-identificado. Nmero de ecuaciones > nmero de incgnitas.

El computador puede trabajar con cualquiera de estos, esto pues por procedimientos matemticos todos
resultan resolubles.
ECUACIN ESTRUCTURAL
Las ecuaciones no incluyen constante por que se parte de la matriz de correlaciones (variables
estandarizadas). Cada ecuacin es una combinacin de variables independientes (que le anteceden).

Para resolver el sistema de ecuaciones existe la regla de Path anlisis: Cada coeficiente de correlacin (R de
Pearson), es igual a la sumatoria de los efectos directos, indirectos y conjuntos. Rij =

, donde i=
variable independiente anterior, j= variable dependiente y k = variable anterior. En base a esa frmula se
establecen las ecuaciones, se establece un sistema de ecuaciones y al resolverlo se llega a los coeficientes.
Luego el computador reemplaza en el diagrama de flujo a estos coeficientes por su valor.
A cada variable endgena le corresponde una ecuacin.
























99
PROCEDIMIENTO EN SPSS
REGRESIN LINEAL MULTIPLE
Antes de hacer una RLM hay que cumplir las condiciones previas y los supuestos. Por ende hay que
seleccionar los valores perdidos, dicotomizar las variables categricas a incluir, analizar la normalidad de las
variables (Ver captulo 2) y analizar los supuestos. De los supuestos, solo la multicolinealidad se puede ver
evaluar previamente, para evaluar los dems es necesario ejecutar la RLM en el programa.
ANLISIS DE MULTICOLINEALIDAD EX-ANTE
Uno de los supuestos de la aplicacin del modelo de regresin mltiple, es que las variables a introducir no
presenten multicolinealidad, es decir bsicamente que no midan lo mismo. As, lo que se realiza es una
correlacin entre las distintas variables, donde una correlacin de 0,7 o mayor implicara multicolinealidad,
ante tal situacin una de las dos variables implicadas debe ser removida.

Para realizar esta correlacin, vamos a Analizar Correlaciones Bivariadas. Se nos abre un cuadro de
dilogo, en el cual debemos fijarnos que est seleccionada la opcin Pearsons en el coeficiente, y con
significacin bilateral. Introducimos las variables que deseamos incluir en el modelo y presionamos aceptar.
Veremos la siguiente tabla:


Vemos en primer lugar una diagonal con valores 1, debido a que la correlacin de una variable consigo
misma siempre ser 1. Ahora bien, las cifra en la cuales debemos fijarnos son las correlaciones entre distintas
variables. En este caso observamos que ninguna correlacin supera el 0,7 y por ende no hay
multicolinealidad.
Correlaciones
1 ,032 -,100** ,092** -,210** -,008
,290 ,000 ,001 ,000 ,758
1436 1126 1436 1412 1436 1436
,032 1 -,152** ,077** -,129** -,011
,290 ,000 ,010 ,000 ,700
1126 1126 1126 1110 1126 1126
-,100** -,152** 1 -,133** -,080** ,026
,000 ,000 ,000 ,003 ,317
1436 1126 1436 1412 1436 1436
,092** ,077** -,133** 1 -,003 ,101**
,001 ,010 ,000 ,907 ,000
1412 1110 1412 1412 1412 1412
-,210** -,129** -,080** -,003 1 ,100**
,000 ,000 ,003 ,907 ,000
1436 1126 1436 1412 1436 1436
-,008 -,011 ,026 ,101** ,100** 1
,758 ,700 ,317 ,000 ,000
1436 1126 1436 1412 1436 1436
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
NSE Medio
Indice Aprobacin
Gobierno
Zona Recodif icada
Es o f ue Ud. miembro
de algn sindicato de
trabajadores? Rec
NSE ALTO
Cul es su edad?
NSE Medio
Indice
Aprobacin
Gobierno
Zona
Recodif icada
Es o f ue Ud.
miembro de
algn
sindicat o de
trabajadores?
Rec NSE ALTO
Cul es
su edad?
La correlacin es signif icativa al nivel 0,01 (bilateral).
**.


100
RLM Y EVALUACION DE SUPUESTOS EX POST
Supongamos que, vamos a realizar la RLM, buscando predecir el comportamiento del ndice de Aprobacin al
Gobierno (V.D), en base a las siguientes variables:
- Edad
- Participacin en sindicato (Si, No)
- Zona
- ndice de Percepcin de Conflictividad
- NSE a travs de dos variables dummy: NSEAlto y NSEMedio.
- Posicin poltica a travs de 3 variables Izquierda, Centro y Derecha. Si una persona asume valor cero
en las tres ser indiferente o de ninguna
posicin (4ta categora de la variable original).
Entonces vamos a Analizar Regresin Lineales
Ah agregamos como dependiente la variable IAG; y las
dems como independientes.
En mtodo podemos elegir:
- Introducir: todas las variables se ingresan
simultneamente
- Forward: Se introducen secuencialmente,
ingresando primero las de mayor correlacin
con la V. Dependiente.
- Pasos sucesivos: En cada paso se agrega 1
variable; aadiendo primero la que hace una
contribucin ms grande a explicar que la
VD. Se diferencia de forward en que puede
revertirse el ingreso de variables
posteriormente.
- Eliminar: Se eliminan las variables en 1 paso
- Hacia atrs: se introducen todas, y luego se
van excluyendo
En este caso vamos a usar Introducir.
Luego vamos a estadsticos. Ah seleccionamos
- En coeficientes de regresin Estimaciones
Intervalos de Confianza
- Ajuste del modelo
- Diagnostico por caso
Luego vamos a grficos, y seleccionamos las dos
opciones de grficos para residuos tipificados.


101
Adems se incorpora en
y:zpred, y en x:zresid.
Vamos a opciones; y para
valores perdidos pedimos
reemplazar por la media.
Ponemos aceptar y
procedemos a analizar las
salidas.
INTERPRETACIN DE LAS
SALIDAS

Lo primero que observamos es el R
cuadrado corregido. El coeficiente
de determinacin mltiple puede
definirse como la proporcin de
varianza explicada por la ecuacin
de regresin, respecto del total de
varianza a explicar en la muestra
de la variable dependiente; en
suma, expresa la
calidad explicativa
del modelo. Este
dara cuenta que
las v.
independientes
explican el 18,9%
de la variable
dependiente. Se
usa el valor
corregido, ya que
al ingresar ms variables al modelo aumenta el R cuadrado, el R corregido considera el nmero de variables
incorporadas.
Anova pone a prueba la hiptesis nula de que R2=0. En este caso se rechaza, y en ese sentido el conjunto de
las variables independientes efectivamente explican en parte el comportamiento de la v. dependiente.
Coeficientes
a

Modelo
Coeficientes no
estandarizados
Coeficientes
tipificados
t Sig.
Intervalo de confianza de 95,0%
para B
B Error tp. Beta Lmite inferior Lmite superior
1 (Constante) 40,500 ,807 50,214 ,000 38,918 42,083
Resumen del modelo
b

Modelo R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
1 ,439
a
,193 ,189 5,62105
a. Variables predictoras: (Constante), Izquierda, Indice de percepcin de conflictividad,
Sindicalismo recodificado, Es ud. del NSE Alto?, Zona Recodificada, Derecha, Es ud. del
NSE Medio?, Centro
b. Variable dependiente: Indice Aprobacion Gobierno

ANOVA
b

Modelo
Suma de
cuadrados gl
Media
cuadrtica F Sig.
1 Regresin 10791,975 8 1348,997 42,695 ,000
a

Residual 45087,828 1427 31,596
Total 55879,803 1435
a. Variables predictoras: (Constante), Izquierda, Indice de percepcin de conflictividad, Sindicalismo
recodificado, Es ud. del NSE Alto?, Zona Recodificada, Derecha, Es ud. del NSE Medio?, Centro
b. Variable dependiente: Indice Aprobacion Gobierno



102
Indice de
percepcin de
conflictividad
-,274 ,041 -,160 -6,688 ,000 -,354 -,194
Zona Recodificada -1,737 ,449 -,094 -3,865 ,000 -2,618 -,855
Sindicalismo
recodificado
1,004 ,430 ,056 2,337 ,020 ,161 1,847
Es ud. del NSE
Alto?
-3,083 ,785 -,097 -3,925 ,000 -4,623 -1,542
Es ud. del NSE
Medio?
-,486 ,308 -,039 -1,578 ,115 -1,089 ,118
Derecha -5,354 ,430 -,311 -12,458 ,000 -6,197 -4,511
Centro -2,211 ,453 -,122 -4,877 ,000 -3,100 -1,322
Izquierda 1,993 ,421 ,118 4,737 ,000 1,168 2,818
a. Variable dependiente: Indice Aprobacion Gobierno

En esta tabla se nos entrega:
Valor B: dato para la ecuacin. En base al modelo diramos que la ecuacin es Y= 40,5 -0,274X
1
-1,737X
2

+1,004x
3
-3,083x
4
-0,486x
5
-5,354x
6
-2,211x
7
+1,993x
8;
donde:
o X1=IPC
o X2= zona
o X3=sindicalismo
o X4= NSEALto
o X5 NSEMedio
o X6 derecha
o X7 centro
o X8 izquierda
El B indica que si el IPC aumenta en una unidad, el IAP disminuye en 0,274. Esto es aplicable a todas las
variables.
Beta: es el valor b estandarizado, permite hacerse una idea de la importancia relativa de las variables. A
mayor valor Beta ms importantes seran las variables. Ac la ms importante sera ser o no de derecha; y la
menos importante sera el NSE Medio. El Beta y no el b es el que permite comparar importancias, en tanto el
b est influido por el nivel de medida.
La prueba T pone a prueba la hiptesis de que B = 0; al ser la significacin mayor que 0,05, se aceptara
dicha hiptesis y por tanto no sera una
variable que aporte a la solucin. Este es
el caso del NSEMedio.
Intervalo de confianza de B: Confirma lo
anterior; si este intervalo pasa por el
cero (como en el caso de NSEMedio), su
contribucin a explicar la v. dependiente
puede ser nula, y por tanto debiese
eliminarse del modelo.
La tabla de la derecha nos muestra los
Casos atpicos, que debieran sacarse ya
que alteran los resultados.

Diagnsticos por caso
a,b

Nmero
de
casos Residuo tp.
Indice
Aprobacion
Gobierno
Valor
pronosticado Residual
92 3,003 54,000 37,1201 16,87990
422 3,402 53,000 33,8754 19,12463
1098 3,251 55,000 36,7267 18,27325
1129 4,100 54,000 30,9534 23,04664
1270 3,313 54,000 35,3753 18,62472
1298 3,043 53,000 35,8937 17,10633
a. Variable dependiente: Indice Aprobacion Gobierno
b. Cuando hay valores perdidos, se utiliza la media de sustitucin en el clculo de los
estadsticos.


103









Esta tabla nos da informacin sobre los residuos.
Los residuos son la diferencia entre los puntos
reales y la recta de regresin. El valor real del punto
corresponde a la diferencia entre el valor
pronsticado y el residuo. Por tanto si el valor
mnimo pronsticado es 23,2954, y el residuo es -
15,54879; el valor real mnimo es 8 aprox.
Igualmente en los valores mximos, la diferencia es
grande y en ese sentido podemos decir que los
residuos son altos.

Anlisis de grficos:
Grfico 1: muestra normalidad del IAPG.
Grfico 2: muestra nuevamente la normalidad. La
lnea corresponde a los percentiles de la curva
normal, y los puntos negros a los percentiles del
IAPG, para probar la normalidad los puntos deben
ajustarse lo ms posible a la recta.
Grfico 3: Pone a prueba la existencia de
Homocedasticidad, esto es variacin (desviacin)
constante de los residuos. Esto quiere decir que no
haya residuos ms altos por ejemplo en los valores
ms pequeos del IAG, o en los valores ms grandes,
sino que su distancia a los puntos reales sea ms
menos constante. El grfico se interpreta en base a 3
lneas imaginarias que pasen por los valores cero,
buscando que los cuadrantes queden equilibrados.
En este caso, se puede ver que los cuadrantes
inferiores, muestran una mayor desviacin de los
residuos.
ANLISIS DE PERFILES
La regresin busca poder predecir el
comportamiento de la VD, en base a las VI. En ese
Estadsticos sobre los residuos
a

Mnimo Mximo Media Desviacin tpica N
Valor pronosticado 23,2954 40,3013 34,1122 2,74236 1436
Residual -15,54879 23,04664 ,00000 5,60536 1436
Valor pronosticado tip. -3,944 2,257 ,000 1,000 1436
Residuo tp. -2,766 4,100 ,000 ,997 1436
a. Variable dependiente: Indice Aprobacion Gobierno


104
sentido, a partir de los valores que se asume en las VI se puede estimar el valor a asumir en las VD.
Usando la ecuacin anterior veremos que sucede con 2 casos:
Y= 40,5 -0,274X
1
-1,737X
2
+1,004x
3
-3,083x
4
-0,486x
5
-5,354x
6
-2,211x
7
+1,993x
8

o X1=IPC
o X2= zona
o X3=sindicalismo
o X4= NSEALto
o X5 NSEMedio
o X6 derecha
o X7 centro
o X8 izquierda
CASO 1: Persona que:
- Considera que hay mucho conflicto (x1=8)
- De zona urbana (x2=0)
- Pertenece a un sindicato (x3=1)
- Es de NSE Bajo (x4=0; x5=0)
- Es de izquierda (x6=0, x7=0, x8=1)
40,5 -0,274(8)-1,737(0) +1,004(1)-3,083(0)-0,486(0)-5,354(0)-2,211(0)+1,993(1)
40,5 -2,19+1,004+1,993 =41,3
Si consideramos que el IAG, fluctuaba entre 12 y 60, siendo 12 cuando hay mayor aprobacin. Una persona
urbana, de nse bajo y de izquierda, que cree que hay mucho conflicto social, tendra una baja aprobacin al
gobierno.
CASO 2: Persona que:
- Considera que hay muy poco conflicto (x1=32)
- De zona rural (x2=1)
- No Pertenece ni ha pertenecido a un sindicato (x3=0)
- Es de NSE Alto (x4=1; x5=0)
- Es de derecha (x6=1, x7=0, x8=0)
40,5 -0,274(32)-1,737(1) +1,004(0)-3,083(1)-0,486(0)-5,354(1)-2,211(0)+1,993(0)
40,5 -8,76-1,737-3,083-5,354 = 21,566
Si consideramos que el IAG, fluctuaba entre 12 y 60, siendo 12 cuando hay mayor aprobacin. Una persona
rural, de nse alto y de derecha, que cree que hay nulo conflicto social, tendra una alta aprobacin al gobierno.
REGRESIN LOGSTICA
Para ejemplificar esta aplicacin de la Regresin Logstica se utilizar una parte de la base de datos de la
encuesta Tolerancia y No Discriminacin. Se pretende crear un modelo que permita en base a cuatro
variables independientes: sexo, edad, posicin poltica y educacin, ver su incidencia en las probabilidades
de ser o no tolerante.


105
Ms especficamente se pretende:
- Determinar la presencia o ausencia de relacin entre la variable dependiente tolerancia y las variables
independientes sexo, edad, posicin poltica y educacin.
- Medir la magnitud de la relacin entre la tolerancia y las variables independientes selecciona
- Predecir, en trminos de probabilidades, el fenmeno de la tolerancia o intolerancia en funcin de los
valores que asumen las variables independientes ya nombradas.
En rigor, las variables sexo, posicin poltica y educacin no son variables cuantitativas. Sexo es una variable
nominal y posicin poltica y educacin son ordinales. Sin embargo, en este modelo sern todas introducidas
como variables cuantitativas. La variable sexo, al ser dicotmica, opera como variable dummy, por lo que
puede ser introducida sin problema. Las otras dos variables, al tener ms de 6 categoras de respuesta cada
una, son introducidas como si fueran continuas.
Para llevar a cabo el anlisis, seleccionamos la opcin
Analyze>Regresin>Binary Logistic:
Luego accedemos a una ventana en la que debemos
definir la variable dependiente, en este caso,
tolerancia. A su vez, ingresamos las variables sexo,
educacin, edad y posicin poltica como variables
independientes.
En mtodo seleccionamos Forward: Wald. Este
Utiliza el estadstico de Wald para excluir del
modelo aquellas variables que no sean
significativas (que tengan un nivel de
significacin mayor que 0,10).
Luego pinchamos opciones, y se abre la
siguiente ventana. En esta marcamos las
siguientes opciones:
- Los grficos de clasificacin.
- Test de bondad de ajuste de
Hosmer-Lemeshow.
- Estimacin de las correlaciones.
- Historial de iteraciones.
- Intervalo de confianza para exp(B).
- Listado de casos todos los casos
Dejamos el resto como predeterminado, puesto
que se trata de soluciones convencionales.
Pinchamos en continuar, y luego en la ventana
anterior vamos a guardar. En esta ventana


106
pedimos que se guarde la informacin de las probabilidades y la pertenencia de grupo de los valores
pronosticados. Marcamos continuar y revisamos las salidas obtenidas.
ANLISIS DE LAS SALI DAS
La primera salida corresponde al
resumen de los casos.
La salida siguiente muestra la variable
dependiente y sus categoras, en este caso, tolerante (0) e intolerante (1).
A continuacin se presentan cuatro tablas que presentan informacin del modelo de regresin sin haber
incluido an las variables explicativas, por lo cual
si interpretacin no es de mucha utilidad.
La primera de ellas muestra el 2 Log (o
procedimiento de mxima verosimilitud) en tres
pasos que constituyen clculos iterativos que
buscan encontrar los valores de los coeficientes (a
y b) que clasifican los casos del mejor modo. La
iteracin finaliza cuando la disminucin del 2 Log
es muy baja (menos a 0,001). En este caso
observamos que del primer paso al segundo paso
se reduce levemente el 2 Log de verosimilitud y
del segundo al tercero no vara, tal que las
iteraciones se detienen. La tabla muestra el coeficiente para la constante de la ecuacin del modelo, ya que
no se han incluidos las variables independientes.
Luego, revisamos la tabla de clasificacin, sin que se haya incluido ninguna variable. Esta muestra el
porcentaje de casos bien clasificados si la clasificacin se realiza al azar. Es decir, sin ninguna informacin de
ninguna variable, es posible clasificar correctamente al 62% de los casos (simplemente asignando todos los
casos al grupo ms
numeroso). Luego de
incluidas las variables es
necesario analizar en cuanto
aumenta el porcentaje de
casos bien clasificados para
as determinar si el modelo es
bueno o no.
La tabla que siguente muestra
Case Processing Summary
706 100,0
0 ,0
706 100,0
0 ,0
706 100,0
Unweighted Cases
a
Included in Analysis
Missing Cases
Total
Selected Cases
Unselected Cases
Total
N Percent
If weight is in ef f ect, see classif ication table f or the total
number of cases.
a.
Dependent Variable Encoding
0
1
Original Value
Tolerant e
Intolerante
Internal Value
Iterati on Hi story
a,b,c
937,399 -, 482
937,384 -, 491
937,384 -, 491
It erat ion
1
2
3
Step
0
-2 Log
likelihood Constant
Coef f icients
Constant is included in the model.
a.
Init ial -2 Log Likelihood: 937,384
b.
Estimation terminated at iteration number 3 because
parameter estimates changed by less than , 001.
c.
Classification Table
a,b
438 0 100,0
268 0 ,0
62, 0
Observ ed
Tolerant e
Intolerante
Tolerancia binaria
Ov erall Percentage
Step 0
Tolerant e Intolerante
Tolerancia binaria
Percentage
Correct
Predicted
Constant is included in the model.
a.
The cut v alue is ,500
b.


107
las variables que se encuentran en la ecuacin, en este caso, solamente la constante (no tiene mucho
inters analizarla):

Tiene mayor inters revisar las los puntajes asociados a las variables independientes que an no se incluyen
en la ecuacin, para tener una primera aproximacin de las que sern incluidas en el modelo:

Si el nivel de significacin es menor a 0,05 quiere decir que la variable independiente s explica en algn
grado la varianza de la variable dependiente. En este caso, todas las variables menos el sexo tienen una
significacin menor a la establecida de 0,05, vale decir, todas las variables, menos el sexo, tienen algn efecto
en la tolerancia. La variable de mayor puntaje y menor significacin (educacin) ser la primera en incluirse
al modelo, posteriormente paso a paso se analizarn las puntuaciones nuevamente, y se determinar cual
incluir. Vale sealar que al incluir ciertas variables al modelo, las puntuaciones de las otras cambian, en tanto
dada la informacin ya incluida (por la variable ingresada), puede que su aporte ya no sea el mismo.
A continuacin presentamos
las tablas con los resultados
una vez incluidas las
variables en el modelo (bajo
el titulo Bloque 1 en el SPSS).
La tabla nos muestra cmo
sucesivamente se fueron
incluyendo en tres etapas 3
de las variables
seleccionadas. En cada paso
podemos ver cmo va
disminuyendo el 2Log
hasta que se estabiliza en la
iteracin nmero 4 cuando
el parmetro estimado
disminuye menos que 0.001.
Tambin podemos ver cmo
Variables in the Equati on
-, 491 ,078 40, 122 1 ,000 ,612 Constant Step 0
B S.E. Wald df Sig. Exp(B)
Variables not in the Equation
,340 1 ,560
42, 421 1 ,000
138,925 1 ,000
33, 301 1 ,000
172,389 4 ,000
sexo
edad
educacion
pospol
Variables
Ov erall St atist ics
Step
0
Score df Sig.
Iterati on Hi story
a,b,c,d
794,119 2, 467 -, 779
788,982 2, 953 -, 937
788,949 2, 994 -, 951
788,949 2, 994 -, 951
769,828 1, 606 -, 749 ,145
761,370 1, 945 -, 935 ,191
761,261 1, 984 -, 958 ,198
761,261 1, 984 -, 959 ,198
758,328 ,819 -, 693 ,138 ,015
749,022 1, 019 -, 877 ,183 ,019
748,892 1, 043 -, 901 ,190 ,019
748,892 1, 043 -, 902 ,190 ,019
It erat ion
1
2
3
4
Step
1
1
2
3
4
Step
2
1
2
3
4
Step
3
-2 Log
likelihood Constant educacion pospol edad
Coef f icients
Met hod: Forward Stepwise (Wald)
a.
Constant is included in t he model.
b.
Init ial -2 Log Likelihood: 937, 384
c.
Estimation terminated at it eration number 4 because parameter estimat es
changed by less than , 001.
d.


108
se van ajustando los coeficientes para cada variable. En la ltima fila, se presentan los coeficientes ms
adecuados para la ecuacin del modelo
La ecuacin, por lo tanto, sera la siguiente:

Con esta ecuacin es posible definir la probabilidad de ser
intolerante (Y=1) para distintos perfiles. Basta con
reemplazar en d los valores para edad, posicin poltica y
educacin.
La siguiente tabla muestra el test de Omnibus, el cual
permite determinar si en cada paso la inclusin de una
nueva variable implica una disminucin significativa en -
2Llo. La significacin asociada a este estadstico chi
cuadrado es menor a 0,05 en cada paso, por lo que
podemos concluir que cada variable logra disminuir significativamente el -2Llo.
A continuacin observamos los coeficientes r para
cada paso: Estos r son similares a los r de la
regresin lineal. Los valores van de 0 a 1,
significando el 1 que las variables independientes
logran explicar toda la varianza de la variable
dependiente. La diferencia entre el r de Cox &
Snell y el de Nagelkerke es que el primero no
alcanza el 1, mientras que el segundo s. En este
caso, vemos como en cada paso el valor del r va
aumentando, hasta que el modelo explica el 31,9% de la
varianza de la variable dependiente.
El test de Hosmer y Lemeshow contrasta la hiptesis
nula de que las clasificaciones observadas son iguales a
las pronosticadas. Aceptar la hiptesis nula implica aceptar que el modelo se adecua a los datos. Por lo
tanto, si la significacin es menor a 0,05, nuestro modelo no es bueno. En este caso, solamente en el primer
paso la significacin es
menor a 0,05,
aumentando al incluir
nuevas variables.
La tabla de clasificacin
es otra manera de
contrastar el modelo. Si
el modelo es bueno, la
mayora de los casos
van a ser clasificados
1 2 3
(1,043 0,902 0,19 0,019 )
1
( 1/ )
1
k
d d d
P Y x
e
+ +
= =
+
Omni bus Tests of Model Coeffici ents
148,435 1 ,000
148,435 1 ,000
148,435 1 ,000
27, 688 1 ,000
176,123 2 ,000
176,123 2 ,000
12, 369 1 ,000
188,492 3 ,000
188,492 3 ,000
Step
Block
Model
Step
Block
Model
Step
Block
Model
Step 1
Step 2
Step 3
Chi-square df Sig.
Model Summary
788,949
a
,190 ,258
761,261
a
,221 ,300
748,892
a
,234 ,319
Step
1
2
3
-2 Log
likelihood
Cox & Snell
R Square
Nagelkerke
R Square
Estimation terminated at iteration number 4 because
parameter estimates changed by less than , 001.
a.
Hosmer and Lemeshow Test
10, 926 3 ,012
8, 409 8 ,395
7, 130 8 ,523
Step
1
2
3
Chi-square df Sig.
Classification Table
a
307 131 70, 1
91 177 66, 0
68, 6
351 87 80, 1
112 156 58, 2
71, 8
369 69 84, 2
122 146 54, 5
72, 9
Observ ed
Tolerant e
Intolerante
Tolerancia binaria
Ov erall Percentage
Tolerant e
Intolerante
Tolerancia binaria
Ov erall Percentage
Tolerant e
Intolerante
Tolerancia binaria
Ov erall Percentage
Step 1
Step 2
Step 3
Tolerant e Intolerante
Tolerancia binaria
Percentage
Correct
Predicted
The cut v alue is ,500
a.


109
correctamente (en este caso, que personas tolerantes e intolerantes sean clasificadas como tales). En el tercer
paso vemos que de todas las personas tolerantes, el 84% fueron clasificadas como tales, mientras que de las
personas intolerantes fueron bien clasificadas el 54,5%. En total, el 72,9% de los casos fueron bien
clasificados.
Ahora revisamos la tabla de las variables en la ecuacin. En primer lugar observamos el coeficiente b.
Mientras mayor sea este, mayor ser el efecto de la variable independiente sobre la dependiente. Este
coeficiente est expresado en el nivel de medida de la variable, por lo que es difcil utilizarlo para comparar
variables entre s. Lo que s puede observarse es su signo, ya que signos positivos implican que al aumentar
esta variable, aumenta la probabilidad de (1), en este caso, de ser intolerante. Con los signos negativos, la
lgica es la inversa. As, la edad tiene un signo positivo, esto es, a mayor edad, aumenta la probabilidad de ser
intolerante. La educacin por su parte, tiene un signo negativo, esto es, a mayor educacin, menor
probabilidad de ser intolerante. Por ltimo, la posicin poltica tiene un signo positivo, vale decir, que a
medida que se aumenta en la escala donde 1= izquierda y 10= derecha, mayor probabilidad de ser intolerante.

El estadstico Wald nos permite contrastar la hiptesis nula de que el coeficiente b sea igual a cero. Si este
coeficiente fuera cero, el efecto sobre la variable dependiente sera nulo. Revisando la significacin asociada
al estadstico Wald, vemos que todas son menores a 0,05, queriendo esto decir, que se rechaza la hiptesis
nula, o sea, b es significativamente distinto de cero.
Por ltimo, el Odd Ratio (Exp(B)) permite ver la intensidad de la relacin. Su rango va de cero a infinito,
teniendo como valor base al uno. Valores superiores a uno significan que a medida que el valor de la variable
independiente aumenta, aumenta la probabilidad de (1). Valores menores a uno significan lo contrario. A
modo de ejemplo, cada un ao aumenta en
0,02 la probabilidad de ser intolerante. A su vez
se observa un intervalo de confianza generado a
partir de este valor, para observar si es posible
inferirlo a la poblacin.
Las salidas tambin arrojan una matriz que
correlaciona las estimaciones de los
coeficientes del modelo. El trmino constante
Variables in the Equation
-, 951 ,087 120,224 1 ,000 ,386 ,326 ,458
2, 994 ,321 86, 758 1 ,000 19, 963
-, 959 ,089 115,702 1 ,000 ,383 ,322 ,457
,198 ,039 26, 118 1 ,000 1, 219 1, 130 1, 315
1, 984 ,370 28, 762 1 ,000 7, 275
,019 ,006 12, 286 1 ,000 1, 020 1, 009 1, 031
-, 902 ,091 98, 525 1 ,000 ,406 ,340 ,485
,190 ,039 23, 642 1 ,000 1, 209 1, 120 1, 306
1, 043 ,457 5, 208 1 ,022 2, 838
educacion
Constant
Step
1
a
educacion
pospol
Constant
Step
2
b
edad
educacion
pospol
Constant
Step
3
c
B S.E. Wald df Sig. Exp(B) Lower Upper
95, 0% C.I .f or EXP(B)
Variable(s) ent ered on step 1: educacion.
a.
Variable(s) ent ered on step 2: pospol.
b.
Variable(s) ent ered on step 3: edad.
c.
Correlati on Matrix
1,000 -,963
-,963 1,000
1,000 -,801 -,460
-,801 1,000 -,107
-,460 -,107 1,000
1,000 -,729 -,369 -,560
-,560 ,119 -,029 1,000
-,729 1,000 -,096 ,119
-,369 -,096 1,000 -,029
Constant
educacion
Step
1
Constant
educacion
pospol
Step
2
Constant
edad
educacion
pospol
Step
3
Constant educacion pospol edad


110
correlaciona con las estimaciones correspondientes a los coeficientes calculados para cada una de las
variables independientes (pues es un factor que refleja la mtrica del conjunto de las variables
independientes). Interesa que las correlaciones entre las estimaciones de las variables independientes sean
bajas, pues correlaciones elevadas son indicio de colinealidad, es decir, de que existe una relacin intensa
entre pares de variables, contraviniendo as uno de los supuestos.
Luego tenemos una tabla de
resumen de las variables no
incluidas en el modelo en cada
paso. No se analiza mayormente,
ya que no ofrece mucha
informacin nueva.
Por ltimo vemos una serie de
grficos que permiten observar
en cada paso cmo los
elementos son clasificados por la ecuacin de nuestro modelo. Recordemos que elementos con valores
menores a 0,5 son clasificados como (0), esto es, tolerantes, mientas que valores superiores a 0,5 son
clasificados como (1), o sea, intolerantes. Los casos, por ejemplo, tolerantes que la ecuacin clasifica como
intolerantes, evidentemente muestran que nuestra ecuacin no es perfecta.
Step number: 1

Observed Groups and Predicted Probabilities

320


F I
R 240 I
E T I
Q T I
U T I
E 160 T I
N T I I
C T I T
Y T I T I
80 T T T I
T T T I
T T T I
T T T T
Predicted

Prob: 0 ,25 ,5 ,75 1
Group: TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIII

Predicted Probability is of Membership for Intolerante
The Cut Value is ,50
Symbols: T - Tolerante
I - Intolerante
Each Symbol Represents 20 Cases.


Step number: 2

Variables not in the Equati on
,139 1 ,709
15, 339 1 ,000
27, 248 1 ,000
40, 720 3 ,000
1, 066 1 ,302
12, 504 1 ,000
14, 006 2 ,001
1, 523 1 ,217
1, 523 1 ,217
sexo
edad
pospol
Variables
Ov erall St atist ics
Step 1
sexo
edad
Variables
Ov erall St atist ics
Step 2
sexo Variables
Ov erall St atist ics
Step 3
Score df Sig.


111
Observed Groups and Predicted Probabilities

80

I
F I
R 60 I
E I I I
Q T I I
U I IT I I
E 40 T TTI I I I
N T TTI I I T I
C IT TTT I I I I T I
Y TT TTT I T I I I I I T I I
20 TT TTT T T I T T I T T I I T
TT TTT T T T T IT I T T T I I I T I
TT TTT T T T TIIT IT T T T T I I I T I I
TT TTT T T T TTTT TT TI T T IT IT T I T I II I
Predicted

Prob: 0 ,25 ,5 ,75 1
Group: TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIII

Predicted Probability is of Membership for Intolerante
The Cut Value is ,50
Symbols: T - Tolerante
I - Intolerante
Each Symbol Represents 5 Cases.

Step number: 3

Observed Groups and Predicted Probabilities

80


F
R 60
E
Q
U I
E 40 T
N TI I
C TTT T
Y TTTITI
20 TTTTTT II II
TTTTTTTITIIIII II ITII I II I
TTTTTTTTTTTTTTTITITIITTTIIIIITII II I IIIII I
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTITTTITTIITTTTIIII II
Predicted

Prob: 0 ,25 ,5 ,75 1
Group: TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIII

Predicted Probability is of Membership for Intolerante
The Cut Value is ,50
Symbols: T - Tolerante
I - Intolerante
Each Symbol Represents 5 Cases.


112

Esta es tabla indica lo observado y lo predicho por la regresin. La idea es, por supuesto, que coincidan. Como
notan, se muestran los casos en que la regresin lo logra predecir el comportamiento de la variable.
TIPOLOGAS
OBJETIVOS
A partir de la base de datos del latinobarometro 2007, se construy esta que incluye el porcentaje de
encuestados que tienen cada nivel educacional. El objetivo va a ser clasificar a los pases en funcin de su
situacin educacional.
Las variables consideradas son:
- Pas (nominal)
- Porcentaje de analfabetos (cuantitativa)
- Porcentaje de poblacin con educacin
bsica incompleta (cuantitativa)
- Porcentaje de poblacin con educacin
bsica completa (cuantitativa)
- Porcentaje de poblacin con educacin
media o tcnica incompleta (cuantitativa)
- Porcentaje de poblacin con educacin
media o tcnica completa (cuantitativa)
- Porcentaje de poblacin con educacin
superior incompleta (cuantitativa)
- Porcentaje de poblacin con educacin
superior completa (cuantitativa)
Casewise List
b
S I** ,103 T ,897 2,948
S T** ,909 I -,909 -3,165
S T** ,901 I -,901 -3,015
S I** ,127 T ,873 2,622
S I** ,123 T ,877 2,674
S I** ,133 T ,867 2,554
S I** ,103 T ,897 2,954
S I** ,126 T ,874 2,635
S I** ,106 T ,894 2,897
S I** ,106 T ,894 2,897
S I** ,125 T ,875 2,648
S I** ,107 T ,893 2,892
Case
40
50
59
92
168
438
556
567
610
622
659
671
Selected
Stat us
a
Tolerancia
binaria
Observed
Predicted
Predicted
Group Resid ZResid
Temporary Variable
S = Selected, U = Unselected cases, and ** = Misclassif ied cases.
a.
Cases with studentized residuals greater t han 2, 000 are list ed.
b.


113
TCNICAS DE OPTIMIZACI N
Vamos a analizar Clasificar conglomerados de K medias. Al realizar eso se nos abre la siguiente
ventana.
Aqu uno selecciona Etiquetar los
casos mediante y se selecciona la
variable Pases; las dems variables las
incluimos todas en la seccin
variables.
Adems en el mtodo seleccionamos
iterar y clasificar, esto para que el
computador realice las iteraciones
necesarias para generar un ptimo. Por
ltimo incluimos el nmero de
conglomerados que queremos generar;
en nuestro caso sern 4. En general esta
decisin debe sustentarse en criterios
tericos.
Luego hacemos clic en Iterar, ah se
selecciona el mximo de iteraciones: ac dejaremos el 10 predefinido, y si despus de las 10 el computador
no logr la solucin ptima se
puede pedir que haga ms
iteraciones.
El criterio de convergencia = 0, que
tambin dejamos tal cual esta,
indicara que si de una iteracin a
otra, las medias de los conglomerados varan 0 el programa dejar de
iterar.
Habiendo dos criterios la iteracin se detendr cuando cualquiera de
los dos se cumpla primero. Ponemos continuar y volvemos a la ventana
inicial; ah seleccionamos guardar.
En esta ventana uno puede seleccionar lo que quiere que el
computador guarde en la base de datos: el conglomerado de
pertenencia es agregar como variable, para cada caso el grupo en el
que queda (el n) y la distancia al centro del conglomerado tambin sera una nueva variable que permitira
ver que tan distinto es del promedio de su grupo.
Luego vamos a opciones, y pedimos como estadsticos; en este caso pediremos todas las opciones, y
dejaremos el tema de los valores perdidos tal cual esta. Ponemos continuar y luego aceptar.
ANLISIS DE LAS SALIDAS


114

Centros iniciales de los conglomerados
Conglomerado
1 2 3 4
Analfabetos 36 22 1 6
SuperiorCompleta 1 1 9 11
BsicaIncompleta 39 15 10 33
BsicaCompleta 10 37 23 12
MediaTecnicaIncompleta 9 7 34 4
MediaTecnicaCompleta 4 16 17 23
SuperiorIncompleta 1 2 6 12
Los centros iniciales de cada conglomerado los elige el computador al azar. En este caso el del
conglomerado 1 fue Guatemala; el 2 fue Honduras; el 3 fue Uruguay y el 4to fue Venezuela. Esto despus
de las iteraciones puede ir cambiando.
Esto muestra que ya en la segunda iteracin, al
tener valor 0; ya no hay cambios
significativos en la clasificacin y por tanto se
detiene.
La tabla Pertenencia a los conglomerados
muestra a que conglomerado corresponder
cada pas; as vemos que los grupos son los
siguientes:
- Primer conglomerado: Salvador, Guatemala y Nicaragua
- Segundo conglomerado: Ecuador y Honduras
- Tercer conglomerado: Argentina, Colombia, Costa Rica, Mxico, panam, Paraguay y uruguay
- Cuarto conglomerado: Bolivia, Brasil, Chile, Per, Venezuela y Repblica Dominicana
Historial de iteraciones
a

Iteraci
n
Cambio en los centros de los conglomerados
1 2 3 4
1 15,043 8,346 12,452 9,793
2 ,000 ,000 ,000 ,000
a. Se ha logrado la convergencia debido a que los centros de los
conglomerados no presentan ningn cambio o ste es pequeo. El
cambio mximo de coordenadas absolutas para cualquier centro es de
,000. La iteracin actual es 2. La distancia mnima entre los centros
iniciales es de 38,239.
Pertenencia a los conglomerados
Nmero
de caso Pas
Conglome
rado Distancia
Nmero
de caso Pas
Conglomera
do Distancia
1 Argentina 3 8,675 10 Honduras 2 8,346
2 Bolivia 4 12,488 11 Mexico 3 10,483
3 Brasil 4 16,111 12 Nicaragua 1 5,875
4 Colombia 3 11,546 13 Panam 3 8,880
5 Costa Rica 3 14,814 14 Paraguay 3 9,632
6 Chile 4 13,913 15 Per 4 19,075
7 Ecuador 2 8,346 16 Uruguay 3 12,452
8 El Salvador 1 11,446 17 Venezuela 4 9,793
9 Guatemala 1 15,043 18 Repblica Dominicana 4 14,522


115
Adems la tabla indica la distancia al centroide del grupo: valores pequeos indica que es ms cercana al
centroide, y por tanto es un caso ms similar al promedio de su grupo. As vemos, por ejemplo, que en el
primer conglomerado Nicaragua es ms tpica que Salvador y Guatemala.
En Centros de los conglomerados finales podemos ver cules fueron los centros finales; ya que se
realizaron iteraciones no son los mismos iniciales. Estos corresponden a las medias de cada variable, de los
pases de un mismo grupo. Esta tabla nos permite conocer las caractersticas de los grupos; as vemos que:
- El primer
conglomerado tiene alto
analfabetismo (26%) y
personas con enseanza
bsica incompleta (32%);
mientras que tiene muy
poca gente con educacin
superior.
- El segundo
conglomerado: tiene
principalmente gente con
bsica completa, pero an tiene altos niveles de analfabetismo (17%); y poca, pero ms que el
anterior, gente con educacin superior.
- El tercero tiene muy bajo analfabetismo (4%); y concentra su gente en bsica completa,
tcina/media completa o incompleta.
- El cuarto tiene bajo analfabetismo,
pero ms que el anterior (9%), tiene cantidad
de gente importante con bsica incompleta y
media completa. Parece ser ms polarizada.
Esta tabla nos indicara la distancia entre los
conglomerados; valores ms grandes es ms
distancia y por tanto conglomerados ms
distintos. Los ms similares son el 4 y el 3 Los ms distintos son el 3 del 1
ANOVA
Conglomerado Error
F Sig.
Media
cuadrtica gl
Media
cuadrtica gl
Analfabetos 375,579 3 28,437 14 13,207 ,000
SuperiorCompleta 50,117 3 18,473 14 2,713 ,085
BsicaIncompleta 332,659 3 55,250 14 6,021 ,007
BsicaCompleta 308,365 3 17,508 14 17,613 ,000
MediaTecnicaIncompleta 248,589 3 30,762 14 8,081 ,002
MediaTecnicaCompleta 201,565 3 31,157 14 6,469 ,006
Centros de los conglomerados finales
Conglomerado
1 2 3 4
Analfabetos 26 17 4 9
SuperiorCompleta 3 4 9 10
BsicaIncompleta 32 14 14 27
BsicaCompleta 12 34 21 11
MediaTecnicaIncompleta 17 9 24 10
MediaTecnicaCompleta 7 17 19 24
SuperiorIncompleta 3 6 10 8
Distancias entre los centros de los conglomerados finales
Conglo
merado 1 2 3 4
1 32,895 34,045 27,366
2 32,895 24,491 28,836
3 34,045 24,491 22,467
4 27,366 28,836 22,467


116
SuperiorIncompleta 36,625 3 9,519 14 3,848 ,034

La tabla de ANOVA nos permite ver cules variables son ms
importantes para distinguir en grupos. El estadstico F
(varianza atribuida a la variable/ varianza atribuida al error),
nos sirve para ello. En este caso el porcentaje de personas
con bsica completa es la que da un F ms grande, por tanto
es la variable ms importante para distinguir los grupos.
La ltima tabla solo indica el nmero de casos por grupo.
TCNICAS JERRQUI CAS
Las tcnicas jerrquicas permiten ir uniendo o dividiendo los casos en grupos y visualizar este proceso (y
comprender por tanto cules son los casos ms cercanos a cada caso). Para realizarlo ponemos Analizar
Clasificar Conglomerados jerrquicos. En la ventana que se abre seleccionamos Conglomerar Casos.
Luego vamos a estadsticos, y
seleccionamos que nos d el
historial de conglomeracin y la
matriz de distancias. Luego en
conglomerado de pertenencia
podemos elegir si queremos que
nos d una solucin nica,
predeterminando el nmero de
conglomerados, o un rango de
soluciones; en este caso vamos a
pedir entre 2 y 6 grupos. Y
ponemos continuar.
Luego vamos a grficos; pedimos el dendograma; el grfico de
tmpanos para todos los conglomerados (y no solo un rango) y pedimos que la orientacin del grfico sea
vertical. Ponemos continuar y vamos a mtodo.
Nmero de casos en cada conglomerado
Conglomerado 1 3,000
2 2,000
3 7,000
4 6,000
Vlidos 18,000
Perdidos ,000


117
Ah elegimos vinculacin inter grupos, que une segn la distancia entre las medias de los grupos. En
cuanto a la medida se seala que es de intervalo (por ser variables cuantitativas); y luego, dejamos la
distancia predefinida (eucldea al cuadrado).
Para este caso no pedimos estandarizar ni transformar los
valores. Dado que los niveles de medida son uniformes no es
necesario.
En guardar
seleccionamos que
guarde los
conglomerados; vamos a
pedirle que guarde solo
los de 4. Luego ponemos
continuar y aceptar.
INTERPRETACIN DE LAS SALIDAS

Resumen del procesamiento de los casos
a,b

Casos
Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
18 100,0 0 ,0 18 100,0
a. distancia eucldea al cuadrado usada
b. Vinculacin promedio (Inter-grupos)
La tabla de casos perdidos y vlidos no entrega mayor informacin: en este caso; todos son son vlidos.
La matriz de distancia, da cuenta de la distancia entre cada caso. Ac se puede ver que el pas al que ms se
parece Argentina (1) es el 4 (colombia).
Caso 1:1 2:2 3:3 4:4 5:5 6:6 7:7
1:1 ,000 1287,380 1492,590 138,620 375,480 409,340 442,750
2:2 1287,380 ,000 152,350 826,120 1123,820 597,360 1134,210
3:3 1492,590 152,350 ,000 1043,210 1082,250 777,030 1224,820
4:4 138,620 826,120 1043,210 ,000 576,980 83,220 527,930
5:5 375,480 1123,820 1082,250 576,980 ,000 894,620 203,650
6:6 409,340 597,360 777,030 83,220 894,620 ,000 815,270
7:7 442,750 1134,210 1224,820 527,930 203,650 815,270 ,000
8:8 884,700 418,600 581,430 705,380 503,200 784,720 685,390
9:9 2976,680 867,140 1019,350 2539,640 1898,620 2440,420 2018,750
10:10 1330,420 1586,400 1625,010 1334,960 619,600 1653,900 278,650
11:11 241,270 1126,810 1344,480 363,890 233,930 679,170 486,640


118
12:12 1548,680 627,100 754,710 1317,460 897,480 1368,400 1221,730
13:13 161,630 916,350 1106,720 131,430 364,590 318,170 276,220
14:14 232,210 890,790 887,080 154,190 400,870 257,510 541,820
15:15 629,890 846,310 1165,200 278,490 1092,470 244,510 660,740
16:16 242,180 1825,160 1907,630 432,600 448,940 799,340 745,750
17:17 948,840 166,980 189,610 603,420 894,080 413,940 846,730
18:18 583,020 452,520 552,950 359,260 431,240 408,420 375,150
La siguiente da cuenta del historial de conglomeracion, es decir de lo que sucede en acda etapa o paso. Los
primeros en unirse son el caso 4 y 6; el coeficiente indica la distancia entre ambos. Si se fijan en el paso 4
se une el caso 2 con el 3; luego en el paso 5 sale que se une el 2 con el 17; esto se refiere a que el grupo 2 y
3 (que se nombra por el numero mas pequeo) se une al 17.
Historial de conglomeracin
Etapa
Conglomerado que se combina
Coeficientes
Etapa en la que el conglomerado
aparece por primera vez
Prxima etapa Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
1 4 6 83,220 0 0 9
2 8 12 104,780 0 0 10
3 13 14 126,180 0 0 7
4 2 3 152,350 0 0 5
5 2 17 178,295 4 0 13
6 11 16 193,830 0 0 11
7 1 13 196,920 0 3 9
8 5 7 203,650 0 0 12
9 1 4 234,877 7 1 11
10 8 18 338,620 2 0 13
11 1 11 399,169 9 6 14
12 5 10 449,125 8 0 15
13 2 8 635,083 5 10 16
14 1 15 658,194 11 0 15
15 1 5 795,913 14 12 16
16 1 2 946,995 15 13 17
17 1 9 1854,716 16 0 0
Los coeficientes, que indican la distancia permite ver que del paso 9 al 10, ya aumenta mucho la distancia:
es de 100; mientras que en todos los pasos anteriores la distancia no superaba el 30. Ese puede ser un
criterio para definir hasta cuantos grupos dejo.
Conglomerado de pertenencia
Caso 6 conglomerados 5 conglomerados 4 conglomerados 3 conglomerados 2 conglomerados
1:1 1 1 1 1 1
2:2 2 2 2 2 1


119
3:3 2 2 2 2 1
4:4 1 1 1 1 1
5:5 3 3 3 1 1
6:6 1 1 1 1 1
7:7 3 3 3 1 1
8:8 4 2 2 2 1
9:9 5 4 4 3 2
10:10 3 3 3 1 1
11:11 1 1 1 1 1
12:12 4 2 2 2 1
13:13 1 1 1 1 1
14:14 1 1 1 1 1
15:15 6 5 1 1 1
16:16 1 1 1 1 1
17:17 2 2 2 2 1
18:18 4 2 2 2 1
Esta salida indica en que grupo esta cada caso; segn la cantidad determinada de grupos. Esto permite
evaluar los casos ms parecidos (siempre quedan juntos). Tambin permite ver la cantidad de casos por
grupos; por ejemplo al ser 2: queda un grupo con un caso, y el resto en otro. Lo que dara lugar a mucha
heterogeneidad en un grupo y por tanto parecera inadecuado dejar con 2 grupos.
El grfico de tmpanos da cuenta de los grupos formados, segn la cantidad requerida. Si observamos en la
etapa 5; se vern 5 grupos de barras unidas y 4 separaciones. Si hay 1 solo conglomerado, todos los casos
estn unidos.













120
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * *
* * * * * * * * * * * * * *


Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

4 4 -+---+
6 6 -+ +---+
13 13 -+-+ | |
14 14 -+ +-+ +-------+
1 1 ---+ | |
11 11 ---+-----+ +---+
16 16 ---+ | |
15 15 -----------------+ +---+
5 5 ---+-------+ | |
7 7 ---+ +---------+ |
10 10 -----------+ +-----------------------+
2 2 -+-+ | |
3 3 -+ +-----------+ | |
17 17 ---+ +---------+ |
8 8 -+-----+ | |
12 12 -+ +-------+ |
18 18 -------+ |
9 9 -------------------------------------------------+
El dendograma da cuenta de que caso de une con cada caso primero y las distancias implicadas en cada
unin. Por ejemplo llegar a unir al caso 9 con todos los dems implica una gran distancia.
CARACTERI ZACIN DE CONGLOMERADOS
Para caracterizar los conglomerados vamos a
analizar comparar medias medias. Ah se
abre la siguiente ventana.

En esta seleccionamos como variables dependientes las que usamos para clasificar; y en la capa ponemos
la variable creada que indica a que grupo pertenece c/u. Vamos a opciones; dejamos solo medias y
ponemos continuar y aceptar.
Informe
Media
Average
Linkage
(Betwee
n
Groups)
A
n
a
l
f
a
b
e
t
o
s

B

s
i
c
a
I
n
c
o
m
p
l
e
t
a

B

s
i
c
a
C
o
m
p
l
e
t
a

M
e
d
i
a
T
e
c
n
i
c
a
I
n
c
o
m
p
l
e
t
a

M
e
d
i
a
T
e
c
n
i
c
a
C
o
m
p
l
e
t
a

S
u
p
e
r
i
o
r
I
n
c
o
m
p
l
e
t
a

SuperiorCompleta
1 4,29 13,93 17,23 21,33 22,99 9,38 10,92
2 14,60 31,10 11,62 13,38 17,00 6,40 5,92


121
3 12,93 15,80 32,37 12,27 14,37 7,37 4,87
4 35,70 39,20 10,30 9,10 3,80 1,10 ,80
Total 10,91 21,37 17,49 16,49 18,49 7,59 7,68

La salida permite ver los promedios de cada variable,
en cada grupo.
Si queremos un grfico vamos a grficos cuadro de
dilogo antiguos barras. Pedimos agrupado, y que
de resmenes para distintas variables. Vamos a definir:
- El eje de las categoras son los grupos
- Las variables: las de clasificacin. Ponemos aceptar y
obtenemos un grfico con las medias para cada variable, en cada
grupo.

DISCRIMINANTE
Para la ejemplificacin se utilizar una parte de la base de datos de la encuesta Tolerancia y No
Discriminacin
3
correspondiente a la subescala de autoritarismo, que ser utilizada como variable
dependiente. Debido a que el anlisis discriminante opera con una variable dependiente categrica y varias
variables independientes cuantitativas, se opt por recodificar ciertas variables que de manera contraria no
podran haber sido utilizadas. Los puntajes en la escala de autoritarismo fueron recodificada en las
categoras bajo, medio y alto.

3
Encuesta Tolerancia y No Discriminacin. Jaime Aymerich, Manuel Canales, Manuel Vivanco


122
El propsito del anlisis es determinar si existe incidencia de las variables grupo socioeconmico, edad,
sexo, nivel educacional, preferencia poltica e ingreso per cpita en el grado de autoritarismo que
presentan los encuestados. A su vez, interesa saber qu variables discriminan ms con respecto al
autoritarismo.
Algunas de las variables independientes no son estrictamente cuantitativas, pero, sin embargo, son
ingresadas de todas formas en el modelo. Esto se debe, en el caso de algunas variables ordinales (como
grupo socioeconmico) al hecho de que al contar con ms de cuatro niveles, se asume cierta continuidad, y,
en el caso de variables dicotmicas (como sexo), que son ingresadas como dummy.
INCLUSIN SIMULTNEA DE LAS VARIABLES
En el procedimiento de inclusin simultnea, las variables independientes son introducidas al mismo
tiempo en el modelo, a diferencia del paso a paso que se presenta despus. En este sentido, sin importar si
una variable discrimina o no con respecto al autoritarismo, ser ingresada al modelo de todas formas.

Para llevar a cabo el anlisis debemos seleccionar las opciones: Analizar (Analyze), Clasificar (Clasiffy) y
Discriminante (Discriminant). La ventana que
obtenemos es la siguiente:
Hasta aqu no hay diferencia entre ambos
procedimientos. En ambos hay que definir la
variable de agrupamiento, en este caso, el
autoritarismo, y las variables independientes, que
en este caso corresponden a todas las variables
anteriormente nombradas.
La diferencia se encuentra al momento de seleccionar el procedimiento. Las opciones son: Ingresar las
variables independientes simultneamente (Enter independents together) o utilizar el mtodo por pasos
(Use stepwise method). En este caso ingresaremos las variables simultneamente. Ntese que al
seleccionar esta opcin, la ventana Mtodo no se encuentra accesible. Esto ocurre porque esta opcin
corresponde al procedimiento por pasos.
A continuacin es necesario definir el rango de categoras de la variable de agrupamiento (autoritarismo).
Para esto marcamos la variable que por ahora se encuentra
con un parntesis con signos de interrogacin. Esto quiere
decir que no hemos definido el rango. Para hacerlo marcamos
en Definir Rango (Define Range):
La ventana que se abre pide
especificar el mnimo y el


123
mximo de las categoras de la variable de agrupamiento. En este caso las categoras son tres: 1) Bajo, 2)
Medio y 3) Alto. Definimos entonces el mnimo como 1 y el mximo como 3. Ntese que en este punto es
posible dejar fuera alguna categora que pueda no interesar para el anlisis.
Marcamos Continuar (Continue) y pasamos a definir los estadsticos (Statistics). Abrimos la siguiente
ventana. Entre los estadsticos encontramos estadsticos descriptivos, matrices y coeficientes de las
funciones. Marcaremos todas las opciones. Al
analizar las salidas del programa se explicar la
utilidad de cada una. Marcamos Continuar.
Luego abrimos la ventana de Clasificacin
(Clasiffy).
En esta, hay que definir las probabilidades
previas. Esto tiene que ver con el hecho de que,
luego de calculadas las funciones discriminantes,
los casos sern vueltos a clasificar. Para saber si
la clasificacin fue mejor que la que se hubiera obtenido si se hubiera hecho al azar, deben compararse los
resultados con las probabilidades previas. Si las funciones discriminantes logran mejorar la probabilidad de
clasificar un caso en su grupo de origen, nuestro modelo es bueno. Las dos opciones que se dan en este
aspecto son: grupos de igual tamao y tomar en cuenta los tamaos de los grupos. En este caso los grupos
no son de igual tamao, por lo que se opta por tomar en cuenta el tamao de cada grupo en el clculo de las
probabilidades.
Lo segundo a definir es qu Matriz de Covarianza utilizar en el anlisis. Aqu que se dejar la opcin
predeterminada. Luego ha de especificarse qu elementos se quiere que el programa muestre en la salida.
Las opciones son: los resultados caso por caso (con la posibilidad de limitarlo a los primeros __ casos), una
tabla de resumen, y la clasificacin dejando uno fuera. Esta ltima opcin, tambin conocida como el
Mtodo U, implica que la clasificacin se llevar a cabo con las funciones derivadas de todos los casos,
exceptuando el caso que se est clasificando. De esto resulta una forma de validacin cruzada.
Seleccionamos todas las opciones. En las salidas se ver la utilidad de cada una.
En lo que respecta a los grficos, el programa da la opcin de mostrar 3 grficos en la salida: el grfico que
combina todos los grupos, el grfico de grupos por separado y el mapa territorial. Tambin aqu se marcan
todas las opciones.
Por ltimo, existe la opcin de definir que los casos perdidos sean remplazados por la media. Seleccionamos
esta opcin, pues la base de datos cuenta con una importante cantidad de casos perdidos. De todos modos,
elegir o no esta opcin debe sustentarse en un anlisis
previo de los datos.
Marcamos Continuar y abrimos la ventana Guardar
(Save). Esta permite guardar en nuestra base de datos
cierta informacin en una columna nueva, siendo til para
anlisis posteriores. Las opciones son: guardar la
pertenencia al conglomerado predicho, los puntajes
discriminantes y las probabilidades de pertenencia al
conglomerado. No seleccionamos la ltima opcin ya que no la utilizaremos en el anlisis.


124
Marcamos Continuar y en la ventana principal marcamos OK para pedir el procesamiento de los datos.
ANLISIS DE LAS SALIDAS
Lo primero que obtenemos es el resumen
del procesamiento del anlisis de los
casos. En este caso observamos que son
329 los casos vlidos y que no hay casos
perdidos.
La siguiente tabla corresponde a los
estadsticos de los grupos. Obtenemos la
media, la desviacin estndar y los casos
vlidos de cada grupo en cada una de las
variables.
La utilidad de esa tabla es meramente
descriptiva. Permite observar las caractersticas de cada grupo. Observamos, por ejemplo, que en trminos
del Nivel Socioeconmico, las personas con bajo nivel de autoritarismo tienen un promedio de nivel
socioeconmico de 1.95, mientras que las personas con alto autoritarismo tienen un promedio de 2.77. Ya
que 1 corresponde al nivel socioeconmico ms alto, observamos que las personas de bajo autoritarismo
tienen un nivel
socioeconmico
ms alto que las
personas de alto
autoritarismo.
La prxima tabla
contiene la Prueba
de igualdad de
medias para los
grupos. Esta prueba
se lleva a cabo para
cada variable. Lo
interesante es
observar si las
medias de los
grupos son
significativamente
distintas entre s
para cada una de
las variables del
anlisis.

El Lambda de Wilks
compara la suma
de cuadrados
Resumen del procesami ento para el anli sis de casos
329 100,0
0 ,0
0 ,0
0 ,0
0 ,0
329 100,0
Casos no ponderados
Vlidos
Cdigos de grupo
perdidos o f uera de rango
Perdida al menos una
v ariable discriminante
Perdidos o f uera de rango
ambos, el cdigo de
grupo y al menos una de
las variables
discriminantes.
Tot al excluidos
Excluidos
Casos Totales
N Porcentaje
Estadsticos de grupo
1, 9545 ,88460 66 66, 000
38, 4394 15, 70216 66 66, 000
,5000 ,50383 66 66, 000
4, 3333 ,82896 66 66, 000
3, 6818 1, 82427 66 66, 000
216,4983 161,33825 66 66, 000
2, 1579 1, 03110 171 171,000
39, 4152 17, 04898 171 171,000
,4678 ,50043 171 171,000
3, 9181 1, 03143 171 171,000
5, 0936 2, 18619 171 171,000
168,3328 139,27634 171 171,000
2, 7717 ,75743 92 92, 000
47, 8261 18, 50014 92 92, 000
,4891 ,50262 92 92, 000
3, 1196 1, 01464 92 92, 000
6, 5870 2, 49902 92 92, 000
90, 9891 78, 57871 92 92, 000
2, 2888 ,98087 329 329,000
41, 5714 17, 60219 329 329,000
,4802 ,50037 329 329,000
3, 7781 1, 08032 329 329,000
5, 2280 2, 42441 329 329,000
156,3672 137,57307 329 329,000
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Subescala Aut orit arismo
1, 00
2, 00
3, 00
Tot al
Media Desv. t p.
No
ponderados Ponderados
N v lido (segn lista)


125
interna y la suma de cuadrados totales. Valores cercanos a cero implican diferencia de medias entre los
grupos, valores cercanos a 1
implican la no existencia de
diferencia entre las medias. En este
caso, todos los valores son altos, lo
que es indicativo de que no existen
grandes diferencia entre las medias
de los grupos. El que ms se acerca
a 1 es la variable sexo.
El estadstico F compara la varianza
entre grupos con la varianza dentro de los grupos. Si los grupos formados son muy homogneos dentro y
muy heterogneos entre ellos, el F ser mayor. Por lo tanto, F pequeos implican poca diferencia entre
grupos y F grandes, mucha diferencia entre grupos. Nuevamente la variable sexo es la que genera la menor
diferencia. La variable con el F ms grande es Preferencia Poltica.

Al observar la significacin vemos si estas diferencias son lo suficientemente significativas como para no ser
atribuidas al azar. Si la significacin es menor al alfa estipulado (por ejemplo, 0,05), podemos determinar
que la variable genera diferencias entre grupos, vale decir, discrimina. La nica variable en este caso con una
significacin mayor a 0,05 es la variable sexo. Lo lgico sera eliminarla del anlisis, ya que no aporta
informacin alguna.
La siguiente tabla presenta dos matrices: la matriz de covarianza y la de correlaciones. La matriz de
covarianzas se obtiene uniendo las matrices de todas las variables separadas. En la diagonal se presentan
varianzas y en el resto de la tabla, covarianzas.

En la matriz de correlaciones vemos en la diagonal puros unos, ya que la correlacin de una variable consigo
misma es siempre perfecta. En el resto de la tabla vemos las dems correlaciones. Estas se interpretan como
todas las correlaciones, desde -1 a 1. En general estas son bajas, pero hay tres variables bastante
correlacionadas: Ingreso per capita, Nivel socio econmico y Nivel Educacional. Si existen variables
demasiado correlacionadas, puede que exista multicolinealidad, violando uno de los supuestos. En el
Matri ces intra-grupo combi nadas
a
,871 -, 686 -, 003 -, 378 -, 412 -66,010
-, 686 296,273 ,117 -3,494 2, 070 65, 644
-, 003 ,117 ,252 ,013 ,171 1, 071
-, 378 -3,494 ,013 ,979 ,322 52, 765
-, 412 2, 070 ,171 ,322 4, 899 40, 186
-66,010 65, 644 1, 071 52, 765 40, 186 17029,094
1, 000 -, 043 -, 006 -, 410 -, 199 -, 542
-, 043 1, 000 ,014 -, 205 ,054 ,029
-, 006 ,014 1, 000 ,026 ,154 ,016
-, 410 -, 205 ,026 1, 000 ,147 ,409
-, 199 ,054 ,154 ,147 1, 000 ,139
-, 542 ,029 ,016 ,409 ,139 1, 000
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Cov arianza
Correlacin
Niv el
Socioeco
nmico Edad Sexo
Niv el
Educacional
Pref erencia
Politica
Ingreso
por Capita
en miles
La matriz de cov arianza t iene 326 grados de libertad
a.
Pruebas de igualdad de l as medias de los grupos
,899 18, 242 2 326 ,000
,950 8, 508 2 326 ,000
,999 ,118 2 326 ,889
,834 32, 475 2 326 ,000
,828 33, 759 2 326 ,000
,894 19, 272 2 326 ,000
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Lambda
de Wilks F gl1 gl2 Sig.


126
procedimiento de inclusin simultnea de las variables, esto no hace diferencia, pero en el procedimiento
por pasos, si dos variables se encuentran muy correlacionadas, la segunda de estas no ser ingresada en el
modelo, ya que no estara aportando informacin nueva.
Otro supuesto del anlisis discriminante requiere la igualdad de matrices de covarianza para los distintos
grupos. La prxima tabla es la Matriz de Covarianzas para cada grupo, que nos permite corroborar el
cumplimiento de este supuesto. En las diagonales de cada grupo (bajo, medio y alto autoritarismo)
observamos las varianzas, en los dems espacios vemos las covarianzas. Para hacer la comparacin de las
matrices de covarianza se comparan las covarianzas de una misma variable en los 3 grupos. Sin embargo, no
es fcil sacar conclusiones a partir de esta matriz. Se observar para eso las tablas que hacen referencia al
Test M de Box, que contrasta la hiptesis nula de la igualdad de matrices de covarianza.

Prueba de Box sobre la igualdad de las matrices de covarianza
La tabla de los log determinantes sirve
para observar en qu grupos las
covarianzas son ms distintas. El
logaritmo del determinante es el
producto de los autovalores de su matriz
de covarianza. En este ejemplo pareciera
ser que, si bien hay diferencia en las
matrices de covarianza, no existe un
Matri ces de covari anza
a
,783 -1,057 -, 023 -, 215 -, 399 -88,236
-1,057 246,558 ,546 -1,656 ,819 -31,000
-, 023 ,546 ,254 ,015 ,023 ,030
-, 215 -1,656 ,015 ,687 -, 092 39, 365
-, 399 ,819 ,023 -, 092 3, 328 24, 480
-88,236 -31,000 ,030 39, 365 24, 480 26030,031
1, 063 ,275 ,002 -, 487 -, 474 -72,778
,275 290,668 -1,019 -2,854 1, 249 66, 672
,002 -1,019 ,250 ,050 ,209 2, 764
-, 487 -2,854 ,050 1, 064 ,543 66, 030
-, 474 1, 249 ,209 ,543 4, 779 48, 038
-72,778 66, 672 2, 764 66, 030 48, 038 19397,899
,574 -2,216 ,003 -, 291 -, 304 -37,490
-2,216 342,255 1, 932 -6,001 4, 499 132,754
,003 1, 932 ,253 -, 059 ,204 -1,346
-, 291 -6,001 -, 059 1, 030 ,204 37, 556
-, 304 4, 499 ,204 ,204 6, 245 36, 734
-37,490 132,754 -1,346 37, 556 36, 734 6174,614
,962 ,524 -, 002 -, 512 -, 112 -79,324
,524 309,837 ,133 -5,135 5, 568 -100,800
-, 002 ,133 ,250 ,012 ,168 1, 063
-, 512 -5,135 ,012 1, 167 -, 114 72, 111
-, 112 5, 568 ,168 -, 114 5, 878 -4,526
-79,324 -100,800 1, 063 72, 111 -4,526 18926,348
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Subescala Aut oritarismo
1, 00
2, 00
3, 00
Tot al
Niv el
Socioeco
nmico Edad Sexo
Niv el
Educacional
Pref erencia
Politica
Ingreso
por Capita
en miles
La matriz de cov arianza t otal present a 328 grados de libert ad. a.
Logaritmo de l os determinantes
6 14, 158
6 15, 044
6 13, 368
6 14, 747
Subescala Aut oritarismo
1, 00
2, 00
3, 00
Intra-grupos combinada
Rango
Logaritmo del
det erminant e
Los rangos y logarit mos nat urales de los determinantes
impresos son los de las matrices de covarianza de los grupos.


127
grupo ms distinto que los otros. Para obtener un
resultado ms claro de si las matrices son o no similares,
observamos los resultados de la prueba. El Test M de Box
contrasta la hiptesis nula de la igualdad de covarianzas.
Aceptamos la hiptesis nula de igualdad de covarianzas si
la significacin es mayor al nivel definido, por ejemplo,
mayor a 0.05. En este caso, las matrices no son similares,
violando un supuesto.
Las salidas que siguen hacen referencia al clculo de las funciones discriminantes. La primera tabla es un
resumen de las funciones creadas. Cabe recordar que en el anlisis discriminante se crean tantas funciones
como grupos menos 1. En este caso, seran 2 funciones.
Resumen de las funciones cannicas discriminantes
Esta tabla presenta las dos
funciones generadas. El autovalor
de cada funcin compara la suma
de cuadrados entre los grupos con
la suma de cuadrados dentro del
grupo. La funcin con el autovalor
mayor es la funcin que ms
separa las medias de los grupos.
En este caso, la primera funcin tiene un autovalor mucho mayor que la segunda, significando esto que
produce una mayor diferencia de medias. Vemos adems el % de la varianza total que es explicada por
cada funcin y el porcentaje de varianza acumulada. Nuevamente es la funcin 1 la que explica una mayor
cantidad de varianza (97,4%).

La Correlacin Cannica es una medida de la asociacin entre puntuaciones discriminantes y grupos.
Valores cercanos a 1 implican una alta correlacin. En este caso, en la primera funcin existe una mayor
correlacin entre puntuaciones discriminantes y grupos que en la segunda.

La siguiente tabla nos muestra el
Lambda de Wilks. El Contraste de las
Funciones prueba la hiptesis nula
de la no diferencia de medias. El
Lambda de Wilks es la proporcin de
la varianza total que no es explicada
por la diferencia entre los grupos. Los valores de Lambda oscilan entre 0 y 1. Valores cercanos a cero
implican que los grupos no son similares. Valores cercanos a uno implican que los grupos son similares.
Luego, por medio de una transformacin de Chi Cuadrado se puede obtener la significacin asociada. Si la
significacin es menor al nivel de significacin especificado, las medias de los grupos son distintas. En este
caso, solamente si se utilizan ambas funciones, la diferencia es significativa. Al utilizar solo la segunda
funcin, esta no es significativa (Sig. 0,433).
Resultados de la prueba
113,430
2, 616
42
137911, 0
,000
M de Box
Aprox.
gl1
gl2
Sig.
F
Contrasta la hipt esis nula de que las mat rices
de cov arianza poblacionales son iguales.
Autoval ores
,568
a
97, 4 97, 4 ,602
,015
a
2, 6 100,0 ,122
Funcin
1
2
Autov alor % de varianza % acumulado
Correlacin
cannica
Se han empleado las 2 primeras f unciones discriminantes
cannicas en el anlisis.
a.
Lambda de Wilks
,628 150,466 12 ,000
,985 4, 863 5 ,433
Contraste de
las f unciones
1 a la 2
2
Lambda
de Wilks Chi-cuadrado gl Sig.


128
Luego de analizar las funciones, observamos los
coeficientes estandarizados de las funciones
discriminantes. El estandarizar los coeficientes permite
comparar de manera relativa las medidas. No tiene mucho
sentido analizar estos valores de manera absoluta. De
todas formas, cabe notar que la variable Preferencia
Poltica, que hasta el momento hemos visto que parece
ser la que ms discrimina, tiene un valor mayor que las
otras en la primera funcin. Esto quiere decir, que
discriminar ms que las otras respecto a la clasificacin
de los casos.
Luego observamos la Matriz de Estructura: Esta
matriz correlaciona cada variable predictora con las
funciones discriminantes. Constituye otra forma de
evaluar la utilidad de cada variable en la funcin
discriminante. El asterisco nos muestra en que
funcin cada variable tiene mayor importancia. En
este caso, las variables Preferencia Poltica, Nivel
Educacional e Ingreso per Capita se relacionan con la
funcin 1.

Luego observamos los coeficientes de las funciones
discriminantes: estos son utilizados para calcular un
puntaje discriminante para cada caso. Es por esto que
se incluye el valor de la constante. De esta forma,
podemos definir la primera funcin como y = -0.803 +
.307x1 + .010x2 etc. Reemplazando los valores de
cada caso en las x correspondientes para cada
variable, obtenemos su puntaje
discriminante.

Ahora observaremos la tabla de las
Funciones en los Centroides de Grupo.
Esta tabla presenta las medias de cada
grupo en cada funcin. No se analizar
mayormente.
Coefi cientes estandari zados de l as funci ones
discri minantes cannicas
,286 ,644
,171 ,682
-, 103 ,279
-, 456 ,081
,760 -, 475
-, 224 ,314
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
1 2
Funcin
Matri z de estructura
,599* -, 468
-, 591* -, 257
-, 456* -, 044
,285 ,625*
,436 ,505*
,000 ,218*
Pref erencia Polit ica
Niv el Educacional
Ingreso por Capita en
miles
Edad
Niv el Socioeconmico
Sexo
1 2
Funcin
Correlaciones intra-grupo combinadas ent re las
v ariables discriminantes y las f unciones
discriminantes cannicas tipif icadas
Variables ordenadas por el tamao de la
correlacin con la f uncin.
May or correlacin absoluta ent re cada
v ariable y cualquier f uncin discriminante.
*.
Coefi cientes de l as funci ones cannicas discri minantes
,307 ,690
,010 ,040
-, 204 ,555
-, 461 ,082
,344 -, 215
-, 002 ,002
-, 803 -3,058
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
(Constante)
1 2
Funcin
Coef icientes no tipif icados Funci ones en los centroi des de l os grupos
-1,028 ,178
-, 190 -, 114
1, 091 ,083
Subescala Aut orit arismo
1, 00
2, 00
3, 00
1 2
Funcin
Funciones discriminant es cannicas no t ipif icadas
ev aluadas en las medias de los grupos
Resumen del proceso de clasi ficacin
329
0
0
329
Procesados
Cdigo de grupo perdido
o f uera de rango
Perdida al menos una
v ariable discriminante
Excluidos
Usados en los resultados


129
Estadsticos de clasificacin
Luego, el programa pasa a clasificar nuevamente cada caso. La utilidad de esto es comparar la clasificacin
por medio de las funciones discriminantes con la clasificacin real, y as definir si nuestro modelo sirve o
no. En el caso de que ste realmente nos permita hacer una clasificacin correcta, se podra utilizar para, a
posteriori, clasificar casos nuevos.
La primera tabla es simplemente un resumen de los casos procesados. En este caso fueron procesados 329
casos, no existiendo ningn valor perdido. La salida que obtenemos a continuacin es la tabla de
probabilidades previas para los grupos: Para que nuestro modelo sea til, este debe ser capaz de clasificar
los objetos correctamente con una probabilidad mayor a que si esto se hiciera de manera aleatoria. Es por
esto que deben observarse las probabilidades previas, para as compararlas con el porcentaje de
clasificacin correcta que el modelo permite.
El criterio para evaluar esto es variable,
algunos autores plantean que tiene que
aumentar la probabilidad por lo menos
en un 25% con respecto a la
probabilidad previa del grupo de mayor
tamao. Esta decisin queda en manos
del investigador. En este caso la
probabilidad previa del grupo 2, el
grupo de mayor tamao, es de ,52. Es de esperar entonces, que el modelo permita aumentar esta
probabilidad. Eso lo sabremos en las prximas salidas.
Luego obtenemos los coeficientes de las funciones
de clasificacin. A partir de esta tabla podemos
clasificar cada caso a un grupo. De manera similar a la
anteriormente planteada, podemos formar las
funciones para cada grupo. Tambin aqu aparece la
constante. Si queremos saber a qu grupo clasificar
un caso, procedemos a calcular su puntaje en cada
una de estas funciones. Se le clasifica en el grupo en
cuya funcin obtuvo el mayor valor.

La siguiente salida corresponde al Mapa Territorial:
Este mapa presenta ambas funciones (de manera horizontal, la funcin 1, y de manera vertical, la funcin 2)
situando todos los elementos, con sus respectivos centroides. No se analizar mayormente.
_

Smbolos usados en el mapa territorial

Smbolo Grupo Etiqueta
------ ----- --------------------

1 1
2 2
3 3
* Indica un centroide de grupo


Probabili dades previas para l os grupos
,201 66 66, 000
,520 171 171,000
,280 92 92, 000
1, 000 329 329,000
Subescala Aut orit arismo
1, 00
2, 00
3, 00
Tot al
Prev ias
No
ponderados Ponderados
Casos utilizados en el
anlisis
Coefi cientes de l a funcin de clasifi caci n
6, 866 6, 922 7, 451
,217 ,214 ,234
1, 124 ,791 ,639
6, 773 6, 363 5, 789
,622 ,972 1, 370
,016 ,014 ,012
-30,319 -28,629 -31,454
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
(Constante)
1, 00 2, 00 3, 00
Subescala Aut oritarismo
Funciones discriminant es lineales de Fisher


130
Mapa Territorial

Discriminante Cannica
Funcin 2
-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0

6,0 13
13
13
123
123
1223
4,0 1223
12 23
12 23
12 23
12 23
12 23
2,0 12 23
12 23
12 23
12 23
12 23
12 * 23
,0 12 * *3
12 23
12 23
12 23
12 23
12 23
-2,0 12 23
12 23
12 23
12 23
12 23
12 23
-4,0 12 23
12 23
12 23
12 23
12 23
12 23
-6,0 12 23

-6,0 -4,0 -2,0 ,0 2,0 4,0 6,0
Discriminante Cannica Funcin 1


La salida que presenta los estadsticos caso por caso es demasiado extensa como para ser reproducida de
manera completa, por lo que se irn mostrando partes de sta.


131
Observamos primero el nmero del caso, luego el grupo al que pertenece y el grupo al cual fue predicho.
En el caso en el que estos dos grupos no concuerdan, el programa los marca con asteriscos. De esta forma,
por ejemplo, el caso 8 no fue correctamente predicho.

Los datos que siguen hacen referencia a las probabilidades de clasificacin en el primer grupo predicho,
vale decir, en el grupo en el que obtuvo la mayor puntuacin. A la derecha vemos la distancia de
Mahalanobis al cuadrado hacia el centroide de su grupo. Este dato puede ser utilizado para descubrir casos
extremos (casos con una gran distancia respecto al centroide).
A continuacin presentamos la segunda mitad de la tabla que muestra los mismos datos, pero para el
segundo grupo en el cual fue predicho cada caso (vale decir, el grupo en cuya funcin el caso obtuvo el
segundo puntaje ms alto). Por ltimo se presentan los puntajes discriminantes para cada funcin. Estos no
son interpretables en trminos absolutos. Son el resultado del clculo de las funciones con los valores de
cada caso en cada variable.


Finalmente aparecen los grficos. Primero
se presentan los grficos separados por
grupos y luego un grfico que une los 3
grupos. En los grficos un eje est
compuesto por la Funcin 1 y el otro por la
Funcin 2. Interesa observar el centroide
del grupo (marcado con un cuadrado) y la
dispersin de los casos respecto a este.




132


En el grfico que une los tres grupos observamos que
existe bastante solapamiento entre los casos de cada
grupo, lo que representa un problema al momento de
llevar a cabo la clasificacin. Por ltimo observemos la
tabla de los resultados de la clasificacin.
En las columnas se presentan los conglomerados
predichos, mientras que en las filas se encuentran los
conglomerados originales. Si nuestras variables
realmente discriminaran con respecto a la pertenencia a
los conglomerados, debiera de haber una gran
concordancia entre lo predicho y lo observado. Si
observamos los porcentajes, solo el 30,3% de los casos que pertenecen al conglomerado 1 fueron
Resul tados de l a cl asificacin
b,c
20 44 2 66
10 138 23 171
0 41 51 92
30, 3 66, 7 3, 0 100,0
5, 8 80, 7 13, 5 100,0
,0 44, 6 55, 4 100,0
20 44 2 66
11 136 24 171
0 44 48 92
30, 3 66, 7 3, 0 100,0
6, 4 79, 5 14, 0 100,0
,0 47, 8 52, 2 100,0
Subescala Aut oritarismo
1, 00
2, 00
3, 00
1, 00
2, 00
3, 00
1, 00
2, 00
3, 00
1, 00
2, 00
3, 00
Recuent o
%
Recuent o
%
Original
Validacin cruzada
a
1, 00 2, 00 3, 00
Grupo de pertenencia pronost icado
Tot al
La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se
clasif ica mediant e las f unciones deriv adas a part ir del resto de los casos.
a.
Clasif icados correctamente el 63, 5% de los casos agrupados originales.
b.
Clasif icados correctamente el 62, 0% de los casos agrupados v alidados mediante validacin cruzada.
c.


133
clasificados efectivamente en el conglomerado 1. En el caso del conglomerado 2, 80,7% fue clasificado bien.
Al pie de la tabla observamos una lnea en la que dice que el 63,5% fue bien clasificado. Ahora tendramos
que pasar a comparar este porcentaje con las probabilidades previas, para poder afirmar si nuestro modelo
realmente resulta un aporte en la clasificacin.
A su vez, como en un principio pedimos la clasificacin dejando un caso fuera, en los resultados vemos
tambin la validacin cruzada. Esto se lleva a cabo, porque al clasificar los casos con un modelo que fue
creado a partir de estos mismos casos, existe un sesgo al alza en la clasificacin correcta de los casos (un
sobre ajuste a los datos). Es por esto que la clasificacin se compara con esta otra, que busca evitar este
sesgo, al clasificar los casos en base a funciones creadas con todos los casos, excepto el que se est
clasificando. Si el porcentaje de casos bien clasificados en la validacin cruzada es significativamente menor
al anterior, puede ser que se tengan demasiadas variables predictoras en el modelo. En este caso, la
diferencia es bastante baja (62,0% respecto a un 63,5%).
INCLUSIN POR PASOS DE LAS VARIABLES
Con este mtodo se busca de una mayor parsimonia ya que slo aquellas variables que cumplan con cierto
criterio de inclusin sern ingresadas en el modelo.
Para llevar a cabo el anlisis abrimos la misma ventana
que en el caso anterior, marcando Analizar, Clasificar,
y Discriminante. A su vez, incluimos nuevamente la
variable Autoritarismo como variable de agrupacin
y las dems variables como variables independientes.
Volvemos a definir el rango de la variable
Autoritarismo. Hasta aqu todo igual. Pero al
momento de seleccionar el procedimiento, marcamos
el mtodo por pasos. Al marcar este mtodo notamos
como el botn que da acceso a la ventana de Mtodo
(Method) se encuentra habilitado.
Como los dems pasos siguen siendo los mismos, la nica ventana que se revisar es la de Mtodo. Esta
ventana est compuesta principalmente por dos puntos: el mtodo y el criterio. Ambos se refieren a la
manera en la que el programa decide si incluir o
eliminar una variable del modelo. En cuanto al
mtodo tenemos varias opciones: El Lambda de
Wilks, la varianza no explicada, la distancia de
Mahalanobis, el menor cociente de F y la V de Rao. A
modo de ejemplo, el Lambda de Wilks incluye en el
modelo la variable que produce la mayor baja en
Lambda, vale decir, para la cual Lambda se acerque
ms a 0 (recordemos que valores cercanos a 0
significan diferencia de medias). El mtodo de la varianza no explicada incluye en el modelo la variable que
la disminuye. En este caso utilizaremos la Lambda de Wilks, que viene predeterminada.
En cuanto al criterio, se define un punto de corte para el ingreso de variables. En cada paso se incluye una
variable y se revisan las que se encuentran en el modelo, a ver si alguna ha de ser eliminada. Este proceso se


134
lleva a cabo hasta el momento en el que ninguna variable cumpla con el criterio de inclusin. Son dos los
criterios, el para que una variable ingrese en el modelo, y el segn el cual una variable es eliminada del
modelo. Existen dos opciones, una, es utilizar el valor de F como criterio, el otro es utilizar la probabilidad de
F.
En el primer caso una variable debe tener un F mayor al especificado como criterio para la entrada de una
variable para ser incluida en el modelo y debe tener un valor F menor que el criterio de salida para ser
eliminada del anlisis. El criterio de entrada debe ser siempre mayor que el de salida. La lgica subyacente
es que, en caso que se quiera que ms variables entren en el modelo, debe reducirse el valor criterio de
entrada y aumentarse el de salida. En el caso de utilizar las probabilidades de F, la lgica es inversa. Una
significacin menor a la de criterio de entrada es necesaria para que una variable sea incluida en el modelo y
una significacin mayor a la del criterio de salida es necesaria para que una variable sea eliminada del
modelo. En este caso se dejarn los criterios predeterminados.
Adems, se dan las opciones de pedir el resumen de los pasos y de mostrar las distancias de los F para pares
de grupos. Se marcan ambas opciones. Se marca Continuar, y OK en la ventana principal. Ahora se
proceder a analizar las salidas:
ANLISIS DE LAS SALIDAS
Las primeras ventanas son iguales a las obtenidas con el procedimiento anterior, por lo que no es necesario
repetir su interpretacin. Se analizarn, en cambio, las tablas propias del Anlisis Discriminante por pasos.
Las primeras diferencias se encuentran en las tablas en las que se especifica cmo fueron ingresadas o
eliminadas las variables en el modelo en cada paso:

Como podemos observar, el proceso se llev a cabo en 3 pasos. En el primer paso fue incluida la variable
Preferencia Poltica, en el segundo la variable Nivel Educacional y en el tercero la variable Nivel
Socioeconmico. Las dems variables no son
incluidas en el modelo. Como nota al pie de la tabla
salen especificados los criterios de inclusin y
eliminacin. Al observar los estadsticos F vemos
que todas las variables cumplen el requisito para ser
incluidas (todos los F son mayores a 3,84). Adems,
Variables introduci das/el iminadas
a,b,c,d
Pref erencia
Politica
,828 1 2 326,000 33, 759 2 326,000 ,000
Niv el
Educacional
,677 2 2 326,000 34, 970 4 650,000 ,000
Niv el
Socioecon
mico
,649 3 2 326,000 26, 019 6 648,000 ,000
Paso
1
2
3
Introducidas Estadst ico gl1 gl2 gl3 Estadst ico gl1 gl2 Sig.
F exacta
Lambda de Wilks
En cada paso se introduce la v ariable que minimiza la lambda de Wilks global.
El nmero mximo de pasos es 12.
a.
La F parcial mnima para entrar es 3.84.
b.
La F parcial mxima para eliminar es 2.71
c.
El niv el de F, la tolerancia o el VIN son insuf icient es para cont inuar los clculos.
d.
Variables en el anli sis
1, 000 33, 759
,978 37, 599 ,834
,978 36, 294 ,828
,955 41, 105 ,814
,828 16, 875 ,717
,812 6, 929 ,677
Pref erencia Polit ica
Pref erencia Polit ica
Niv el Educacional
Pref erencia Polit ica
Niv el Educacional
Niv el Socioeconmico
Paso
1
2
3
Tolerancia
F para
eliminar
Lambda
de Wilks


135
todas son significativas (significaciones menores que 0,05).
Luego observamos una tabla que nos permite determinar si las variables cumplen el criterio para ser
excluidas: La tolerancia hace referencia a la proporcin de la varianza de una variable en el modelo que no
es explicada por otra. En el primer paso solo hay una variable, por lo que es imposible que exista otra
variable que explique parte de la varianza de la primera. De esta forma, la tolerancia es 1, vale decir, toda la
proporcin de la varianza de Preferencia Poltica es propia. En el segundo paso, en cambio, la tolerancia
baja a ,978, lo que quiere decir que la variable Nivel Educacional explica parte de la varianza de la variable
Preferencia Poltica. Sin embargo, es una proporcin muy baja. En el tercer paso bajan todas las
tolerancias, pero especialmente la tolerancia de Nivel Educacional y Nivel Socioeconmico, por lo que
podemos asumir que son stas dos las que estn ms correlacionadas, y no Preferencia Poltica que an
mantiene una alta tolerancia.

La segunda columna hace referencia al F de las variables en cada paso, el cual es considerado para eliminar
variables. En este caso todos los F son mayores al criterio de salida (2,71), por lo que ninguna variable es
eliminada. Por ltimo, obtenemos el Lambda de Wilks, que contrasta la hiptesis nula de la no diferencia de
medias. Mientras ms cercano a 0, existe mayor diferencia entre las medias. Si bien los valores en este caso
son bastante altos, cabe destacar que con la inclusin de ms variables, van disminuyendo.

La siguiente tabla analiza las
variables que no se encuentran
en el anlisis, a cada paso.
Permite ver cmo fueron
seleccionadas las variables.

En el paso 0 ninguna de las
variables se encuentra en el
anlisis. Ya sabemos que la
variable Preferencia Poltica
fue seleccionada. La primera
columna hace referencia
nuevamente a la tolerancia. Se
toma en cuenta este dato al
momento de seleccionar una
variable a ser incluida, ya que
se evitar incluir variables que
tengan baja tolerancia, porque
no estarn aportando mucha
informacin agregada a la
informacin en el anlisis.

Luego vemos el F para la entrada y el Lambda de Wilks. Se selecciona para el ingreso la variable con el F
mayor y el Lambda de Wilks ms cercano a 0. En el paso 0 queda claro que es el caso de la variable
Preferencia Poltica; con un F de 33,759 y un Lambda de ,828. En el paso 1 ya no vemos la variable
Preferencia Poltica; ya que sta es una tabla de las variables que no se encuentran en el anlisis, y esta
Variables no incluidas en el anli sis
1, 000 1, 000 18, 242 ,899
1, 000 1, 000 8, 508 ,950
1, 000 1, 000 ,118 ,999
1, 000 1, 000 32, 475 ,834
1, 000 1, 000 33, 759 ,828
1, 000 1, 000 19, 272 ,894
,960 ,960 25, 241 ,717
,997 ,997 6, 070 ,799
,976 ,976 ,866 ,824
,978 ,978 36, 294 ,677
,981 ,981 22, 765 ,727
,812 ,812 6, 929 ,649
,951 ,933 1, 701 ,670
,976 ,956 ,726 ,674
,827 ,825 5, 544 ,655
,934 ,777 2, 501 ,639
,976 ,812 ,804 ,646
,664 ,653 1, 983 ,642
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Pref erencia Polit ica
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Niv el Educacional
Ingreso por Capita en
miles
Niv el Socioeconmico
Edad
Sexo
Ingreso por Capita en
miles
Edad
Sexo
Ingreso por Capita en
miles
Paso
0
1
2
3
Tolerancia
Tolerancia
mn.
F para
introducir
Lambda
de Wilks


136
variable ya fue incluida. Observemos el paso 3. Ya fueron incluidas 3 variables. Las 3 variables que quedan
no cumplen el criterio para entrar (F menor a 3,84) y el proceso termina.
La siguiente tabla permite comparar el Lambda de Wilks para las variables en el modelo en cada paso. La
idea es que el Lambda baje en cada paso, acercndose a cero. Vemos que ese es el caso, ya que en el paso 1,
donde slo hay una variable en el modelo, el Lambda es ,828, mientras que en el paso 3, cuando ya son 3 las
variables en el modelo, el Lambda es ,649.

La prxima salida que obtenemos es la
comparacin de pares de grupos. El
estadstico F en esta tabla puede ser
utilizado para ver qu grupos son ms
parecidos y para contrastar la igualdad
de medias para cada par de grupos. El
par de grupos con el F mayor y la
significacin menor, es el par que ms
difiere. En este caso, en cada paso los
grupos que ms difieren son el 1 y el 3,
ya que tienen el mayor F. Adems las
diferencias entre cada par de grupos es
significativa, ya que todas las
significaciones son menores a 0,05.
Utilizando el procedimiento por pasos
los resultados sern evidentemente
distintos a los obtenidos con el
procedimiento de inclusin simultnea
(ya que son distintas las variables tomadas en cuenta). Sin embargo, el anlisis de las dems tablas es el
mismo, por lo que no se proceder a su anlisis.
DATOS GUARDADOS EN LA BASE DE
DATOS
Al especificar los estadsticos a obtener
pedimos a su vez que el programa guardara
en la base de datos la pertenencia a grupos
predicha y los puntajes discriminantes. Si
volvemos a la base de datos veremos como
ltimas columnas lo siguiente: A la derecha
de la variable autoritarismo observamos 3
Lambda de Wilks
1 ,828 1 2 326 33, 759 2 326,000 ,000
2 ,677 2 2 326 34, 970 4 650,000 ,000
3 ,649 3 2 326 26, 019 6 648,000 ,000
Paso
1
2
3
Nmero de
v ariables Lambda gl1 gl2 gl3 Estadst ico gl1 gl2 Sig.
F exacta
Comparaci ones de grupos por pares
a,b,c
19, 372 66, 204
,000 ,000
19, 372 27, 230
,000 ,000
66, 204 27, 230
,000 ,000
16, 048 72, 443
,000 ,000
16, 048 38, 593
,000 ,000
72, 443 38, 593
,000 ,000
11, 077 53, 522
,000 ,000
11, 077 30, 375
,000 ,000
53, 522 30, 375
,000 ,000
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
F
Sig.
Subescala Aut oritarismo
1, 00
2, 00
3, 00
1, 00
2, 00
3, 00
1, 00
2, 00
3, 00
Paso
1
2
3
1, 00 2, 00 3, 00
1, 326 grados de libertad para el paso 1.
a.
2, 325 grados de libertad para el paso 2.
b.
3, 324 grados de libertad para el paso 3.
c.


137
nuevas variables. La primera (Dis_1) es la pertenencia a los grupos predicha. Por ejemplo, el primer caso fue
predicho como perteneciente al grupo 1. Las otras dos columnas (Dis1_1 y Dis2_1) son los puntajes
discriminantes. Es por medio de estos puntajes que se clasificaron los casos en cada grupo. Esta informacin
nos puede servir para realizar anlisis posteriores.
ANLISIS FACTORIAL
Para la ejemplificacin del Anlisis Factorial se utilizar una parte de la base de datos de la encuesta de
Tolerancia y No Discriminacin; referente a Santiago (600 casos). Esto es relevante ya que el anlisis
factorial considera como condicin de aplicacin el trabajar con un nmero suficientemente grande de
casos. El criterio es variable, el estndar es de 300 hacia arriba es bueno.
Todas las variables que contiene la base de datos son parte de una escala Likert con 6 opciones de
respuesta, que miden el grado en el que el encuestado se encuentra de acuerdo o en desacuerdo con una
afirmacin. La encuesta est compuesta de una serie de subescalas, tales como homofobia, racismo anti-
indgena, sexismo, dogmatismo, autoritarismo, entre otras.
El fin de este anlisis es revisar la validez de las subescalas de Tolerancia y No-Discriminacin. Dado que el
anlisis factorial permite analizar la estructura subyacente de una serie de variables, se constituye en la
herramienta ideal para constatar que las variables que componen las distintas subescalas realmente son
parte de una misma dimensin.
El anlisis factorial es una tcnica de interdependencia que opera con variables cuantitativas. En este caso
el rango de variacin de las variables es 6, valor
suficiente, pero en el lmite.
El nmero de variables es un tema importante en
Anlisis Factorial. Es condicin de aplicacin que
existan suficientes variables. Un criterio comn que
otorga validez a los resultados es que para cada factor
que se decida mantener en la solucin haya al menos 4
variables originales.
Para llevar a cabo el anlisis seleccionamos el anlisis
factorial en Analizar Reduccin de Dimensiones
Factor.
En la ventana obtenida, por ser esta una
tcnica de interdependencia, no definimos
las variables dependientes e independientes,
sino que incluimos todas las variables en
recuadro Variables.
Abrimos la ventana de Descriptivos. En
cuanto a los estadsticos, pedimos ambos.
Respecto a las Matrices de Correlacin
pedimos todos menos:


138
Los niveles de significacin: es un valor que se incluye en la matriz
de correlacin. Un nivel crtico menor que 0,05 indica que la correlacin
poblacional (rho) entre el correspondiente par de variables puede ser
considerada significativamente distinta de cero ( 0 :
0
= H ). Lo deseable
es encontrar niveles crticos pequeos.
La matriz inversa ya que si bien es la base para el clculo de las
comunalidades iniciales en algunos mtodos de extraccin no aporta en la
interpretacin.
Marcamos Continuar y luego abrimos la ventana de
Extraccin:
1) La primera decisin a tomar es el Mtodo de extraccin.
Estos difieren tanto en la forma de estimar las
saturaciones (correlaciones entre variables y factores)
como en las matrices de clculo (nosotros trabajaremos
con la matriz de correlaciones).
Los procedimientos de extraccin de factores ms
comunes son dos:
- Extraer Factores: se utiliza para resumir la
informacin comn que tienen las variables originales ordenadas en una matriz de correlaciones.
Al decidir factorizar existen 6 mtodos en SPSS, el ms comn es el de ejes principales.
- Extraer Componentes: se utiliza para resumir toda la informacin (toda la varianza = comunalidad
+ especificidad) presente en la matriz de correlaciones. Como predeterminado viene el Mtodo
de Componentes Principales. Dejamos ese.
2) Elegir si el anlisis se llevar a cabo a travs de:
- Matriz de Correlaciones
- Matriz de Covarianzas. En caso de optar por trabajar con matriz de covarianzas no se estandarizan
las variables y las que tienen mayor variabilidad tienen ms peso en el anlisis.
Dejamos la opcin predeterminada Correlaciones.

3) Opcin de mostrar:
- Solucin no Rotada
- Grfico de Solucin
Se marcan ambas opciones.

4) Decidir con respecto al nmero de factores que sern extrados. En Anlisis Factorial siempre se obtienen
tanto factores como variables se incluyan en el anlisis. Como los factores se ordenan de manera
jerrquica, es decir, el primero mantiene ms informacin que el segundo y as sucesivamente, es posible
reducir dimensiones, asumiendo cierta prdida de informacin.
Por tanto hay que tomar una decisin respecto de cuntos factores mantener. Dos opciones:


139
a) Criterio estadstico muy comn es mantener los factores con autovalor mayor que 1, lo que implica
que el factor explica por lo menos la varianza de una variable.
La matriz de correlaciones refiere a la relacin entre variables estandarizadas. Recordemos que el
coeficiente r de Pearson es la multiplicacin de dos variables estandarizadas. En variables
estandarizadas la varianza es 1, por tanto si hay un factor que asocia un autovalor menor a 1
quiere decir que tiene menos informacin que la variable. En este contexto informacin es
anloga a varianza.
b) Criterio sustantivo. La otra opcin que da el programa es definir un nmero fijo de factores a
conservar. Esto puede basarse en un criterio terico (ejemplo: se cree que el capital social tiene
tres dimensiones: la confianza, la reciprocidad y la continuidad de las interacciones).
En este caso se opta por utilizar el criterio del autovalor mayor a 1.
5) Se da la alternativa de elegir un nmero mximo de iteraciones a realizar por el programa. El valor por
defecto es 25, habitualmente suficiente para obtener una solucin. Este valor puede cambiarse
introduciendo un entero positivo. Lo dejamos as.
Marcamos Continuar y abrimos la ventana de Rotacin:
En esta ventana permite seleccionarse un Mtodo de rotacin de los
factores. Al respecto lo primero que hay que saber es que la rotacin es un
procedimiento opcional.
Los procedimientos de rotacin buscan mejorar la interpretacin. Para ello,
se giran los ejes manteniendo las propiedades matemticas de la solucin
inicial. La rotacin no modifica la varianza explicada por cada factor.
Una buena solucin factorial se caracteriza por la simplicidad y facilidad de
interpretacin. Caractersticas que permiten la fcil interpretacin de los factores: (1) Cada factor debe estar
asociado a saturaciones cercanas a cero (independencia entre factor y variable) o a uno (asociacin entre
factor y variable). (2) Cada variable debe estar asociada a un solo factor. El peso de la variable es alto en el
factor que explica su variabilidad. (3) Dos factores no deben presentar pesos altos o bajos en las mismas
variables.
La rotacin facilita la interpretacin cuando en principio la solucin no cumple con estas condiciones.
Existen dos tipos de procedimientos de rotacin:
- Rotacin ortogonal: respeta la independencia entre factores de la solucin inicial. SPSS ofrece 3
mtodos distintos.
- Rotacin oblicua: pueden obtenerse factores relacionados entre s.
Las opciones de rotacin son:
Ninguno. Por defecto.
Varimax. Mtodo de rotacin ortogonal que minimiza el nmero de variables que tienen
saturaciones altas en cada factor. Simplifica la interpretacin de los factores optimizando la
solucin por columna (valores altos o bajos).


140
Quartimax. Mtodo de rotacin ortogonal que minimiza el nmero de factores necesarios para
explicar cada variable. Simplifica la interpretacin de las variables observadas optimizando la
interpretacin por filas.
Equamax. Combinacin del mtodo Varimax y Quartimax. Se minimiza tanto el nmero de
variables que saturan alto en un factor como el nmero de factores necesarios para explicar una
variable.
Oblimin directo.
Promax.
Dejamos el mtodo Varimax que es el ms comn.
En Mostrar marcamos la opcin de mostrar la Solucin Rotada y el Grfico de de saturaciones en el
espacio rotado.
Nuevamente dejamos en 25 las iteraciones mximas.
Marcamos continuar y abrimos la ventana de Puntajes: Estos
corresponden al valor que tendra un caso si el factor hubiese sido
medido directamente. Los factores son nuevas variables
independientes que pueden constituir insumos para otros anlisis.
Cada puntuacin factorial es una combinacin lineal de los coeficientes
y las puntuaciones en las variables originales.
Esta ventana da la opcin de calcular los puntajes para cada caso de los factores que se generen, por
medio de distintos mtodos (Regresin, Bartlett, Anderson-Rubin). Las opciones de este recuadro no
tienen efecto alguno cuando se ha seleccionado componentes principales como mtodo de extraccin, ya
que en ese modelo factorial las puntuaciones factoriales no son estimadas, sino calculadas directamente a
partir de las variables originales. Dejamos el mtodo de regresin que es el que figura por defecto y el
ms comn.
Pedimos que guarde los factores como variables.
Marcamos Continuar y abrimos la ventana de Opciones: En esta ventana se
decide el tratamiento de los casos perdidos:
- Excluir casos segn lista: excluye los casos que tengan cualquier valor
perdido en cualquiera de las variables.
- Excluir casos segn pareja: incluye casos que tengan valores
perdidos en alguna, pero casos vlidos en otra y trabaja con las puntuaciones
vlidas.
- Remplazar por la media. Marcamos esta opcin.
Ms abajo se ofrecen algunas opciones para controlar dos aspectos relacionados con el formato de
visualizacin de los coeficientes.


141
- Ordenados por tamao. Esta opcin sirve para ordenar las variables de las tablas de resultados en
funcin de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones,
correlaciones, etc).
- Suprimir valores absolutos menores que.... Permite suprimir de las tablas de resultados los
coeficientes cuyo un valor absoluto sea menor que el valor establecido (el valor por defecto es
0,10).
Marcamos la opcin de ordenar por tamao para simplificar la interpretacin.
INTERPRETACIN DE LAS SALIDAS

Lo primero que obtenemos
son los estadsticos
descriptivos para cada
variable.
Todas son parte de una
escala Likert donde 1 es
totalmente de acuerdo y 6
totalmente en desacuerdo,
variables con promedios
bajos implican un mayor
acuerdo, y variables con
promedios altos implican un
mayor desacuerdo.
Adems no existen valores
perdidos y en todos los
anlisis se incluyeron 600
casos nmero adecuado
para realizar un anlisis
factorial.

La siguiente tabla es la Matriz de Correlaciones: La tabla relaciona todas las variables entre s mediante el
coeficiente de correlacin de Pearsons que establece la correlacion lineal entre dos variables. Los 1 en la
diagonal indican la correlacin de la variable consigo misma. Al pie de la tabla, a mano izquierda, vemos la
Determinante. Si la Determinante se encuentra cercana a 0, significa que existe relacin lineal entre las
variables. Para llevar a cabo un anlisis factorial se busca que exista relacin lineal entre variables dado
que el supuesta que sustenta este anlisis es que existe una estructura o patrn de relaciones subyacente a
la matriz de correlaciones. Adems si el determinante es 0 el programa advierte que no es posible calcular
la inversa de la matriz, la cual es necesaria para algunos mtodos de extraccin (no para este). En este
caso existe relacin entre las variables.

Estadsticos descripti vos
3, 69 1, 912 600 0
4, 17 1, 986 600 0
2, 09 1, 542 600 0
4, 74 1, 730 600 0
3, 94 2, 130 600 0
4, 57 1, 914 600 0
3, 89 2, 066 600 0
3, 52 2, 130 600 0
4, 09 2, 040 600 0
4, 15 2, 023 600 0
Preg. 1 Una persona que prct ica una religin es
ms conf iable que alguien ateo.
Preg. 2 No se debe permit ir el divorcio pues se
pone en peligro la solidez del matrimonio y la
f amilia.
Preg. 3 La obediencia y el respeto a la aut oridad
son las primeras v irt udes que hay que ensear
a los nios.
Preg. 4 Es natural y justo que se imponga a las
mujeres ciertas restricciones que no pesan
sobre los hombres
Preg. 5 A los homosexuales no se les debe
permit ir ser prof esores de colegio.
Preg. 6 Por sus caract ersticas raciales los
ind genas tendrn siempre una limitacin social
Preg. 7 Las personas que usan barba , pelo largo
y tatuajes, deben cambiar su aspecto para
trabajar en cualquiera empresa.
Preg. 8 En algunos casos especiales el aborto es
aconsejable.
Preg. 9 Es trist e admit irlo, pero las desigualdades
sociales son necesarias para el f uncionamiento
de la economa.
Preg. 10 Un colegio adecuado para las nias es
aquel donde pueden aprender correct amente
sus roles de madre y esposa.
Media
Desviacin
t pica
a
N del anlisis
a
N perdida
Para cada v ariable, los v alores perdidos se sustituy en por la media de la v ariable. a.


142

Otra forma de analizar si existe relacin entre las
variables es por medio del Test de KMO y de Bartlett. La
medida de adecuacin KMO (K de Kaiser) es un
estadstico que mide la proporcin de la varianza en las
variables que es comn. Si es cercano a 1, existen
suficientes comunalidades como para llevar a cabo el
anlisis. Si el valor de esta prueba es inferior a 0,5 NO
debiera aplicarse el anlisis factorial segn algunos estadsticos (criterios variables). En este caso es de
0,927, lo que indica que existe varianza comn entre las variables y es posible seguir adelante con la
interpretacin.
El Test de Bartlett contrasta la hiptesis nula de que la matriz de correlacin es una matriz identidad. La
matriz identidad es una matriz que tiene unos en la diagonal y ceros en los dems espacios, es decir, una
matriz donde no hay ms relacin entre variables que la que hay entre cada variable consigo misma. Por
tanto no tiene sentido buscar un patrn de relaciones donde lo que hay es absoluta independencia. Si la
significacin es menor a 0,05 = existen relaciones. En este caso la significacin es de 0,000, por tanto no es
una matriz de identidad.

La siguiente tabla es la Matriz Anti-Imagen, que incorpora dos tablas.
Matri z de correl aciones
a
1, 000 ,368 ,268 ,304 ,196
,368 1, 000 ,220 ,227 ,292
,268 ,220 1, 000 ,255 ,178
,304 ,227 ,255 1, 000 ,120
,196 ,292 ,178 ,120 1, 000
Preg. 1 Una persona que
prctica una religin es
ms conf iable que
alguien ateo.
Preg. 2 No se debe
permit ir el divorcio pues
se pone en peligro la
solidez del mat rimonio y
la f amilia.
Preg. 3 La obediencia y el
respet o a la autoridad
son las primeras v irt udes
que hay que ensear a
los nios.
Preg. 4 Es natural y justo
que se imponga a las
mujeres ciertas
restricciones que no
pesan sobre los hombres
Preg. 5 A los
homosexuales no se les
debe permitir ser
prof esores de colegio.
Correlacin
Preg. 1 Una
persona que
prctica una
religin es
ms conf iable
que alguien
at eo.
Preg. 2 No se
debe permitir
el divorcio
pues se pone
en peligro la
solidez del
matrimonio y
la f amilia.
Preg. 3 La
obediencia y
el respeto a
la autoridad
son las
primeras
v irtudes que
hay que
ensear a
los nios.
Preg. 4 Es
nat ural y just o
que se
imponga a las
mujeres
ciertas
restricciones
que no pesan
sobre los
hombres
Preg. 5 A los
homosexual
es no se les
debe
permit ir ser
prof esores
de colegio.
Det erminant e = 8,66E-010
a.
KMO y prueba de Bartl ett
,927
12043,734
1953
,000
Medida de adecuacin muest ral de
Kaiser-Mey er-Olkin.
Chi-cuadrado
aproximado
gl
Sig.
Prueba de esf ericidad
de Bartlet t


143

Correlacin anti-imagen. Se analizan dos cosas:
1. Diagonal: en esta observamos la Medida de Adecuacin de la Muestra (KMO). Si el modelo es
adecuando, los elementos de la diagonal deben ser cercanos a 1 (el criterio es superiores a 0,5).
Vemos valores bastante altos, entre el 0,7 y 0,8 y 0,9 lo que es bueno.
2. El resto de la tabla: los coeficientes de correlacin parcial indican el grado de relacin existente entre
dos variables eliminando el efecto de las otras variables incluidas, es decir, son las correlaciones que
no se deben a los factores comunes. Cuando las variables incluidas tienen informacin comn, la
correlacin parcial de la matriz anti imagen debe ser reducida. Por tanto se busca que las
correlaciones sean pequeas, ya que si hay valores bajos, podemos afirmar que nuestra solucin
factorial tiene poca varianza no explicada. Observamos valores cercanos a 0, por lo que la varianza
que no se debe a factores comunes es muy baja.
Covarianza anti-imagen: no se analiza, pero es distinta a la otra matriz en lo siguiente: la diagonal
representa una indicacin de la unicidad de las variables, de lo que tienen de propio, no compartido con las
dems variables.

Ahora observamos las Comunalidades. La Comunalidad es la proporcin de la varianza de una variable que
puede ser explicada por el modelo factorial obtenido. La tabla muestra dos columnas: (A) Inicial: la varianza
de una variable estandarizada es 1, es decir esta es toda la informacin o variabilidad que aporta una
variable. El mtodo de Componentes principales (indicado al pie de la tabla) busca extraer la mayor varianza
de las variables originales considerando la comunalidad y la especificidad. Asume que es posible explicar el
100% de la varianza observada, es por ello que el valor inicial es 1.



144

(B)Extraccin vemos la parte de la varianza que es explicada por el modelo factorial obtenido. Podemos
evaluar qu variables son peor explicadas por el modelo. Valores cercanos a 1 indican que el modelo
explica la varianza de esa variable, mientras que valores cercanos a 0 indican que el modelo factorial no
explica la variable. Ejemplo: la P4 (pregunta que mide sexismo) no es muy bien explicada por el modelo.
*Si escogiramos otro mtodo (ejes principales) en la columna inicial tendramos una estimacin de la
comunalidad (correlacin mltiple entre esa variable y las dems). Luego estas comunalidades generalmente
no coinciden con la matriz factorial.

La tabla que sigue es la tabla del Total de varianza Explicada (presentamos slo una parte):
Columna 1: Vemos 63 componentes, 1 por cada variable.
Columna 2: Muestra los autovalores: indican la cantidad de informacin (varianza) que explica el factor. Se
calcula como la suma en cada columna de los cuadrados de los pesos. Sabemos que los factores o
componentes son jerrquicos y vemos que la magnitud de los autovalores va en descenso. Hasta el
componente 16, los autovalores son mayores que 1, pero ya el 17 tiene un autovalor menor que 1 (,977). Si
nos quedamos con 16 componentes reducimos las 63 variables a 16 dimensiones, es bastante.
Columna 3: los porcentajes de varianza explicada a asociados a cada factor se obtienen dividiendo el auto
valor por la suma de los autovalores (nmero de variables=63) y multiplicndolo por 100. (14, 228 / 63 *
100 = 22,584).
Columna 4: muestra dicho porcentaje pero acumulado. Esta informacin permite tomar una decisin
respecto del nmero de factores a mantener, ms all del criterio de Kaiser autovalor >1-. Con 16
componentes estamos explicando un 56,35% de la varianza.

Comunali dades
1, 000 ,551
1, 000 ,527
1, 000 ,463
1, 000 ,436
1, 000 ,583
1, 000 ,622
1, 000 ,578
1, 000 ,634
1, 000 ,620
1, 000 ,647
1, 000 ,650
1, 000 ,530
1, 000 ,654
1, 000 ,518
1, 000 ,460
Preg. 1 Una persona que prct ica una religin es ms conf iable que
alguien at eo.
Preg. 2 No se debe permit ir el divorcio pues se pone en peligro la solidez
del mat rimonio y la f amilia.
Preg. 3 La obediencia y el respeto a la autoridad son las primeras virtudes
que hay que ensear a los nios.
Preg. 4 Es natural y justo que se imponga a las mujeres ciert as
restricciones que no pesan sobre los hombres
Preg. 5 A los homosexuales no se les debe permitir ser prof esores de
colegio.
Preg. 6 Por sus caract ersticas raciales los indgenas tendrn siempre
una limit acin social
Preg. 7 Las personas que usan barba , pelo largo y t atuajes, deben
cambiar su aspecto para trabajar en cualquiera empresa.
Preg. 8 En algunos casos especiales el aborto es aconsejable.
Preg. 9 Es trist e admit irlo, pero las desigualdades sociales son necesarias
para el f uncionamiento de la economa.
Preg. 10 Un colegio adecuado para las nias es aquel donde pueden
aprender correctamente sus roles de madre y esposa.
Preg. 11 En Chile no se respet a como se debiera a los hroes de la patria
Preg. 12 Es mejor no meterse con los git anos , pues no son de f iar
Preg. 13 La mujer que trabaja debe hacerlo en t areas propias de su sexo,
tales como enf ermera, trabajos de of icina y cuidado de los nios.
Preg. 14 Es verdad que los peruanos necesitan empleo, pero los
empresarios deben pref erir siempre a los chilenos
Preg. 15 Un libro que contiene ideas polticas errneas debe ser ret irado de
las libreras
Inicial Extraccin
Mt odo de extraccin: Anlisis de Componentes principales.


145

Columna 5, 6 y 7: muestran la misma informacin cuando trabajamos con el mtodo de componentes
principales, ya que muestra la suma de las saturaciones al cuadrado y en este mtodo por defecto los
autovalores se calculan de esta manera, pero en otros mtodos de extraccin, en los cuales el autovalor se
calcula de otra manera, aporta informacin relevante.
Columna 8, 9 y 10: muestra la misma informacin luego de aplicada la rotacin.
Recordemos que la rotacin reordena la varianza. De esta forma, el primer componente ya no tiene un
autovalor de 14, sino de 4, y la varianza que explica es ahora slo el 6%. Lo que hace la rotacin es
emparejar los factores. Si bien el primer componente sigue siendo el que ms explica, ahora no se
encuentra tan lejos de los dems componentes. Cabe destacar que, sin embargo, si miramos la varianza
acumulada, luego del componente 16, sta es del 56,35%, igual que en la solucin no rotada. La rotacin
reorganiza varianza, no la pierde. En el fondo mantiene las propiedades matemticas de la solucin inicial.

El siguiente grfico es el Grfico de Sedimentacin:
Este sirve para determinar el
nmero ptimo de factores. El
grfico se observa buscando el
punto de inflexin a partir del
cual los autovalores dejan de
tener una pendiente
significativa.
En este caso, por ejemplo,
cabra preguntarse si vale la
pena incluir los componentes
desde el 5 en adelante, ya que
es ah donde se produce el
corte en cuanto a la intensidad
de la pendiente. De todas
formas, optamos por
quedarnos con 16
componentes.
Varianza total expli cada
14, 228 22, 584 22, 584 14, 228 22, 584 22, 584 4, 050 6, 429 6, 429
2, 391 3, 795 26, 379 2, 391 3, 795 26, 379 3, 784 6, 006 12, 435
2, 203 3, 498 29, 877 2, 203 3, 498 29, 877 3, 526 5, 597 18, 032
1, 826 2, 898 32, 775 1, 826 2, 898 32, 775 2, 521 4, 002 22, 034
1, 692 2, 685 35, 460 1, 692 2, 685 35, 460 2, 472 3, 924 25, 958
1, 434 2, 276 37, 737 1, 434 2, 276 37, 737 2, 323 3, 688 29, 646
1, 376 2, 185 39, 921 1, 376 2, 185 39, 921 2, 269 3, 602 33, 248
1, 354 2, 150 42, 071 1, 354 2, 150 42, 071 2, 193 3, 481 36, 728
1, 261 2, 002 44, 073 1, 261 2, 002 44, 073 2, 165 3, 436 40, 165
1, 211 1, 922 45, 995 1, 211 1, 922 45, 995 1, 720 2, 730 42, 895
1, 176 1, 867 47, 862 1, 176 1, 867 47, 862 1, 657 2, 629 45, 524
1, 134 1, 800 49, 662 1, 134 1, 800 49, 662 1, 443 2, 291 47, 816
1, 103 1, 750 51, 412 1, 103 1, 750 51, 412 1, 423 2, 258 50, 074
1, 088 1, 727 53, 140 1, 088 1, 727 53, 140 1, 362 2, 162 52, 236
1, 020 1, 619 54, 759 1, 020 1, 619 54, 759 1, 305 2, 071 54, 306
1, 003 1, 593 56, 351 1, 003 1, 593 56, 351 1, 288 2, 045 56, 351
Componente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Tot al
% de la
v arianza % acumulado Tot al
% de la
v arianza % acumulado Tot al
% de la
v arianza % acumulado
Autov alores iniciales
Sumas de las saturaciones al cuadrado
de la extraccin
Suma de las saturaciones al cuadrado
de la rotacin
Mt odo de extraccin: Anlisis de Componentes principales.


146
La siguiente tabla es la Matriz de Componentes:

Esta matriz cruza cada variable (filas) con cada uno de los 16 componentes nuevos (columnas). Los
coeficientes se denominan pesos o saturaciones: indican la intensidad de la relacin entre las variables y
los factores. Se interpretan como una correlacin de Pearson. Esta es la solucin sin rotar los factores, en
general su interpretacin es ms difusa. Vemos que la mayora de las variables tienen peso (valores altos)
en el primer componente. Tambin observamos que las preguntas fueron ordenadas segn las
correlaciones, como fue pedido en un principio. Ya que es complejo interpretar esta matriz, se prefiere
interpretar la matriz de componentes rotada. sta ser interpretada ms adelante.
La prxima tabla es la Matriz Reproducida y la matriz residual:


Matri z de componentes
a
,607 -, 082 -, 368 ,020 -, 119
,599 ,040 -, 164 -, 068 ,079
,598 ,067 -, 127 -, 034 ,031
,592 ,185 -, 094 -, 096 ,156
,592 ,041 -, 086 -, 123 ,173
,588 ,143 -, 186 -, 214 ,023
,579 -, 349 ,027 -, 033 -, 089
Preg. 50 Los jvenes de hoy necesitan mano dura
y a que le han perdido el respeto a todo
Preg. 18 Un pas que permite muchas dif erencias
en las opiniones de la gente puede entrar en
peligro de conf lictos graves.
Preg. 43 Mientras ms religiones se permitan en
el pas ms dif cil es inculcarle v alores a los hijos.
Preg. 38 Si se mezclan mucho los peruanos con
los chilenos, la calidad de la gente de nuestro
pa s se v a a echar a perder
Preg. 21 Los chilenos son ms v alientes y
pat riot as que las personas de los pa ses vecinos.
Preg. 46 A pesar de que hay excepciones , est
claro que los chilenos somos ms capaces que
los habit antes de los pases v ecinos
Preg. 10 Un colegio adecuado para las nias es
aquel donde pueden aprender correct amente sus
roles de madre y esposa.
1 2 3 4 5
Componente
Mt odo de extraccin: Anlisis de componentes principales.
16 componentes extra dos
a.


147
Vemos dos matrices juntas: Matriz reproducida: reproduce las correlaciones entre variables usando la
informacin factorial.
Matriz residual: expresan la diferencia entre las correlaciones observadas y las correlaciones reproducidas
por la estructura factorial para los pares de variables. Si la solucin factorial es buena, las diferencias
debiesen ser pocas y los residuos pequeos. Los resiudos pueden ser altos por (1) Nmero insuficiente de
factores extrados. (2) Nivel de medida de las variables inadecuado para estimar correlaciones. (3) Falta de
relacin lineal entre variables que haga inadecuado el modelo factorial; etc.


Para un anlisis ms acabado, miramos el pie de la tabla: Vemos aqu que los residuos computados entre las
correlaciones observadas y reproducidas son el 18%. Si es bueno o malo depende del criterio, no existen un
criterio estndar en este caso.

A continuacin observamos la Matriz Rotada. En esta se observa qu variables se asocian a qu
componente. El fin de esto es observar si las variables que se definieron como parte de una subescala
efectivamente son ordenadas en un mismo componente. Si esto sucede as, podemos afirmar que la
subescala tiene validez.

En este caso, las variables que pesan en el primer componente (que tienen correlaciones sobre 0,5 en este
componente), son (1) Para que hagamos bien nuestro trabajo, es necesario que patrones y jefes nos
indiquen cuidadosa y exactamente qu es lo que debemos hacer y cmo. (2)Los jvenes de hoy necesitan
mano dura ya que le han perdido el respeto a todo; (3) Lo que necesita la juventud es autoridad,
determinacin y voluntad de trabajar y luchar por la familia y la patria. (4) Un pas que permite muchas
diferencias en las opiniones de la gente puede entrar en peligro de conflictos graves. (5) Ms que
discusiones entre nosotros, lo que necesitamos es un jefe. (6) La obediencia y el respeto a la autoridad son
las primeras virtudes que hay que ensear a los nios. Observando estas afirmaciones, vemos que el
componente al que pertenecen se asocia con el autoritarismo. Por lo tanto, podemos concluir que, por lo
menos la subescala de autoritarismo tiene validez.


148
Si observamos en las salidas las variables que pesan en el segundo componente, vemos que stas se
encuentran asociadas al sexismo: (1) Ante dificultades importantes, los hombres tienen ms valor y estn
ms preparados que las mujeres para enfrentarlos. (2) Es normal que los empresarios prefieran a los
hombres en los trabajos, pues tienen ms experiencia que las mujeres. (3) Salvo excepciones, las mujeres
tienen menos capacidad que los hombres para desarrollar cargos de alta responsabilidad. (4) Es normal que
los hombres ganen ms dinero que las mujeres pues tienen una familia que mantener. (5) La mujer que
trabaja debe hacerlo en tareas propias de su sexo, tales como enfermera, trabajos de oficina y cuidado de
los nios.

Si siguiramos el anlisis de todos los componentes, nos encontraramos con situaciones similares. En este
punto se debe hacer un esfuerzo interpretativo por caracterizar los factores o identificarlos con algn
nombre de acuerdo a las variables que asocian con mayor intensidad. Es aqu donde respondemos a la
pregunta por las dimensiones subyacentes.

Luego vemos la Matriz de Transformacin de los Componentes que se refiere a la magnitud de la rotacin
llevada a cabo. Si los valores que se encuentran fuera de la diagonal son cercanos a 0, significa que hubo
poca rotacin. Si observamos esta tabla, los valores son en general bastante cercanos a 0 (con algunas
excepciones), por lo que podemos concluir que no hubo mucha rotacin de los factores.
Matri z de componentes rotados
a
,592 ,069 ,143 ,053 ,234
,570 ,077 ,184 -, 050 ,173
,568 ,089 ,187 ,039 ,193
,539 ,134 ,157 ,129 ,090
,517 ,172 ,107 ,219 ,152
,515 ,083 ,164 ,115 ,085
,490 ,104 ,170 ,232 ,036
,445 ,066 ,410 ,000 -, 044
,395 ,231 ,057 ,177 ,077
,390 ,171 ,172 ,145 ,030
,112 ,713 ,142 ,004 ,061
,024 ,702 ,034 ,166 ,007
,077 ,673 ,016 ,082 ,022
,078 ,600 ,142 ,103 ,015
Preg. 22 Para que hagamos bien nuest ro trabajo, es necesario
que pat rones y jef es nos indiquen cuidadosa y exactamente qu
es lo que debemos hacer y como.
Preg. 50 Los jvenes de hoy necesitan mano dura y a que le han
perdido el respet o a todo
Preg. 54 Lo que necesit a la juv entud es aut oridad, determinacin
y v olunt ad de t rabajar y luchar por la f amilia y la patria
Preg. 18 Un pas que permite muchas dif erencias en las
opiniones de la gente puede ent rar en peligro de conf lict os
graves.
Preg. 26 Ms que discusiones entre nosot ros, lo que
necesitamos es un jef e
Preg. 3 La obediencia y el respeto a la aut oridad son las
primeras virtudes que hay que ensear a los nios.
Preg. 43 Mientras ms religiones se permitan en el pa s ms
dif cil es inculcarle v alores a los hijos.
Preg. 49 Deben existir personas que censuren lo que sale en
televisin , pues no se pueden dif undir v alores equiv ocados
Preg. 62 Dada la sit uacin act ual, es inconv eniente que se
contraten jvenes, pues se quejan demasiado y no valoran el
trabajo
Preg. 15 Un libro que contiene ideas polticas errneas debe ser
retirado de las libreras
Preg. 33 Ant e dif icultades import antes, los hombres tienen ms
v alor y estn mejor preparados que las mujeres para
enf rentarlos.
Preg. 19 Es normal que los empresarios pref ieran a los hombres
en los t rabajos, pues tienen ms experiencia que las mujeres.
Preg. 23 Salv o excepciones, las mujeres t ienen menos capacidad
que los hombres para desarrollar cargos de alta responsabilidad
Preg. 47 Es normal que los hombres ganen ms dinero que las
mujeres pues t ienen una f amilia que mantener
1 2 3 4 5
Componente
Mt odo de extraccin: Anlisis de componentes principales.
Mt odo de rotacin: Normalizacin Varimax con Kaiser.
La rot acin ha conv ergido en 16 iteraciones.
a.


149

Por ltimo, observamos el Grfico de Componentes Rotados que muestra las variables en un espacio
formado por 3 componentes. Su interpretacin no es fcil, por lo que no tiene mucha utilidad. Adems, si
se incluyeran los 16 componentes, sera prcticamente irreconocible. De todas formas sirve para ver cmo
se distribuyen las variables. La idea de la solucin grfica es evaluar cunta informacin mantiene la
solucin factorial. Esto se evala proyectando las observaciones en los nuevos ejes. Una buena solucin es
aquella donde la mayora de los puntos originales son reproducidos en un plano de menor dimensin (en
este caso de 63 a 16). Si la distancia entre los puntos originales y el nuevo grfico es poca, la solucin es
buena ya que explica gran cantidad de informacin. Este tipo de grficos es til cuando se est trabajando
con menos dimensiones.

Variables nuevas en la base de datos

Al comienzo habamos pedido guardar los puntajes de cada caso en los factores, y habamos definido que
esto se hiciera por medio de la regresin. Si volvemos ahora a la base de datos, y vemos en las ltimas
columnas, observaremos lo siguiente:


Matri z de transformacin de las componentes
,444 ,389 ,386 ,279 ,271
-, 047 -, 249 -, 514 ,345 ,211
-, 540 ,572 -, 069 ,136 -, 211
-, 115 -, 522 ,278 -, 057 ,232
,001 -, 224 ,238 ,549 -, 436
,166 -, 200 ,225 -, 083 -, 648
,082 ,120 ,161 -, 115 ,161
,207 ,113 ,232 -, 192 ,010
,069 ,137 -, 015 ,042 -, 141
,199 -, 085 -, 193 -, 022 -, 049
,163 ,042 -, 133 -, 561 -, 201
,468 ,040 -, 278 ,269 -, 042
,189 ,095 -, 298 -, 070 -, 126
,146 ,172 -, 013 ,148 -, 092
-, 066 ,022 -, 197 -, 018 -, 239
-, 261 -, 016 ,243 ,081 ,043
Componente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1 2 3 4 5
Mt odo de extraccin: Anlisis de componentes principales.
Mt odo de rotacin: Normalizacin Varimax con Kaiser.


150
A mano derecha de la ltima variable encontraremos 16 factores, que corresponden a cada uno de los
componentes nuevos. Cada caso tiene un puntaje asociado a estos componentes. Si bien estos puntajes no
son interpretables de manera absoluta, son tiles para llevar a cabo un nuevo anlisis, contemplando
ahora solamente estas 16 nuevas variables.
ANALISIS DE CORRESPONDENCIAS
ANLISIS DE CORRESPONDENCIAS SIMPLES
Se usar una base de datos referente a los materiales existentes en distintos tipos de bibliotecas. El objetivo
del ejemplo es observar la asociacin entre las categoras de las variables, es decir, asociar los tipos de
bibliotecas con los tipos de materiales que hay en ellas.
Adems se utilizarn dos variables nominales: (A) Biblioteca:
(1) Pblica, (2) Universitaria, (3)Escolar, (4)Especializada; (B)
Materiales: (1)Libros, (2) Peridicos, (3)Revistas.
Tomando en cuenta que los materiales son muchos, se
resumi la base de datos del siguiente modo, especificando
para cada tipo de biblioteca, cuntos libros, peridicos y
revistas hay.
Antes de llevar a cabo el anlisis, es necesario definir que el
programa pondere los casos por las frecuencias. De esta
forma, el programa multiplica para los anlisis la fila por el
nmero de casos definidos en la frecuencia. Para esto se entra en
Datos>Ponderar Casos (Data>Weight Cases). Se obtiene una
nueva ventana en la que aparece como predeterminado que no
se ponderan los casos. Aqu se marca la opcin de Ponderar
casos por y se ingresa la tercera variable, vale decir, la
frecuencia.
Al volver a la base de datos, debiera verse en la esquina inferior
derecha que el programa ha ponderado.
Luego de este procedimiento el programa, al momento de realizar los
clculos, repetir la entrada de Libro en Biblioteca Publica 6411
veces. Si esto no se hace, los resultados no tendrn sentido.


151
Una vez que hemos ponderado podemos
proseguir con el anlisis de
correspondencias. Para esto entramos en
Analizar>Reduccin de datos>Anlisis de
Correspondencias (Analyze> Data
Reduction> Correspondence Anlisis): Al
entrar obtenemos la ventana siguiente.
El anlisis de correspondencias simple
opera solamente con 2 variables, en este
caso, materiales y biblioteca. Es por esto que encontramos
la opcin de ingresar una variable en la fila y una en la
columna (en funcin de la tabla de contingencia).
Ingresamos la variable materiales como variable fila y la
variable biblioteca como variable columna. Luego es
necesario definir el rango de cada una de las variables.
Marcamos la variable materiales y entramos en Definir
rango.
En la nueva ventana ingresamos el valor mnimo y el
mximo. En este caso en la base de datos se le asign
un 1 a la categora libros, un 2 a la categora peridicos
y un 3 a la categora revistas. De esta forma el valor
mnimo es 1 y el mximo es 3. Luego marcamos
actualizar para que se guarden las categoras. Esta
opcin permite dejar fuera alguna categora del anlisis.
Al poner continuar y volver a la ventana principal
repetimos el proceso con la segunda variable. Si
se definieron correctamente las categoras
debiramos ver entre parntesis el mnimo y
mximo de las categoras. Ntese que si no se
definen las categoras de cada variable no es
posible continuar el anlisis.
Luego vemos tres botones: modelo, estadsticos y
grficos. Entrando en modelo, vemos la ventana
de la izquierda. Con respecto a las dimensiones en la solucin, recurdese que se trabaja con tantas
dimensiones como las categoras menos 1 de la variable con menos categoras. En este caso la variable
materiales tiene 3 categoras y la variable bibliotecas tiene 4. La variable con menos categoras es materiales
y si le restamos 1 vemos que podemos obtener un mximo de 2 dimensiones.


152
Luego es necesario elegir la medida de distancia. En este caso dejaremos la predeterminada, chi cuadrado.
Con respecto al mtodo de estandarizacin solamente hay uno posible cuando se trabaja con chi cuadrado.
Por ltimo, se dan varias opciones con respecto al mtodo
de normalizacin. Dejando el mtodo predeterminado
(simtrico) buscamos comparar ambas variables ms que
comparar las categoras de una sola variable. Ponemos
continuar y
pinchamos en
Estadsticos.
En la ventana de estadsticos seleccionamos todas las opciones
menos las permutaciones de la tabla y los estadsticos de
confianza. En las salidas se interpretarn estas opciones.
Ponemos continuar y pinchamos en grficos.
En la ventana de grficos se pueden pedir grficos de puntos y
grficos de lneas. En este caso pediremos todos los grficos de
puntos. Adems, se especifica que se muestren todas las
dimensiones. En este caso, como son solamente dos, no hace
gran diferencia, pero en anlisis con ms dimensiones podra ser
til. Luego de definidas todos los aspectos ponemos continuar,
OK, y revisamos las salidas.
ANLISIS DE LAS SALIDAS
La primera salida es la tabla de
contingencia: Esta ordena la
informacin ingresada. En cada
celda vemos la frecuencia del
cruce de dos categoras. Por
ejemplo, en la primera celda
vemos que existen 6411 libros
en bibliotecas pblicas. Adems,
el programa calcula los
mrgenes, esto es, la suma de
todas las frecuencias de cada
fila y columna. De esta forma
podemos ver que de los 29276
materiales, 18730 son libros.
Luego obtenemos los perfiles fila y columna. Los perfiles fila nos muestran la proporcin de cada categora
fila en cada categora columna. El margen siempre es 1, ya que es la suma de todas las proporciones. En
este caso vemos, por ejemplo, que del total de libros, el 34,2% se encuentra en bibliotecas pblicas. Esta
tabla permite observar los valores en trminos relativos. La masa es la proporcin en cada categora
columna sobre todas las categoras fila. En este caso, la biblioteca pblica tiene la mayor masa, vale decir, la
mayor cantidad de materiales en conjunto.
Tabla de correspondencias
6411 5034 6449 836 18730
3586 548 470 151 4755
1384 3213 500 694 5791
11381 8795 7419 1681 29276
materiales
Libros
Periodicos
Rev istas
Margen act iv o
Publica Univ ersitaria Escolar Especializada Margen act iv o
bibliot eca
Perfil es de fil a
,342 ,269 ,344 ,045 1, 000
,754 ,115 ,099 ,032 1, 000
,239 ,555 ,086 ,120 1, 000
,389 ,300 ,253 ,057
materiales
Libros
Periodicos
Rev istas
Masa
Publica Univ ersitaria Escolar Especializada Margen act iv o
bibliot eca


153
El anlisis de los perfiles
columna es el mismo, slo que
con respecto a la otra variable.
Podemos observar la
proporcin de cada categora
columna en cada categora
fila. As, del total de materiales
en bibliotecas pblicas, el 56,3% son libros. La masa se interpreta de manera anloga.

Luego obtenemos la salida de resumen de las dimensiones. En este caso podamos obtener 2 dimensiones.
Esta tabla permite ver si realmente existe o no una relacin entre ambas variables y cuantas dimensiones
son necesarias para representar esta relacin. El valor propio es una medida de asociacin entre ambas
variables. Valores altos implican una mayor asociacin. En este caso, si bien la primera dimensin es la que
tiene un valor propio mayor (0,361), no est tan distante a la segunda dimensin, pudindose argumentar
que ambas dimensiones discriminan. En un mapa de posicionamiento, esto querra significar que las
categoras se encuentran distantes tanto en trminos verticales como horizontales. La inercia es calculada
desde los valores propios (es el cuadrado del valor propio). Es una medida de la informacin que es
mantenida en las dimensiones. En este caso la primera dimensin guarda ms del 60% de la inercia. Es
posible sumar la inercia a travs de las dimensiones.
Tambin se incluye una prueba chi cuadrado. Este estadstico prueba la hiptesis nula de la no relacin
entre las variables. Una significacin menor a 0,05 implica que existe relacin significativa entre las
variables, como es el caso. De manera contraria no tendra sentido continuar el anlisis ya que nuestras
variables no se encontraran asociadas.
Luego obtenemos el resumen de los puntos fila y columna. Esta tabla provee informacin acerca del papel
de cada categora fila en la solucin. La masa es la misma que anteriormente vista. Los puntajes en la
dimensin son las coordenadas en el mapa de cada categora en cada dimensin. La inercia muestra la
proporcin de la inercia total que es explicada por cada categora. En este caso es la segunda categora
(peridicos) la que explica mayor inercia (0,091). Comparando este resultado con las coordenadas en las
dimensiones, vemos que esta categora tiene los valores ms altos, vale decir, se encuentra ms alejada del
centro. La contribucin de cada punto a la inercia de la dimensin es otra forma de ver la importancia
relativa de cada categora en cada dimensin. As, mientras en la primera dimensin tiene ms peso la
categora revistas, en la segunda lo tiene la categora libros. Sin embargo, la categora peridicos tiene
importancia en ambas dimensiones. En el mapa esto significa que se va a encontrar lejos del centro tanto en
trminos verticales como horizontales. La contribucin de la dimensin a la inercia del punto muestra que
Resumen
,361 ,131 ,625 ,625 ,005 ,203
,280 ,079 ,375 1, 000 ,005
,209 6121,810 ,000
a
1, 000 1, 000
Dimensin
1
2
Tot al
Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada
Proporcin de inercia
Desviacin
t pica 2
Correlacin
Conf ianza para el Valor
propio
6 grados de libertad
a.
Perfil es de columna
,563 ,572 ,869 ,497 ,640
,315 ,062 ,063 ,090 ,162
,122 ,365 ,067 ,413 ,198
1, 000 1, 000 1, 000 1, 000
materiales
Libros
Periodicos
Rev ist as
Margen act iv o
Publica Univ ersitaria Escolar Especializada Masa
bibliot eca


154
tan bien se ajusta la categora fila a la solucin. En este caso, las dos dimensiones explican el 100% (1,00)
de la inercia de las categoras. En el caso del resumen de los puntos columna el anlisis es el mismo.


Por ltimo, podemos
observar los grficos.
Primero obtenemos
el grfico para las
categoras de la
variable materiales.
Vemos como la
categora peridicos
es la que se
encuentra ms
distante del centro
(coordenada 0;0).
Luego observamos el
grfico para la
variable bibliotecas.
Sin embargo, el
grfico que ms interesa es el que muestra ambas variables juntas y permite ver la relacin entre las
categoras. La cercana entre las categoras ser definida como asociacin entre estas. As, vemos como
claramente los peridicos se asocian con las bibliotecas pblicas, las revistas con las bibliotecas
especializadas y universitarias y los libros con las bibliotecas escolares.
Examen de los puntos de fila
a
,640 -, 031 -, 396 ,028 ,002 ,359 ,008 ,992 1, 000
,162 -1,049 ,770 ,091 ,494 ,343 ,705 ,295 1, 000
,198 ,960 ,650 ,089 ,504 ,298 ,738 ,262 1, 000
1, 000 ,209 1, 000 1, 000
materiales
Libros
Periodicos
Rev istas
Tot al activ o
Masa 1 2
Puntuacin en la
dimensin
Inercia 1 2
De los puntos a la
inercia de la
dimensin
1 2 Tot al
De la dimensin a la inercia del
punto
Contribucin
Normalizacin Simt rica
a.
Examen de l os puntos col umna
a
,389 -, 639 ,351 ,071 ,439 ,171 ,811 ,189 1, 000
,300 ,741 ,209 ,063 ,457 ,047 ,942 ,058 1, 000
,253 -, 078 -, 899 ,058 ,004 ,731 ,010 ,990 1, 000
,057 ,794 ,501 ,017 ,100 ,051 ,764 ,236 1, 000
1, 000 ,209 1, 000 1, 000
bibliot eca
Publica
Univ ersitaria
Escolar
Especializada
Tot al activ o
Masa 1 2
Puntuacin en la
dimensin
Inercia 1 2
De los puntos a la
inercia de la
dimensin
1 2 Tot al
De la dimensin a la inercia del
punto
Contribucin
Normalizacin Simtrica
a.


155
ANLISIS DE
CORRESPONDENCIAS MLTIPLES
El Anlisis de Correspondencias Mltiples
opera con ms de dos variables
nominales. Para la ejemplificacin se
utilizar una base de datos de 13
universidades del consejo de rectores.
El objetivo del ejemplo es analizar la
asociacin entre las categoras de las
variables antigedad, nmero de
alumnos y el nmero de investigaciones
que se llevan a cabo en cada universidad.
A su vez, se busca asociar los objetos
las universidades- con respecto a las
distintas categoras.
Se utilizan tres variables nominales (A)
Antigedad: (1) Antigua, (2) Mediana antigedad, (3) Nueva: (B) Nmero de alumnos: (1) Alto, (2) Medio, (3)
Bajo; (C) Nmero de investigaciones: (1) Alto, (2) Medio, (3) Bajo. En la base de datos aparecen las
caractersticas de cada una de las universidades, de manera de poder situar los objetos universidades- en
un mapa de posicionamiento. Por lo tanto, la frecuencia de cada universidad debe ser uno. Adems, se
trabaja con una base de datos reducida ya que es muy difcil reconocer en un mapa los objetos si estos son
demasiados. La base es la siguiente:

Para llevar a cabo el anlisis entramos en Analizar>Reduccin de datos>Escalamiento ptimo
(Analyze>Data Reduction>Optimal Scaling):


156
Luego obtendremos la siguiente
ventana. En esta dejamos las dos
opciones predefinidas (todas las
variables son nominales y se trabaja
con un set de variables). El anlisis
seleccionado es el de Anlisis de
Correspondencia Mltiple. Hacemos
clic en Define.

La ventana que se obtiene a continuacin es la siguiente. Como
variables de anlisis agregamos la antigedad, los alumnos y las
investigaciones. La variable universidad es ingresada como
variable suplementaria, de manera de poder usarla como variable
objeto. En dimensiones, dejamos 2, dado que es la manera ms
sencilla de interpretar los resultados.
Luego entramos a la ventana Discretizar
(Discretize), donde se definen las
categoras de las variables. En caso de usar
una variable continua, el programa da la
posibilidad de convertirla en discreta. Esto
consiste en dicotomizar sus categoras.
Dado que en este caso las variables ya son
grupos, simplemente marcamos que el
nmero de categoras es de 3 y ponemos
Cambiar (Change) para todas las
variables. Para la variable universidad,
marcamos 13. Si se quiere dejar fuera
alguna categora de una de las variables,
simplemente se definen menos grupos.
Ponemos continuar y hacemos clic en Missing o Valores
perdidos. En esta ventana es necesario decidir qu hacer con los
valores perdidos. En este caso sabemos que no hay valores
perdidos, por lo que no hace diferencia. Sin embargo, para casos
con valores perdidos, el programa da tres opciones: excluir
casos perdidos, rellenar los casos perdidos con algn valor y
dejar fuera objetos con casos perdidos. Presionamos continuar
y entramos a la ventana Opciones.



157

En la ventana opciones, con respecto al mtodo de normalizacin, se debe elegir si se normalizar variables u
objetos. En este caso se selecciona el simtrico, dado que distribuye la normalizacin entre variables y
objetos. El criterio de convergencia y el nmero mximo de iteraciones permiten definir hasta qu punto
el programa debe optimizar la solucin encontrada. Estos son dejados como predefinidos.
En Etiquetar Grfico segn (Label plots by) se puede definir si utilizar para los grficos las etiquetas o
nombres de las variables. Se deja la opcin de las etiquetas. Adems, aparece la opcin de graficar slo
alguna cantidad de dimensiones. Esto puede ser til para el caso de usar muchas dimensiones, que
imposibilitan la presentacin grfica de manera clara. En este caso, dado que son solamente dos las
dimensiones, no es necesario. Por ltimo, aparece la posibilidad de agregar, desde un archivo, las
coordenadas de las dimensiones. En este caso se
omitir esta opcin. Se pincha en continuar y
luego en Salidas.
Aqu se marcan las salidas que se quieren
obtener. En este caso, vamos a pedir los
puntajes para los objetos, las medidas de
discriminacin, el historial de iteraciones, las
correlaciones de las variables originales y las
correlaciones de las variables transformadas.
Adems, se solicitan las cuantificaciones y
contribuciones de las categoras y los
estadsticos descriptivos para todas las
variables. Pinchamos en continuar y luego en
Save.


158
En la ventana Guardar (Save), no marcamos
nada. Esto puede ser til para algunos casos en
los que se quiera guardar en la base de datos los
puntajes de los objetos. Pinchamos en continuar,
y luego en grficos de objetos.
En la ventana Grficos de Objetos (Objects
Plots), pedimos solamente el grfico con los
objetos y pinchamos en continuar.
Luego entramos a la ventana Grfico de Variables
(Variable plots) donde pedimos los grficos de las
categoras para cada variable y un grfico que junte
las categoras de todas las variables.
ANLISIS DE LAS SALIDAS
El resumen del procesamiento de los casos nos muestra que son 13
los casos vlidos.
Luego observamos los estadsticos descriptivos para cada variable,
es decir, las frecuencias de cada una de sus categoras. Por ejemplo,
en el caso de la antigedad, seis universidades son antiguas, dos
son de
mediana
antigedad y
cinco son
nuevas.


Resumen del procesami ento de l os casos
13
0
0
13
13
Casos activ os vlidos
Casos activ os con
v alores perdidos
Casos suplement arios
Tot al
Casos usados en el
anlisis
Anti guedad
1 6
2 2
3 5
13
Antigua
b
Mediana antiguedad
Nueva
Tot al
Vlido
Cat egora tras
la
discretizacin
a
Frecuencia
Agrupacin (3 cat egoras, normal).
a.
Modo.
b.
Al umnos
1 3
2 3
3 7
13
Alto
Medio
Bajo
b
Tot al
Vlido
Cat egora t ras
la
discretizacin
a
Frecuencia
Agrupacin (3 categor as, normal).
a.
Modo.
b.


159
En el caso de las universidades, su frecuencia
siempre es uno, dado que es la variable objeto.
En el historial de iteraciones podemos ver los pasos
que fueron necesarios para llegar a la solucin
ltima. Observamos que en el paso 43 el
incremento de la varianza explicada dej de ser
significativo como para seguir iterando.
En la tabla Resumen del Modelo observamos las
dos dimensiones creadas. El autovalor da una
indicacin de la importancia de las distintas
dimensiones. En trminos de inercia, la primera
dimensin explica mucho ms que la segunda (0,9
frente a 0,45 de la segunda). Esto quiere decir que
las categoras presentan mayor varianza en la
Dimensin 1.
Investigaci ones
1 3
2 4
3 6
13
Alto
Medio
Bajo
b
Tot al
Vlido
Cat egora t ras
la
discretizacin
a
Frecuencia
Agrupacin (3 categor as, normal).
a.
Modo.
b.
Nombre de Unviersidad
c
1 1
2 1
3 1
4 1
5 1
6 1
7 1
8 1
9 1
10 1
11 1
12 1
13 1
13
Univ ersidad de Chile
b
Univ ersidad Catlica
b
Univ ersidad Catlica del
Norte
b
Univ ersidad Austral
b
Univ ersidad Tcnica
Federico Sant a Mara
b
Univ ersidadde Valparaso
b
Univ ersidad de la Serena
b
Unv iersida de
Concepcin
b
Univ ersidad de Sant iago
b
Univ ersidad de
Antof agasta
b
Univ ersidad Catlica de
Valparaso
b
Univ ersidad del Bio Bio
b
Univ ersidad de la
Front era
b
Tot al
Vlido
Cat egora tras
la
discretizacin
a
Frecuencia
Agrupacin (13 cat egoras, normal).
a.
Modo.
b.
Variable suplementaria.
c.
Historial de iteraci ones
,611424 ,611424 2, 388576
1, 743863 1, 132439 1, 256137
1, 935612 ,191749 1, 064388
1, 995232 ,059620 1, 004768
2, 010774 ,015542 ,989226
2, 015306 ,004532 ,984694
2, 017265 ,001959 ,982735
2, 018572 ,001308 ,981428
2, 019656 ,001084 ,980344
2, 020612 ,000956 ,979388
2, 021467 ,000854 ,978533
2, 022229 ,000762 ,977771
2, 022907 ,000678 ,977093
2, 023507 ,000600 ,976493
2, 024037 ,000530 ,975963
2, 024503 ,000466 ,975497
2, 024911 ,000409 ,975089
2, 025269 ,000357 ,974731
2, 025581 ,000312 ,974419
2, 025853 ,000272 ,974147
2, 026089 ,000236 ,973911
2, 026294 ,000205 ,973706
2, 026472 ,000178 ,973528
2, 026627 ,000154 ,973373
2, 026760 ,000134 ,973240
2, 026876 ,000115 ,973124
2, 026976 ,000100 ,973024
2, 027062 ,000086 ,972938
2, 027136 ,000074 ,972864
2, 027200 ,000064 ,972800
2, 027256 ,000055 ,972744
2, 027304 ,000048 ,972696
2, 027345 ,000041 ,972655
2, 027380 ,000035 ,972620
2, 027411 ,000031 ,972589
2, 027437 ,000026 ,972563
2, 027460 ,000023 ,972540
2, 027479 ,000020 ,972521
2, 027496 ,000017 ,972504
2, 027510 ,000014 ,972490
2, 027523 ,000012 ,972477
2, 027534 ,000011 ,972466
2, 027543 ,000009 ,972457
Nmero de iteraciones
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
a
Tot al Increment o
Varianza explicada
Prdida
Se ha detenido el proceso de it eracin debido a que se
ha alcanzado el v alor de la prueba para la conv ergencia.
a.
Resumen del modelo
,947 2, 711 ,904 90, 372
,384 1, 344 ,448 44, 797
4, 055 1, 352
,760
a
2, 028 ,676 67, 585
Dimensin
1
2
Tot al
Media
Alf a de
Cronbach
Tot al
(Aut ovalores) Inercia
% de la
v arianza
Varianza explicada
El Alf a de Cronbach Promedio est basado en los
aut ov alores promedio.
a.


160
A continuacin se observan las cuantificaciones para cada una de las variables. En este punto se observan
las coordenadas de cada una de las categoras en ambas dimensiones. Puntajes altos en las dimensiones,
implican que la categora se asocia a esa dimensin. De esta manera, en el caso de la antigedad, la
variable antigua se asocia fuertemente a la Dimensin 1, mientras que mediana antigedad se asocia a la
Dimensin 2.
A continuacin pueden verse las categoras de
manera grfica en un mapa.
Plot. Puntos de categora





Anti guedad
Points: Coordinates
6 -, 975 ,322
2 ,072 -1,289
5 1, 141 ,130
Cat egora
Antigua
Mediana antiguedad
Nueva
Frecuencia 1 2
Dimensin
Coordenadas de
centroide
Normalizacin simtrica.
Al umnos
Points: Coordinates
3 -, 961 -1,759
3 -1,085 1, 545
7 ,877 ,092
Cat egora
Alto
Medio
Bajo
Frecuencia 1 2
Dimensin
Coordenadas de
centroide
Normalizacin simtrica.
Investigaciones
Points: Coordinates
3 -1,155 -, 990
4 -, 746 ,810
6 1, 075 -, 045
Cat egora
Alto
Medio
Bajo
Frecuencia 1 2
Dimensin
Coordenadas de
centroide
Normalizacin simtrica.
Nombre de Unviersi dad
a
Points: Coordinates
1 -1,140 -1,809
1 -1,140 -1,809
1 -1,035 1, 993
1 ,746 -, 920
1 -, 311 ,912
1 1, 141 ,130
1 1, 141 ,130
1 -1,186 ,649
1 -, 603 -1,658
1 1, 141 ,130
1 -1,035 1, 993
1 1, 141 ,130
1 1, 141 ,130
Cat egora
Univ ersidad de Chile
Univ ersidad Catlica
Univ ersidad Catlica del
Norte
Univ ersidad Austral
Univ ersidad Tcnica
Federico Santa Mara
Univ ersidadde Valparaso
Univ ersidad de la Serena
Unv iersida de
Concepcin
Univ ersidad de Santiago
Univ ersidad de
Antof agasta
Univ ersidad Catlica de
Valparaso
Univ ersidad del Bio Bio
Univ ersidad de la
Front era
Frecuencia 1 2
Dimensin
Coordenadas de
centroide
Normalizacin simtrica.
Variable suplementaria.
a.


161


Finalmente, el ltimo grfico presentan todas las categoras de todas las variables juntas. De esta manera,
se puede ver que categoras se encuentran asociadas. Cercana en el mapa significa asociacin entre
categoras. Vemos, por ejemplo, que la Universidad de Concepcin y la Universidad Tcnica Santa Mara se
asocian con un nmero medio de investigaciones y con antigua. De esta misma manera es posible
interpretar el resto de los casos.


162
Las correlaciones entre variables
antes y despus de la
transformacin (presentadas en
las siguientes tablas), permiten
ver que tan asociadas se
encuentran las variables. De esta
manera, vemos, por ejemplo, que
la antigedad se asocia
fuertemente con investigaciones.
Vemos que luego de
transformadas las variables, estos
puntajes aumentan.
En la tabla de Puntuaciones objetos, se puede conocer la ubicacin
en el mapa de cada uno de los objetos. En la tabla de Contribucin
de los objetos, vemos que, evidentemente todos tienen la misma
masa, ya que la frecuencia de cada uno es uno. Sin embargo, la
inercia es distinta en
todos los casos. En
cuanto a la
contribucin de cada
objeto, se puede
observar como
tienen distintos
pesos en cada
dimensin, es decir,
que se asocian a una
u otra dimensin.
Tambin es posible
observar el ajuste de
cada categora a la
solucin propuesta.
Los peores ajustes
son de las universidades 4, 5 y 9.

Correlaci ones de las Variables ori gi nales
1, 000 ,644 ,864 ,561
,644 1, 000 ,829 ,426
,864 ,829 1, 000 ,514
,561 ,426 ,514 1, 000
1 2 3
2, 562 ,357 ,081
Antiguedad
Alumnos
Investigaciones
Nombre de Unv iersidad
a
Dimensin
Autov alores
b
Antiguedad Alumnos
Investigac
iones
Nombre de
Unv iersidad
Variable suplementaria.
a.
Los aut ov alores de la matriz de correlaciones excluy endo las v ariables
suplementarias.
b.
Correlaci ones de las Variables transformadas
Dimensin: 1
1, 000 ,769 ,924 ,945
,769 1, 000 ,872 ,925
,924 ,872 1, 000 ,981
,945 ,925 ,981 1, 000
1 2 3
2, 711 ,236 ,053
Antiguedad
Alumnos
Investigaciones
Nombre de Unv iersidad
a
Dimensin
Autov alores
b
Antiguedad Alumnos
Investigac
iones
Nombre de
Unv iersidad
Variable suplementaria.
a.
Los aut ov alores de la matriz de correlaciones excluy endo las v ariables
suplementarias.
b.
Puntuaci ones de obj eto
-1,084 -1,211
-1,084 -1,211
-, 984 1, 334
,710 -, 616
-, 296 ,610
1, 085 ,087
1, 085 ,087
-1,127 ,434
-, 574 -1,110
1, 085 ,087
-, 984 1, 334
1, 085 ,087
1, 085 ,087
Nmero de caso
1
2
3
4
5
6
7
8
9
10
11
12
13
1 2
Dimensin
Normalizacin simtrica.
Object Contributions
,077 ,201 ,095 ,168 ,428 ,376 ,804
,077 ,201 ,095 ,168 ,428 ,376 ,804
,077 ,173 ,078 ,205 ,409 ,529 ,938
,077 ,193 ,041 ,044 ,191 ,101 ,292
,077 ,110 ,007 ,043 ,058 ,175 ,233
,077 ,093 ,095 ,001 ,926 ,004 ,930
,077 ,093 ,095 ,001 ,926 ,004 ,930
,077 ,201 ,103 ,022 ,463 ,048 ,511
,077 ,284 ,027 ,142 ,085 ,223 ,308
,077 ,093 ,095 ,001 ,926 ,004 ,930
,077 ,173 ,078 ,205 ,409 ,529 ,938
,077 ,093 ,095 ,001 ,926 ,004 ,930
,077 ,093 ,095 ,001 ,926 ,004 ,930
1, 000 2, 000 1, 000 1, 000
Nmero de caso
1
2
3
4
5
6
7
8
9
10
11
12
13
Tot al activ o
Masa Inertia 1 2
De los puntos a la
inercia de la
dimensin
1 2 Tot al
De la dimensin a la inercia del
punto
Contribucin
Normalizacin simtrica.


163
El siguiente grfico permite ver la ubicacin de
los objetos en el mapa.
Las medidas de discriminacin permiten ver
cunto discrimina cada variable en cada
dimensin: De esta manera vemos, por ejemplo,
que Investigaciones discrimina fuertemente en la
primera dimensin y poco en la segunda.

Esto puede verse tambin de manera grfica:

Medidas de discriminaci n
,893 ,207 ,550
,855 ,849 ,852
,963 ,287 ,625
1, 000 1, 000 1, 000
2, 711 1, 344 2, 028
90, 372 44, 797 67, 585
Antiguedad
Alumnos
Investigaciones
Nombre de Unv iersidad
a
Tot al activo
% de la v arianza
1 2
Dimensin
Media
Variable suplementaria.
a.


164
MODELOS LOGARTIMICOS
Para la ejemplificacin de la construccin y anlisis de un Modelo Logartmico se utilizar una parte de la
base de datos del Censo 2002. Se trabajar con tres variables de la base de datos: Sexo, Estado civil y
Deficiencia mental. Los datos corresponden a todos los chilenos. El fin de este anlisis es observar si las
variables Sexo, Estado civil y Deficiencia mental se encuentran asociadas, y cules son los efectos (tanto
en trminos de factores como de interaccin entre stos) ms importantes en esta relacin. En este
sentido, buscamos construir un modelo lo ms parsimonioso posible, que nos d cuenta de las relaciones
ms importantes que se dan en la tabla de contingencia multidimensional.
Se utilizan tres variables categricas. Cabe
recordar, que en Modelos Logartmicos no
trabajamos con una variable dependiente, ya
que, en estricto rigor, la variable dependiente son
las frecuencias de las casillas de una tabla de
contingencia multidimensional. De este modo, es
una tcnica de interdependencia. Las variables
son (A) Sexo: (1) Hombre, (2) Mujer; (B) Estado
Civil: (1) Casado /a, (2) Conviviente, (3) Soltero /a,
(4) Anulado /a, (5) Separado, (6) Viudo; (C)
Deficiencia Mental: (1) S, (2) No. La base de
datos se presenta a la derecha.
Al tratarse de una base de datos tan grande (ms
de 11 millones de personas), existe la opcin de
ponderar los casos, que es lo que se decide
hacer. En la base de datos solamente
ingresamos las 24 combinaciones de categoras
posibles (2x6x2), y luego, en una cuarta columna, ingresamos la
frecuencia con la que aparece cada combinacin. Por ejemplo, en la
primera fila observamos que existen 2.593.177 hombres casados sin
deficiencia mental.
Luego, procedemos a ponderar para que el programa sepa que la
cuarta columna es la frecuencia. Para esto entramos en Datos y luego
en Ponderar casos. Entramos as a la siguiente ventana.





165
Aqu se marca que los casos sean ponderados por la variable frecuencia. Si este procedimiento no es
llevado a cabo, el programa asumir que la base de datos est compuesta por 24 casos. Para asegurarnos de
que se ponder, vemos en la parte inferior derecha que salga que se est ponderando.
Antes de aplicar un modelo logartmico debe revisarse si las variables
realmente se encuentran asociadas. Para esto, se aplica la prueba de
Chi Cuadrado, la cual nos indica si existe asociacin entre variables
categricas. En el programa, se selecciona analizar estadsticos descriptivos tabla de contingencia
estadsticos: chi cuadrado. Primero cruzamos las variables sexo y deficiencia mental.
Segn la prueba
de Chi cuadrado
podemos afirmar
que las variables
sexo y deficiencia
mental se
encuentran
asociadas, ya que
la significacin es
menor a 0,05.
Luego se cruzaron
las variables
Estado Civil y
Deficiencia Mental. Tambin en este
caso el nivel de significacin es menor a
0,05, por lo que podemos afirmar que
ambas variables se encuentran
asociadas.
Observando estos resultados, podemos
afirmar entonces que s es pertinente
aplicar un anlisis logartmico.
Para responder al objetivo del anlisis, primero se analizar el Modelo Saturado, que es el modelo que
contiene todos los efectos posibles, vale decir, los efectos de todas las variables y todas las interacciones.
En este caso, las frecuencias observadas son reproducidas, por lo que los residuos son nulos. Se utilizar este
modelo de modo exploratorio, para luego deducir qu modelo es ms adecuado para representar las
relaciones de la tabla multidimensional de modo parsimonioso. En un segundo paso, entonces, se
eliminarn los efectos no influyentes y se
calcular un modelo no saturado.
MODELO LOGARTMICO SATURADO
Para obtener el modelo entramos en
Analizar>Loglineal>Seleccin de Modelo.
Pruebas de chi-cuadrado
625,376
b
1 ,000
625,200 1 ,000
625,218 1 ,000
,000 ,000
625,376 1 ,000
11226309
Chi-cuadrado de Pearson
Correccin por
continuidad
a
Razn de verosimilitud
Estadst ico exacto de
Fisher
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
Sig. exact a
(bilateral)
Sig. exact a
(unilateral)
Calculado slo para una tabla de 2x2.
a.
0 casillas (,0%) tienen una f recuencia esperada inf erior a 5. La f recuencia m nima esperada
es 39332,08.
b.
Pruebas de chi-cuadrado
63608,543
a
5 ,000
64732,730 5 ,000
26498,915 1 ,000
11226309
Chi-cuadrado de Pearson
Razn de verosimilitud
Asociacin lineal por
lineal
N de casos vlidos
Valor gl
Sig. asinttica
(bilateral)
0 casillas (,0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia m nima esperada es 361,65.
a.


166
En la ventana que obtenemos bajo el ttulo
factores ingresamos las tres variables que estn
en nuestro anlisis (no hay que ingresar la
frecuencia, ya que sta solo fue utilizada para
ponderar y no es una variable del modelo).
Luego es necesario definir el rango de cada una de
las variables. Esto debe hacerse para cada variable
por separado, a no ser que todas tengan el mismo
rango, ya que en ese caso se puede definir el rango
al mismo tiempo para todas juntas. Marcamos la
opcin Definir Rango. En la ventana que obtenemos
definimos el mnimo y el mximo de categoras de
cada variable. En el caso de la variable Sexo, las
categoras son 1: Hombre y 2: Mujer, as es que
ingresamos 1 como mnimo y 2 como mximo. Luego
marcamos continuar. Este procedimiento debemos seguirlo
para cada una de las variables. Lo importante es que luego de
haber definido todos los rangos ste aparezca entre
parntesis al lado de cada variable.
Luego el programa da la opcin de ponderar los casos por
alguna variable. En este caso no es necesario ya que ponderamos antes. Bajo la opcin Construccin del
Modelo tenemos las opciones de Eliminacin hacia atrs y de Ingreso en un solo paso, las cules refieren al
modo en que queremos que los efectos sean ingresados a nuestro modelo. Utilizaremos la primera opcin
que va ingresando slo los efectos importantes en el modelo, y que de este modo nos permite observar
cul es el mejor modelo. Dejamos los valores predeterminados con respecto al mximo de pasos y la
probabilidad para la eliminacin.
Al entrar en Modelo obtenemos la
ventana a la derecha. Se pueden
obtener dos modelos, el saturado y uno
personalizado (es decir, un modelo no
saturado determinado por el
investigador). En el modelo saturado se
incluyen por definicin todos los
efectos (en este caso, efectos
principales, de segundo y tercer orden). Por ahora
utilizaremos el modelo saturado, as es que no
cambiamos nada en esta ventana y pinchamos
continuar.
Pinchamos Opciones y en la ventana pedimos al
programa que muestre las Frecuencias, los Residuos, la
Estimacin de los Parmetros y la Tabla de Asociacin.
Los criterios los dejamos en la forma predeterminada.
Luego ponemos continuar y obtenemos las salidas.


167
ANLISIS DE LAS SALIDAS
La primera salida nos muestra un
resumen de la informacin
analizada. Vemos que son 24 los
casos no ponderados y ms de 11
millones los ponderados. No hay
datos fuera del rango ni datos perdidos. Con respecto a los
factores vemos que la variable Sexo tiene 2 categoras, Estado Civil
tiene 6 y Deficiencia Mental 2.
Luego vemos la salida que plantea la clase generadora
(sexo*ecivil*deficien). El criterio de convergencia fue alcanzado en
la iteracin 1. Adems, vemos que la diferencia
mxima entre lo observado y lo esperado es 0.
Luego obtenemos la salida de las frecuencias
observadas, esperadas y los residuos. En el modelo
saturado, por definicin, al incluir todos los efectos
posibles, lo esperado y lo observado son idnticos,
no existiendo residuos. Esta salida solamente tiene
un inters terico.
Luego obtenemos los estadsticos para la Prueba de
Bondad de Ajuste. Valores del estadstico Chi
cuadrado cercanos a cero muestran poca diferencia
entre lo esperado y lo observado. En este caso, los
valores de Chi cuadrado de Pearson y del Chi
cuadrado de mxima verosimilitud son iguales a 0.
Podemos afirmar por lo tanto que lo observado y lo
esperado se ajustan de manera perfecta. En el caso
* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *
DATA Information
24 unweighted cases accepted.
0 cases rejected because of out-of-range factor values.
0 cases rejected because of missing data.
11226309 weighted cases will be used in the analysis.

FACTOR Information

Factor Level Label
sexo 2 Sexo
ecivil 6 Estado Civil
deficien 2 Deficiencia Mental

* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * *
* * * *

DESIGN 1 has generating class

sexo*ecivil*deficien

Note: For saturated models ,500 has been added to all
observed cells.
This value may be changed by using the CRITERIA = DELTA
subcommand.


The Iterative Proportional Fit algorithm converged at iteration
1.
The maximum difference between observed and fitted
marginal totals is ,000
and the convergence criterion is 2593,177

Observed, Expected Frequencies and Residuals.

Factor Code OBS count EXP count Residual Std
Resid

sexo Hombre
ecivil Casado
deficien No 2593177,5 2593177,5 ,00 ,00
deficien Si 5167,5 5167,5 ,00 ,00
ecivil Convivie
deficien No 488916,5 488916,5 ,00 ,00
deficien Si 749,5 749,5 ,00 ,00
ecivil Soltero
deficien No 1994817,5 1994817,5 ,00 ,00
deficien Si 34526,5 34526,5 ,00 ,00
ecivil Anulado
deficien No 15637,5 15637,5 ,00 ,00
deficien Si 59,5 59,5 ,00 ,00
ecivil Separado
deficien No 211035,5 211035,5 ,00 ,00
deficien Si 1134,5 1134,5 ,00 ,00
ecivil Viudo
deficien No 119204,5 119204,5 ,00 ,00
deficien Si 1237,5 1237,5 ,00 ,00

sexo Mujer
ecivil Casado
deficien No 2579108,5 2579108,5 ,00 ,00
deficien Si 4403,5 4403,5 ,00 ,00
ecivil Convivie
deficien No 503880,5 503880,5 ,00 ,00
deficien Si 1217,5 1217,5 ,00 ,00
ecivil Soltero
deficien No 1828625,5 1828625,5 ,00 ,00
deficien Si 25298,5 25298,5 ,00 ,00
ecivil Anulado
deficien No 34465,5 34465,5 ,00 ,00
deficien Si 94,5 94,5 ,00 ,00
ecivil Separado
deficien No 318402,5 318402,5 ,00 ,00
deficien Si 1234,5 1234,5 ,00 ,00
ecivil Viudo
deficien No 458256,5 458256,5 ,00 ,00
deficien Si 5669,5 5669,5 ,00 ,00

Goodness-of-fit test statistics
Likelihood ratio chi square = ,00000 DF = 0 P = .
Pearson chi square = ,00000 DF = 0 P = .



168
del modelo saturado, esto no
presenta ninguna novedad.
Luego vemos la Prueba para los
efectos de orden k o superior. Esta
salida nos otorga mucha ms
informacin en trminos de ver qu
modelo podemos construir
posteriormente, ya que en ella conseguimos analizar los efectos de manera aislada. Nos interesa ver qu
efectos explican mejor las frecuencias de la tabla, y cules no aportan mucho a dicha explicacin.
Esta prueba contrasta la hiptesis nula de que los efectos de orden k o superior son iguales a cero. En la
primera fila vemos los efectos de tercer orden, en la segunda los efectos de segundo orden y superior (vale
decir, efectos de segundo y tercer orden), y en la tercera, donde K=1, vemos los efectos de todos los
rdenes (efectos individuales, de segundo y de tercer orden). Luego, observamos la probabilidad asociada a
los estadsticos Chi Cuadrado de Pearson y de mxima verosimilitud. En los tres casos sta es menor al
valor convencional de ,05. Podemos por lo tanto concluir que todos los efectos efectos de primer,
segundo y tercer orden- son estadsticamente significativos.
Luego vemos la salida de la Prueba
para los efectos de orden k. En esta
prueba se contrastan los efectos de
cada orden especfico. Se analiza de
manera anloga a la anterior. Los
efectos producidos por los tres
rdenes tienen probabilidades
menores a 0,05, por lo que los tres
rdenes son estadsticamente significativos. Esto quiere decir, que tanto los efectos de cada variable por
separado, o de a dos variables o las tres juntas son relevantes para la prediccin de las frecuencias.
En seguida revisamos la Prueba para
efectos individuales. En esta salida
podemos analizar cada uno de los
efectos de manera individual. Se
verifican todos los efectos, excepto el
saturado (sexo*ecivil*deficien).
Todos los efectos tienen una
probabilidad menor a 0, por lo que
podemos afirmar que todos los
efectos son significativamente
distintos de cero. Ahora bien, para
llevar a cabo un anlisis ms acabado, revisamos el valor de Chi Cuadrado. Valores altos implican una
mayor relevancia en el modelo. Revisamos este dato, para as poder crear a continuacin un modelo de
independencia que incluya solamente los factores ms relevantes. En este caso, el efecto ms importante
lo tiene la variable Deficiencia, seguido de la variable Estado Civil. Luego viene el efecto Sexo*Estado Civil y
Estado Civil*Deficiencia. El efecto con menor relevancia es Sexo*Deficiencia.
Tests that K-way and higher order effects are zero.

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

3 5 372,643 ,0000 364,386 ,0000 2
2 16 310802,673 ,0000 298732,795 ,0000 2
1 23 26832823,307 ,0000 34878110,794 ,0000 0

Tests that K-way effects are zero.

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

1 7 26522020,635 ,0000 34579377,999 ,0000 0
2 11 310430,030 ,0000 298368,409 ,0000 0
3 5 372,643 ,0000 364,386 ,0000 0

Tests of PARTIAL associations.

Effect Name DF Partial Chisq Prob Iter


sexo*ecivil 5 245074,191 ,0000 2
sexo*deficien 1 609,152 ,0000 2
ecivil*deficien 5 64716,389 ,0000 2
sexo 1 7754,825 ,0000 2
ecivil 5 11909528,186 ,0000 2
deficien 1 14604741,357 ,0000 2



169
A continuacin se observa la
Estimacin de los Parmetros: Lo
primero que hay que sealar, es
que para cada variable se
calculan k-1 coeficientes, donde k
es el nmero de categoras. Por
ejemplo, en el caso de la variable
Sexo, que tiene 2 categoras, se
calcula 1 coeficiente. En el caso
de las interacciones, el nmero
de coeficientes es igual al
producto entre el nmero de
categoras menos uno de cada
una de las variables participantes
de la interaccin.
Los coeficientes permiten
observar qu efectos son ms
importantes para explicar las
frecuencias de la tabla. Valores
altos en los coeficientes implican
un efecto importante. Estos datos
se corresponden con los clculos
del Chi Cuadrado. (Por ejemplo,
encontramos los coeficientes ms
altos en los efectos de las
variables Estado Civil y
Deficiencia, que de hecho, eran
las que tenan los mayores Chi
Cuadrado). En cuanto al signo de
los coeficientes, si ste es
positivo o negativo, la frecuencia
de la casilla correspondiente a la
categora que el coeficiente
representa, ser mayor (+) o
menor (-) que la que se
encontrara en la casilla en el
caso de que todas las categoras
de la variable tuvieran un valor
constante. En el caso de la
interaccin, esto se interpreta
como que la frecuencia
observada ser mayor (+) o
menor (-) que la frecuencia
esperada en caso de que las
Estimates for Parameters.

sexo*ecivil*deficien
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 -,0218621960 ,00863 -2,53207 -,03879 -,00494
2 ,1305253768 ,01212 10,76649 ,10676 ,15429
3 -,0392234190 ,00774 -5,06845 -,05439 -,02406
4 -,0651407594 ,03467 -1,87884 -,13310 ,00281
5 -,0649288868 ,01130 -5,74350 -,08709 -,04277

sexo*ecivil
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 ,2317393378 ,00863 26,83990 ,21482 ,24866
2 ,0615579752 ,01212 5,07766 ,03780 ,08532
3 ,2898744681 ,00774 37,45756 ,27471 ,30504
4 -,1228456533 ,03467 -3,54321 -,19080 -,05489
5 ,0664409781 ,01130 5,87725 ,04428 ,08860

sexo*deficien
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 -,0167750970 ,00755 -2,22210 -,03157 -,00198

ecivil*deficien
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 ,4542869682 ,00863 52,61523 ,43736 ,47121
2 ,4330446232 ,01212 35,72004 ,40928 ,45681
3 -,6091865702 ,00774 -78,71905 -,62435 -,59402
4 ,1741658407 ,03467 5,02342 ,10621 ,24212
5 ,0011457172 ,01130 ,10135 -,02101 ,02330

sexo
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 -,1903819642 ,00755 -25,21877 -,20518 -,17559

ecivil
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 1,4408622019 ,00863 166,87974 1,42394 1,45779
2 -,1885491817 ,01212 -15,55263 -,21231 -,16479
3 2,2012304428 ,00774 284,44286 2,18606 2,21640
4 -2,992120477 ,03467 -86,30099 -3,06008 -2,92417
5 -,4062443675 ,01130 -35,93567 -,42840 -,38409

deficien
Parameter Coeff. Std. Err. Z-Value Lower 95 CI Upper 95 CI

1 2,6934754369 ,00755 356,78871 2,67868 2,70827



170
variables fueran independientes.
Los valores estandarizados permiten evaluar la importancia de los efectos. Valores absolutos superiores a
1,96 (asociado a un nivel de confianza del 95%) son significativamente distintos de cero. En este caso se
observan solamente 2 coeficientes con valores absolutos menores a 1,96.
Por ltimo, observamos el intervalo de confianza para evaluar si se pueden o no inferir los resultados a la
poblacin origen de la muestra. Interesa aqu observar si los intervalos incluyen el valor cero. En intervalos
que incluyen el valor cero, se acepta la hiptesis nula de que el coeficiente en la poblacin es cero, vale
decir, que no tiene efecto. En este caso, solamente en el caso del efecto de tercer orden encontramos un
coeficiente que incluye en su
intervalo el valor cero.
Luego el programa empieza a
ingresar efectos paso por paso.
En el primer paso se ingresa la
clase generadora. El valor de
Chi Cuadrado de mxima
verosimilitud es cero, por lo que
los datos observados se ajustan
perfectamente a los esperados.
Se concluye el proceso en este
primer paso, ya que el mejor
modelo contiene la clase
generadora
sexo*ecivil*deficiencia, en tanto
equivale al modelo saturado.
Se terminar ac el anlisis del
modelo saturado para ahora
crear un modelo de
independencia ms parsimonioso
que solamente incluya los efectos
ms relevantes.
MODELO LOGARTMICO DE
INDEPENDENCIA
Luego de haber analizado el
modelo saturado y de haber
revisado qu efectos son los ms
importantes, procedemos a
generar un modelo logartmico de
independencia. El procedimiento
es el mismo, excepto por que en la ventana Modelo se elegir ahora la opcin Personalizado.
Backward Elimination (p = ,050) for DESIGN 1 with generating class

sexo*ecivil*deficien

Likelihood ratio chi square = ,00000 DF = 0 P = .
If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter

sexo*ecivil*deficien 5 372,643 ,0000 2

Step 1

The best model has generating class

sexo*ecivil*deficien

Likelihood ratio chi square = ,00000 DF = 0 P = .


The final model has generating class

sexo*ecivil*deficien

The Iterative Proportional Fit algorithm converged at iteration 0.
The maximum difference between observed and fitted marginal totals
is ,000
and the convergence criterion is 2593,177




171
Bajo Factores vemos las tres variables. Luego vemos una ventana que permite incorporar efectos de
Interaccin, Efectos Principales y Efectos de distintos rdenes (2, 3, 4 y 5). En este caso, se ha decidido
crear un modelo con una clase generadora de segundo orden, vale decir, se incluyen los efectos de
segundo y primer orden, y se excluyen los efectos producidos por el tercer orden. Hay que destacar que
esta decisin debe estar sustentada en fundamentos tericos que lleven al investigador a formular
hiptesis con respecto a las
relaciones entre las variables. En este
caso, nos basamos en el Modelo
Saturado, el cual, al ser usado con
fines exploratorios, nos indica cules
pueden ser los efectos ms y menos
relevantes.
Para ingresar la clase generadora que
hemos determinado utilizar,
marcamos todos los factores y luego marcamos los efectos de segundo orden. Bajo Clase Generadora
debiramos ahora ver todas las combinaciones de dos variables. Ponemos Continuar y analizamos las
salidas.
ANLISIS DE LAS SALIDAS
En general, las salidas son similares
al caso anterior, por lo que no se
mostrarn todas, sino las ms
relevantes. Vemos una diferencia al
momento de definir la clase
generadora que ya no est
compuesta por las tres variables,
sino por las interacciones de a dos
variables.
Luego revisamos los residuos
(siguiente pgina). Ahora las frecuencias observadas y las esperadas no son iguales y existen residuos. Esto
se debe a que ahora ya no se incluyen todos los efectos. Interesa, sin embargo, que los residuos sean
bajos. Si los residuos estandarizados son mayores a 1,96 (con un nivel de confianza del 95%) podemos
afirmar que la diferencia entre lo esperado y lo observado es significativa. En este caso se evidencian
muchos residuos mayores a 1,96.
Luego revisamos la Prueba de Bondad de
Ajuste: Aqu constatamos el hecho de que
el modelo no se ajusta bien a los datos.
De hecho, los valores de Chi Cuadrado
son muy distintos de cero y la probabilidad es 0, por lo tanto, menor a 0,05. Podemos afirmar que el
modelo no se ajusta adecuadamente a los datos.

* * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *

DESIGN 1 has generating class

deficien*ecivil
deficien*sexo
ecivil*sexo

The Iterative Proportional Fit algorithm converged at iteration 2.
The maximum difference between observed and fitted marginal totals
is 368,000
and the convergence criterion is 2593,177

Goodness-of-fit test statistics

Likelihood ratio chi square = 372,81508 DF = 5 P = ,000
Pearson chi square = 364,43047 DF = 5 P = ,000


172
Podemos concluir que la relacin entre las
variables Sexo*Estado Civil*Deficiencia es
demasiado relevante como para ser
eliminada del modelo.
MODELO LOGIT SATURADO
La diferencia de este modelo con el
anterior, es que asume la dependencia
entre las variables. Se trabaja con una o
ms variables dependientes categricas y
una o ms variables independientes
tambin categricas.
Se utilizar la misma base de datos que
utilizamos anteriormente. Se asumir
como dependiente la variable Deficiencia
Mental, con sus categoras 1: si y 2: No.
Como variables independientes se
tomarn las variables Sexo y Estado Civil.
El objetivo del anlisis es saber si estas
variables inciden en la Deficiencia Mental.
En este modelo no se modelan
frecuencias, sino ratios obtenidos de la
divisin entre frecuencias de la variable
dependiente para cada uno de los niveles
de la variable independiente.
Para llevar a cabo este anlisis entramos
en Analizar> Loglineal> Logit.
En la ventana que obtenemos, como
variable dependiente incluimos la
variable Deficiencia Mental y como
Factores las variables Sexo y Estado Civil.






Observed, Expected Frequencies and Residuals.

Factor Code OBS count EXP count Residual Std Resid


sexo Hombre
ecivil Casado
deficien No 2593177,0 2593121,5 55,50 ,03
deficien Si 5167,0 5222,4 -55,44 -,77
ecivil Convivie
deficien No 488916,0 488610,1 305,91 ,44
deficien Si 749,0 1054,9 -305,90 -9,42
ecivil Soltero
deficien No 1994817,0 1995480,5 -663,50 -,47
deficien Si 34526,0 33862,5 663,51 3,61
ecivil Anulado
deficien No 15637,0 15642,2 -5,21 -,04
deficien Si 59,0 53,8 5,21 ,71
ecivil Separado
deficien No 211035,0 211122,2 -87,23 -,19
deficien Si 1134,0 1046,8 87,25 2,70
ecivil Viudo
deficien No 119204,0 118809,4 394,57 1,14
deficien Si 1237,0 1631,6 -394,57 -9,77

sexo Mujer
ecivil Casado
deficien No 2579108,0 2579163,3 -55,25 -,03
deficien Si 4403,0 4347,7 55,26 ,84
ecivil Convivie
deficien No 503880,0 504185,9 -305,88 -,43
deficien Si 1217,0 911,1 305,88 10,13
ecivil Soltero
deficien No 1828625,0 1827959,0 666,00 ,49
deficien Si 25298,0 25964,0 -666,03 -4,13
ecivil Anulado
deficien No 34465,0 34459,8 5,18 ,03
deficien Si 94,0 99,2 -5,18 -,52
ecivil Separado
deficien No 318402,0 318315,0 87,00 ,15
deficien Si 1234,0 1321,0 -87,00 -2,39
ecivil Viudo
deficien No 458256,0 458653,0 -397,03 -,59
deficien Si 5669,0 5272,0 397,01 5,47



173
Como el procedimiento es muy similar al del
Modelo Logartmico, se analizar solamente el
modelo saturado. Dejamos todas las opciones
iguales, pero entramos en la ventana Opciones
para hacer una modificacin.
Pedimos las Frecuencias, los Residuos y las
Estimaciones. El resto lo dejamos igual. Ponemos
continuar y analizamos las salidas.
ANLISIS DE LAS SALIDAS
La primera tabla nos muestra que se trabaja con 24
casos, y que cuando stos son ponderados, son 11
millones de casos. No existen ceros estructurales ni de muestra.
A su vez, observamos que la variable Deficiencia mental tiene 2
categoras, Sexo 2 y Estado Civil 6.
Luego revisamos la informacin de convergencia.


Aqu vemos que el nmero mximo de iteraciones es de
20 (como se ha definido en las opciones). Sin embargo,
solo se necesitaron 9 iteraciones para alcanzar el
criterio de convergencia.
Luego revisamos la Prueba de Bondad de Ajuste.
Los valores de la razn de verosimilitud y el
Chi Cuadrado de Pearson son iguales a 0, por
lo que podemos afirmar que el modelo se
ajusta de manera perfecta (cuestin evidente
ya que trabajamos con un modelo saturado).
Luego observamos dos ndices que miden
dispersin o variabilidad de la variable
dependiente. Observamos la varianza
explicada y no explicada por el modelo.

Informacin sobre l os datos
24
0
1E+007
24
0
0
2
2
6
Vlidos
Perdidos
Vlidos ponderados
Casos
Casillas def inidas
Ceros estructurales
Ceros de muestreo
Casillas
Def iciencia Mental
Sexo
Estado Civ il
Cat egoras
N
Informacin sobre l a convergencia
a,b
20
,00100
,00012
c
,00042
9
Nmero mximo de
iteraciones
Tolerancia de
convergencia
Mxima dif erencia
absoluta f inal
Mxima dif erencia
relativ a f inal
Nmero de iteraciones
Modelo: Logit multinomial
a.
Diseo: Const ant e + def iciencia + def iciencia * sexo
+ def iciencia * ecivil + def iciencia * sexo * eciv il
b.
La iteracin ha conv ergido ya que el mximo de
cambios absolutos de las est imaciones de los
parmetros es inf erior al crit erio de conv ergencia
especif icado.
c.
Contrastes de bondad de ajuste
a,b
,000 0 .
,000 0 .
Razn de verosimilitudes
Chi-cuadrado de Pearson
Valor gl Sig.
Modelo: Logit multinomial
a.
Diseo: Const ant e + def iciencia + def iciencia * sexo +
def iciencia * eciv il + def iciencia * sexo * ecivil
b.
Anli sis de dispersi n
a,b
32854, 530 932,756 11
446289, 9 159490, 4 11226309
479144, 4 160423, 1 11226320
Modelo
Residual
Tot al
Entropa
Concent r
acin gl
Modelo: Logit multinomial
a.
Diseo: Const ant e + def iciencia + def iciencia * sexo
+ def iciencia * ecivil + def iciencia * sexo * eciv il
b.


174
Los coeficientes, se pueden interpretar de
manera similar a como se analiza el R. Valores
altos de entropa y concentracin indican que
una mayor cantidad de la dispersin es
explicada por el modelo. En el caso de las
Medidas de Asociacin el mximo es 1. Estas se
basan en el anlisis de dispersin. En este caso vemos que las medidas son muy bajas, asumiendo que el
modelo no logra explicar mucha dispersin.
A continuacin presentamos una parte de la tabla de residuos:
Al tratarse de un modelo saturado, los residuos nuevamente son cero y las frecuencias esperadas y
observadas son idnticas.
Luego presentamos una parte de la tabla de la Estimacin de los Parmetros (se omitieron los parmetros
de la constante). Esta tabla resume el efecto de cada predictor. Si la significacin es menor a 0,05 (a un
nivel de confianza del 95%) podemos afirmar que el efecto es significativamente mayor a 0. En este caso
todos los efectos son significativos. Con respecto a los coeficientes, es necesario ver primero sus valores, ya
que valores ms altos implican un mayor efecto. Luego, si observamos el signo, podemos concluir con
respecto a si aumentan o disminuyen la respuesta a tal categora. Signos positivos aumentan la
probabilidad de respuesta de esa categora y viceversa. Por ltimo, revisamos los Intervalos de Confianza y
Residuos y recuentos de casi llas
a,b
2593178 99, 8% 2593177 99, 8% ,000 ,000
5167,500 ,2% 5167,500 ,2% ,000 ,000
488916, 5 99, 8% 488916, 5 99, 8% ,000 ,000
749,500 ,2% 749,500 ,2% ,000 ,000
1994818 98, 3% 1994818 98, 3% ,000 ,000
34526,500 1, 7% 34526,500 1, 7% ,000 ,000
15637,500 99, 6% 15637,500 99, 6% ,000 ,000
59, 500 ,4% 59, 500 ,4% ,000 ,000
211035, 5 99, 5% 211035, 5 99, 5% ,000 ,000
1134,500 ,5% 1134,500 ,5% ,000 ,000
119204, 5 99, 0% 119204, 5 99, 0% ,000 ,000
1237,500 1, 0% 1237,500 1, 0% ,000 ,000
2579109 99, 8% 2579108 99, 8% ,000 ,000
4403,500 ,2% 4403,500 ,2% ,000 ,000
503880, 5 99, 8% 503880, 5 99, 8% ,000 ,000
1217,500 ,2% 1217,500 ,2% ,000 ,000
1828626 98, 6% 1828626 98, 6% ,000 ,000
25298,500 1, 4% 25298,500 1, 4% ,000 ,000
34465,500 99, 7% 34465,500 99, 7% ,000 ,000
94, 500 ,3% 94, 500 ,3% ,000 ,000
318402, 5 99, 6% 318402, 5 99, 6% ,000 ,000
1234,500 ,4% 1234,500 ,4% ,000 ,000
458256, 5 98, 8% 458256, 5 98, 8% ,000 ,000
5669,500 1, 2% 5669,500 1, 2% ,000 ,000
Def iciencia Mental
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
Estado Civ il
Casado
Conviv iente
Soltero
Anulado
Separado
Viudo
Casado
Conviv iente
Soltero
Anulado
Separado
Viudo
Sexo
Hombre
Mujer
Recuent o %
Observ ado
Recuent o %
Esperado
Residual
Residuo
tipif icado
Modelo: Logit mult inomial
a.
Diseo: Const ante + def iciencia + def iciencia * sexo + def iciencia * eciv il + def iciencia * sexo * ecivil
b.
Medida de asoci acin
a,b
,069
,006
Entropa
Concent racin
Modelo: Logit multinomial
a.
Diseo: Const ant e + def iciencia + def iciencia * sexo
+ def iciencia * ecivil + def iciencia * sexo * eciv il
b.


175
confirmamos que ninguno incluye el valor cero. Podemos concluir, por lo tanto, que los resultados se
pueden inferir a la poblacin origen de la muestra.

Como conclusin ms general podemos aceptar que todos los efectos son significativos. Esto quiere decir,
que si incluimos el efecto de la variable Sexo o de la variable Estado Civil o de la interaccin entre ambas,
podemos predecir con respecto a la variable Deficiencia Mental.
Por ltimo cabe destacar que este anlisis puede llevarse a cabo ahora con un modelo de independencia
dejando ciertos efectos fuera para lograr un modelo ms parsimonioso.
MODELOS CAUSALES
Se ejemplificar el uso y el anlisis de las salidas del programa estadstico AMOS v.5.0, para la elaboracin de
Modelos Causales. Los Modelos Causales son parte de un conjunto de tcnicas denominadas en muchos
casos como Modelos de Ecuaciones Estructurales.
Hay dos tipos de Modelos de Ecuaciones Estructurales. (1) Modelos de medicin, Anlisis Factorial
Confirmatorio, donde se analiza la relacin entre una variable latente no observada (un constructo) y sus
indicadores. (2) Path Analysis, por medio del cual se estudian las relaciones causales entre distintas
variables. Tambin es posible combinar ambos anlisis tal que se obtendra un modelo que diera cuenta
tanto de la pertinencia de los constructos utilizados, como de su relacin causal con otros constructor y/o
variables. Aqu se habla de Modelos Causales haciendo referencia al Path Analysis.
En el ejemplo, se utiliza una base de datos de la Encuesta Tolerancia y No-Discriminacin. El objetivo es
elaborar un modelo causal que explique el Nivel de Tolerancia. Como variables explicativas se incluyen
Dogmatismo, Nivel Educacional y Edad. Ninguna de las variables es estrictamente escalar, sin embardo en
general es aceptado utilizar variables ordinales con ms de 4 o 5 categoras asumiendo una continuidad
entre ellas. De todos modos es menester destacar que no es una situacin ptima y afecta la calidad del
modelo.


176
La variable Dogmatismo tiene puntaje en una escala tipo likert que asume valores desde 1 a 6, donde 6 es
muy dogmtico y 1 es nada dogmtico. La Tolerancia es igualmente un puntaje de una escala tipo likert
de tolerancia que va de 1 a 6, donde 6 es intolerante y 1 es tolerante. El Nivel Educacional, tiene las
categoras (1) Ninguna analfabeto (a); (2) Bsica; (3) Media; (4) Tcnica Profesional; (5) Universitaria. La
edad corresponden a los aos cumplidos.
El modelo propuesto es el de la izquierda. Las
flechas directas implican una relacin de
causalidad entre dos variables. El modelo
explicativo propone que la Edad y el Nivel
Educacional, estando relacionados mutuamente
entre s (flecha curva con cabezas en ambos
extremos), influyen en el Dogmatismo, el cual,
influye a su vez en la Intolerancia. En este modelo,
tanto Dogmatismo como Tolerancia son variables
endgenas, es decir, variables que son explicadas
por el modelo. Por lo tanto, ambas variables
conllevan un error asociado a su explicacin.
Adems, es importante tomar en cuenta que cada flecha implica una hiptesis de relacin entre variables.
De esta manera, dejar de agregar una flecha implica la no existencia de relacin entre dos variables.
A continuacin, se explicar cmo trabajar con el programa. Al entrar a AMOS Graphics nos encontramos
con la siguiente pantalla:





177
A la derecha aparece un espacio donde se dibuja el diagrama de secuencias del modelo propuesto. A la
izquierda figura la barra de herramientas donde se encuentran los elementos necesarios para construirlo.
El primer paso es asociar la base de datos
con la cual vamos a trabajar (SPSS en este
caso). Entramos en Files Data Files y
encontramos la ventana a la derecha.
En el Nombre de Archivo (File Name)
buscamos la base de datos de SPSS (u otro
formato) que queremos utilizar. En este
caso se eligi la base Base Ayudanta
Causal.sav. Marcamos OK.
Para construir el modelo, utilizamos el cuadrado para agregar las variables del modelo y el crculo para el
error asociado a las variables latentes. Una variable latente es un concepto supuesto y no observado que
slo puede ser aproximado mediante variables medibles y observables, en este caso la tolerancia y el
dogmatismo son variables latentes. Este tipo de variables asocia un error
que est dado principalmente por errores en las respuestas de los sujetos,
los errores de muestreo, los errores ajenos al muestreo, etc.
Luego hacemos lo mismo con las flechas:
- Las flechas directas indican una relacin de causalidad entre dos
variables. La direccin de la flecha implica la direccin de la
causalidad, y, por lo tanto, subyace el supuesto de que la variable
desde la cual sale la flecha es temporalmente anterior a la variable a la que llega.
- Las flechas que van en ambas direcciones simbolizan una correlacin entre variables.
En el men de la izquierda aparecen otras opciones, como, por ejemplo, la fotocopiadora que permite
copiar objetos (hacer una rplica de un cuadrado, por ejemplo) o el camin de mudanzas que permite
mover objetos.
A su vez, el tercer icono (desde arriba hacia abajo) del la tercera
columna (de izquierda a derecha) de la barra de herramientas
ubicada al extremo izquierdo de la pantalla, permite observar el
listado de variables de la base de datos, lo que resulta de
utilidad para recordar el nombre de las variables que se quieren
utilizar.
A continuacin es necesario asociar los distintos objetos
(cuadrado) a variables contenidas en la base de datos asociada.
Para eso hacemos doble clic sobre el objeto (cuadrado) que
queremos identificar y obtenemos la ventana siguiente. En esta, como Nombre de Variable (Variable
name) anotamos el nombre de la variable tal como figura en el listado de variables contenido en la base
de datos. En la Etiqueta de la Variable (Variable label) anotamos el nombre que queremos que aparezca
en el grfico del modelo. Al cerrar la ventana, el programa recordar lo que se ingres.


178
Tambin es necesario ponerle nombre a los errores (crculos)
aunque estos no correspondan a ninguna variable de la base
de datos. Hacemos doble clic sobre el crculo y obtenemos la
misma ventana. Adems del nombre, en la ventana hay una
pestaa denominada parmetros (Parameters) Aqu se
debe anotar como Varianza, el valor 1. Es necesario hacer
esto para cada Error, pero es importante que el nombre que
se asigna a los distintos errores vaya cambiando (por
ejemplo, error1 y error2). Toda variable endgena, es decir,
toda variable que es explicada por otras variables del modelo,
debe necesariamente asociar un error.
Una vez listo el modelo, se deben especificar algunas
opciones. Para esto entramos en View/Set Analysis
Properties.
En la pestaa Estimacin (Estimation) es importante
marcar la Estimacin de Medias e Intercepciones (Estimate
Means and Intercepts), lo cual permite trabajar con bases
de datos con casos perdidos.
Como medida de discrepancia dejamos la Mxima
Verosimilitud (Maximum Likelihood). Este es el mtodo
mediante el cual se calcularn los coeficientes del modelo.
Adems, pedimos que se presente el modelo saturado y el
de independencia.
En la pestaa Salidas (Output),
marcamos todas las opciones, menos
los ndices de Modificacin
(Modification Indices). Al interpretar
las salidas se ver para que sirve cada
una.
Una vez listos estos pasos, se procede
a correr el modelo marcando Model-
Fit Calculate Estimates. Las salidas
se presentan de dos maneras.
Primero, en el mismo grfico del
modelo se pueden ver los
coeficientes. Para esto se marca en el
centro de la pantalla la flecha roja
hacia arriba. Cuando est marcada
esta flecha, se presentar el diagrama
de secuencias con los parmetros estimados, mientras est la flecha hacia abajo activada, se vuelve al
formato de edicin del modelo, pudindose realizar todos los cambios requeridos.


179
A su vez, un poco ms abajo aparece la opcin de ver los parmetros estandarizados y no estandarizados.
Los parmetros no estandarizados estn afectados por la unidad de medida de las variables, lo que
dificulta su interpretacin. An as estos permiten analizar los efectos en las unidades de medida de las
variables, cosa que puede ser til, por ejemplo, para comparar coeficientes entre distintas poblaciones.
ANLISIS DE LOS RESULTADOS
Modelo con coeficientes no estandarizados Modelo con coeficientes estandarizados


Los coeficientes que se presentan encima de cada una de las flechas permiten ver el peso y la direccin de
la relacin entre las variables. De esta manera, vemos que la relacin entre Edad y Nivel Educacional no es
demasiado alta, y es inversa, es decir, a mayor edad, menor Nivel Educacional. La relacin de la Edad con el
Dogmatismo es positiva, es decir, a mayor edad, mayor dogmatismo. Por su parte, el Nivel Educacional tiene
una relacin inversa, es decir, a mayor nivel educacional, menor dogmatismo. Es importante destacar que el
peso del Nivel Educacional es casi tres veces ms alto que el de la Edad. Ambas variables logran explicar un
20% de la varianza de Dogmatismo (ver cifra sobre la variable).
El efecto del dogmatismo sobre la tolerancia es positivo, es decir, a mayor dogmatismo, mayor Intolerancia.
El modelo logra explicar el 73% de la varianza de la variable Intolerancia. Es importante destacar que los
Errores tienen coeficientes bastante altos.
Adems de los resultados grficos, el programa gener las salidas que pedimos, a las que se accede
entrando en View/Set Text Output.
Para empezar, se observa un resumen del anlisis
realizado, incluyendo la fecha y hora del
procesamiento. Adems, se informa que la muestra
est compuesta por 1398 personas y que el modelo
es recursive, esto quiere decir que no es
recproco, es decir, que va solamente en una
direccin.
A continuacin se presenta la cantidad de variables
endgenas, en este caso dogmatismo y tolerancia y
la cantidad de variables exgenas, edad y nivel
educacional. Adems, aparecen las dos variables no observadas, los errores.
Analysis Summary
Date and Time
Date: jueves, 30 de marzo de 2006
Time: 22:56:17
Title
modelocausal: jueves, 30 de marzo de 2006 10:56
Notes for Group (Group number 1)
The model is recursive.
Sample size = 1398



180
Luego se presentan en una tabla el nmero de pasos,
covarianzas, varianzas, entre otros. A partir de los datos
de esta tabla se calculan los grados de libertad, que en
este caso son 2. Esto es de suma importancia, ya que
permite evaluar la identificacin del modelo. Un
modelo puede ser identificado (cero grados de
libertad), sobre identificado (nmero positivo de
grados de libertad) o sub identificado (nmero
negativo). En este caso tenemos un modelo sobre
identificado ya que presenta 2 grados de libertad.
A su vez, se calcula el chi cuadrado del modelo, que nos
permite contrastar si el modelo ajusta bien a los datos.
En este caso, la probabilidad asociada al chi cuadrado
es 0,00, lo que significa que los residuos son
significativos. Esto puede deberse a que las variables
ingresadas no son lo suficientemente explicativas de la
Intolerancia, a que faltara alguna variable importante
para explicar este fenmeno o que no se haya
especificado alguna relacin de causalidad o correlacin relevante. El no incluir alguna variable
importante para la construccin del modelo se denomina Error de Especificacin.

Parameter summary (Group number 1)

W
e
i
g
h
t
s

C
o
v
a
r
i
a
n
c
e
s

V
a
r
i
a
n
c
e
s

M
e
a
n
s

I
n
t
e
r
c
e
p
t
s

T
o
t
a
l

Fixed 0 0 2 0 0 2
Labeled 0 0 0 0 0 0
Unlabeled 5 1 2 2 2 12
Total 5 1 4 2 2 14
A continuacin observamos nuevamente los pesos de regresin para las distintas variables sobre
dogmatismo y sobre intolerancia. Si bien ya habamos visto los pesos en los esquemas, ahora podemos la
probabilidad asociada, lo que indica si estos pesos son o no significativamente distintos de cero. Adems,
se presentan las medias, las intercepciones y la varianza para las distintas variables, as como la covarianza
y la correlacin entre las variables exgenas.

Estimates (Group number 1 - Default model)
Scalar Estimates (Group number 1 - Default model)
Maximum Likelihood Estimates


Variable Summary (Group number 1)
Your model contains the following variables
(Group number 1)
Observed, endogenous variables
dogm
toleranc
Observed, exogenous variables
A
edad
Unobserved, exogenous variables
error2
Error

Variable counts (Group number 1)
Number of variables in your model: 6
Number of observed variables: 4
Number of unobserved variables: 2
Number of exogenous variables: 4
Number of endogenous variables: 2

Notes for Model (Default model)
Computation of degrees of freedom (Default model)
Number of distinct sample moments: 14
Number of distinct parameters to be estimated: 12
Degrees of freedom (14 - 12): 2
Result (Default model)
Minimum was achieved
Chi-square = 194,563
Degrees of freedom = 2
Probability level = ,000



181
Regression Weights: (Group number 1 - Default model)

Estimate S.E. C.R. P Label
dogm <--- error2 1,176 ,022 52,838 *** par_1
dogm <--- A -,469 ,029 -15,901 *** par_2
dogm <--- edad ,011 ,002 5,551 *** par_4
toleranc <--- Error ,528 ,010 52,858 *** par_3
toleranc <--- dogm ,660 ,011 61,378 *** par_6

Means: (Group number 1 - Default model)
Estimate S.E. C.R. P Label
A 3,497 ,029 118,831 *** par_8
edad 40,210 ,437 91,952 *** par_10

Covariances: (Group number 1 - Default model)
Estimate S.E. C.R. P Label
A <--> edad -4,200 ,494 -8,494 *** par_5

Variances: (Group number 1 - Default model)
Estimate S.E. C.R. P Label
Error 1,000
error2 1,000
A 1,208 ,046 26,396 *** par_11
edad 267,136 10,108 26,429 *** par_12
La correlacin mltiple al cuadrado nos permite ver la varianza explicada para cada variable endgena
(como ya se discuti anteriormente). De esta manera, el modelo explica el 20% del dogmatismo y el 73%
de la Intolerancia.
Tambin se presentan las correlaciones, covarianzas y medias implicadas.
Matrices (Group number 1 - Default model)
Implied (for all variables) Covariances (Group number 1 - Default model)

error2 Error edad A dogm toleranc
error2 1,000
Error ,000 1,000
edad ,000 ,000 267,136
A ,000 ,000 -4,200 1,208
dogm 1,176 ,000 4,904 -,612 1,723
toleranc ,776 ,528 3,238 -,404 1,138 1,030
Implied (for all variables) Correlations (Group number 1 - Default model)
error2 Error edad A dogm toleranc
error2 1,000
Error ,000 1,000
edad ,000 ,000 1,000
A ,000 ,000 -,234 1,000
dogm ,896 ,000 ,229 -,424 1,000
Standardized Regression Weights:
(Group number 1 - Default model)
Estimate
dogm <--- error2 ,896
dogm <--- A -,392
dogm <--- edad ,137
toleranc <--- Error ,520
toleranc <--- dogm ,854
Intercepts: (Group number 1 - Default model)
Estimate S.E. C.R. P Label
dogm 4,646 ,148 31,473 *** par_7
toleranc 1,107 ,040 27,883 *** par_9
Correlations: (Group number 1 - Default model)
Estimate
A <--> edad -,234
Squared Multiple Correlations:
(Group number 1 - Default model)
Estimate
dogm ,198
toleranc ,729


182
error2 Error edad A dogm toleranc
toleranc ,765 ,520 ,195 -,362 ,854 1,000


Implied (for all variables) Means (Group number 1 - Default model)
error2 Error edad A dogm toleranc
,000 ,000 40,210 3,497 3,449 3,384


Implied Covariances (Group number 1 - Default model)
edad A dogm toleranc
edad 267,136
A -4,200 1,208
dogm 4,904 -,612 1,723
toleranc 3,238 -,404 1,138 1,030

Implied Means (Group number 1 - Default model)
edad A dogm toleranc
40,210 3,497 3,449 3,384
Factor Score Weights (Group number 1 - Default model)
Las tablas presentadas a continuacin resumen los efectos, tanto estandarizados como no estandarizados
de las variables endgenas sobre las exgenas. De esta manera podemos analizar los efectos, como por
ejemplo, el efecto de las variables Nivel Educacional y Edad sobre la Intolerancia. Vemos, por ejemplo, que
la variable que ms influye en el dogmatismo, es el Nivel Educacional, mientras que es el dogmatismo,
seguido del Nivel Educacional los que ms influyen en la Intolerancia. Tambin pueden verse los efectos
directos e indirectos para las distintas variables.

Total Effects (Group number 1 - Default model)
edad A dogm
dogm ,011 -,469 ,000
toleranc ,007 -,309 ,660

Direct Effects (Group number 1 - Default model)
edad A dogm
dogm ,011 -,469 ,000
toleranc ,000 ,000 ,660

Indirect Effects (Group number 1 - Default model)
edad A dogm
dogm ,000 ,000 ,000
toleranc ,007 -,309 ,000

A continuacin se presenta el historial de minimizacin, el cual permite ver como se lleg a la solucin
propuesta:
Implied Correlations (Group number 1 - Default model)
edad A dogm toleranc
edad 1,000
A -,234 1,000
dogm ,229 -,424 1,000
toleranc ,195 -,362 ,854 1,000
Standardized Total Effects (Group number 1 - Default model)
edad A dogm
dogm ,137 -,392 ,000
toleranc ,117 -,335 ,854
Standardized Direct Effects (Group number 1 - Default model)
edad A dogm
dogm ,137 -,392 ,000
toleranc ,000 ,000 ,854
Standardized Indirect Effects (Group number 1 - Default model)
edad A dogm
dogm ,000 ,000 ,000
toleranc ,117 -,335 ,000


183
Minimization History (Default model)
Iteratio
n

Negative
eigenvalue
s
Condition #
Smallest
eigenvalu
e
Diamete
r
F
NTrie
s
Ratio
0 e 0
112355,88
1

9999,00
0
305083,34
4
0
9999,00
0
1 e 0 90980,628 ,711
248415,99
2
4 ,000
2 e 0 20456,258 ,642
120265,60
7
1 1,248
3 e 0 9116,236 ,195 62714,018 1 1,305
4 e 0 3074,391 ,165 31983,898 1 1,306
5 e 0 1029,300 ,140 15600,639 1 1,304
6 e 0 628,156 ,116 7082,332 1 1,299
7 e 0 402,154 ,129 2890,817 1 1,289
8 e 0 263,691 ,146 1040,585 1 1,270
9 e 0 197,221 ,145 376,406 1 1,236
10 e 0 209,461 ,114 214,329 1 1,180
11 e 0 237,728 ,058 195,085 1 1,099
12 e 0 241,461 ,012 194,563 1 1,021
13 e 0 242,984 ,000 194,563 1 1,001
Luego se presentan una serie de coeficientes que permiten evaluar el ajuste del modelo. Aqu solo se
analizarn algunos de los entregados. Para todos los coeficientes, se presentan los datos para el modelo
propuesto (Default model), el saturado (Saturated model), que es el que incluye todos los efectos posibles
y que, por lo tanto, se ajusta de manera perfecta, pero no tiene inters terico y el de independencia
(Independence model), que es el modelo en el cul no existe ninguna relacin entre las variables.
El coeficiente NFI es el ndice de
ajuste normado. Este coeficiente va
de 0 a 1, implicando 1 un ajuste
perfecto. En este caso, el modelo
propuesto tiene un NFI de 0,9, valor
bastante alto, y que se acerca al valor
del modelo saturado. Los coeficientes
RFI (ndice de ajuste relativo), IFI (ndice de ajuste incremental) y CFI (ndice de ajuste comparado) se
analizan de igual manera. Solamente en el caso del RFI
el ajuste no es demasiado alto.
El coeficiente PNFI permite comparar los modelos con
respecto a su parsimonia. Recordemos que el mejor
modelo es el que permite explicar la mayor parte de
una variable, con el menor nmero de relaciones. De
esta manera, puntajes ms altos en el PNFI implican una mayor parsimonia. Sin embargo, en general este
coeficiente es utilizado para comparar distintos modelos (de manera de ver cul es el ms parsimonioso).
En este caso, el modelo propuesto tiene un puntaje ms alto que el saturado y el de independencia.
Baseline Comparisons
Model
NFI
Delta1
RFI
rho1
IFI
Delta2
TLI
rho2
CFI
Default model ,919 ,596 ,920 ,598 ,920
Saturated model 1,000 1,000 1,000
Independence model ,000 ,000 ,000 ,000 ,000
Parsimony-Adjusted Measures
Model PRATIO PNFI PCFI
Default model ,200 ,184 ,184
Saturated model ,000 ,000 ,000
Independence model 1,000 ,000 ,000


184
El coeficiente RMSEA permite evaluar la
bondad de ajuste si el modelo fuera
estimado con toda la poblacin. Son
aceptables valores entre 0,05 y 0,08. En
este caso, el modelo propuesto tiene un
puntaje de 0,26, valor evidentemente muy superior al margen planteado. Sin embargo, este valor es mejor
al del modelo de independencia.
Por ltimo, analizamos el coeficiente ECVI, el
cul es el ndice de validacin cruzada
esperada. Es un estimador de la bondad de
ajuste que conseguira un modelo estimado
con otra muestra del mismo tamao. No
tiene rango especfico, sin embargo permite comparar modelos. De esta manera, el modelo saturado, que
es un modelo que ajusta perfecto a los datos, tiene el valor ECVI ms bajo, porque evidentemente presenta
problemas de validacin externa, al encontrarse sobre ajustado a los casos de esta muestra en particular. El
modelo de independencia es el que tiene el ECVI ms alto.


RMSEA
Model RMSEA LO 90 HI 90 PCLOSE
Default model ,263 ,232 ,294 ,000
Independence model ,414 ,400 ,428 ,000
ECVI
Model ECVI LO 90 HI 90 MECVI
Default model ,156 ,126 ,192 ,157
Saturated model ,020 ,020 ,020 ,020
Independence model 1,728 1,615 1,846 1,728

También podría gustarte