Está en la página 1de 22

El análisis de la realidad social

Métodos y técnicas de investigación

Manuel García Ferrando


Jesús Ibáñez
Francisco Alvira
(Comp.)

Editorial Alianza

3ª ed., Madrid, 2000

Colección: Ciencias Sociales

ISBN 84-2006-8663-8

Este material se utiliza con fines


exclusivamente didácticos
ÍNDICE

Nota introductoria a la tercera edición ................................................................................................... 7

Introducción ............................................................................................................................................ 9

Primera parte
El diseño de la investigación social

1. Cinco vías de acceso ala realidad social. Miguel Beltrán ................................................................. 15


2. Perspectivas de la investigación social: el diseño en las tres perspectivas. Jesús Ibáñez ................. 57
3. Diseños de investigación social: criterios operativos. Francisco Alvira Martín .............................. 99

Segunda parte
La obtención de datos

4. 1. La observación científica y la obtención de datos sociológicos. Manuel García Ferrando ...... 129
2. La observación participante. Ricardo Sanmartín ........................................................................... 145
5. La encuesta. Manuel García Ferrando .......................................................................................... 167
6. La encuesta telefónica. José Ignacio Wert ..................................................................................... 203
7. 1. La apertura y el enfoque cualitativo o estructural: la entrevista abierta semidirectiva y
la discusión de grupo. Alfonso Ortí ................................................................................................ 219
2. Cómo se realiza una investigación mediante grupos de discusión. Jesús Ibáñez ........................... 283
8. Nuevas perspectivas en la explotación y aprovechamiento de los datos secundarios.
Benjamín González Rodríguez ....................................................................................................... 299
9. Medir en las ciencias sociales. Pedro González Blasco ................................................................. 343
10. Validez y fiabilidad de las observaciones sociológicas. Margarita Latiesa ................................. 405
11. La muestra: teoría y aplicación. Jacinto Rodríguez Osuna .......................................................... 445

Tercera parte
EL análisis de datos

12. Introducción al análisis de datos. Francisco Alvira y Francisca Blanco ...................................... 485
13. El análisis de los datos de encuesta. Rafael López Pintor y José Ignacio Wert ........................... 525
14. 1. El análisis de contenido tradicional. Eduardo López-Aranguren ............................................. 555
2. La grounded theory y el análisis cualitativo asistido por ordenador. Miguel S. Valles
Martínez .................................................................................................................................. 575
15. Construcción de la realidad e imaginarios sociales en los mass medias: la hipervisibilidad
moderna. Gérard Imbert .............................................................................................................. 605
16. El enfoque arqueológico y genealógico. Félix Recio ................................................................... 625
17. El ordenador en la investigación sociológica. Modesto Escobar Mercado................................... 641

2
13. EL ANÁLISIS DE LOS DATOS DE ENCUESTA

Rafael López Pintor y


José Ignacio Pert

La intención de este capítulo es transmitir de manera sucinta, y ojalá que clara, la experiencia acumulada
sobre el análisis de datos de encuesta. No es demasiado larga, aunque sí muy provechosa. Las encuestas de
opinión datan de los años treinta del siglo XX. Naturalmente, nos referimos a las encuestas realizadas con las
modernas técnicas del muestreo y la estadística inferencial. Se trata, pues, de una experiencia de poco más de
sesenta años, algo más corta en Europa que en América, y de más de veinte años en la práctica profesional de
quienes escriben estas páginas. El énfasis del capítulo estará, por tanto, en los aspectos prácticos del manejo
de datos de opinión más que en la dimensión teórica y metodológica que subyace al mismo –imprescindible
y de absoluta relevancia, pero tratada en otros capítulos del libro (la operacionalización de los conceptos; la
construcción técnica de variables a través de los indicadores, índices y escalas; las reglas de la inferencia
estadística y la prueba de hipótesis, etc.)–. Y, desde luego, no se entrará aquí en la discusión sobre el valor de
las encuestas como técnica de análisis sociocultural y de actitudes. Se parte, lógicamente, del supuesto de
que se trata de una técnica valiosa, que como cualquier otra tiene limitaciones propias o intrínsecas, además
de las que se derivan de la pericia profesional y la capacidad intelectual y científica de quienes la utilizan.
Trataremos, primero, de la utilidad genérica de los datos de opinión, de cómo presentarlos y
conservarlos. A continuación, de la elaboración y lectura de cuadros simples de datos. Seguidamente, de las
diversas formas de tratamiento más sofisticado de datos de encuesta, fundamentalmente basadas en técnicas
de construcción de escalas y utilización de modelos estadísticos de análisis de correlación y varianza, para
finalizar con una referencia a los últimos desarrollos en el campo de la inteligencia artificial.

Los datos no hablan por sí mismos

El análisis de datos de encuesta, como cualquier otro tipo de datos de interés científico, ha de guardar
relación con el problema de conocimiento que se trata de esclarecer y con la métrica de la información
empírica que se tiene entre manos. En otras palabras, que lo primero que hay que hacer con una encuesta no
es ver qué dicen los datos, sino qué dicen en relación con el problema y las hipótesis que uno se había
planteado previamente.
Para ello hay que aplicar la estadística más adecuada a la naturaleza de la información que estamos
manejando. O, en todo caso, una estadística que no resulte metodológicamente intolerable. En la práctica, no
siempre se opera de este modo. Es más, con frecuencia se parte del supuesto de que los datos hablan por sí
mismos y se aplican modelos de sofisticada estadística matemática a datos de opinión que no resisten el
modelo en términos sustantivos o que, presentados de este modo, oscurecen el problema objeto de
conocimiento en lugar de esclarecerlo.
Antes de poner en marcha una encuesta, uno ha debido poder concretar el problema de conocimiento
al que desea dar respuesta con sus datos de la investigación de opinión. Y al final del proceso, en el informe
resultante de un análisis serio de los datos, uno debe ante todo enfrentarse con aquel problema, aunque sólo
sea para anunciar una reformulación del mismo.
Tras medio siglo de investigación de encuesta estadística o demoscópica –si se prefiere, de análisis
de opinión pública y de actitudes en contextos sociales masivos– se ha llegado a algunas conclusiones
sólidas sobre la utilidad del tipo de datos que genera un cuestionario aplicado sobre una muestra estadística
de población. La primera y muy importante es que la cantidad y calidad del conocimiento que se desea
obtener sobre un problema no está necesariamente en función del tamaño de la muestra empleada para hacer
una encuesta. Ni el margen global de error en los resultados de una encuesta disminuye necesariamente
aumentando el tamaño de la muestra (junto al error muestral, que sí es exactamente controlable, existen otras
fuentes de error en la aplicación que no parecen disminuir en función del tamaño de la muestra). La
consideración resulta pertinente porque el analista de opinión debe ser capaz de decidir sobre la muestra
óptima para abordar el problema con el que tiene que enfrentarse. Manejar datos de encuesta con rigor exige
saber el tipo de errores a los que están sujetos y la dirección en que tales errores se mueven.
En el campo de los estudios de opinión de carácter político, en particular, existe una abundante
mistificación acerca del impacto del tamaño muestral sobre la robustez de la información obtenida. No es

3
infrecuente que los medios de comunicación se refieran a macrosondeos o macroencuestas para designar
encuestas electorales que, en realidad, son desde el punto de vista muestral la yuxtaposición de pequeñas
muestras de alcance provincial (ya que las elecciones generales en España se dilucidan a ese nivel). En estos
casos, cuando la información relevante que se trata de obtener es la que se obtiene a nivel de cada una de
esas submuestras provinciales, el error relevante es el de cada una de esas muestras y, por tanto, nada más
inexacto que hablar de macroencuestas para referirse a lo que son en realidad microsondeos. En estos casos,
además se suelen sobre interpretar oscilaciones que, casi siempre, están holgadamente comprendidas en los
errores de muestreo.
Otra conclusión, con seguridad la de mayor importancia, es que los datos de encuesta son más útiles
cuanto mayor sea la posibilidad de poderlos comparar con otros similares y anteriores en el tiempo o
procedentes simultáneamente de otras poblaciones. Ya en 1953 señalaban Berelson y Janowitz que: «La
principal contribución de las encuestas para el estudio de la formación de las opiniones está en la
acumulación de datos a través del tiempo. Una vez que se dispone de un cuerpo de respuestas a preguntas
estandarizadas de opinión, se hace posible establecer tendencias en el desarrollo de las opiniones y
relacionarlas con acontecimientos externos [...] Por desgracia, el número de esos conjuntos longitudinales de
datos es limitado [...] Por otra parte, los datos de tendencias de opinión han de ser elaborados y evaluados
dentro de un cierto marco analítico» (Berelson y Janowitz, 1953: 1). Sólo mediante la comparación podemos
buscar y encontrar semejanzas y diferencias, que no otra cosa es la esencia del conocimiento científico.
Tanto importa poder comparar, que con frecuencia se deberá sacrificar la originalidad de un cuestionario en
aras de poder obtener datos estrictamente comparables con otros anteriores disponibles o procedentes de
otras sociedades con las que la comparación resulte pertinente.
Afortunadamente, las cosas han cambiado mucho desde que Berelson y Janowitz emitieron aquel
juicio. Hoy existen importantes series de datos de opinión en muchos países, especialmente en los Estados
Unidos y la Unión Europea. Aún en España, y no sin dificultades, ha sido posible ir elaborando series de
datos, algunas ya con casi dos décadas de antigüedad. Y ello ha sido posible, sobre todo, gracias a los
trabajos del Instituto de la Opinión Pública, primero, y el Centro de Investigaciones Sociológicas, después, y,
desde luego, al impulso personal de investigadores como Juan Linz, Amando de Miguel o los propios
autores. Los ejemplos que siguen ilustran el valor de estos datos susceptibles de series longitudinales o
diacrónicas. En España, estas series tienen utilidad no sólo para el analista de opinión en la coyuntura–
valorando fluctuaciones en cortos períodos de tiempo–, sino para el historiador y el analista sociohistórico,
que pueden seguir de manera rigurosa los movimientos de opinión en relación con la actuación de los
dirigentes y la sucesión de acontecimientos de índole diversa. Así demostró en los Estados Unidos Key la
correspondencia a largo plazo entre movimientos de opinión pública y decisiones políticas (Key, Jr., 1963),
o, en Francia, Stoetzel la interacción entre opinión y decisión durante la crisis que terminó en la
independencia de Argelia (Stoetzel y Girard, 1973).
En España, los cuadros y gráficos que presentamos dan cuenta de la evolución de ciertas actitudes
políticas desde los años sesenta y también de la valoración social de la situación económica entre los años
del máximo desarrollo industrial y la actual época de recesión que se inicia en 1973. Esta valoración
económica acompaña muy de cerca a la realidad de los hechos económicos mismos, pues el país ha perdido
en los últimos doce o trece años más de un tercio de su capacidad competitiva internacional (para no hablar
de secuelas sociales como el paro en una tasa superior al 20%). Los datos de valoración política reflejan
claramente la crisis del final del franquismo (con un rebrote del autoritarismo y una expansión de la actitud
democrática en el año critico de 1976) y también el deterioro de la situación que desembocó en la dimisión
de Suárez y el golpe de Estado a principios de 1981.

4
Actitudes sobre los principios democráticos y autoritarios de gobierno, 1966-1982 (encuestas nacionales)

1976 1979 1980 1981 1982


Actitud 1966 1974
Enero-mayo Junio Abril Sept. Junio
(%) (%) (%) (%) (%) (%) (%) (%)
Es mejor que
un hombre
destacado
decida por
nosotros 11 18 24 8 9 9 8 9

Que la
decisión la
tomen
personas
elegidas por
el pueblo 35 60 56 78 76 77 79 79

NS/NC 54 22 20 14 15 14 13 12

FUENTES: Los datos de 1966 y 1976 son del Instituto de la Opinión Pública. Los de 1974 son de Consulta, S. A., y
fueron publicados en Cambio 16, 3 de junio de 1974. Los de 1979 y 1980 son del Centro de Investigaciones
Sociológicas y fueron publicados en la REIS núm. 6 (1979), p. 275, y núm. 10 (1980), p. 363. Los datos de 1981 y 1982
son del CIS.

Situación económica

% que la califica de «muy buena»


o «buena» (trazo continuo) y
% que la califica de «mala» o
muy mala» (trazo discontinuo)

Situación política

que la califica de «muy buena» o


«buena» (trazo continuo) y
% que la califica de «mala» o muy
mala» (trazo discontinuo)

Fuente: Datos del CIS en R. López Pintor (1982)

La misma capacidad de explicar sintéticamente un periodo de vida política y social normal (es decir,
no sujeto a la tasa de excepcionalidad que en España supone la desaparición del régimen de Franco y la
transición a la democracia) podríamos verla en cuadros como los que a continuación se presentan, en que se
sintetizan las visiones de la situación política y económica que prevalecen entre 1993 y 1996 (la crisis del
socialismo) y 1996 y 2000 (el primer periodo del gobierno del PP). Estas series, que corresponden a los
barómetros trimestrales que desde 1986 realiza DEMOSCOPIA para El País, tienen también una potente
fuerza explanatoria: a su través es posible entender las estructuras de opinión que gobiernan los cambios
electorales que tienen lugar en España en los últimos años.

5
Percepción de la situación política y económica 1993-1996
(% que considera muy buena o buena a cada una)

Muestras de 1.200 casos útiles. Error de muestreo ± 2.9%, para un intervalo de confianza del 95,5% (dos sigmas) y en
la hipótesis más desfavorable.

Percepción de la situación política y económica 1996-2000


(% que considera muy buena o buena a cada una)

Muestras de 1.200 casos útiles. Error de muestreo ± 2.9%, para un intervalo de confianza del 95,5% (dos sigmas) y en
la hipótesis más desfavorable.

No se agota, sin embargo, la utilidad de las series de datos de opinión en la posibilidad de poder
explicar mejor un determinado fenómeno. La capacidad de predecir, también aneja a la ciencia, depende con
mucho de la disponibilidad de series de opinión. El campo de predicción por antonomasia a partir de datos de
encuesta es el comportamiento electoral, donde los niveles de predictibilidad son más altos que los usuales
en meteorología. Y aquí las series de datos de encuesta son tan importantes como las de datos de elecciones
anteriores. Ambos tipos de datos constituyen la base sobre la que se construyen modelos predictivos del
comportamiento (de nuevo, los datos no hablan por sí mismos; la predicción procede de un modelo, que a su
vez se nutre de cierto tipo de datos). Pero las posibilidades de predecir a partir de datos de opinión van más
allá de este campo e incluso de los comportamientos clásicamente sociales. Recientemente, Noelle-Neuman
ha demostrado, utilizando una serie de opinión a partir de 1949 en Alemania, que el mejor predictor de la
evolución económica de un determinado año resulta ser un indicador de opinión tomado a finales del año
precedente sobre una muestra nacional de 2.000 personas y que recogemos a continuación:

PREGUNTA: «¿Entra usted en el nuevo año con esperanza o con temor?»

1949 1959 1969 1979 1984


% % % % %

Con esperanza 48 65 63 51 55
Con temor 23 8 13 16 14
Con escepticismo 17 12 14 21 22
Sin decir 12 15 10 12 9

FUENTE: Instituto Allensbach de Desmocopia.

6
La regla para que unos datos de opinión puedan seriarse debidamente es que se formule la misma
pregunta al mismo tipo de muestra y los datos se presenten al público ofreciendo el texto literal de la
pregunta y la distribución de las respuestas tomando en consideración todas las observaciones de la muestra
(lo que obliga a incluir el porcentaje de sin respuesta o a una presentación de los datos que permita deducirlo
de manera inequívoca, así como las distintas alternativas de respuesta).
A los efectos de conservación de los datos y cualquiera que sea el soporte físico en que se encuentren
contenidos (cintas magnéticas, fichas, tablas, etc.), resulta imprescindible mantener todas las
especificaciones anteriores, así como las relativas al tipo de muestra, fechas de trabajo de campo, etc. Lo
ideal es depositar las encuestas en un banco de datos para una adecuada utilización con propósitos
comparativos.

Nada más difícil que hacer y leer un cuadro simple de datos porcentuales

Nada más difícil de hacer que un buen cuadro. Nada más sutil que tenerlo a mano cuando se necesita. Y nada
tan infrecuente como saberlo leer y, mucho más, interpretar. Con estas tres sentencias nos parece poder
resumir la experiencia de la traslación de datos de encuesta a cuadros descriptivos simples.
Lo primero de un cuadro es saberlo hacer. El más simple de todos es la mera distribución de
frecuencias a lo largo del recorrido de un determinado indicador: por ejemplo, la edad o la intención de voto.
La regla básica, con frecuencia incumplida, es ofrecer la distribución de toda la población objeto de la
encuesta. En el caso de la edad, también mencionando los que no contestan y la forma en que se preguntó
(cuántos años tiene o en qué año nació usted, o cuántos años cumplirá en su próximo cumpleaños). En el del
voto, resulta técnicamente imprescindible hacer constar el porcentaje del total de la muestra para cada
categoría de respuestas y de los que no contestan. Quien siga atentamente las encuestas políticas que se
publican en la prensa podrá observar cómo esta regla crucial es sistemáticamente violada en nuestro país por
la mayoría de los órganos de expresión escrita. Una segunda regla fundamental es la de presentar las
frecuencias en números absolutos o al menos el total general; de manera que pueda deducirse cuál es la
entidad real de un determinado porcentaje en el conjunto de una muestra. Precisamente porque nos movemos
en el teorema del límite central y la ley de los grandes números, no es lo mismo un 20% con cinco
observaciones como base de referencia que con cincuenta.
El cuadro más frecuente es el de doble entrada para expresar la relación que hay entre dos variables
de las que se predica una cierta relación de dependencia. Tal es el cuadro básico para la descripción y
explicación de un fenómeno. Por ejemplo: la relación entre la edad y salir de vacaciones al extranjero. O la
relación entre autoritarismo y desinterés político. Un buen cuadro para describir o explicar situaciones como
las planteadas requiere lo siguiente:

Primero, colocar en la cabecera la variable que se propone como independiente o explicativa. Y en el


costado la variable a explicar.
Segundo, calcular los porcentajes en vertical o en la dirección de la explicación postulada,
incluyendo en el total los valores absolutos que han servido de base para dichos cálculos.
Tercero, leer los porcentajes de arriba hacia abajo o en el sentido en que han sido calculados, pero
compararlos horizontalmente para buscar semejanzas y diferencias entre los diferentes colectivos en que
hemos parcelado la variable independiente o explicativa.
Cuarto, y naturalmente, agrupar las dos variables en categorías que se correspondan con alguna
hipótesis plausible cuando su recorrido original no implica una toma de posición discutible sobre cómo está
ordenada la realidad (es el caso, por ejemplo, de las variables de edad o tamaño del municipio de residencia,
que demandan una cierta agrupación según los intereses del analista).

Aparte de la lectura de un cuadro simple –facilitada o dificultada según la bondad técnica del
mismo– existe el problema de la interpretación, en el que no vamos a entrar, ya que dependerá del
planteamiento científico del estudio y la capacidad intelectual del analista.
Veamos un ejemplo típicamente descriptivo: las salidas de los ingleses al extranjero según edad.
Como en otros países, los más jóvenes salen más al extranjero.

7
Relación entre edad y salida de vacaciones al extranjero de los ingleses (muestra
nacional de 1977)

Edad (años)
En los últimos 5 años 15-24 25-34 35-44 45 y más

Han permanecido en su país 62 61 67 70


Han viajado al extranjero 36 36 31 24
Sin respuesta 2 3 2 6
Total
100 100 100 100
Número de casos 1967 362 345 626 635

FUENTE: Trabajo realizado por R. López Pintor para el Instituto de Estudios Turísticos publicado en Estudios
Turísticos. núm. 61-62 (enero-junio 1979), p. 64.

He aquí otro cuadro simple de carácter bivariable y elaborado esta vez para probar en España la
hipótesis clásica de la relación entre personalidad autoritaria y pasividad política (Adorno, Campbell, Sartre).
Se trataba de buscar una prueba cuantitativa a la presencia de un síndrome de «intransigencia-retraimiento» o
de «violencia-huida» que pueden ir juntas como el sueño y la vigilia (López Pintor, 1982: 163). La prueba
empírica cuantitativa resultó positiva y en su momento la consideramos de extraordinario interés «en la
búsqueda de solución a determinados problemas teóricos que ocupan por igual a historiadores, sociólogos y
antropólogos sociales» (ibid.).

Autoritarismo e interés por la política (datos de una muestra nacional de 1979)

Creen que es mejor

Las decisiones las toma un


Una sola persona tenga
grupo de personas elegidas
Interés político toda la autoridad
por todos
(%)
(%)

Mucho 1 10
Regular 16 25
Poco 18 30
Ninguno 61 34
No sabe, no contesta 4 1

Total 100 100


(N = 114) (N = 909)

FUENTE: Encuesta «Barómetro de opinión pública» del CIS, septiembre 1979.

8
Categorías y grupos sociodemográficos que manifiestan los mayores niveles de «satisfacción» en diversos
aspectos de la vida personal.

Mayor nivel de satisfacción

Salud Familia Vivienda Trabajo

Sexo – Mujeres (88%) Mujeres (72%) Hombres (58%)


Edad (años) Menos 21 (90%) De 26 a 35 (94%) De 46 a 60 (73%) De 46 a 60 (61%)
Hábitat (miles de Un millón o más De 400 a 1.000 Un millón o más Un millón o más
habitantes) (78%) (90%) (80%) (64%)
Prim. y universitarios Universitarios (64%)
Estudios Universitarios (94%) Universitarios (91%)
(70%)
Situación laboral Estudiantes (68%) Sus labores (89%) Sus labores (73%) Trabaja (65%)
Profesión Cuadros sup. (86%) Cuadros sup. (94%) Cuadros sup.(80%) Cuadros sup. (71%)
Religiosidad No creyente (81%) Católicos (88%) Católicos (76%) Católicos (62%)
Autoubicación
Izquierda (80%) Centro (89%) Centro (78%) Centro (64%)
política
Votó 1 marzo PSOE (78%) PSOE (94%) UCD (75%) UCD (68%)

Mayor Nivel de Satisfacción

Moralidad y
Sueldo Tiempo libre Educación
costumbre

Sexo Mujeres (35%) – – –


Edad (años) De 26 a 35 (41%) De 60 o más (60%) De 21 a 25 (65%) De 21 a 25 (69%)
Hábitat (miles de Menos 2 y más de un Un millón o más De 400 a 1.000
De 2 a 10 (41%)
habitantes) millón (70%) (63%) (72%)
Estudios Grad. Med. (41%) Primarios (60%) Bach., F. Prof. (66%) Bach., F. Prof. (68%)
Sus labores y estudia
Situación laboral Trabaja (41%) Estudiantes (70%) Estudiantes (68%)
(73%)
Profesión Cuadros sup. (52%) Subalternos (75%) Cuadros sup. (67%) Cuadros sup. (71%)
Religiosidad Católicos (40%) Católicos (76%) Católicos (69%) Indiferentes (65%)
Autoubicación
Derecha (46%) Derecha (66%) Centro (59%) Izquierda (69%)
política
Cotó 1 marzo CD (55%) CD (71%) CD (68%) PSOE (67%)

Fuente: Encuesta Nacional de 1979, Banco de Datos del CIS R. López Pintor (1982)

Aparte de este tipo de cuadros, técnicamente muy simples pero de alcance científico variable según
la teoría que les sirva de referencia, existen otros modelos un poco más complicados de elaborar e
indiscutible utilidad para la descripción y el análisis. Me refiero a los cuadros conceptuales, de frecuencias
de contraste y de entradas múltiples. Se considera «conceptual» un cuadro en el que se resumen un gran
número de informaciones agrupadas respecto de una serie de categorías conceptuales, pero con una
expresión cuantitativa. Así, por ejemplo, en el cuadro adjunto se incluye información de una muestra
nacional española sobre satisfacción con diversos aspectos de la vida. En un solo cuadro se describe el mayor
grado de satisfacción en ocho áreas de la vida de acuerdo con nueve variables.
Este tipo de cuadros sintéticos son de gran utilidad para las presentaciones de las conclusiones de
encuestas a públicos que desean retener sólo los elementos básicos de las investigaciones que son relevantes
al proceso posterior de toma de decisiones. Los charts de este tipo son una prueba de la sensibilidad del
analista que los prepara, que debe ser capaz de distinguir aquello que contiene sentido de aquello que no
aporta valor explicativo.
Otro cuadro de parecidas características es aquel que se elabora para describir o explicar actitudes o
comportamientos extremos en el recorrido de una variable con más escalones a los efectos de simplificar o
hacer más visible una determinada relación entre hechos o situaciones. Ofrecemos el ejemplo del perfil
sociodemográfico de las personas con máximo y mínimo interés por la política. El cuadro incluye las
variaciones para un período de cinco años según sexo, edad, ocupación y tamaño del municipio de

9
residencia. La selección de variables responde a planteamientos teóricos que han sido objeto de investigación
sistemática en diversos países desde hace muchos años.

Perfil sociodemográfico del interesado por la política


[encuestas nacionales 1976 (*) y 1981(**)]

Con mayor interés Con menor interés


Variables
(***) (****)
sociodemográfica
1976 1981 1976 1981

Sexo
% hombres 43 35 33 36
% mujeres 23 19 54 53

Edad
Menos de 24 años 43 36 29 32
Más de 64 años 19 14 62 61

Ocupación
Mas cualificados 51 48 28 26
Menos cualificados 16 15 65 59

Tamaño hábitat:
Más de 500.000 41 37 35 36
habitantes
Menos de 2.000 30 16 44 61
habitantes

(*) Encuesta IOP, enero 1976, mayores de 18 años, N = 1.200.


(**) Encuesta CIS, julio 1981, mayores de 18 años, N = 1.200.
(***) Agrupa a los que declaran interesarse «mucho» y «regular».
(****) Los que declaran «ningún» interés por la política.

Por último, tenemos los cuadros de entradas múltiples y más concretamente para «quebrar» la
relación entre dos variables mediante la introducción de una tercera para ver si se mantiene o varía el sentido
de la asociación original entre las primeras dos variables. Veamos el ejemplo clásico del estudio del voto en
1940 de Lazarsfeld, Berelson y Gaudet (1944). La población menor de cuarenta y cinco años habría votado
por igual a demócratas y republicanos, mientras que la de más de esa edad habría votado a los republicanos
en un 55% y a los demócratas en un 45%. Cuando se introduce la variable «religión», aquella asociación
entre edad y voto se destruye: entre los protestantes, la población más joven es más republicana que
demócrata y lo contrario sucede entre los católicos (el voto es masivamente demócrata entre los más jóvenes
y aún más entre los mayores).

Intención de voto según edad y religión

Protestantes Católicos
Menos 45 45 y más Menos 45 45 y más Menos 45 45 y más
(%) (%) (%) (%) (%) (%)

Republicanos 50 55 57 66 28 16
Demócratas 50 45 43 34 72 84

Total 100 100 100 100 100 100


Números de casos 908 751 694 601 214 150

Fuente: Lazarsfeld, Berelson y Gaudet (1944: 22).

10
Recordemos, para concluir, la regla de oro en la lectura de cuadros porcentuales: siempre de arriba
hacia abajo en el sentido de la variable independiente, que debe encabezar la tabla, y comparando frecuencias
horizontalmente para descubrir semejanzas y diferencias; sin descuidar o dejar de anotar la cuantía de los
valores absolutos o base de los porcentajes (Zeisel, 1962: 37).

¿Cuánta semejanza y cuánta diferencia?

Aquí nos adentramos en los problemas de la elaboración de variables a partir de datos «brutos», su
tratamiento en modelos formalizados de análisis y la significación estadística de la prueba de hipótesis. Se
trata de cuestiones relativamente complicadas para quien se inicia en el estudio de la metodología de la
investigación social. No obstante, pueden darse algunas recomendaciones básicas, de las que el estudiante
debe partir para profundizar en sus conocimientos.
Este proceso es el eslabón intermedio en la cadena que lleva desde la información bruta hasta el
sentido aplicativo o teórico que se desprende de la encuesta.
Primero, cuanto más se va uno alejando del dato original o «bruto» mediante la construcción de
índices o escalas, en la complejización de variables, más arriesgado resulta llegar a formular conclusiones
sobre diferencias estadísticamente significativas. Sobre todo, cuando las diferencias observables son
aritméticamente pequeñas.
Segundo, uno sólo debe empezar a preguntarse por el significado de ciertas diferencias entre
frecuencias cuando obviamente resultan superiores o exceden los márgenes del error muestral, y además se
está operando con valores absolutos de cierta cuantía (como mínimo, con un N igual o superior a 30, que
constituye el límite otorgado por los estadísticos más tolerantes para hacer funcionar el teorema del límite
central: que cualquiera que sea la distribución de la población, una muestra al azar tenderá a distribuirse
normalmente). Por ejemplo, si la muestra tiene, como es usual, un margen de error de ± 3, sólo tiene sentido
empezar a pensar en diferencias por encima de los cuatro o cinco puntos de porcentaje y en el caso de una
distribución de frecuencias del conjunto de la muestra.
Además de esta precaución de sentido común, es útil el recurso rutinario a tests de significación de
diferencias (la T de Student y la prueba de Chi-cuadrado se encuentran entre las de más frecuente uso) que
avisen acerca de la condición significativa o no de las diferencias observadas.
Sobre el error estadístico conviene no perder de vista que el margen del conjunto de la muestra o de
la distribución de datos globales no puede hacerse extensivo a las distribuciones de subconjuntos de la
misma (por ejemplo, grupos de edad o sectores ocupacionales). Cuando desglosamos una población en
subconjuntos, las diferencias dentro de cada uno de ellos y entre unos y otros están sujetas a márgenes de
error superiores a los de la muestra; y tanto más grandes cuanto menor sea el N en cuestión. Igualmente debe
recordarse que los márgenes de error en la interpretación de los datos de una encuesta no vienen definidos
solamente por el error muestral, que es perfectamente conocido si la muestra está bien elaborada. Hay que
tener en cuenta: errores de medición en la elaboración del cuestionario; errores de aplicación por el
entrenamiento, actuación, supervisión y control de los entrevistadores; y errores de codificación y proceso de
datos. Todos ellos son más que difíciles de cuantificar y han de ser cuidadosamente minimizados.
Tercero, la búsqueda de diferencias no sólo procede por la comparación directa de porcentajes.
Pueden compararse cocientes entre porcentajes como medida de la diferencia entre dos colectivos o de la
distribución de un mismo colectivo en distintos momentos del tiempo. Aquí la regla es colocar siempre en el
numerador o poner como dividendo el porcentaje relativo al fenómeno que a uno le interesa explicar. En el
ejemplo anterior del voto en Estados Unidos, supongamos que deseamos ver de manera muy sintética el
orden de las diferencias en el voto republicano entre los mayores de cuarenta y cinco años. Calculando los
respectivos cocientes tendríamos las siguientes tres medidas: 1,2 para el conjunto de los mayores de cuarenta
y cinco años, 1,9 si son protestantes y 0,1 si son católicos. Se visualiza así de manera muy sencilla la
concentración de la probabilidad de votar republicano si se es protestante con más de cuarenta y cinco años.
La comparación de cocientes tiene el particular interés del carácter constante de la medida, mientras que los
porcentajes pueden haber cambiado (un ejemplo ilustrativo es el de la distancia entre partidos políticos en la
intención de voto de los ciudadanos: pueden cambiar los porcentajes y la distancia tal vez permanezca
ialterable, efecto que se visualiza mejor mediante el cálculo de cocientes).
Hasta aquí las reglas más elementales para el tratamiento de datos de encuesta: saber de quiénes
estamos hablando exactamente (cuántos son y qué responden a preguntas concretas) y si la distribución de
opiniones en la muestra refleja diferencias, que puedan correctamente hacerse extensivas al conjunto de la
población. Como ya se ha dicho, y pese a ser elementales, estas reglas dejan de cumplirse con harta

11
frecuencia entre nosotros. Y a partir de aquí uno puede sofisticar y formalizar el tratamiento de los datos de
opinión tanto como desee, como sepa y se lo permitan los modelos disponibles de análisis estadístico.
Teniendo en cuenta que los pasos anteriores no son sustituibles por tratamientos estadísticos de más alto
nivel formal y que el conocimiento que aporta una mayor formalización no es proporcional al grado de
sofisticación estadístico-matemática. Y en todo caso, ninguna forma de tratamiento estadístico de los datos
puede suplir la ausencia de algún tipo de hipótesis por rudimentaria que sea. Con estas cautelas nos
adentraremos en el campo de la elaboración sofisticada de los datos de opinión.

Un bagaje técnico para disciplinar y formalizar el conocimiento de la opinión y las actitudes en


contextos sociales masivos

Con las respuestas directas a las preguntas concretas de un cuestionario de opinión –el dato bruto– se pueden
hacer muchas operaciones, reductibles a dos grandes cuerpos de saberes técnicos: la elaboración de nuevas
medidas a través de reconstrucciones conceptuales por indicadores, índices y escalas; el sometimiento de los
datos a modelos más o menos complejos de asociación o relación entre variables (la correlación y la
regresión y sus derivados: segmentación, análisis factorial, análisis tipológico, etc.).
Con los datos más simples de respuestas a varias preguntas se pueden «fabricar» medidas
combinatorias de las mismas en forma de índices o escalas (reduciendo a una sola puntuación los valores
expresados ante estímulos diversos). En el esquema metodológico de Lazarsfeld, Zetterberg y la mayor parte
de los investigadores sociales empíricos, estas medidas constituyen la «operacionalización» de los conceptos
que se están manejando en una investigación determinada, su referente empírico reducido a valores
aritméticamente manejables. Los conceptos son elaboraciones teóricas con las que definimos un determinado
aspecto de la realidad y de los que nos servimos para expresar hipótesis y teorías sobre la misma (v. gr.,
opinión pública). Variables son aquellas dimensiones específicas de la realidad que deseamos estudiar (v.
gr., participación política, satisfacción en el trabajo). Los indicadores son expresiones mensurables de las
distintas dimensiones de un concepto. Operacionalizan los conceptos y las variables; son su cara mensurable.
De aquí que ningún indicador abarque total ni exhaustivamente la realidad que trata de medir; sólo «la
indica». Una misma variable puede medirse con distintos indicadores. Si éstos son intercambiables puede no
ser conveniente operar con todos ellos y habrá que escoger el más apropiado (v. gr., son indicadores de
participación política la afiliación a un partido, la participación electoral, la disposición para participar en
trabajos de campañas políticas, etc.). Con diferentes indicadores se construyen los índices y escalas, que
implican combinar una diversidad de valores para obtener un único nuevo valor. La mayor parte de los
índices y escalas tienen un carácter sumatorio de los valores de diversos indicadores para llegara un valor
nuevo, que se moverá dentro de un determinado recorrido del índice o la escala.
Los recorridos más comunes suelen ser entre 0 y 10 (v. gr., la escala de ideología); entre 1 y 5 (las
escalas de tipo Likert); entre 0 y 100 (v. gr., índice de precios al consumidor).
No podemos tratar aquí extensamente el tema de la construcción de índices y escalas o de la
operacionalización de los conceptos. Reseñamos el gráfico clásico de Lazarsfeld y el ejemplo del estudio del
sistema de valores y creencias de los españoles López Pintor y Buceta (1975). En este trabajo de 1972 se
aborda empíricamente el complejo problema de los sistemas de creencias vigentes en una sociedad mediante
el uso de una encuesta y la elaboración o reconstrucción del dato bruto en escalas de Likert, tratadas luego
con modelos de análisis factorial y tipológico de estructuras latentes. Y ello contraponiendo la empiria a un
modelo teórico sólido como el que se deriva de las teorías de Converse, Rokeach y Eysenck sobre sistemas
de creencias. A modo indicativo ofrecemos los gráficos del «sistema teórico» de partida y del «sistema
empírico» al que se llegó en la investigación de actitudes de los españoles. Se trataba de averiguar qué
actitudes son centrales y cuáles periféricas en la estructura mental de los individuos; con qué grado de
intensidad se mantienen y en qué medida configuran una mentalidad cerrada o abierta. Lo primero se
consiguió con la ayuda del análisis factorial. Lo segundo, con la del análisis tipológico de estructuras
latentes, que permite agrupar a los individuos según una serie de actitudes específicas y el grado de
intensidad de las mismas. Con ello se averiguó no sólo qué tipo de actitudes se dan siempre juntas en la
mente de los individuos (el centro y la periferia de nuestra estructura mental), sino también a qué tipos de
personas dan lugar las diferencias de dirección e intensidad de las actitudes (López Pintor y Buceta, 1975:
87-88).
Con nuestros datos debidamente indexados o escalados podemos hacer análisis de correlación de
distinto tipo. Y aquí procede una regla fundamental relativa al tipo de modelo de correcto uso o al tipo de
supuesto que uno debe establecer en caso de querer saltar de nivel. En primer lugar dado que en general los

12
datos de las encuestas sólo se corresponden con escalas de tipo nominal u ordinal, en sentido estricto no son
susceptibles de tratamiento con modelos de la estadística paramétrica (la correlación Pearson y sus derivados
estadísticos). Existen coeficientes de correlación estrictamente adecuados a estos otros niveles de medición
de la llamada estadística no paramétrica: el de contingencia, el gamma y muchos otros (véase García
Ferrando, 1985). También con este tipo de medidas de asociación se puede llevar a cabo un análisis
multivariable como se demuestra en algunos de los trabajos de López Pintor sobre la burocracia chilena. En
uno de ellos se trata de explicar la satisfacción en el trabajo de los técnicos de una corporación pública
mediante la utilización de 29 variables de tipo ocupacional, cultural y organizativo. Con coeficientes gamma
y tests de significación correspondientes se llegó a la conclusión de que «la dimensión más relevante para
explicar la satisfacción en el trabajo está constituida por las actitudes de los funcionarios hacia el empleo
público; siguen en orden de importancia su orientación cultural y finalmente los factores organizacionales»
(López Pintor, 1976: 121-122).
Un planteamiento analítico algo más complejo, también en base a la estadística no paramétrica, se
utilizó para descubrir pautas de asociación entre variables de antecedentes sociales y actitudes ocupacionales
y culturales en el mismo colectivo de funcionarios, como puede verse en el cuadro adjunto. Y de allí se
derivaron las siguientes conclusiones: «Para empezar por las más obvias es claro que las variables de
antecedentes que mejor predicen las actitudes –tanto en términos de «alcance» como de «fuerza»– son la
edad, el sexo y la religión; y en menor medida la educación y la profesión.

Método de Lazarsfeld

Fuente: J.A. Carmona Guillén, Los indicadores sociales hoy, Madrid, CIS, 1977

Esquema de planteamiento teórico

13
Esquema del resultado de la investigación

La estructura del sistema de creencias (los coeficientes se refieren al peso que cada actitud tiene dentro
del síndrome más amplio)

EL CENTRO

HOMBRES MUJERES

Autoafirmación
(Entre las mujeres esta dimensión no reaparece con
Autoafirmación……………... ,70
fuerza propia sino diluida en un síndrome más
Satisfacción relativa en la ,58
amplio de tradicionalismo)
vida………………………….
Orden y seguridad…….......... ,47

Inseguridad Inseguridad
Donjuanismo……………....... ,71 Lástima de sí misma……...................... ,60
Centrados en el hogar………. ,71 Angustia dinero………………………. ,66
Permisividad………………... ,60 Conciencia precios……………………. ,66
Inestabilidad emocional…….. ,46 Inest. Emocional……………………… ,45

Estabilidad Estabilidad
,79 Preocupación por integridad ,67
Mañosos…………………….
corporal……….
Síntomas desajuste…………. ,40 Celtiberismo………………………….. ,60
Placer comprar……………………….. ,43
Alienac. Trabajo……………………… ,40

Anatomía Extroversión
Entusiasmo…………………. ,67 Soñadoras…………………………….. ,65
Introversión………………………….. ,56

Fuerza vital Fuerza vital


Entusiasmo…………………. ,68 Cuidado de sí misma……..................... ,72
Rutinización compra……...... ,58 Preocupación apariencia……………… ,63

LA PERIFERIA
Tradicionalismo Tradicionalismo
Conspicuidad consumo…… ,71 Interés beneficencia…………………... ,68
Autoritarismo………………. ,70 Rutinizac. Compra……………………. ,57
Machismo…………………... ,60 Orden y seguridad……………………. ,51
Sociabilidad vecinal………… ,56 Autoritarismo y tradicionalismo moral.. ,47
Aficción fútbol……………… ,45
Quiniela y chateo…………… ,42 Permisividad
Alineación trabajo………….. ,41 Permisividad…………………………… ,77

14
Radicalismo Radicalismo
Antipublicidad……………………. ,70 Radicalismo…………………………… ,68
Antirrebajas………………………. ,63 Antipublicidad………………………… ,66
Radicalismo………………………. ,52 Anomía………………………………… ,51
Desconfianza demás…………………… ,42

Refinamiento Refinamiento
Pretenciones culturales…………… ,65 Interés cultura………………………….. ,66
Antitelevisión…………………….. ,59 Deportistas…………………………….. ,61
Urbanistas………………………… ,51 Antitelevisión…………………………. ,56
Urbanistas…………………………….. ,50

Consumismo Consumismo
Orientación gasto………………… ,78 Conspicuidad cons…………………….. ,71
Sensibilidad a las promociones……….. ,68
Innovadoras cons……………………… ,63
Cotillas………………………………… ,52
Interés cocina y costura………………. ,50
Quinielas, ciegos……………………… ,45

Preocupación precio Preocupación precio


Antitiendas……………………….. ,71 No hogareñas………………………….. ,64
Conciencia precio………………… ,40 Consumerismo………………………… ,61

Las tres primeras se refieren a experiencias de socialización temprana; la educación ocupa un lugar
intermedio y la profesión es claramente un indicador de socialización adulta. En cuanto a los predictores más
débiles, todos excepto clase social se refieren a experiencias adultas: movilidad social, ocupación de los
amigos, pertenencia a asociaciones e identificación de partido» (López Pintor, 1977: 53).

Una explicación de la satisfacción en el cargo según los antecedentes sociales, la orientación cultural y
ocupacional y las variables organizacionales (*)

Variable independiente Gamma Variable independiente Gamma

Edad……………………… ,36 Paternalismo……………… –,11


Sexo……………………… + Racionalismo…………….. ,27
Urbano-rural…………… – Nepotismo……………….. –,42
Origen del padre…………. – Motivación entrar………… +
Ocupación del padre……... Prestigio………………….. ,45
Educación del padre…… Hijo de la burocracia……... ,27
Religión…………………. + Sueldo……………………. ,47
Educación pública-privada. Profesionalismo………….. –,31
Clase social………………. ,20 Libertad discusión……….. ,93
Partido……………………. Trabajo oficina-campo…… –
Profesión…………………. Supervisión………………. –,13
Movilidad social…………. Posición jerárquica……….. ,18
Pertenencia a asociaciones. + Permanencia cargo………..
Tradicionalismo…………..

(*) Sólo se incluye en la tabla el valor numérico de los coeficientes de correlación significativos aun
nivel de significación igual o superior a ,05. Los signos + y – representan coeficientes iguales o mayores
a ,l0, pero significativos a un nivel inferior a,05.
Fuente: R. López Pintor (1977).

La correlación entre dos variables expresa la extensión en que una incide en la otra, la intersección
de ambas, su grado de asociación. Pero no indica si a partir de los valores de una de ellas podemos predecir

15
los valores de la otra. Esto último se consigue mediante el coeficiente de regresión (coeficiente b), que indica
si la correlación entre variables es tal que a partir de una podemos calcular los valores de otra (por tanto,
siempre que existe regresión hay asociación, pero no a la inversa). Ahora bien, con medidas de la estadística
no paramétrica no podemos calcular regresiones. Éstas pertenecen a otro orden analítico, así como todas las
demás estadísticas que demandan datos de base susceptibles de escalarse por intervalos iguales.

Análisis de correlación entre variables de antecedentes sociales y actitudes culturales y ocupacionales (Coeficientes de
correlación significativos a un nivel 0,05 o más alto (*)

(*) Las variables de antecedentes están ordenadas de experiencias de socialización temprana a experiencias de
socialización adulta. Los signos +y-indican el sentido de coeficientes gamma igual o mayores a 0,10, cuyo nivel de
significación es inferior a 0,05. Por «alcance» se entiende el número de actitudes predichas por una determinada
variable de antecedentes en los niveles más altos de significación. «Fuerza» es la medida de los coeficientes gamma
significativos a nivel 0,05 o más altos.
Fuente: Rafael López Pintor (1977).

La mayor variedad de modelos de análisis de la estadística paramétrica, así como su mayor belleza y
plasticidad, son las razones por las que desde hace muchos años se vienen aplicando a los datos de encuesta,
o a un buen número de ellos. Siempre estos datos son susceptibles de una ficción de escala de intervalo. Y es
correcto tal tratamiento siempre que no se olvide que se está operando con ruta ficción o truco formal para
facilitar la métrica que no la obtención de nuevos conocimientos merced al procedimiento. En general puede
decirse que estos modelos estadísticos más complejos ayudan o pueden ayudar extraordinariamente el
manejo de un gran número de indicadores y variables con efectos sintéticos y, por tanto, de visibilidad de
estructuras de asociación y variación que de otra forma costaría mucho más trabajo identificar o presentar
nítidamente. Un buen ejemplo de esta utilidad es el anteriormente expuesto del estudio de los sistemas de
creencias en España. Y es gracias a la disponibilidad y facilidad de los actuales ordenadores por lo que este
tipo de tratamiento de la información de encuesta se ha hecho cada vez más corriente. Así, en el estudio de
satisfacción en el trabajo mencionado, sometidas las 29 variables «independientes» a un modelo de
correlación múltiple por grupos y en conjunto, su peso explicativo queda expreso en las tres líneas del cuadro
que sigue.

16
Peso relativo de las variables culturales, ocupacionales y organizacionales en la explicación de la
satisfacción en el trabajo

Variables independientes R. Múltiples

Ocupacionales ,49
Culturales ,35
Organizacionales ,25
R. múltiple total ,58

Fuente: R. López Pintor (1976).

A partir del análisis de correlación se puede trabajar con distintos modelos de análisis multivariable.
Un conjunto de modelos podría denominarse como el del análisis causal: aquí se incluirían el análisis de
cadena («path analysis»), el de regresión múltiple y el de segmentación por arborescencia («tree analysis»).
Otro conjunto de modelos estaría integrado por distintos modelos que implican conglomerados de variables o
asociaciones: aquí pueden incluirse el análisis factorial, el análisis tipológico o el del espacio más pequeño.
La explicación de los diferentes modelos excede el propósito de un capítulo como éste. Limitaremos la
referencia a los modelos de más corriente uso en la actualidad y en el análisis de datos de encuesta. De los
modelos causales el de más frecuente uso es el de arborescencias: es una técnica multivariable que «produce
una serie de agrupamientos dicotomizados en un modelo que asemeja las ramas de un árbol. La división de
los casos en grupos dicotomizados la realiza el análisis de segmentación de modo que en ellos quede
explicada de la mejor forma posible la variación de una cierta variable, que llamarnos dependiente, respecto
de otras variables que llamamos independientes.

Análisis de segmentación de la variable práctica deporte

Fuente: Encuesta sobre el comportamiento deportivo de los españoles, Madrid, Consejo Superior de Deportes,
1985

17
La división en grupos dicotomizados se hace en cada paso de tal forma que la variación dentro de los
mismos sea mínima, es decir, que sean lo más homogéneos posible al mismo tiempo que la variación entre
los mismos sea la mayor posible, es decir, los dos grupos resultantes en cada paso de la segmentación sean lo
más heterogéneos posible entre sí» (García Ferrando, 1985: 435). El cuadro adjunto muestra la operatoria del
modelo.
El análisis factorial es una forma de análisis de matrices. Consiste en la obtención y rotación de
matrices de correlación entre correlaciones que da como resultado la aparición de un número de factores. Un
factor no es otra cosa que una constelación de dimensiones –opiniones en el caso de la encuesta– que tienden
a darse unidas y de forma independiente a su vez de otras constelaciones. La forma de análisis factorial más
utilizada con datos de encuesta es una variedad de la «rotación Varimax» denominada de «componente
principal». De entre los numerosos ejemplos posibles de análisis factorial llevado a cabo entre nosotros, en
España, dejaremos aquí constancia de dos de las investigaciones en que ha participado uno de los autores.
Primero, una ilustración con un factor del primer estudio de actitudes en que se utilizó esta técnica (López
Pintor y Buceta, 1975).

Factor «celtiberismo» definido como forma extrema de tradicionalismo

HOMBRES MUJERES

Ítem Peso en Ítem Peso en


factor factor

Es absurdo que las mujeres ,61 Es absurdo que las mujeres vayan ,65
vayan a la universidad…… a la universidad………………….
España no debería entrar Los hombres no deben entrar en la
nunca en el Mercado ,57 cocina ni ocuparse de los niños…. ,58
Común…………………….
El coñac es sólo para
,41
hombres…………………... Porque una chica soltera quede
–,51
Sólo beben whisky los que embarazada no debe ser menos
quieren aparentar………… ,40 respetada…………………………

Otro ejemplo de análisis factorial es el referido a las preferencias por las distintas secciones de los
periódicos entre los lectores de prensa de Madrid. Las preguntas estaban dirigidas en el sentido de exigir una
puntuación entre

Tipos de hombre y mujeres en España (porcentaje de la población)

HOMBRES MUJERES

El español medio………… 59,9 La española media………. 57,6

Españoles tradicionales

El padre hogareño y 14,8 La mujer modesta y


5,6
tradicional……………….. deprimida…………………
El marido autoritario……... 8,6 La madre sacrificada……. 4,1
La esposa dominante…….. 6,3

Las nuevas generaciones

El joven descontento…….. La mujer de mentalidad


12,2 18,3
moderna…………………
Los radicalizados………… La mujer preocupada por la
4,2 moda……………………. 4,5

18
El análisis tipológico es un análisis de «estructuras latentes». Permite identificar dentro de una
población determinada un cierto número de grupos o conjuntos (tipos), que tienen las mismas características
a lo largo de una multiplicidad de dimensiones (en el caso de las encuestas se trata de dimensiones
sociodemográficas y de actitud u opinión). En el estudio de los sistemas de creencias y en base a escalas de
Likert y factores, un modelo de análisis tipológico arrojaba los siguientes tipos de hombres y mujeres
españoles a cuya descripción se dedica una buena parte de aquel trabajo.
Hoy existe una ingente variedad de técnicas avanzadas de análisis de datos fácilmente disponibles
para el investigador que disponga de un ordenador personal o, por supuesto, de uno profesional (mainframe).
Junto a las más tradicionales que se acaban de describir basadas en la correlación, la regresión o el análisis
factorial, se abren paso en los últimos años un buen número de ellas que reposan en la llamada inteligencia
artificial de las que las más conocidas son las técnicas de redes neurales y las de modelos de lógica borrosa
(fuzzy logic). Sus fundamentos se presentan a continuación (Baker, 1998: 502-505).
En sustancia, estas técnicas intentan reconstruir el proceso de aprendizaje humano: el computador
imita el proceso a través de un algoritmo de aprendizaje. Su uso requiere una cierta confianza en la caja
negra del algoritmo, puesto que los algoritmos pueden ser muy complejos y el resultado no siempre muestra
claramente cómo se ha llegado a él. De hecho, muy a menudo, el uso de estas técnicas tiene una función
confirmatoria de los resultados a que se puede haber llegado en el proceso investigador a través de técnicas
estadísticas más convencionales. Por ejemplo, se muestra que a veces la inteligencia artificial consigue
resultados superiores en potencia explanatoria a los de la regresión o el CHAID (detector automático de
interacciones basado en el Chi cuadrado).

Entre 0 y 1, los números son pesos de cada elemento en el factor

Factor 3
Factor 4 Factor 5
Factor 1 Factor 2 Economía y
Vida cotidiana Entretenimiento
Noticias Orientación trabajo

Constelaciones ,63 Noticias ,76 Editorial ,68 Técnica ,70 Familia ,61 Espectáculos
de interés
temático entre
los lectores de ,48 Internacional ,59 Artículos ,55 Enseñanza ,58 Religión ,60 Pasatiempos
los distintos
periódicos
,56 Carta director ,53 Juventud ,56 Tercera edad
,41 Cultura ,42 Economía ,53 Consumo

Las redes neurales responden a dos tipologías fundamentales:

A) Aprendizaje supervisado. Esta es la red neural que podemos considerar equivalente a la


regresión estadística y al análisis tipo CHAID. El comportamiento de la variable dependiente tiene que
explicarse a través de una serie de variables independientes o explicativas. El proceso neural puede
presentarse de acuerdo al diagrama que sigue

19
Percepción de tres estratos

(Adaptado de Baker, 1999)

Las variables de entrada se presentan a las neuronas contenidas en el estrato de entrada. En la etapa
A se genera un modelo aleatorio por selección aleatoria de pesos asociados a cada uno de los estratos
explicativos de entrada. Estos equivalen a los parámetros de regresión. El objeto entonces es calcular un
conjunto de pesos que proporcionen la mejor predicción del valor de la variable dependiente. Esto se alcanza
por el proceso de aprendizaje humano simulado a través de las conexiones entre las neuronas en los estratos
de entrada y oculto. Así, si el estrato oculto aprende que existe una asociación definida entre la morosidad y
el desempleo, el peso que se asigna a la variable desempleo se aumentará. Constantemente se está
intercambiando información entre los estratos, y el modelo se ajusta constantemente para reflejar cada grupo
de nuevos datos hasta que los resultados se estabilizan y los resultados pasan al estrato de salida.
La red neural no está constreñida por principios estadísticos. El peligro, por tanto, al que se enfrenta
es el de modelizar ruido estadístico. A este proceso se le conoce como sobremodelización (overmodelling).
Para prevenirlo, en un sistema de aprendizaje supervisado, los datos se dividen en conjuntos de
entrenamiento y conjuntos de prueba. La red aprende del conjunto de entrenamiento y el poder predictivo del
modelo se prueba en el conjunto de prueba. Si se produce cualquier clase de sobremodelización es probable
que la red haya aprendido cualquier característica del conjunto de entrenamiento y por tanto tenga una alta
capacidad explicativa sobre ese conjunto, pero su poder para predecir los resultados en el conjunto de prueba
será escaso. Por tanto, el modelo requiere ajustes hasta que la capacidad predictiva tanto sobre el conjunto de
entrenamiento como sobre el de prueba tiendan a igualarse.

B) Aprendizaje libre (unsupervised learning). Estas son las redes neurales que equivalen al análisis
de conglomerados (cluster analysis) en el que las neuronas compiten para explicar con precisión la mayor
proporción posible de datos. Hasta ahora, los resultados de esta técnica han tendido a ser muy similares a los
que proporciona el análisis de conglomerados, con el que establece relaciones de complementariedad bien
definidas.

Lógica borrosa (Fuzzy logic)

Se trata de la forma de modelización que se utiliza en sistemas expertos. Puede explicarse diciendo que es un
método de traducir lenguaje a procesos de modelización. El lenguaje es impreciso y la técnica opera
asignando probabilidades de ocurrencia a los fenómenos. Si, por ejemplo, estamos pensando que los ricos
son más probablemente que otros grupos los dueños de casas grandes, nos encontraríamos con el problema
de definir qué es un rico y qué es una casa grande, más allá de la convención del lenguaje. O, dicho de otra
forma, queremos saber si una persona con una renta de 15 millones puede o no ser conceptuado como rico, y
si una casa de 200 m2 puede ser calificada como grande. Las ideas de los diferentes expertos que crean el
sistema se transforman en probabilidades, de tal forma que nuestro hombre podría tener una probabilidad de
ser rico del 0,7 y la casa de 200 m2 una de ser grande de 0,8.
Por el momento, la lógica borrosa se encuentra en una fase muy embrionaria de desarrollo aplicativo
en el análisis de encuesta. Se ha utilizado mucho más en los análisis de bases de datos.

20
Algoritmos genéticos

Los sistemas de inteligencia artificial intentan reproducir procesos naturales de deducción, razonamiento u
observación. Los algoritmos genéticos se adscriben a lo que se llama informática evolucionista. De todo el
universo de posibles soluciones a un problema dado se seleccionan las mejores y se cruzan entre sí para que
la solución final represente el modelo o algoritmo que se adapte mejor a los desafíos que proponga el
problema. De esa manera, puede decirse que los algoritmos genéticos son de alguna forma darwinistas: sólo
el más apto sobrevive.
Es importante destacar la naturaleza iterativa de estos algoritmos. Imaginemos el caso de un
representante comercial que tiene que visitar veinte localidades. Si el problema es el de optimizar el tiempo
de desplazamiento, sólo en el caso de esas localidades la combinatoria de rutas posibles es varios billones.
Los algoritmos genéticos producen en la primera etapa una muestra de posibles soluciones. Sólo las mejores
de ellas son reevaluadas, objeto de fertilización cruzada y, en consecuencia, modificadas. A medida que se
refinan las soluciones deberían comenzar a converger hacia una solución final óptima.
Como sucede con la lógica borrosa, también en el caso de los algoritmos genéticos su uso en la
investigación de encuesta está en pañales. Pero es igualmente posible que se produzca un notable desarrollo
del mismo en los próximos años.

Una conclusión sobre ordenadores, modelos estadísticos y preparación de informes

El ordenador no mejora por sí mismo los resultados de la encuesta. El conocimiento que suministra el
ordenador está en función estrictamente de la información contenida en los cuestionarios (con sus márgenes
de error conocidos, estimados e inestimados) y de los esquemas de análisis que el investigador haya
sometido al proceso de tratamiento electrónico de los datos. Cuando el investigador no sabe bien lo que
desea obtener del ordenador, éste nunca podrá suplir aquella carencia.
Todos los modelos estadísticos de análisis de datos se basan en una serie de supuestos o principios
que se dan por verdaderos: comportan estructuralmente una visión de la forma de las cosas o de la realidad.
Cuando el investigador no es plenamente consciente de los supuestos del modelo estadístico que está
utilizando, se pierde en la falacia de confundir la imagen y fragmento de la realidad que le brinda el modelo
con la realidad objetiva misma. La realidad objetiva misma nunca es plenamente perceptible, cualquiera que
sea el modelo de análisis que estemos utilizando. Pero, si conocemos bien el modelo que estamos manejando
(e incluso tenemos capacidad para manejar modelos alternativos), al menos seremos conscientes de las
limitaciones que estos modelos imponen a nuestras posibilidades de conocer. Y, en consecuencia, al intentar
actuar sobre la realidad para modificarla, actuaremos con la cautela de quien sabe que se está moviendo en
terreno más o menos resbaladizo.
Varias reglas básicas para la redacción de un informe científico:
Las conclusiones deben formularse en el orden de importancia que realmente tienen respecto de los
problemas inicialmente planteados en el proyecto de investigación. Y no al azar ni respecto de inquietudes
que posteriormente haya ido experimentando el investigador. La respuesta a este tipo de inquietudes –en la
medida en que hayan ido surgiendo– puede y debe hacerse explícita a modo de corolario y planteamiento de
nuevos problemas.
La solidez de cada una de las conclusiones del estudio debe ser ponderada en términos de su validez:
grado de correspondencia con la realidad y eventualidad de ocurrencia de los fenómenos implicados. Esta
ponderación debe hacerse claramente explícita en el informe; tanto a nivel de descripción y explicación de
los fenómenos implicados como a nivel de las recomendaciones prácticas, si a éstas hubiere lugar en el
informe.
La lógica de la presentación de un informe debe tener presente el hecho de que un informe de este
tipo puede tener distinto usuarios con grados distintos de implicación cognitiva y práctica en la
investigación. Un resumen ejecutivo de las conclusiones, normalmente al comienzo del propio informe, y
despejado en cuanto sea posible de tecnicismos estadísticos o de otro tipo es una práctica aconsejable en este
tipo de informes, tanto más recomendable cuanto más obvia sea la dimensión aplicativa o práctica de esas
conclusiones. Es claro que ello no dispensa de aportar todo el utillaje técnico pertinente en el corpus del
informe o en anexos al efecto.

21
BIBLIOGRAFÍA
Baker, Ken (1998): «Multivariate analysis of survey data», en McDonald y Vangelder (eds.), ESOMAR
Handbook of Market and Opinion Research, 4ª edición, Amsterdam, ESOMAR, pp. 471-507.
Berelson, Bernard, y Janowitz, M. (eds.) (1953): Public Opinion and Communications, Nueva York, Free
Press.
García Ferrando, Manuel (1985): Socioestadística, Madrid, Alianza.
Hyman, Herbert (1975): Diseño y análisis de encuestas sociales, Buenos Aires, Amorrortu.
Key, V O., Jr. (1963): Public Opinion and American Democracy, Nueva York, A. Knopf.
Lazarsfeld, Paul, Berelson, B., y Gaudet, H. (1944): The People’sr Choice, Nueva York, Duell, Sloan and
Pierce.
López Pintor, Rafael (1976): «Satisfacción en el trabajo y formalismo como fenómenos burocrácticos: Un
análisis de actitudes en Chile» REOP, núm. 44, abril junio, pp. 101-145.
–– (1977): «Sociología de la burocracia: El estudio empírico de una empresa pública chilena»,
Documentación Administrativa, núm. 173, enero-marzo, pp. 6-87.
–– (1982): La opinión pública española del franquismo a la democracia, Madrid, Centro de Investigaciones
Sociológicas.
–– y Buceta, Ricardo (1975): Los españoles de los años 70: Una versión sociológica, Madrid, Tecnos.
Zeisel, Hans (1962): Dígalo con números, México, FCE.

22

También podría gustarte