Está en la página 1de 144

Análisis

cuantitativo

Técnicas para describir y explicar en Ciencias


Sociales
Andrés Santana Leitner




Diseño de la colección: Editorial UOC
Diseño de la cubierta: Natàlia Serrano

Primera edición en lengua castellana: octubre 2017
Primera edición en formato digital (epub): abril 2018

© Andrés Santana Leitner, del texto

© Editorial UOC (Oberta UOC Publishing, SL) de esta edición, 2017
Rambla del Poblenou, 156, 08018 Barcelona
http://www.editorialuoc.com

Realización editorial: Sònia Poch
ISBN: 978-84-9064-402-7

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada, reproducida, almacenada o transmitida de
ninguna forma, ni por ningún medio, sea éste eléctrico, químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa
autorización escrita de los titulares del copyright.
Autor

Andrés Santana Leitner

Doctor en Ciencia Política y de la Administración por la Universitat Pompeu Fabra de Barcelona,


doctor miembro del Instituto Juan March de Madrid y diplomado de postgrado con méritos en
Análisis de datos por la University of Essex. Actualmente, es profesor ayudante doctor en el
Departamento de Ciencia Política de la Universidad Autónoma de Madrid. También ha impartido
docencia en la Université de Bordeaux, la Universitat Oberta de Catalunya, la Universidad Carlos
III de Madrid y la Universidad Pablo de Olavide de Sevilla, entre otras. Es experto en
metodología de la investigación y técnicas cuantitativas, y sus publicaciones aplicadas versan sobre
comportamiento electoral, paradojas de los modelos de elección racional y representación
política.
A mi padre, Javier, de quien he heredado el gusto por los números
y la pasión por entenderlos mejor.
Índice
Capítulo I. Introducción
1. El análisis de datos en la investigación social
1.1. El proyecto de investigación
2. Conceptos
Bibliografía

Capítulo II. Estadística descriptiva univariante


1. Tabulaciones de frecuencias
2. Gráficos univariantes
3. Estadísticos descriptivos univariantes
3.1. Medidas de localización
3.2. Medidas de tendencia central
3.3. Medidas de dispersión
3.4. Discusión: variables tipificadas o estandarizadas
3.5. Medidas de forma
Bibliografía

Capítulo III. Relaciones entre variables


1. Conceptos básicos para el análisis multivariante
2. Herramientas para el análisis descriptivo multivariante
2.1. Tablas de una entrada para analizar varias variables
2.2. Tablas de contingencia
2.3. Gráficos multivariantes
3. Las medidas de asociación
3.1. Medidas de asociación e independencia
3.2. Estadísticos de resumen para variables nominales
3.3. Estadísticos de resumen para variables ordinales
4. Una nota sobre los análisis con tres variables o más
Bibliografía

Capítulo IV. Los análisis de regresión


1. Introducción al análisis de regresión
2. El modelo clásico de regresión lineal
2.1. Análisis de regresión con dos variables
2.2. La linealidad en el modelo clásico
2.3. Especificación estocástica del modelo
2.4. Muestras y poblaciones
2.5. El método de los mínimos cuadrados ordinarios (MCO)
2.6. Inferencia estadística y el supuesto de normalidad
2.7. Contraste de hipótesis
2.8. Regresión múltiple e inferencia: más de una variable explicativa
2.9. Contrastes de significación conjunta y análisis de varianza (ANOVA)
2.10. Capacidad explicativa y coeficientes de determinación y de correlación
2.11. Supuestos del modelo clásico
3. Violaciones y extensiones del modelo clásico
3.1. Colinealidad, heteroscedasticidad y correlación
3.2. Regresión a través del origen
3.3. Cambios de la escala
3.4. Regresión con variables estandarizadas
3.5. Modelos log lineales, log-lin, y lin-log
4. Introducción a los modelos con dependiente categórica
Bibliografía
Capítulo I

Introducción
Hasta hace no demasiado tiempo, la fuente principal de información política y social era de
carácter textual, dada la escasez de datos cuantitativos que permitieran otro tipo de
aproximaciones. Este estado de las cosas ha sufrido un cambio drástico gracias a los avances
tecnológicos de las últimas décadas, que han permitido multiplicar la cantidad, calidad y variedad
de datos sobre múltiples aspectos de la vida social, política y económica. De la mano de esta
mayor disponibilidad, estamos evolucionando hacia un mundo en el que la explotación de
información cuantitativa forma parte del quehacer diario de profesionales de la opinión, expertos
en la persuasión política y comercial y, desde luego, la comunidad científica. Los periodistas
incluyen con frecuencia tablas y gráficos en sus artículos, los políticos respaldan sus propuestas
con información sobre la evolución de variables macroeconómicas, los publicistas diseñan sus
campañas atendiendo a encuestas de satisfacción, y los investigadores incluyen secciones de
análisis empíricos en sus trabajos académicos.
Este libro te familiarizará con las técnicas de análisis cuantitativo más importantes. Aunque
está centrado en el análisis de datos sociales y políticos, su ámbito de aplicación rebasa
ampliamente el de los datos concretos con los que se ilustra cada técnica. Sin ir más lejos, yo
mismo he utilizado las técnicas expuestas en este libro para encargos de consultoría sobre los
patrones de consumo de los españoles. El objetivo principal de estas páginas es que sepas escoger
la técnica de análisis más adecuada para cada situación y puedas explicar cómo se debe interpretar
la información que presentes. A diferencia de otros manuales centrados en cómo acometer
análisis estadísticos con un paquete econométrico específico (yo mismo he escrito uno: Santana,
2017), los conocimientos que adquieras con la lectura de este libro son válidos
independientemente de los programas informáticos con los que decidas realizar tus análisis.

1. El análisis de datos en la investigación social


Por muy bien que esté hecho un análisis de datos, si está puesto al servicio de una
investigación mal concebida, su aportación será limitada. Por eso, dedicaremos esta sección al
diseño de la investigación. No dudes en consultar trabajos específicos sobre esta cuestión si
deseas saber más (King, Keohane, Verba, 2000; Santana, 2013).

1.1. El proyecto de investigación


Antes de acometer la investigación en tanto que tal, conviene preparar un proyecto, que no es
una investigación en pequeño, sino un plan de sus elementos principales. En él, debes especificar
cuatro cosas.
Primero: qué estudias, cuál es tu pregunta (que debes formular con claridad y concisión).
Partirás de un tema general de interés (por ejemplo, la variabilidad en la participación política), y
luego te focalizarás en el aspecto concreto que te interesa (el voto, las manifestaciones, la
militancia) y el nivel de análisis que quieres estudiar (diferencias entre países o entre ciudadanos).
Algunas preguntas se prestan especialmente bien a las investigaciones científicas. Por ejemplo, las
que buscan información a favor o en contra de un bando en una polémica académica, o las que se
cuestionan si una hipótesis ampliamente aceptada en la disciplina es falsa. Una opción muy
productiva es partir de aparentes paradojas: ¿por qué algunos de los países más felices lideran
también las tasas de suicido?
Segundo, deberás justificar por qué es relevante responder a la pregunta planteada. Una
investigación puede tener distintos tipos de relevancia:

1. Relevancia teórica y substantiva, si contribuye al conocimiento general de temas
importantes para la disciplina. Este tipo de relevancia es indispensable en ciertas investigaciones,
como las tesis doctorales.
2. Relevancia aplicada o práctica, si ayuda a conocer un caso específico o a solucionar un
problema concreto.
3. En algunas ocasiones, puede tener relevancia metodológica, si sirve para mostrar cómo se
debe estudiar un tema o un conjunto de temas.
4. Excepcionalmente, tendrá relevancia epistemológica, si conlleva implicaciones sobre las
virtudes o deméritos de todo un paradigma científico.

Tercero, cuál es tu hipótesis, tu respuesta tentativa a la pregunta. En algunas investigaciones,
como las tesis doctorales, tu hipótesis teórica ha de ser original; en casi todas ellas, debe
plantearse como una afirmación positiva:

1. Las afirmaciones positivas son proposiciones sobre el ser, sobre cómo es el mundo. Estas
pueden ser descriptivas o explicativas: hoy ha llovido más de dos horas; hoy ha llovido porque tu
hermano no ha ido a la escuela. Estas afirmaciones estarán objetivamente bien o mal, es posible
decir si son correctas o no. Decimos que son falsables, porque se pueden evaluar en términos de su
veracidad o falsedad.
2. Las afirmaciones normativas son proposiciones sobre el deber ser, sobre cómo tendría que
ser el mundo: el estado debería bajar los impuestos, los socialistas deberían ganar las elecciones, el
precio de los tenedores debería subir, España debería tener doscientos millones de habitantes.
Estas afirmaciones no están ni bien ni mal, sino que dependen de las opiniones y los valores de
cada uno y, por consiguiente, no suelen ser apropiadas para las investigaciones científicas.

Y cuarto, cómo comprobarás si tu hipótesis es correcta o no: qué metodología emplearás, cuál
será el ámbito de tu estudio; qué archivos, fuentes y bases de datos recabarás (datos
macroeconómicos, estadísticas oficiales, encuestas realizadas por terceros o por ti mismo,
entrevistas, grupos focales, etc.).
Las decisiones sobre el ámbito de la investigación responden a las preguntas del cuándo y del
dónde. Lógicamente, el ámbito (temporal, espacial, e incluso sectorial) al que se circunscribe el
estudio condiciona su alcance: en principio, si un estudio está circunscrito a los estudiantes
varones del último curso del grado en Sociología de nuestra universidad, no será válido
extrapolar las conclusiones al conjunto de ciudadanos y ciudadanas del país.
Es esencial justificar con cuidado las razones que han conducido a la selección de un ámbito
determinado. Esta justificación se debe fundamentar o bien en consideraciones teóricas, o bien en
consideraciones de disponibilidad de datos. En caso contrario, los lectores podrían sospechar que
los resultados presentados son fruto de una selección sesgada o caprichosa del ámbito del estudio,
que, eventualmente, podría favorecer el hallazgo de evidencia favorable a las hipótesis
presentadas.
En las consultorías y los trabajos conducentes a un grado académico, como TFG (trabajos de
fin de grado), TFM (trabajos de fin de máster) y tesis doctorales, es costumbre incluir también
una sección con el «cronograma» de trabajo y otra con los «objetivos» del estudio. Hay que
distinguir entre tres tipos de objetivos:

1. El objetivo general de la investigación es responder a la pregunta central de la investigación.
2. Los objetivos secundarios son objetivos que no son necesarios para lograr el objetivo
general, pero que aportan valor añadido a la investigación. Por ejemplo, una investigación podría
tener el objetivo principal de determinar las causas que llevan a los ciudadanos a votar o a
abstenerse, y plantearse el objetivo secundario de comprobar si las variables que se han utilizado
tradicionalmente como medidas indirectas del coste de votar, como por ejemplo la renta o la
educación, constituyen buenas aproximaciones de estos costes.

Hay que tener cuidado: una investigación con demasiados objetivos secundarios corre el
riesgo de la dispersión y de no lograr su objetivo general.

3. Los objetivos específicos son un conjunto de objetivos que conjuntamente (si se cumplen
todos y cada uno de ellos) permiten cumplir el objetivo general. Hay que rehuir la tendencia a
enumerar un listado para «cumplir con el expediente». En cambio, si se formulan con cuidado,
pueden facilitar muchas tareas de la investigación. Por ejemplo, en un estadio primigenio de esta,
puede resultar útil la construcción de una tabla de doble entrada que relacione las referencias
bibliográficas que se pretenden consultar y los objetivos específicos de la investigación. Esto
puede dar pistas muy valiosas: ¿se dispone de la bibliografía necesaria para lograr con éxito cada
uno de los objetivos específicos? ¿Incluye nuestra selección bibliográfica inicial muchas fuentes
que no tienen relación con ninguno de los objetivos específicos? También resultan útiles para
dividir la tarea global en una serie de tareas más pequeñas y delimitadas.
Un conjunto sensato de objetivos específicos cumple tres condiciones:

1) Ninguno puede ser tan amplio como el general.
2) Conjuntamente son suficientes. Si todos se cumplen, se cumple el general.
3) Individualmente son necesarios. Si alguno no se cumple, no se cumple el general. Es decir,
ninguno puede ser superfluo.

Finalmente, muchos proyectos incluyen una sección con una «revisión de la literatura», de los
estudios existentes sobre el tema. La ciencia es una empresa colectiva, con lo que, antes de
emprender tu investigación, deberás revisar bien lo que ya se ha escrito. Así, evitarás dos cosas:
reinventar la rueda y caer en plagio. La mayoría de las universidades cuenta con software antiplagio,
como Turnitin, con lo que es importante que documentes qué ideas son tuyas y cuáles han sido
defendidas en otros estudios. Para citar bien las fuentes consultadas, lo mejor es incorporar cada
referencia a medida que la usas (nunca dejes todas para el final) y emplear programas
especializados de gestión bibliográfica, tales como Zotero, Refworks o Endnote.
Una buena revisión del estado del arte sirve para mucho más que evitar duplicidades (King;
Kehoane; Verba, 2000, pág. 27) o plagios: supone una ayuda inestimable para definir el trabajo
(circunscribirlo al «hueco» dejado por los estudios existentes), defender su relevancia (quienes
investigaron temas afines habrán tenido que explicar por qué lo hicieron), justificar los efectos
esperados y los mecanismos causales (gracias a ideas e hipótesis desarrolladas por otros
estudiosos), percatarse de posibles variables relevantes o relaciones entre variables, elegir los
indicadores más adecuados de los conceptos, y maximizar la comparabilidad y el alcance del
propio trabajo.
Una nota final. Si tu proyecto compite por financiación, escribirlo bien se convierte en un arte
en sí mismo (Przeworski; Salomon, 1995). Suele valorarse positivamente que sugieras cuál será el
producto esperado (un libro, un artículo, una tesis), que demuestres un conocimiento profundo y
actualizado de la literatura, y que relaciones tu investigación con discusiones teóricas
controvertidas en la disciplina.

2. Conceptos
En esta sección, clarifico conceptos que serán empleados con profusión a lo largo del libro.
Empiezo con los de descripción y explicación, ya que los dos capítulos siguientes se refieren a la
primera, y el cuarto, a la segunda.
Describir unos datos implica organizarlos, clasificarlos, resumirlos y mostrar sus
regularidades (Spiegel, 1991, pág. 1).
Explicar un fenómeno implica desvelar cuáles son los factores que lo causan.

Los análisis de datos pueden ser univariantes (segundo capítulo) o multivariantes (capítulos
tres y cuatro).

Los análisis univariantes estudian las variables considerándolas de manera aislada, y son
siempre y necesariamente descriptivos: ¿cuál es la edad media de los estudiantes de este
curso?
Los análisis multivariantes estudian las relaciones entre variables, las consideran de manera
conjunta. Algunos de ellos son descriptivos, y resumen la distribución conjunta de dos o
más variables: ¿con qué frecuencia encontramos estudiantes que tengan al mismo tiempo los
cabellos negros y los ojos azules? Otros, son explicativos: ¿cuál es el efecto del régimen
político sobre la tasa de crecimiento económico de los países? Mientras que la descripción
puede ser univariante o multivariante, la explicación siempre presupone poner en relación al
menos dos variables, una causa y un efecto.

Los análisis de datos se pueden hacer para poblaciones o para muestras:

La población es el conjunto de todas las observaciones que le interesa estudiar al


investigador.
Una muestra es un subconjunto de una población que el investigador analiza empíricamente
con el objetivo de extraer conclusiones (de inferir) sobre la población que le interesa.

En ciencias sociales, es muy habitual trabajar con muestras, ya que contar con datos
poblacionales puede ser muy costoso o simplemente inviable. Cuando se trabaja con muestras, se
parte de unos datos (los de la muestra) de los cuales se dispone, y se va más allá, ya que lo que se
pretende es establecer conclusiones sobre la población en su conjunto. A este proceso se le llama
inferencia. La inferencia implica un razonamiento inductivo:

La inducción es el proceso por el cual observamos ciertos fenómenos concretos y, a partir de


ellos, establecemos conclusiones (inferimos proposiciones generales).

Ejemplo
Negri es perro y tiene 4 patas --------------- (x es X; x cumple Y)
Tobi es perro y tiene 4 patas ---------------- (x es X; x cumple Y)
Pillín es perro y tiene 4 patas -------------- (x es X; x cumple Y)
→ Los perros tienen 4 patas --------- (todo X cumple Y)

La deducción es el proceso por el cual llegamos a una conclusión razonada a partir de una
generalización lógica de hechos conocidos.

Ejemplo
Negri es perro ------------------------ (x es X)
Los perros tienen 4 patas ------- (todo X cumple Y)
→ Negri tiene 4 patas --------------- (x cumple Y)

Uno de los conceptos más importantes para el análisis de datos es el de variable, pero no todas
las variables funcionan de la misma manera. La distinción más importante se establece entre las
cuantitativas y las cualitativas:

Las variables cuantitativas o categóricas recogen información numérica y tiene sentido


hablar de la distancia entre sus valores: la diferencia entre 15 y 20 años es de 5 años, y la
diferencia entre 20 y 50 es ciertamente mayor, de 30 años. Generalmente, pueden asumir un
número elevado o, incluso, infinito, de valores.
Las variables cualitativas recogen información que, en sentido estricto, no es numérico
(como el sexo: hombre o mujer), aunque pueda codificarse con números para su análisis
estadístico. Si bien muchas veces se dice que tienen pocos valores, ello no es necesariamente
cierto (la variable «país de nacimiento» puede asumir unos doscientos valores, por ejemplo);
lo importante es que la distancia entre las diferentes categorías no importa, no tiene sentido.

A menudo, se establecen divisiones aún más detalladas entre tipos de variables. Por ejemplo, es
muy común distinguir entre subtipos de variables categóricas:

Las variables ordinales tienen tres o más valores, entre los que importa el orden (pero no se
pueden hacer afirmaciones en relación con la distancia que separa a cada uno de ellos).
Ejemplos

Tener estudios primarios, secundarios o terciarios.

Las medallas obtenidas en unas olimpíadas (de oro, plata y bronce). Tiene más valor una de oro que una de plata, y esta más
que una de bronce, pero no se puede decir fácilmente cuánto valor adicional tiene obtener una medalla de oro en lugar de una
de plata y cuánto una de plata en relación a una de bronce. La eventual asignación de valores numéricos a las distintas categorías
es parcialmente arbitraria. Podría asignarse el valor 1 a las de oro, 2 a las de plata, y 3 a las de bronce; o los valores 3, 44 y 52,
respectivamente; pero no los valores 2, 5 y 4. Fíjate que la «media» de un país con una medalla de cada tipo sería (1 + 2 + 3) /
3 = 2 bajo la primera asignación, pero (3 + 44 + 52) / 3 = 33 bajo la segunda. Precisamente por esto, la media no tiene
sentido.

Las variables nominales son variables entre cuyos valores no importa el orden; no se puede
establecer una ordenación lógica.

Ejemplos

El estado civil: soltero, casado, divorciado, o viudo.


Los estudios universitarios: economista, abogado, politólogo, médico, etc. Se les podrían asignar valores numéricos (0 a los
economistas, 1 a los abobados, 3 a los politólogos y 2 a los médicos), pero serían completamente arbitrarios, y cualquier otra
asignación sería igual de posible.

Las variables dicotómicas son un subtipo de las nominales con solo dos valores (el término
nominal se suele reservar para las de tres o más). Obviamente, al haber solo dos categorías, la
cuestión de si importa o no el orden ni se plantea.

Ejemplos

Vivir en democracia o en dictadura. Votar o abstenerse. Ser mujer u hombre. La eventual asignación de valores numéricos a las
distintas categorías es totalmente arbitraria: mujer = 1 y hombre = 0, o bien mujer = 1 y hombre = 2, o cualquier otra.
En ocasiones, también se diferencia entre subtipos de variables cuantitativas:

Las variables de intervalo tienen un origen (valor 0) arbitrario, sin sentido en sí mismo. Por
ello, no tiene sentido sacar cocientes entre sus valores.

Ejemplos

La temperatura, medida en grados Celsius o Fahrenheit. Entre tres días, lunes, martes y miércoles, con 10ºC, 12ºC y 20ºC,
respectivamente, tiene sentido decir que el miércoles hizo más calor que el martes y que el martes hizo más calor que el lunes;
tiene, además, sentido decir que la diferencia de temperaturas entre el miércoles y el martes fue más marcada que entre el martes
y el miércoles; pero no tiene sentido decir que «el miércoles hizo el doble de calor que el lunes». Esto se debe al hecho de que el
0 de la escala Celsius es arbitrario.

Las variables de razón son variables cuantitativas cuyo origen, cuyo valor 0, tiene sentido en
sí mismo, no es arbitrario. Ahora, los cocientes tienen sentido.

Ejemplos

La edad, la renta, el peso, o la temperatura en grados Kelvin. Si María tiene 20 años, Juan, 30, y Pedro, 40, tiene sentido decir
que Pedro es más viejo que Juan y que este es mayor que María, que la diferencia de edad entre Juan y María es la misma que
entre Pedro y Juan, y que Pedro tiene el doble de edad que María.

El cuadro siguiente resume la discusión sobre los tipos de variables:

Tabla 1. Tipos de variables

Tipo Subtipo Propiedades Observaciones

Cualitativas Dicotómicas Dos categorías

No importa ni el orden ni la
Nominales Más de dos categorías
distancia

Importa el orden, pero no la Más de dos categorías, las medias no tienen


Ordinales
distancia sentido

Cuantitativas De intervalo Importa la distancia Las medias tienen sentido

De razón Hay un cero absoluto Los cocientes tienen sentido


Fuente: Elaboración propia.

Merece la pena comentar que la distinción entre las variables cualitativas ordinales y las
cuantitativas es, a menudo, una cuestión de grado. A fin de cuentas, ¿cuántas categorías son
necesarias para considerar que su número es «elevado» y que es adecuado asumir que la distancia
importa? No existe, lógicamente, un «número mágico» para dirimirlo, pero, en la práctica, la
mayoría de los investigadores no suele encontrar problemático asumir que, con diez categorías, es
aceptable considerar que la variable es cuantitativa.
Además, en última instancia, el carácter ordinal o nominal de una variable no constituye una
característica intrínseca de una variable, sino que depende de los fines del investigador. Por
ejemplo, frente al orden aparentemente lógico extrema izquierda < izquierda moderada < centro
< derecha moderada < extrema derecha (o el orden inverso), es posible que, para estudiar la
estabilidad democrática, lo relevante sea la situación más o menos extrema de los partidos, de
manera que la estabilidad sería creciente con un orden del tipo centro > izquierda moderada,
derecha moderada > extrema izquierda, extrema derecha.
En los párrafos precedentes, se han clasificado las variables en función de cómo recaban la
información, diferenciando según las relaciones de orden, distancia, etc., que se pueden (o no)
establecer entre sus valores. Esta es la distinción más importante para el análisis de datos, ya que
condiciona qué tipo de información (distribución de frecuencias, medias o incluso cocientes)
puede tener sentido (o no) y, con ello, los tipos de análisis posibles. En consecuencia, los análisis
descriptivos de variables cualitativas muestran distribuciones de frecuencias de variables aisladas
(en el caso univariante) o de combinaciones de valores de más de una variable (en el
multivariante); y los de variables cuantitativas muestran medias y otras medidas sumarias (en el
caso univariante) o tendencias a crecer conjuntamente o a moverse en direcciones opuestas (en el
caso multivariante):

Tabla 2. Tipos de análisis descriptivos según tipos de variables

Univariante Multivariantes

Frecuencias conjuntas
Distribución de frecuencias
Cualitativas (tablas de contingencia)
(tablas y gráficos de frecuencias)
(gráficos anidados de frecuencias)

Movimiento conjunto o disjunto


Medias y otros estadísticos sumarios
Cuantitativas (correlaciones)
(estadísticos descriptivos)
(nubes de puntos)

Comparaciones de medias
Mezcla
(contrastes y gráficos de comparación de medias)

Fuente: Elaboración propia.

En los análisis explicativos, se establece una distinción adicional muy importante entre las
variables según el papel que desempeñan en tus modelos:

Por una parte, las variables dependientes o endógenas o regresandos: son las que quieres
explicar, los efectos. Es decir, son aquellas cuyos cambios (cuyos diferentes valores) quiere
entender y explicar el investigador, el consultor o el gerente. Es habitual etiquetarlas con la
letra Y. Para que se pueda estudiar qué genera cambios en Y, es necesario que esta
experimente variaciones. Cuando la dependiente no varía o varía poco, surgen problemas.

Ejemplo

¿Qué factores influyen sobre el régimen político de los países de la Unión Europea? ¡La variable dependiente no varía! Todos
los países de la UE son democracias: técnicamente, la variable dependiente es una columna de ceros. Una variable degenerada es
una «variable que no varía», que adopta un valor constante, el valor de un parámetro. ¿Qué factores influyen sobre la
probabilidad de que un país experimente una revolución? Hay tan pocas revoluciones que es difícil de estudiar. Es difícil
determinar cuáles de las innumerables diferencias entre países y en el tiempo son las responsables del pequeño número de
revoluciones. La variable dependiente es casi una columna de ceros.

Por otra parte, las variables independientes o explicativas o regresores o predictores: es


decir, las causas (potenciales), las variables que (crees que) influyen en la dependiente. Se las
etiqueta con la letra X. Cuando hay varias, es común numerarlas o añadir subíndices: X1,
X2, X3, y así, sucesivamente. Si X no varía o varía poco surgen problemas, porque, para
estudiar si sus cambios provocan cambios en la dependiente, ha de variar.

Ejemplo

Si todos los trabajadores de un local tienen el mismo sueldo, entonces el sueldo no podrá dar cuenta de las variaciones en sus
tasas de absentismo laboral.

La popularidad de los análisis econométricos para estimar relaciones causales entre variables
ha comportado una sofisticación en la identificación de posibles relaciones entre variables. No
todas las relaciones posibles se limitan a efectos directos de una o varias variables independientes
sobre la dependiente. Quienes se dedican a proponer modelos causales consideran a menudo
otros tipos de variables:

Las variables moderadoras son las que (crees que) afectan a la relación entre la variable
independiente y la dependiente; esto es, condicionan o modifican el efecto de aquella sobre
esta. Cuando una variable moderadora está en juego, la variable independiente tiene un
efecto contingente sobre la dependiente en función de los valores asumidos por la
moderadora.
Ejemplo

En muchos países, el efecto del número de hijos sobre el número de horas trabajadas por semana depende del género (está
moderado o condicionado por este), hasta tal punto de que suele ser positivo para los hombres y negativo para las mujeres.
Obviamente, este hallazgo debería dar que pensar a los responsables de las políticas de igualdad de género.

Las variables intervinientes median en la relación entre la independiente y la dependiente.


Ejemplo

Puede que la religiosidad tenga efectos sobre el voto porque aquella afectara a la ideología, que, a su vez, podría afectar al voto.
De ser así, la ideología sería una variable interviniente.

Las variables antecedentes son responsables de los cambios en otras variables entre las que
se detecta la existencia de algún tipo de relación.
Ejemplo

El hecho de que en las localidades en las que hay más cigüeñas haya más nacimientos no se debe a que las cigüeñas traigan a los
bebés, sino a la presencia de una variable antecedente (que la localidad pertenezca al ámbito rural en lugar de al urbano) que
propicia un aumento tanto de la población de cigüeñas como de la tasa de natalidad.
Bibliografía
King, G.; Keohane, R.; Verba, S. (2000). El diseño de la investigación social: La inferencia científica en los estudios cualitativos. J. Cuéllar
(trad.). Madrid: Alianza Editorial.
Przeworski, A.; Salomon, F. (1995). On the Art of Writing Proposals: Some Candid Suggestions for Applicants to Social Science Research
Council Competitions. Nueva York: Social Science Research Council.
Santana, A. (2013). Fundamentos para la investigación social. Madrid: Alianza Editorial.
Santana, A.; Rama, J. (2017). Manual de análisis de datos con Stata. Madrid: Tecnos.
Spiegel, M. R. (1991). Estadística (2.ª edición). R. Hernández Heredero (trad.). Madrid: McGraw-Hill.
Capítulo II

Estadística descriptiva univariante


El análisis univariante proporciona una serie de herramientas para describir, tabular,
representar y sacar gráficos de una variable de las maneras más útiles y eficaces: ¿en qué lugar o
posición de una variable se encuentra una observación concreta de nuestro interés? ¿Cuáles son
las observaciones que se encuentran en sus extremos, en el 5 % más alto, en el 10 % más bajo?
¿Cuáles son las observaciones que se encuentran «en el centro»? ¿Cuál es la variabilidad o
dispersión de nuestra variable? ¿Qué tipo de forma tiene la variable, por ejemplo, es simétrica, es
plana? ¿Cuál es su distribución de frecuencias completa?

1. Tabulaciones de frecuencias
Las tabulaciones de frecuencias son la herramienta más sencilla e inmediata para obtener
información sobre la distribución de una o más variables.

Tabulaciones de frecuencias

Tablas de distribución de una variable donde se presentan las frecuencias absolutas de cada
categoría de la variable (es decir, el número de veces que se repite cada categoría), sus
frecuencias relativas (es decir, sus porcentajes) o las frecuencias relativas acumuladas (es
decir, el porcentaje acumulado de cada categoría y todas las precedentes).

A menudo, en una tabulación de frecuencias, se presentan simultáneamente las frecuencias


absolutas, relativas y, quizá, las relativas acumuladas.
A pesar de su simplicidad, las tabulaciones de frecuencias, de una sola variable permiten
conocer, de manera rápida e intuitiva, su distribución, con lo que constituyen una herramienta
indispensable para el análisis de los datos empíricos de los que se dispone. Las tabulaciones de
frecuencias son especialmente útiles para las variables categóricas, y resultan menos útiles con las
variables cuantitativas, ya que obtendríamos un listado muy largo (por ejemplo, 90 edades
diferentes) con frecuencias relativamente bajas para cada valor.
Ejemplo 1

Tomemos los datos del cuestionario postelectoral español del CIS (Centro de Investigaciones Sociológicas) correspondiente a
las elecciones generales españolas de 2008 (cuestionario CIS 2757, disponible de manera gratuita, se puede descargar
directamente desde la página web del CIS). Sacaremos una tabla de frecuencias de la variable correspondiente al género
(variable «sexo», en el cuestionario):

Tabla 3. Distribución de frecuencias de la variable «género»

Frecuencia absoluta Frecuencia relativa Porcentaje


Género
(N) (porcentaje) acumulado

1
2.938 48,30 48,30
(hombre)
2 (mujer) 3.145 51,70 100,00
Total 6.083 100,00

Fuente: CIS, cuestionario 2757. Elaboración propia.

La tabla 3 permite observar cómo la muestra del cuestionario postelectoral considerado


contiene, casi, el mismo número de hombres que de mujeres y, por lo tanto, refleja de forma
bastante fiel la distribución de la población estudiada. Efectivamente, de un total de 6.083
encuestados, 2.938 son hombres y 3.145, mujeres. Estos números representan, respectivamente, un
48,30 y un 51,70 % de la muestra. En este caso, el porcentaje acumulado no proporciona
información relevante adicional.
Ejemplo 2

Ahora, empleamos la variable correspondiente a la clase social (variable «p69» del cuestionario).

La tabla 4 (más abajo) permite observar la distribución de la variable ordinal «clase social».
Vemos que, de un total de 6.083 encuestados, la mayoría se sitúa como de clase media-media
(3.682, o un 60,53 % de la muestra) y, en segundo lugar, de clase media-baja (1.554, o un 25,55 %),
mientras que las categorías extremas son muy poco habituales: solamente 13 de los 6.083
encuestados, o un 0,21 % de la muestra, dicen ser de clase alta, y 346, o un 5,69 %, manifiestan ser
de clase baja. Observad que, ante una pregunta como esta, hay un porcentaje de casos que o bien
no se sabe posicionar, o bien no contesta. En este caso, el porcentaje acumulado sí proporciona
información relevante adicional. Por ejemplo, nos permite saber que un 5,10 % de la muestra se
posiciona como de clase media-alta o más alta, o que un 96,86 % proporciona algún tipo de
respuesta posicionándose en una de las clases ofrecidas por los encuestadores.

Tabla 4. Distribución de frecuencias de la variable «clase social»

Frecuencia absoluta Frecuencia relativa Porcentaje


Clase social
(N) (porcentaje) acumulado

1 (alta) 13 0,21 0,21

2 (media-alta) 297 4,88 5,10

3 (media-
3.682 60,53 65,63
media)

4 (media-baja) 1.554 25,55 91,17

5 (baja) 346 5,69 96,86

8 (no sabe) 111 1,82 98,68

9 (no contesta) 80 1,32 100,00

Total 6.08 3 100,00

Fuente: CIS, cuestionario 2757. Elaboración propia.

Ejemplo 3

Ahora, empleamos la variable correspondiente al estado civil («p59»).

Tabla 5. Distribución de frecuencias de la variable «estado civil»

Frecuencia absoluta Frecuencia relativa Porcentaje


Estado civil
(N) (porcentaje) acumulado

1 (casado/a) 3.585 58,93 58,93

2 (soltero/a) 1.764 29,00 87,93

3 (viudo/a) 483 7,94 95,87

4 (separado/a) 127 2,09 97,96

5
106 1,74 99,70
(divorciado/a)

9 (no contesta) 18 0,30 100,00

Total 6.08 3 100,00

Fuente: CIS, cuestionario 2757. Elaboración propia.

La tabla 5 permite observar la distribución de la variable «estado civil», una variable nominal.
Observemos que, de un total de 6.083 encuestados, la mayoría están casados (3.585, o un 58,93 %
de la muestra), seguidos por los solteros (1.764, o un 29,00 %), mientras que las categorías
extremas son bastante menos habituales. Fijaos en que esta parece ser una pregunta menos
sensible que la de la clase social, y solamente dieciocho individuos, un 0,30 %, opta por no
contestar. Dado que la ordenación de las categorías es arbitraria, el porcentaje acumulado no
tiene sentido.
Las tabulaciones de frecuencias también son muy útiles para comprobar que las
recodificaciones de las variables llevadas a cabo han sido realizadas correctamente. Esto se puede
hacer tanto mediante una tabla de contingencia (como se verá en el capítulo siguiente) como
mediante la comparación de la tabla de distribución de frecuencias de la variable recodificada y de
la variable original.
Tabla 6. Distribución de frecuencias de la variable «clase social» (recodificada)

Frecuencia absoluta Frecuencia relativa Porcentaje


Clase social
(N) (porcentaje) acumulado

1 (alta) 13 0,22 0,22

2 (media) 5.533 93,91 94,13

3 (baja) 346 5,87 100,00

Total
5.8 92 100,00
(válidos)

Fuente: CIS, cuestionario 2757. Elaboración propia.

Una comparación rápida de la tabla 6 con la tabla 4 permite comprobar que la recodificación
ha sido llevada a cabo correctamente. Por ejemplo, la diferencia en el número de casos (6.083 –
5.892 = 191) corresponde a la suma de aquellos que no saben o no quieren contestar a la
pregunta (111 + 80 = 191). Por otro lado, si sumamos el número de casos de clase media-alta,
media-media y media-baja en la tabla 4 (297 + 3.682 + 1.554 = 5.533), el resultado es el mismo
que el número de casos de clase media en la tabla 6.
Observad que todas las tablas están encabezadas por un título y que llevan un pie de tabla
donde se indica la fuente de procedencia de los datos. Esta información es fundamental, y se debe
incluir siempre en la presentación de tablas en un trabajo (de investigación), tanto si se trata de
tablas de frecuencias como de cualquier otro tipo. Dado que la codificación de las variables estaba
incluida en las tablas, no era necesario añadir información adicional, pero si no fuera así, sería
necesario incluir también la codificación al pie de la tabla:

Tabla 7. Distribución de frecuencias de la variable «clase social» (recodificada 2)

Frecuencia absoluta Frecuencia relativa Porcentaje


Clase social
(N) (porcentaje) acumulado

1 13 0,22 0,22

2 5.533 93,91 94,13

3 346 5,87 100,00

Total
5.8 92 100,00
(válidos)

1: clase alta; 2: clase media; 3: clase baja.


Fuente: CIS, cuestionario 2757. Elaboración propia.
2. Gráficos univariantes
Resulta extremadamente útil acompañar los análisis empíricos con gráficos. Si se usan bien,
los gráficos permiten resumir y presentar la información de manera extremadamente sintética,
intuitiva y fácil de recordar para el lector. Como hay muchos gráficos al alcance de los
investigadores, discutiremos solo algunos de los más populares.

Gráficos de pastel

Gráficos con forma circular o de pastel que representan cada valor de la variable con un
área o «porción del pastel» proporcional a su frecuencia.

Ejemplo

Se presenta un gráfico de pastel de la variable «remordimiento» (variable «p505» del cuestionario), que recoge en qué medida los
encuestados están de acuerdo con la afirmación según la cual se sentirían fatal si no hubieran votado y su partido preferido
hubiera perdido por un solo voto, debidamente recodificada para prescindir de los individuos que no saben o no quieren
contestar y para que la escala sea creciente con el grado de acuerdo con la afirmación (originalmente, la escala estaba invertida).

Figura 1. Gráfico de pastel de la variable «remordimiento» (recodificada)

Fuente: CIS, cuestionario 2757. Elaboración propia.

Gráficos o diagramas de barras


Gráficos que representan la frecuencia de cada valor de una variable proporcionalmente a la
longitud horizontal de cada una de ellas en el gráfico.

Ejemplo

Se presenta un gráfico de barras (o, según algunos autores, un diagrama de Pareto; unas líneas más abajo se discute este punto)
de la misma variable, «remordimiento», una variable cualitativa con cuatro categorías:

Figura 2. Gráfico de barras de la variable «remordimiento» (recodificada)

Fuente: CIS, cuestionario 2757. Elaboración propia.

Observad que, en este gráfico, se ha decidido resaltar la diferencia entre las categorías que
manifiestan acuerdo y las categorías que manifiestan desacuerdo mediante su representación en
tonos diferentes. ¿Estáis de acuerdo en que permite diferenciar más fácilmente entre ambos
grupos?
Observad también que en lugar de las frecuencias relativas (porcentajes) se ha optado por
representar las frecuencias absolutas (casos). Sería perfectamente posible representar porcentajes
con un gráfico de este tipo: para pasar de un gráfico con casos a uno de porcentajes (o viceversa),
solo es necesario cambiar la escala (Wonnacott; Wonnacott, 1979, pág. 32).
Algunos autores (Peña, 2001, págs. 51-52) reservan el término de diagrama de barras (el cual,
en nuestra notación, se subdivide en los gráficos de barras y en los gráficos de columnas, como
veremos dentro de poco) para las variables cuantitativas discretas, y prefieren emplear el término
de diagramas de Pareto para los gráficos correspondientes para variables cualitativas.

Gráficos o diagramas de Pareto

Gráficos que representan la frecuencia de las categorías de variables cualitativas mediante un


rectángulo cuya longitud o altura es proporcional a tales frecuencias (Peña, 2001, págs. 50-
51).

Por lo tanto, si se siguiera este criterio, la figura 2 sería un ejemplo de un diagrama de Pareto, y
no de de barras. Sin embargo, otros autores (Spiegel, 1991, págs. 19-23) no establecen esta
diferencia.
Por otro lado, muchos autores utilizan el término gráfico de barras para hacer referencia tanto a
los gráficos en los que las barras se representan de forma horizontal como a los que las
representan de forma vertical (Spiegel, 1991, págs. 19-23). Aquí, reservaremos el término para los
primeros, y denotaremos a los segundos con el nombre de gráficos de columnas, los cuales se
estudian a continuación.

Gráficos de columnas

Gráficos que representan la frecuencia de las categorías de las variables proporcionalmente


mediante la altura de cada una de ellas en el gráfico.

Ejemplo 1

Gráfico de columnas de la variable «remordimiento»:

Figura 3. Gráfico de columnas de la variable «remordimiento» (recodificada), porcentajes

Fuente: CIS, cuestionario 2757. Elaboración propia.

Observad que, en este gráfico, se ha decidido resaltar la categoría más frecuente mediante su
representación en otro color:
Ejemplo 2

A continuación, se presenta un gráfico de la variable «tasa de paro», tomada de EUROSTAT para los países europeos (y con
fines comparativos), para Estados Unidos y Japón; en concreto, de la tasa de paro no ajustada estacionalmente para 2008
(conviene advertir que el gráfico que se presentará ahora es mejorable, tal como quedará patente en la discusión que lo sigue):
Figura 4. Tasa de paro de los países de la UE, 2008 (gráfico no aconsejado)

Fuente: EUROSTAT. Elaboración propia.

Como se puede ver, tal como ha sido presentado, el gráfico no es muy cómodo de leer, y no
incluye ni detalles sobre cómo se ha calculado la tasa ni las claves de las etiquetas de los países.
Ahora, considerad un gráfico sobre los mismos datos, pero hecho con más cuidado:

Figura 5. Tasa de paro de los países de la UE, 2008 (gráfico más aconsejable)

Fuente: EUROSTAT. Datos de la tasa de paro no ajustada estacionalmente. Elaboración propia. Clave:
NOR: Noruega; HOL: Holanda; DIN: Dinamarca; CHI: Chipre; AUS: Austria; JAP: Japón; CHE: República
Checa; ESL: Eslovenia; LUX: Luxemburgo; EST: Estonia; BUL: Bulgaria; RUN: Reino Unido; LIT: Lituania;
RUM: Rumanía; USA: Estados Unidos; MAL: Malta; IRL: Irlanda; SUE: Suecia; FIN: Finlandia; ITA: Italia;
UE27: Unión Europea (27 países); BEL: Bélgica; POL: Polonia; ALE: Alemania; UE16: Unión Europea (16
países); LET: Letonia; GRE: Grecia; POR: Portugal; FRA: Francia; HUN: Hungría; CRO: Croacia; ESK:
Eslovaquia; TUR: Turquía; ESP: España.

En este nuevo gráfico, además de incluir toda la información relevante al pie de la tabla, los
países se han ordenado según su tasa de paro, lo que hace mucho más fácil detectar la posición
relativa de cada uno en esta dimensión. Además, se han rellenado con tonos diferentes las barras
de nuestro país y del resto de «PIGS» (Portugal, Italia, Irlanda y Grecia). Finalmente, se han
añadido etiquetas con los valores de la tasa de paro para algunos de los países. Como se puede
observar, este gráfico es mucho más atractivo que el precedente.
Histogramas

Gráficos empleados para representar la distribución de frecuencias de datos cuantitativos


(en principio, continuos, a pesar de que esto no sería estrictamente necesario) agrupados.

Cada rectángulo representa uno de los intervalos de agrupación o de clase, de manera


parecida a lo que hacían los gráficos de columna. Las bases de los rectángulos son proporcionales
al ancho de cada intervalo, y su altura es tal que las áreas son proporcionales a la frecuencia de
cada clase. Observad que cuando los anchos de todos los intervalos son los mismos, entonces la
altura es proporcional a la frecuencia, con lo que su construcción resulta idéntica a la de los
gráficos de columna.
A continuación, se muestran dos histogramas para dos variables del estudio 2757 del CIS. En
el panel izquierdo, se muestra un histograma para la variable «edad», que se mueve en un rango
de 18 a 97. Se ha pedido un histograma con cuatro intervalos iguales (que irían de 18 a 37, de 38 a
57, de 58 a 77, y de 78 a 97). En el panel derecho, se muestra un histograma para la identificación
ideológica (variable «p41»). Se han tratado como perdidos los casos de los encuestados que no
saben o no contestan, y se han construido intervalos de 1 a 3 para la izquierda, 4 a 5 para el
centro, y 6 a 10 para la derecha; se han elegido estos intervalos únicamente para facilitar la
visualización gráfica del histograma y mostrar cómo se vería un histograma con anchos variables,
que son las cuestiones que nos interesan aquí.

Figura 6. Histogramas con amplitud fija y variable («edad» e «ideología»)

Fuente: CIS, cuestionario 2757. Elaboración propia.

El primer histograma tiene todos los intervalos del mismo ancho, y esto hace que su
interpretación sea muy parecida a la de los gráficos de columna. De hecho, la proporción de casos
de los cuatro intervalos (de 18 a 37, de 38 a 57, de 58 a 77, y de 78 a 97) es, respectivamente, de un
36,3, 33,3, 24,6 y 5,8 %: las cifras correspondientes a las alturas del histograma de la izquierda son
precisamente estas (pero divididas por 100). Sin embargo, el segundo histograma tiene anchos
diferentes, y lo que es proporcional a la probabilidad de cada intervalo no es ya la altura, sino el
área de los rectángulos asociados a cada intervalo. La tabla siguiente nos ayudará a comprender la
interpretación del panel de la derecha:

Tabla 8. Detalles para la comprensión del panel derecho de la figura 6

Alto
IDEOLOGÍA Casos Área Inicio Final Ancho
(= Área/Ancho)

1_3_izquierda 1.520 29,2 1 4 3 9,7

4_5_centro 2.370 45,5 4 6 2 22,8

6_10_derecha 1.318 25,3 6 10 4 6,3

Total 5.208 100,0

Fuente: CIS, cuestionario 2757. Elaboración propia.

En efecto, el primer intervalo corresponde a un 29,2 % de los casos; el segundo, a un 45,5 %, y


el tercero, a un 25,3 %. Ahora bien, el primer intervalo tiene un ancho de 3 puntos (digamos, para
simplificar, que va de 1 a 4), el segundo, de 2 puntos (digamos que de 4 a 6) y el tercero, de 4
puntos (de 6 a 10). Entonces, para que las áreas sean proporcionales, podemos calcular las alturas
dividiendo los porcentajes de casos por los anchos de los intervalos: 29,2/3 = 9,7; 45,4/2 = 22,8;
y 25,3/4 = 6,3. Observad que las alturas de los intervalos son exactamente estos números
divididos por 100.

Gráficos de líneas (o de tendencia)

Gráficos que representan la frecuencia (absoluta o relativa) de las categorías de las variables
proporcionalmente mediante la altura de cada una de ellas en el gráfico, y que conectan los
valores con una línea. Son especialmente útiles para representar la evolución temporal de las
variables.

Ejemplo

Gráfico de líneas de la variable «tasa de paro»

Figura 7. Evolución de la tasa de paro en España, 1998-2008


Fuente: EUROSTAT. Datos anuales de la tasa de paro no ajustada estacionalmente.

Como se puede ver, los gráficos de líneas resultan muy adecuados para representar la
evolución temporal de una variable –y, de hecho, también de más variables. Estos gráficos se
pueden enriquecer señalando la ocurrencia de circunstancias que pueden dar cuenta de los
cambios de tendencia, como, por ejemplo, las crisis económicas o los cambios de gobierno.
A pesar de que cada vez hay más tipos de gráficos univariantes potencialmente útiles, estos
son, probablemente, los más utilizados y, si los empleáis bien, podréis representar de manera
gráfica la mayoría de los rasgos que queráis de una variable dada.

3. Estadísticos descriptivos univariantes

3.1. Medidas de localización

Las medidas de localización permiten establecer qué elemento de una variable ocupa una
determinada posición dentro de ésta, por ejemplo, qué observación está, precisamente, en el 10 %
más bajo o en el 5 % más alto. También permiten saber qué valor toma la variable en una
posición dada: por ejemplo, cuál es la nota de un estudiante que sólo tiene a un 2% de estudiantes
por encima. Obviamente, para que estas medidas tengan sentido, es necesario que los elementos
de la variable estén ordenados en términos de valor, sea de manera ascendente o descendente.

3.1.1. Percentil
El percentil k % es el elemento situado en la posición correspondiente al k % de los datos
cuando estos están ordenados. Así, el percentil 85 % tiene un 85 % de casos por debajo (con
valores inferiores) y un 15 %, con valores mayores. Sin tener en cuenta el mínimo y el
máximo (a los que se podría aludir como percentil 0 % y 100 %, respectivamente), hay 99
percentiles, que permiten dividir la variable en cien divisiones iguales. Cada división
contiene una centésima parte de las observaciones.

Los pediatras usan mucho los percentiles para decirle a los padres si su bebé pesa poco o
mucho: «cuidado, debe insistir en que coma, está en el percentil 8». Las universidades prestigiosas
(como la tuya) aplican los percentiles en sus procesos de selección, por ejemplo, si aceptan sólo a
los estudiantes que se hayan situado en el percentil 97 % o superior en alguna prueba. La nota de
corte para entrar en la universidad (digamos que 480 puntos sobre 500) sería el valor del percentil
97 %.
Si hay 300 personas y están ordenadas en orden creciente según la altura, el percentil 1 % sería la tercera persona, y el percentil
50 %, la persona número 150. De manera más general, si hay N personas, el percentil k estará en la posición N * k / 100.

Hilando más fino

Si se quiere ser más riguroso, habrá que realizar un ajuste. ¿Por qué? Veámoslo con el ejemplo siguiente. La definición del
percentil 50 %, por analogía a la del percentil 1 %, es la del elemento situado en la posición correspondiente a un 50 % de los
datos cuando estos están ordenados. Tomemos el percentil 50 % de una variable con cuatro observaciones (1, 3, 5 y 6). Con
estos cuatro elementos, si se tomara simplemente el segundo, el valor del percentil 50 % sería 3, correspondiente al segundo
elemento. Ahora bien, resulta evidente que este valor no recoge bien el valor del 50 % de la variable, sino que, entre los cuatro
elementos, lo más adecuado sería hacer una media entre el segundo y el tercer elemento, dado que lo que está en medio sería el
«elemento segundo y medio», el cual, lógicamente, no existe.
Este procedimiento se puede generalizar a cualquier otro percentil. El percentil 17 % de una variable de N = 2000 casos
(ordenados de menor a mayor) se encuentra en la posición (2000 x 17 / 100) + (1/2) = 340,5. Por lo tanto, se ha de realizar
una media entre el valor de los individuos que caen en las posiciones 340 y 341.

De acuerdo con las consideraciones arriba mencionadas, para el percentil k %, la fórmula es:

3.1.2. Decil

El decil k es el elemento situado en la posición correspondiente a un k × 10 % de los datos


(cuando estos están ordenados). El decil 1 (D1) está en la posición 10 % de los datos, el decil
2 (D2) está en la posición 20 % (= 2 x 10) de los datos, y así, sucesivamente.
Habrás notado que el primer decil coincide con el décimo percentil (D1 = P10), el segundo
decil, con el vigésimo percentil (D2 = P20), etcétera:

D1 ≡ P10;
D2 ≡ P20;
D3 ≡ P30;
(tres equivalencias omitidas)
D7 ≡ P70;
D8 ≡ P80;
D9 ≡ P90;

Habrás notado también que he usado un signo de igualdad un poco raro, con tres líneas en
lugar de con dos. No se trata de un error tipográfico, el triple igual se emplea para indicar que
una relación es de identidad. Decimos que existe una relación de identidad entre dos términos
cuando se da una relacion de igualdad entre ellos por pura definición de los mismos. Es decir, tal
y como están definidos los términos, sería lógicamente imposible que no fueran iguales.
Hay nueve deciles (más allá del mínimo de la variable o «decil 0» y del máximo o «decil 10»),
que dividen la variable o el conjunto de datos en diez partes iguales, con sendas décimas partes de
las observaciones.

El primer y último decil se emplean a menudo en estudios sobre desigualdades.


Generalmente, se calcula o bien (a) la renta del individuo situado en el decil 9 dividida por la
del individuo situado en el primer decil; o bien (b) la renta media de todos los individuos
pertenecientes al último decil (en este contexto, se entiende que son todos los individuos
entre el percentil 90 % y el percentil 100 %) dividida entre la renta media de todos los
individuos pertenecientes al primer decil (todos los que están entre el percentil 0 % y el
percentil 10 %).

Figura 8. Los deciles y su utilización para medir la desigualdad


Fuente: Elaboración propia.

En cualquiera de los dos casos, cuanto mayor sea el cociente, mayor será la desigualdad. Este
cociente cumple, además, dos propiedades:

Propiedad 1: el cociente es siempre mayor si se emplea el método (b), del intervalo, que el
método (a), puntual. Observad que la renta media del último decil (RmediaD10) hace una media
entre D9 (la renta de la persona situada precisamente en el decil 9) y la renta de personas que
tienen todas una renta mayor (observad que D9 es el extremo inferior de RmediaD10). Por lo
tanto, RmediaD10 > RD9. Ved, también, que D1 es el extremo superior de RmediaD1. Por lo tanto,
RmediaD1 < RD1. Lógicamente, la ratio del método (b), RmediaD10 / RmediaD1, es mayor que la
ratio del método puntual, RD9 / RD1, dado que, en el primero, el numerador es más grande y
el denominador, más pequeño.
Propiedad 2: ambos cocientes son mayores que 1. Basta con demostrar que RD9 / RD1 > 1,
dado que la otra ratio siempre es mayor. Por definición, la renta de la persona del decil 9 es
superior a la del decil 1.

3.1.3. Quintil

El quintil k es el elemento situado en la posición correspondiente a un k × 20 % de los


datos cuando estos están ordenados. El primer quintil es el elemento en la posición 20 % (=
1 x 20) de los datos, el segundo quintil es el elemento en la posición 40 % (= 2 x 20) de los
datos, y así, sucesivamente.
Habrás notado que puedes establecer una serie de equivalencias: el primer quintil coincide con
el segundo decil y con el vigésimo percentil, el segundo quintil coincide con el cuarto decil (y con
el cuadragésimo percentil), etcétera:

Quintil 1 ≡ D2 ≡ P20;
Quintil 2 ≡ D4 ≡ P40;
Quintil 3 ≡ D6 ≡ P60;
Quintil 4 ≡ D8 ≡ P80;

Nuevamente, he usado el signo ‘≡’ para denotar que las relaciones indicadas son de identidad,
y no solo de mera igualdad. Sin contar el elemento en el mínimo y en el máximo, hay cuatro
quintiles que dividen los datos en cinco partes iguales.

El primer y el último quintil son los más utilizados, y se emplean, sobre todo, en estudios
sobre desigualdades. Al igual que con los deciles, se pueden calcular cocientes tanto por el
método puntual como por el de los intervalos. En cualquiera de los dos casos, cuanto mayor
sea el cociente, mayor será la desigualdad.

Figura 9. Los quintiles y su utilización para medir la desigualdad

Fuente: Elaboración propia.

3.1.4. Cuartil

El cuartil k es el elemento situado en la posición correspondiente a un k × 25 % de los


datos (cuando estos están ordenados). El primer cuartil es el elemento en la posición 25 %
(= 1 x 25) de los datos, el segundo cuartil es el elemento en la posición 50 % (= 2 x 25), y el
tercer cuartil es el elemento en la posición 75%. Sin contar el mínimo y el máximo, hay estos
tres cuartiles, que dividen a los datos en cuatro partes iguales. A veces, se usa el término
cuartil para referirse a cada una de estas partes.

Veamos sus equivalencias con las medidas de posición estudiadas en los párrafos precedentes
(el signo ‘≡’ denota que las relaciones son de identidad):

Cuartil 1 ≡ Q1 ≡ P25;
Cuartil 2 ≡ Q2 ≡ P50 ≡ D5;
Cuartil 3 ≡ Q3 ≡ P75;

Los cuartiles se utilizan, entre otras cosas, para construir medidas de dispersión de las
variables, como el rango intercuartílico.

3.1.5. Mediana

Véase en la sección siguiente.

3.2. Medidas de tendencia central

3.2.1. Mediana

Elemento situado en el medio o en el centro de un grupo de elementos ordenados; es decir,


en el 50 % de los datos.

Obviamente, solo hay una mediana, y divide los datos en dos partes iguales. Por definición, la
mediana coincide con el segundo cuartil y el quinto decil:

Mediana (Med) ≡ Q2 ≡ D5 ≡ P50;


Por su definición, es evidente que la mediana puede ser considerada no solamente una medida
de localización sino también de tendencia central.
La mediana siempre es una medida adecuada de los datos «típicos», incluso cuando hay unos
pocos datos con valores muy extremos. Este puede ser el caso de variables como los ingresos o la
riqueza, debido a la existencia de unos cuantos multimillonarios (actores de cine, estrellas del
rock, futbolistas profesionales, nobles terratenientes y directivos de multinacionales) con niveles
espectaculares de renta o de riqueza.
Con este tipo de variables (técnicamente, decimos que tienen distribuciones asimétricas; más
adelante, se explicará qué significa eso), muchas veces, se prefiere acudir a la mediana en lugar de
a la media (posiblemente, el estadístico más conocido de todos, el cual veremos a continuación),
porque el pequeño contingente de multimillonarios afecta mucho a la media, pero no a la
mediana, que seguirá recogiendo bien «la renta de una persona típica».
Por esta misma razón, algunas de las medidas más utilizadas para estudiar la pobreza la
definen en relación con la renta mediana (por ejemplo, establecen el umbral de pobreza en un 50
% de la renta mediana) en lugar de hacerlo en relación con la renta media.
Otro campo de aplicación muy conocido de la mediana es el de los estudios electorales. Según
la teoría del votante mediano (inspirada en el conocido modelo de Hotelling del vendedor de
helados, y desarrollada principalmente por Anthony Downs, en su libro de 1957, An Economic
Theory of Democracy), los partidos políticos se situarán tan cerca como sea posible de las
preferencias del votante mediano. Lo que importa, según esta línea de pensamiento, es tener a la
mitad más uno de los votantes a favor, y no la intensidad de la preferencia de los votantes hacia el
partido (por cierto: la intensidad estaría relacionada con la preferencia media).

3.2.2. Media aritmética

Suma de los valores (de un grupo o variable) dividida por el número de valores (del grupo
o variable).

En términos estrictos, la fórmula mostrada se refiere a datos de poblaciones y, cuando se


trabaja con datos de muestras, hay que modificar la notación: por un lado, la letra griega µ se usa
para aludir a la media poblacional, y para la media muestral, se usa una x con una barra encima; y,
por otra parte, el número de observaciones en la población se indica con mayúscula (N) y, en la
muestra, con minúscula (n).
La media es una buena medida de tendencia central de los datos «típicos» cuando la
distribución es simétrica. A veces, la media será preferible a la mediana también cuando la
distribución es asimétrica. Precisamente por el hecho de que la mediana siempre resulta una
medida adecuada de los datos «típicos», no es sensible a la influencia de los datos atípicos, de las
observaciones con un papel potencialmente más importante.
Ejemplo 1

La existencia de personas de rentas muy elevadas puede resultar importante en términos de las posibilidades para el desarrollo
de la industria local.

Ejemplo 2

De manera parecida, la existencia de un grupo (reducido) de estudiantes con una nota de cero (que podría dar pie a un caso de
distribución asimétrica negativa) podría indicar que el profesor no es capaz de motivar a los alumnos menos interesados o con
menos preparación previa.

Media (aritmética) ponderada

Intuitivamente, es una media aritmética con la particularidad de que se asignan pesos o


ponderaciones (wi). Dicho de manera más técnica, es la suma ponderada de los valores (de
un grupo o variable) dividida por la suma de las ponderaciones.

Media aritmética simple

La media aritmética simple es un caso especial de la media aritmética ponderada en el que


todos los elementos reciben el mismo peso o ponderación.
En efecto: si todos los pesos valen lo mismo, es decir, si wi = w = constante, entonces, como,
en un sumatorio, una constante se puede sacar y poner delante, multiplicando al sumatorio, el
numerador sera w premultiplicado por el sumatorio de Xi. Por lo mismo, el denominador será w
por el sumatorio de 1 o, simplemente, w por N. Simplificando por w, que está tanto en el
numerador como en el denominador, se sigue que la media ponderada es equivalente, en este
caso, a la media aritmética simple:

Intuitivamente, diríamos que todos los valores reciben la ponderación de la inversa de la


medida del grupo: 1/N o 1/n, según se trate de una población o de una muestra.

Ejemplo

Consideremos el precio del pan en los países de la Unión Europea. Imaginemos que tenemos una tabla con el valor del pan en
estos países. ¿Cuál es el «valor central» en torno al cual oscila el precio del pan en Europa? Una opción es sumar el precio del
pan en cada país y dividir por el número de países integrantes de la Unión –es decir, hacer la media aritmética simple. No
obstante, este procedimiento supone darle, implícitamente, la misma importancia a Luxemburgo que a Francia. Para muchas
finalidades, esta no será la mejor estrategia. Quizá queramos ponderar por el número de habitantes, por el número de toneladas
consumidas o producidas, o por otros criterios. Así, si viajamos por Europa y pasamos cinco días en Francia, ocho en Italia,
dos en Luxemburgo, y no visitamos ningún otro país, para nuestros propósitos, le tendríamos que dar un peso de 5/15 a
Francia, 8/15 a Italia, 2/15 a Luxemburgo, y 0/15 al resto de los países, ya que, dado nuestro plan de viaje, lo que nos interesa
es cuán a menudo nos enfrentaremos al precio del pan en cada uno de los países. Observad que la determinación de cuáles son
las ponderaciones más adecuadas depende de la finalidad para la que estamos calculando el «valor central del pan» en la Unión
Europea.

3.2.3. Moda

Valor con mayor frecuencia de ocurrencia.

Dependiendo del hecho de si la moda es única o no, las distribuciones pueden ser unimodales
o multimodales.

Distribución unimodal

Distribución en la que la única moda local es la moda global; en la que no existe ningún
valor que sea mayor que todos los valores de su entorno si no es también mayor que todo el
resto de los valores.

En términos prácticos, una distribución unimodal es una distribución con un único máximo o
«pico» de frecuencias.
Ejemplo

A continuación, se presenta un histograma de la variable «RENTA» del cuestionario postelectoral español de 2008, ya visto
antes. Esta variable mide, en una escala de 0 al 10, en cuál de los intervalos de renta se sitúan los encuestados, y ha sido
recodificada a partir de la variable «p68» para excluir la categoría de no respuesta «no contesta» (un 31,7 % de la muestra):

Figura 10. Ejemplo de una distribución multimodal. Distribución de «RENTA»


Fuente: CIS, cuestionario 2757. Elaboración propia.

Como se puede ver, la variable «RENTA» tiene un solo pico de frecuencias, es decir, tiene una
única moda, correspondiente a la categoría «5» de renta (de 1201 a 1800 €).

Distribución multimodal

Distribución en la que hay varias modas (o máximos) locales diferentes.

En términos prácticos, una distribución multimodal es una distribución con más de un


máximo o «pico» de frecuencias.
Ejemplo

Se presenta un histograma de la variable «ETA_DIÁLOGO», tomada también del cuestionario postelectoral español de 2008.
Esta variable mide, en una escala de 0 al 10, en qué medida los encuestados creen que, para acabar con ETA, es necesario
derrotarla policialmente (0) o también hace falta diálogo (10), y ha sido recodificada a partir de la variable «p10» para excluir las
categorías de no respuesta («no sabe» y «no contesta»: un 6,0 % y un 1,1 % de la muestra, respectivamente):

Figura 11. Ejemplo de una distribución multimodal. Distribución de «ETA_DIÁLOGO»


Fuente: CIS, cuestionario 2757. Elaboración propia.

Como se puede ver, las opiniones se polarizan, y hay un grupo sustancial de individuos que
opta por la solución puramente policial (0), y otro grupo claramente en favor del diálogo (10).
Aparte de estos dos grupos, también hay un grupo de gente que ve la necesidad de ambas
estrategias. Esta configuración de opiniones da lugar a una distribución con tres modas de la
variable, dos en los extremos, y una en el centro (0, 5 y 10).
En general, cuando la distribución de preferencias es bimodal («de dos jorobas»), es poco
probable que las decisiones basadas en la mediana o en la media sean acertadas: en una sociedad
con grandes desigualdades de ingresos, puede ser mejor elegir un producto de coste bajo dirigido
a una demanda de mercado centrada en el precio, o bien un producto de gama alta aunque sea
costoso, pero no uno de gama media, que podría resultar demasiado caro para quienes se fijan
primordialmente en el precio y demasiado vulgar para quienes se fijan en la calidad.

Aplicación: distribuciones unimodales, multimodales y el «bien colectivo»

El carácter unimodal o multimodal de las distribuciones reviste una enorme importancia en


relación con las preferencias colectivas y la posibilidad de encontrar métodos de agregación de las
preferencias individuales. El teorema general de la posibilidad, más conocido como teorema
general de la imposibilidad, formulado por Kenneth Arrow, demuestra que, bajo ciertas
condiciones mínimas (cualquier preferencia individual es posible; ninguna preferencia individual
es excluida como posible preferencia colectiva; ausencia de un dictador; ausencia de normas
externas que dictaminen cuál es el resultado), ningún método de agregación de las preferencias
individuales podrá garantizar la ausencia de ciclos. El teorema de Black demuestra que, en
espacios de decisión unidimensionales, cuando las preferencias de los actores entre diferentes
alternativas son unimodales, sí hay métodos para agregar las preferencias individuales que no
generan ciclos en las preferencias colectivas. El carácter unimodal o no de las distribuciones de
preferencias individuales tiene, por lo tanto, una enorme importancia en cuanto a la posibilidad
de agregar preferencias individuales para determinar un eventual o hipotético «bien común».
Desde un punto de vista matemático, una distribución unimodal se corresponde con una
ecuación cuadrática (del tipo y = ax2 + bx + c), dado que ésta tiene, a lo sumo, un único máximo.
Una distribución multimodal se corresponde con una ecuación de cuarto grado o superior (del
tipo y = ax4 + bx3 + cx2 + dx + e), dado que, para tener varios máximos locales, una ecuación
debe ser de cuarto grado o mayor.

3.2.4. Media geométrica (G)

Producto de los valores (de un grupo o variable) elevado a la inversa del número de valores
(del grupo o variable).

Es decir, la raíz n-ésima del producto de los valores de un grupo o variable (en el que hay n
elementos):

La media geométrica se suele utilizar cuando se supone que una variable presenta procesos de
crecimiento a una tasa constante. Habitualmente, se extraen medias geométricas para porcentajes,
tasas e índices.

3.3. Medidas de dispersión

Las medidas de dispersión resumen la variabilidad y permiten estudiar la representatividad de


las medidas de tendencia central. ¿Hasta qué punto representan las medidas de tendencia central
los valores de una variable? ¿Hasta qué punto sintetizan adecuadamente la información de esta
variable?
Claramente, si la medida de tendencia central es, por poner un ejemplo, la media (aritmética
simple), la respuesta dependerá de si los valores están considerablemente agrupados en torno a
esta media o considerablemente alejados de ella.
Veamos el ejemplo siguiente, en el que tres empresas de siete vendedores cada una
proporcionan los datos de ventas siguientes:
Tabla 9. Utilidad de las medidas de dispersión

Vendedores A – Ventas (miles €) B – Ventas (miles €) C – Ventas (miles €)

1 15 0 0

2 15 1 1

3 15 15 2

4 15 15 15

5 15 15 28

6 15 29 29

7 15 30 30

MEDIA 15 15 15

MEDIANA 15 15 15

MODA 15 15 No hay

Como se puede comprobar, las medidas de tendencia central son casi iguales (la única
diferencia, en este sentido, sería la ausencia de moda en el último caso). Esto significa que, si los
gerentes de las tres empresas recibieran solamente información de la media de ventas, llegarían a
conclusiones muy parecidas. No obstante, la tabla revela que las diferencias entre las empresas son
considerables.
La clave es la variabilidad, la dispersión de los datos: mientras que en la empresa A las
medidas de tendencia central representan de forma extremadamente fidedigna la situación (los
datos se aglomeran en torno a la tendencia central), en las empresas B y C las medidas de
tendencia central no aportan toda la información necesaria, dado que los datos están
considerablemente alejados de las medidas de tendencia central.

Figura 12. Diferencias de ventas a pesar de una misma tendencia central


3.3.1. Rango o recorrido (R)

Diferencia entre el valor máximo y el valor mínimo de una distribución.

R(X) = máx{X} - mín{X}


El rango es sensible únicamente a valores extremos, y no tiene en absoluto en cuenta el resto
de los valores.
Ejemplo

Considerad X = {1,2,3,4,5,6,7,8,9} e Y = {3,3,3,3,3,3,9,11,11}. Como podéis ver, para ambas, la media es 5 y el recorrido, 8.
Este ejemplo demuestra que distribuciones con una misma media (μ = 5) y un mismo rango (R = 8) pueden ser
considerablemente diferentes.

3.3.2. Rango o recorrido intercuartílico (RI)

Diferencia entre el valor del tercer y del primer cuartil, esto es, entre el percentil 75 y el
percentil 25.

RI(X) = Q3 - Q1 = P75 - P25


Este rango se puede utilizar para matizar la sensibilidad a valores extremos del rango, o para
estudiar cuestiones más específicas –como, por ejemplo, cuál es el rango en el que se encuentran
las «observaciones centrales». A veces, se utilizan otros rangos modificados, como el rango entre
el percentil 95 y el percentil 5, o entre el percentil 90 y el percentil 10.

3.3.3. Desviación media, varianza y desviación estándar

Desviación Media

Media del valor de la diferencia entre cada valor y la media.

Naturalmente, esta media es, simplemente, 0, puesto que, por definición, las diferencias
positivas entre cada valor y la media se compensan con las diferencias negativas:

Por lo tanto, la desviación media, como tal, es un parámetro igual a cero, no sirve para medir
la variabilidad de una distribución y, naturalmente, no se utiliza. No obstante, se puede modificar
levemente la definición para evitar que los valores positivos y los negativos se compensen. Eso es
lo que hacen los cuatro estadísticos que vienen a continuación:

Desviación media absoluta

Media del valor absoluto de la diferencia entre cada valor y la media.

Al tomar valores absolutos, los valores positivos y los negativos ya no se compensan, con lo
que esta medida deja de ser un parámetro.

Desviación media respecto a la mediana


Media de la diferencia entre cada valor y la mediana.

El cálculo es análogo al presentado para la media aritmética, pero se sustituye esta por la
mediana:

Esta medida es un parámetro, dado que tanto la media (μ) como la mediana (Med) son
parámetros, y la diferencia de parámetros es un parámetro. ¿Qué información proporciona,
entonces, esta medida (paramétrica) de dispersión? La información que nos proporciona esta
medida es hasta qué punto dos de las medidas de tendencia central, la media y la mediana, se
diferencian una de la otra. Cuando la media y la mediana coinciden, la desviación media respecto
a la mediana valdrá cero.

Desviación media absoluta respecto a la mediana

Media del valor absoluto de la diferencia entre cada valor y la mediana.

Es decir, aplica simultáneamente las ideas de los dos últimas propuestas: tomar valores
absolutos de las diferencias y calcular éstas en relación con la mediana. Del mismo modo que en
el caso de la desviación media absoluta, al tomar valores absolutos, los valores positivos y los
negativos ya no se compensan, con lo que esta medida deja de ser un parámetro igual a cero por
definición.

Varianza

Media del cuadrado de la diferencia entre cada valor y la media.

Para muestras, cambiaría la notación: se usaría ‘s’ en lugar de ‘σ’, la x con la barra en lugar de
‘μ’ y una ‘n’ minúscula en lugar de la ‘N’ mayúscula en el denominador. De hecho, por razones
que no merece la pena desarrollar aquí, se pone ‘n-1’ en lugar de ‘N’. La varianza es muy similar
en su construcción a la DMA (desviación media absoluta), pero, para evitar que los positivos y
negativos se compensen, en lugar de tomar valores absolutos, toma cuadrados (como se eleva al
cuadrado, siempre será positiva).

Desventaja: una desventaja de la varianza es que sus unidades son difíciles de interpretar,
dado que, al tomar cuadrados, no se está en la misma escala que la distribución a partir de la
cual se construye. Por ejemplo, si la variable original está definida en euros, la varianza estará
expresada en euros al cuadrado. Pero ¿qué es un euro al cuadrado? ¿Cómo debemos
interpretar una varianza de tantos o cuantos euros al cuadrado?
Varianza como segundo momento: si se retoma la fórmula inicial, se apreciará que la
varianza es, a su vez, una media aritmética, ya que suma algo (en este caso, desviaciones al
cuadrado) para un grupo o variable, y divide esta suma entre el número de valores.

Desviación estándar

Raíz cuadrada de la varianza.

Es decir, raíz cuadrada de la suma del cuadrado de la diferencia entre cada valor y la media,
dividida entre la raíz cuadrada de la medida poblacional:

Desde un punto de vista interpretativo, por el hecho de tomar la raíz cuadrada de la varianza,
las unidades de la desviación estándar vuelven a ser coherentes con las unidades de la distribución
de la que proceden, es decir, vuelven a estar en la misma escala.

3.3.4. Medidas de dispersión adimensionales

Además de las medidas presentadas hasta ahora, todas dimensionales, en el sentido de que
dependen de las unidades de medida empleadas, hay también medidas diseñadas para no depender
de las unidades de medida ni, por lo tanto, de cuestiones de escala.
En la literatura, es común hablar de medidas de dispersión relativas o adimensionales para
referirse a estas medidas que no dependen de la unidad de medida ni de la escala de las variables,
en oposición a las medidas de dispersión absolutas o dimensionales, que sí dependen de la unidad
de medida.
Coeficiente de variación de Pearson (CV)

Cociente entre la desviación estándar y la media aritmética.

Se trata, por lo tanto, de un «índice de dispersión respecto a la media». Su fórmula es:

Como recordaréis de la discusión reciente sobre las unidades de medida de la varianza y de la


desviación estándar, esta última tiene las mismas unidades de medida que la variable original y,
por lo tanto, que la media. Al tener la misma unidad de medida en el numerador y en el
denominador, el CV no tiene unidades, es adimensional. El coeficiente de variación también se
puede expresar en tantos por cientos para facilitar su interpretación.

Interpretación del CV: en cuanto a su interpretación, cuanto mayor sea el CV, mayor es la
desviación estándar en relación con la media y, por lo tanto, menos representativa es la
media de la distribución.
Propiedades y restricciones del CV: los valores del CV no están acotados, con lo que pueden
variar entre menos infinito y más infinito. Conviene remarcar que no resulta adecuado
utilizar el CV cuando la media es cero, dado que, en este caso, el CV no estaría definido, ya
que el resultado de dividir cualquier número por cero no está definido. Tampoco sería
adecuado utilizar el CV cuando la media es negativa, puesto que, en este caso, no sería
posible interpretar el valor del CV.

Índice de dispersión respecto a la mediana

Cociente entre la desviación media absoluta respecto a la mediana, en el numerador, y la


mediana, en el denominador.

El objetivo de este índice es similar al del CV, pero para la mediana. En lugar de usar la
desviación estándar en el numerador, se utiliza la desviación media absoluta con respecto a la
mediana y, en lugar de usar la media en el denominador, se emplea la mediana.

3.4. Discusión: variables tipificadas o estandarizadas


Variable a la que se le sustrae la media aritmética y, después, el resultado de esta diferencia se
divide por la desviación estándar. Por construcción, la media de una variable estandarizada
es cero y su desviación estándar es igual a la unidad.

El proceso descrito se denomina «tipificación» o «estandarización» y su objetivo es permitir la


comparación entre variables que, sin estandarizar, no serían comparables, porque hacían alusión a
conceptos diferentes o estaban medidas en escalas diferentes. Las variables resultantes no tienen
unidades, son adimensionales. ¿Podéis decir por qué? Efectivamente, ya sabemos –lo hemos
comentado un par de veces– que la media tiene las mismas unidades que la variable considerada,
y que la desviación estándar también.
Observad que, dado que su media es nula, no se puede utilizar el CV para estas variables.

3.5. Medidas de forma

Además de las medidas de localización, de tendencia central y de dispersión, hay otros dos
tipos de medidas, ambas relacionadas con la forma de la distribución, que son útiles para
caracterizar y describir de manera sucinta los rasgos fundamentales de una distribución: las
medidas de simetría y las de apuntamiento o curtosis.

3.5.1. Medidas de simetría

Una de las cuestiones más importantes relacionadas con la forma de una distribución es si esta
es simétrica, asimétrica positiva o asimétrica negativa.
A continuación, explicaremos qué significan estos términos y presentaremos algunas de las
medidas más utilizadas para evaluar el grado de asimetría de una distribución.
Entre las aplicaciones que tiene la información sobre el grado de asimetría de una distribución
destaca el hecho de que la distribución normal, la cual se asume en un gran número de contrastes
estadísticos, es asimétrica. Las medidas de asimetría permiten, entre otras cosas, comprobar si la
asunción sobre la normalidad de la distribución es razonable o no.

Distribución simétrica

Distribución en la que «el lado derecho» (con respecto a la mediana, para variables
continuas, y con respecto a la media, para variables discretas) de la gráfica es «igual» al «lado
izquierdo». Dicho de otro modo, cada lado es la imagen especular del otro. Esta definición
implica que una distribución simétrica es una distribución en la que la media y la mediana
coinciden –y, si la distribución es unimodal, también coinciden con la moda.

A continuación, se vuelve a presentar un histograma de la variable «RENTA», creada a partir


de la variable «p68» del cuestionario CIS 2757, dado que, además de servir para ejemplificar una
distribución unimodal, también representa un buen ejemplo de una distribución simétrica:

Figura 13. Ejemplo de una distribución simétrica. Distribución de «RENTA»

Fuente: CIS, cuestionario 2757. Elaboración propia.

Como se puede ver, la variable «RENTA» es muy simétrica, a pesar de que las categorías a la
izquierda de la mediana tienen algo más de datos que las categorías a la derecha (es decir, si
somos muy estrictos, deberemos reconocer que tiene una pequeña cola a la derecha). Conviene
tener en cuenta que, en la práctica, será muy raro encontrar una distribución perfectamente
simétrica. Por ello, se considerará que es simétrica si es aproximadamente simétrica. El elevado
grado de simetría de la variable «RENTA» se debe a que esta ha sido codificada en intervalos.
Cuando se piden estimaciones precisas de la renta, esta resulta mucho más asimétrica.

Distribución asimétrica positiva (a la derecha)

Distribución en la que la cola de la derecha es más larga y la masa de la distribución se


concentra hacia la izquierda. Es decir, gráficamente, tienen una «cola» a la derecha.
Ejemplo

Se presenta el histograma de la variable «edad», tomada también del cuestionario postelectoral español de 2008.

Figura 14. Ejemplo de una distribución asimétrica positiva o a la derecha (variable «edad»)

Fuente: CIS, cuestionario 2757. Elaboración propia.

Como se puede apreciar, las observaciones de las personas con edades avanzadas, a pesar de no ser excesivamente numerosas,
conforman una «cola a la derecha» que «arrastra» la media hacia la derecha, dado que «pesan» más que las observaciones de los
más jóvenes. Esto hace que la media (47) sea algo mayor que la mediana (45).

Distribución asimétrica negativa (a la izquierda)

Distribución en la que la cola de la izquierda es más larga y la masa de la distribución se


concentra hacia la derecha. Es decir, gráficamente, tienen una «cola» a la izquierda.

Normalmente, la media es menor que la mediana y esta es, a su vez, menor que la moda.

Coeficiente de asimetría de Pearson

Diferencia entre la media y la moda dividida entre la desviación estándar.


Observad que el coeficiente de asimetría de Pearson no tiene unidades, es adimensional,
puesto que la desviación estándar está expresada en las mismas unidades que la media y la moda.

Interpretación:
Este coeficiente se basa en el hecho de que, en las distribuciones simétricas unimodales y
campaniformes, la media es igual a la moda. Si la media y la moda son iguales, el coeficiente será
cero, lo que sugiere que se trata de una distribución simétrica. Si la media es superior a la moda,
estará a su derecha, y el coeficiente será positivo, lo que indica que la distribución será una
distribución asimétrica positiva, con una cola hacia la derecha de la distribución; si la media es
inferior a la moda, estará a la izquierda de la moda, y el coeficiente será negativo, lo que indica
que la distribución será asimétrica negativa, con una cola hacia la izquierda de la distribución.

Aplicabilidad y restricciones:
Conviene tener siempre presente que este coeficiente no se puede aplicar a cualquier tipo de
distribución; solamente se puede utilizar para distribuciones unimodales, campaniformes y
moderadamente asimétricas. El requisito de una única moda no necesita casi explicación, dado
que lo que se mide es precisamente la diferencia entre la media y la moda. El requisito de forma
campaniforme, sumado al de una única moda, garantiza que la moda esté en el interior de la
distribución, y no en uno de sus extremos, y, por lo tanto, que la moda sea un buen indicador
como medida de tendencia central de la distribución, a partir de la cual tenga sentido comprobar
si ambos lados, el lado que cae a la izquierda de la moda y el lado que cae a su derecha, son,
aproximadamente, una imagen especular uno del otro o no.

Coeficiente de asimetría de Fisher (λ3)

Cociente entre el momento de tercer orden y la desviación estándar elevada a la tercera –es
decir, el «tercer momento estandarizado».

En estas fórmulas, y en la definición del coeficiente de Fisher, hemos introducido el término


momento. Veamos su significado:

Momento de orden n

De manera general, el momento de orden n es el sumatorio de las desviaciones con respecto


a la media, elevadas a la n-ésima potencia.
Momento estandarizado de orden n

El momento estandarizado de orden n (o momento de orden n estandarizado) es el


resultado de dividir el momento de orden n por la n-ésima potencia de la desviación
estándar.

Observad que el primer momento es igual a la desviación media (DM) por el número de
observaciones. Como DM es cero, el primer momento es cero. Observad también que todos los
momentos estandarizados son adimensionales. Volviendo al coeficiente de asimetría de Fisher, es
inmediato comprobar que éste no tiene unidades, dado la desviación estándar está expresada en
las mismas unidades que las diferencias respecto a la media.
La lógica que motiva la construcción de este coeficiente es la siguiente: si la distribución es
simétrica, existirá el mismo número de valores a la izquierda que a la derecha de x; si es
asimétrica negativa, existirán más valores a la izquierda que a la derecha de x; y si es asimétrica
positiva, habrá menos valores a la izquierda que a la derecha de x. Las desviaciones elevadas a una
potencia impar permitirán mantener los signos de las desviaciones: si la distribución es asimétrica
negativa, el signo del sumatorio elevado al cubo, a la quinta o a la séptima será negativo, y si es
asimétrica positiva, este sumatorio tendrá un signo positivo. Naturalmente, si se elevan a una
potencia par, todos resultarán positivos. Por otro lado, la potencia más simple que se puede
utilizar es tres, puesto que, por definición, el momento de primer orden es cero. Por ello, este
coeficiente de simetría utiliza el tercer momento. En consecuencia, la interpretación del
coeficiente es la siguiente:

λ3 < 0: la distribución será asimétrica negativa, con una cola hacia la izquierda de la
distribución;
λ3 = 0: la distribución será simétrica, sin colas;
λ3 > 0: la distribución será asimétrica positiva, con una cola hacia la derecha de la
distribución;

Coeficiente de asimetría de Bowley (ASB)

Diferencia entre la suma de Q1 y Q3 menos dos veces la mediana, dividida por la diferencia
entre Q3 y Q1.
Para entender la lógica de esta medida, convendrá definir las siguientes distancias: d32 = (Q3 –
Q2), la distancia entre el tercer cuartil y la mediana; y d21 = (Q2 – Q1), la distancia entre la
mediana y el primer cuartil.

En una distribución asimétrica negativa, o a la izquierda, Q3 estará a menos distancia de Q2


que Q1, es decir, d32 < d21. Por lo tanto, (Q3 – Q2) – (Q2 – Q1) = d32 – d21 < 0, y ASYB < 0.
En una distribución simétrica, Q1 y Q3 estarán a la misma distancia de Q2. Por lo tanto,
(Q3 - Q2) – (Q2 – Q1) = d32 – d21 = 0, y ASYB = 0.
En una distribución asimétrica positiva, o a la derecha, Q3 estará a más distancia de Q2 que
Q1, es decir, d32 > d21.


Propiedades:
Claramente, en este caso, el coeficiente estará entre –1 y 1, y no depende de los cambios de
origen o de escala. En efecto, observad que el denominador se puede expresar como (Q3 – Q1) =
(Q3 – Q2) + (Q2 – Q1) = d32 + d21. Por lo tanto, ASYB = (d32 – d21) / (d32 + d21), el cual está,
evidentemente, comprendido en el rango [–1, 1]. En cuanto a la escala, está claro que, como las
unidades en el numerador y en el denominador son las mismas, este coeficiente es adimensional y
no depende de los cambios de escala.

Coeficiente de asimetría de Yule Bowley (ASYB)

Diferencia entre la suma de Q1 y Q3 menos dos veces la mediana, dividida por el doble de la
mediana.

La lógica de este coeficiente es muy parecida a la del coeficiente de Bowley, lo único que varía
es que, en lugar de dividir por la diferencia entre Q3 y Q1, lo hace entre el doble de Q2.
Obviamente, también en este caso, el coeficiente estará entre –1 y 1, y tampoco depende de los
cambios de origen o de escala.

3.5.2. Medidas de curtosis

Intuitivamente, la curtosis mide «la variabilidad de la variabilidad», la «dispersión de la


dispersión», la «varianza de la varianza». Gráficamente, es habitual escuchar la interpretación
de que la curtosis mide el grado de apuntamiento de la distribución de una variable.

La curtosis es mínima cuando todas las observaciones están igual de alejadas de la media (por
ejemplo, todas son ceros o unos y la media es 0,5), porque todas contribuyen igual a la
variabilidad. La curtosis es máxima cuando toda la variabilidad está provocada por dos valores
extremos. De manera más general, la curtosis es baja cuando una parte importante de la varianza
está provocada por desviaciones frecuentes y de poca magnitud, y es alta cuando una parte
importante de la varianza es consecuencia de desviaciones extremas pero poco frecuentes.
En los trabajos clásicos, la curtosis se definía como el cuarto momento estandarizado, es decir,
como el cociente entre el momento de cuarto orden y la desviación estándar elevada a la cuarta.

El apuntamiento o curtosis debe evaluarse de manera comparativa, con respecto a alguna


distribución de referencia. Para ello, se utiliza la distribución normal. La distribución normal
tiene una curtosis de 3 (en la definición clásica). Esto ha llevado a definir el exceso de curtosis como
el coeficiente de curtosis menos tres. Obviamente, la distribución normal tiene un exceso de
curtosis de cero.

Distribución mesocúrtica

Distribución con un exceso de curtosis igual a cero.

Dado que esta es característica de la distribución normal, es habitual encontrar definiciones


alternativas de las distribuciones mesocúrticas como aquellas que tienen una curtosis igual a la
normal (estadístico λ4 = 3):

Distribución leptocúrtica

Distribución con un exceso de curtosis positivo o una curtosis mayor que la de la


distribución normal (λ4 > 3).

Las distribuciones leptocúrticas tienen un pico más alto, pero más estrecho que el de las
distribuciones mesocúrticas, y unas colas más gruesas, «más largas».
Distribución platicúrtica

Distribución con un exceso de curtosis positivo o una curtosis menor que la de la


distribución normal (λ4 < 3).

Las distribuciones platicúrticas tienen un pico más bajo, pero más ancho o grueso que el de
las distribuciones mesocúrticas, y unas colas más finas, «más cortas».
Bibliografía
Barbancho, A. G. (1973). Estadística elemental moderna. Barcelona: Ariel.
Downs, A. (1957). An Economic Theory of Democracy. Nueva York: Harper & Row.
Ferejohn, J. A.; Fiorina, M. P. (1974). «The Paradox of Not Voting: A Decision Theoretic Analysis». The American Political Science
Review (vol. 68, núm. 2, págs. 525-536).
Hamilton, L. C. (1992). Regression with Graphics: A Second Course in Applied Statistics. Pacific Grove (CA): Brooks/Cole.
Peña, D. (2001). Fundamentos de Estadística. Madrid: Alianza Editorial.
Spiegel, M. R. (1991). Estadística (2.ª ed.). Madrid: McGraw-Hill.
Wonnacott, T. H.; Wonnacott, R. J. (1979). Introducción a la Estadística. México: Limusa.
Capítulo III

Relaciones entre variables

1. Conceptos básicos para el análisis multivariante


El análisis multivariante se fundamenta en los conceptos de covarianza, de correlación y de
distribuciones conjuntas, marginales y condicionales.

Covarianza entre variables

La covarianza entre dos variables, x e y, es igual al sumatorio del producto de las


desviaciones de x respecto a su media por las desviaciones de y respecto a la suya, y dividido
por el número de casos (menos uno, si se trata de una muestra).

Ecuación 1. Covarianza

Cuando una observación tiene un valor de x por encima de la media, el primer término del
productorio será positivo; cuando tiene un valor de y por encima de la media, el segundo término
será positivo. Cuando ambas están por encima de la media, ambas serán positivas, y la covarianza
será positiva. Cuando ambas están por debajo de la media, ambas serán negativas, y la covarianza
será positiva. Cuando una esté por debajo de la media y la otra, por encima, una será negativa y la
otra, positiva, y la covarianza será negativa. Por lo tanto, la covarianza es positiva cuando las dos
variables se mueven en el mismo sentido, es decir, cuando, al aumentar una, aumenta la otra, y es
negativa, cuando se mueven en sentido contrario (Sánchez Carrión, 1995, pág. 240).
La misma idea se puede traducir visualmente de la manera siguiente. Si dibujamos un gráfico
de coordenadas con el origen de coordenadas centrado en la media de x en el eje de abscisas
(horizontal) y en la media de y en el eje de ordenadas (vertical), si los datos se agrupan en el
cuadrante superior derecho (x, y positivas) o en el cuadrante inferior izquierdo (x, y negativas) la
covarianza será positiva, mientras que si los datos se agrupan en el cuadrante superior izquierdo
(x negativa, y positiva) o en el cuadrante inferior derecho (x positiva, y negativa) la covarianza
será negativa (Peña, 2001, pág. 96).
Observad, además, que la covarianza tiene unidades (xy), lo cual la hace dependiente de la
escala de estas, y es una de las causas que han dado pie a la amplia difusión del coeficiente de
correlación, que es adimensional (Peña, 2001, pág. 102).

Correlación entre variables

La correlación entre dos variables, x e y, es igual a la división entre la covarianza y el


producto de las desviaciones estándar de cada una de ellas.

Ecuación 2. Coeficiente de correlación

Una fórmula alternativa para calcular este coeficiente de manera más rápida es la siguiente:

Ecuación 3. Coeficiente de correlación-fórmula alternativa

El coeficiente de correlación recoge de manera objetiva y sumaria el grado de variación


conjunta que tienen las variables (Sánchez Carrión, 1995, pág. 239). Este coeficiente se mueve en
un rango de menos uno a más uno:

Si r = 1, la correlación es perfecta y directa (positiva).


Si r = –1, la correlación es perfecta e inversa (negativa).
Si r = 0, no hay correlación lineal entre las variables. Esto se puede deber a dos hechos: no
hay ningún tipo de covariación entre las variables, o no hay ningún tipo de relación lineal
entre ellas, pero podría haber relaciones no lineales, como por ejemplo, cuadráticas.

Veamos con algo más de detalle estos conceptos:


Correlación positiva entre variables

Decimos que dos variables están correlacionadas positivamente cuando los incrementos en
los valores de una están asociados estadísticamente a incrementos en los valores de la otra (y
los decrementos en los valores de una están asociados a decrementos en los valores de la
otra).

Correlación negativa entre variables

Dos variables están correlacionadas negativamente cuando los incrementos en los valores de
una están asociados estadísticamente a decrementos en los valores de la otra (y viceversa).

Correlación nula entre variables

Decimos que dos variables no están correlacionadas (ni positiva ni negativamente) cuando
los cambios en los valores de una no están asociados estadísticamente ni a incrementos ni a
decrementos en los valores de la otra. También decimos que hay una correlación nula entre
las variables consideradas, o que hay una ausencia de correlación entre ellas. Recordad que
hablamos de relaciones lineales, y que podría haber relaciones no lineales entre ellas.

Función de distribución conjunta de dos variables

Es una función que asigna la probabilidad de ocurrencia para cada par de valores de las
variables (por ejemplo, la probabilidad de que X=x a la vez que Y=y). Cada probabilidad
tiene que estar comprendida entre 0 y 1, y su sumatorio para todas las combinaciones
posibles de valores de las variables tiene que ser (como cualquier distribución acumulada)
igual a la unidad.


Consideración técnica:
La probabilidad de un acontecimiento en el que X asume el valor x e Y asume el valor y, es
igual a la probabilidad de que Y = y, multiplicada por la probabilidad de que X = x, dado Y = y,
es decir, P(Y = y) * P(X = x|Y = y). Cuando las variables son independientes, la condicionalidad
del segundo término resulta superflua, y este se reduce, simplemente, a P(X = x).
Función de distribución marginal de una variable

Función que asigna la probabilidad de ocurrencia de cada valor de la variable, sin tener en
cuenta otra(s) variable(s).

Función de distribución condicional de una variable

Función que asigna la probabilidad de ocurrencia de cada valor de la variable (digamos que
X) de manera condicional a la observación de un valor de otra variable (Y = y) o de una
combinación de valores de otras variables (Y = y, Z = z).

La función de distribución de la variable X condicionada al valor y de la variable Y asigna una


probabilidad a cada valor posible de X cuando Y asume el valor y. Es decir, para todos los x
posibles de X, asigna Prob (X = x si Y = y) o, más formalmente, Prob (X=x | Y=y).

Consideración técnica:
Puesto que la distribución condicional acumulada también debe ser igual a la unidad, se
calcula dividiendo la función de distribución conjunta por la función de distribución marginal de
la variable que condiciona la función de distribución condicional. Numéricamente,
Prob(X=x|Y=y) = Prob(X=x,Y=y) / Prob(Y=y).

2. Herramientas para el análisis descriptivo multivariante


Cuando tenemos información sobre dos variables, lo que los datos nos proporcionan son
parejas de valores para cada observación. Es fundamental que no se rompa el enlace entre los dos
valores de cada observación, puesto que romperlo supondría una pérdida de información
relevante y no nos permitiría captar las relaciones entre ambas variables (Barbancho, 1973, pág.
47). La misma lógica es válida para el caso en el que disponemos de información sobre más de
dos variables.

2.1. Tablas de una entrada para analizar varias variables

Cuando hay «pocas» observaciones, la manera más sencilla de presentar una tabla para mostrar
la información consiste en disponer la información de cada pareja de valores en dos columnas,
una para cada variable (Barbancho, 1973, págs. 48-49).
Consideremos el ejemplo siguiente: en una clase (datos «Notas 1», inventadas) hay diez estudiantes, todos ellos con edades
comprendidas entre los 20 y 22 años, y con notas que van de 7 a 9 puntos sobre 10. Una manera muy sencilla de presentar la
información sobre las dos variables consideradas (los años y las notas de cada estudiante) sería la siguiente:

Tabla 10. Tabla de dos columnas («años» y «notas»)

Años Notas
20 7
20 7
20 8
20 8
20 9
21 9
21 9
22 7
22 8
22 9

Fuente: Datos inventados, «Notas 1». N = 10. Elaboración propia.

Ahora bien, esta manera de presentar la información solamente resultará practicable cuando el
número de observaciones sea muy reducido: necesitaremos formas de representación alternativas
para «reducir» la información que queremos mostrar.
El caso más sencillo se da cuando tenemos «muchas» observaciones, pero «pocas» parejas de
valores diferentes. Podemos representar en dos columnas las parejas de valores distintas,
añadiendo una tercera columna donde anotamos el número de veces que aparece cada pareja
(Barbancho, 1973, págs. 49-50).
Consideremos una clase (datos «Notas 2», inventadas), en la que, en lugar de diez estudiantes, hay 99 alumnos, pero todos ellos
tienen edades comprendidas entre los 20 y 22 años, y todos ellos han sacado notas que van de 7 a 9 puntos sobre 10:

Tabla 11. Tabla de dos columnas y una columna de frecuencias («años» y «notas»)

Años Notas Frecuencia


20 7 15
20 8 12
20 9 10
21 7 10
21 8 13
21 9 15
22 7 7
22 8 9
22 9 8

Fuente: Datos inventados, «Notas 2». N = 99. Elaboración propia.

Este tipo de representaciones será útil para mostrar en forma de tablas muchas variables
políticas y sociales, puesto que muchas de ells están medidas en el nivel nominal u ordinal, y
tienen pocas categorías.
También servirá para variables cuantitativas si previamente las hemos agrupado en intervalos.
Este es un procedimiento empleado a menudo con variables como la edad o la renta.
Consideración

Al recodificar los valores originales de una variable cuantitativa a una variable con un número limitado de intervalos, se pierde
parte de la información original. Por ejemplo, si convertimos la edad, originalmente medida en años, en una variable de seis
intervalos, la nueva variable permitirá saber que un individuo dado pertenece al intervalo de edad 20-25 años, pero no
sabremos si tiene 21 años o 24.

Regla de «higiene»

¡Nunca recodifiquéis una variable sobre la variable original! No os imagináis cuánto tiempo
valioso y cuántos problemas os ahorraréis si seguís esta regla.

Consideremos una clase (datos «Notas 3», inventadas) con 99 alumnos, de entre 20 y 35 años, y con calificaciones entre 4 y 10.
Una manera de presentar la información sobre las dos variables consideradas sería la siguiente:

Tabla 12. Edades y notas (frecuencias)

Años Notas Frecuencia


de 20 a 25 de 4 a 6 15
de 20 a 25 de 7 a 8 12
de 20 a 25 de 9 a 10 10
de 20 a 25 de 4 a 6 10
de 20 a 25 de 7 a 8 13
de 20 a 25 de 9 a 10 15
de 30 a 35 de 4 a 6 7
de 30 a 35 de 7 a 8 9
de 30 a 35 de 9 a 10 8

Es decir, una persona con una edad exacta de 25 años caerá en el primer intervalo, no en el
segundo. Asumimos que solamente se pueden poner notas con valores enteros, es decir, las notas
están definidas sobre el con junto de los números naturales.
Fuente: Datos inventados, «Notas 3». N = 99. Asumimos que los límites superiores de los intervalos
son cerrados, y los límites inferiores, abiertos. Elaboración propia.

Aunque la recodificación a intervalos permite representar información como la recogida en la


base de datos imaginaria «Notas 3» mediante una tabla parecida a la tabla 11, esto se ha
conseguido al precio de perder cierta información, como por ejemplo, si un individuo dado ha
sacado una nota de 7 o de 8.
Además, como se puede deducir del pie de tabla, se tiene que ir con cuidado y evitar que la
codificación de los intervalos dé pie a ambigüedades, como por ejemplo, la de si un individuo con
25 años exactos cae dentro del primer o del segundo intervalo. Se tienen que cumplir las dos
reglas siguientes:

Regla 1: exhaustividad: cualquier valor de una variable de un individuo tiene que poder
ser atribuido a uno de los intervalos.

Regla 2: exclusividad: cualquier valor de una variable de un individuo solamente tiene que
poder ser atribuido a uno de los intervalos.

Tomadas conjuntamente, las dos reglas implican que cualquier valor de una variable de un
individuo se debe poder atribuir a uno y solo a uno de los intervalos.
Hay una alternativa que sirve para presentar la información de una manera más sintética,
mediante tablas de doble entrada.
Consideremos, nuevamente, los datos «Notas 2», inventadas, y la siguiente representación alternativa de la información mediante
una tabla de doble entrada:

Tabla 13. Tabla de doble entrada («años» y «notas»)

Años \ Notas 7 8 9
20 15 12 10
21 10 13 15
22 7 9 8

Fuente: Datos inventados, «Notas 2». N = 99. Celdas: frecuencias absolutas. Elaboración propia.

Como podéis comprobar, la tabla 13 permite presentar la misma información que la tabla 11,
pero lo hace de una manera más sintética, más eficiente. Este tipo de tablas se denomina tablas
de contingencia, y se discute de manera detallada en la sección siguiente.

2.2. Tablas de contingencia


Tablas de contingencia

Tablas de distribución conjunta de dos variables o más.

Las tablas de contingencia son tabulaciones de frecuencias que recogen la distribución


conjunta de dos variables o más. Como cualquier tabla de frecuencias, pueden mostrar casos
(frecuencias absolutas) o porcentajes (frecuencias relativas) o, incluso, ambos simultáneamente.

Ejemplo:
Para captar mejor qué son y cómo se presentan las tablas de contingencia, resultará muy útil
usar un ejemplo. Tomaremos los datos del cuestionario postelectoral español de 2008 (CIS 2757).
Tomamos, para empezar, la variable correspondiente al género (variable «sexo», en el
cuestionario) y la variable sobre voto o abstención (variable «p32»).
Antes de presentar las tablas de contingencia, resulta una buena costumbre presentar las tablas
de distribución de frecuencias individuales para cada variable:

Tabla 14. Distribución de frecuencias de la variable «género»

Género Frecuencia absoluta (N) Frecuencia relativa (porcentaje) Porcentaje acumulado

1 (hombre) 2.938 48,30 48,30

2 (mujer) 3.145 51,70 100,00

Total 6.08 3 100,00

Fuente: CIS, cuestionario 2757. Elaboración propia.

Tabla 15. Distribución de frecuencias de la variable «voto» (recodificada)

Voto N Porcentaje Porcentaje acumulado

0 (No voté) 792 13,1 13,1

1 (Sí voté) 5.265 86,9 100,00

Total 6.057 100,00

Fuente: CIS, cuestionario 2757. Elaboración propia.

Conviene notar que se está empleando una versión dicotómica (de dos categorías) de la
variable «voto», la cual, originalmente, tenía cuatro categorías (además de una categoría adicional
que recogía la no respuesta por parte de un reducido número de encuestados que no quiso
responder). Para aquellos que tengan curiosidad, la distribución de la variable original del
cuestionario 2757 del CIS (donde se diferenciaba entre tres categorías de abstencionistas: las
personas que no pudieron votar, las que no quisieron votar y las que puntualizaban que,
generalmente, votan, pero que, en el caso de las elecciones de 2008, no lo quisieron hacer) es la
siguiente:

Tabla 16. Distribución de frecuencias de la variable «p32» (voto y abstención, original)

Voto original N Porcentaje Porcentaje acumulado

1 (No pude) 229 3,76 3,76

2 (No quise) 512 8,42 12,18

3 (No quise 2008 ) 51 0,84 13,02

4 (Sí voté) 5.265 86,55 99,57

9 (NC) 26 0,43 100,00

Total 6.08 3 100,00

Fuente: CIS, cuestionario 2757. Elaboración propia.

Hasta aquí, no hemos hecho nada que no supiéramos hacer ya. Pero ahora empezaremos a
sacar tablas de contingencia, que nos permitirán observar de manera simultánea la distribución de
estas dos variables:

Tabla 17. Tabla de contingencia de las variables «sexo» y «voto» (frecuencias absolutas)

Voto \ Sexo Hombre Mujer Total

No voté 390 402 792

Voté 2.536 2.729 5.265

Total 2.926 3.131 6.057

Fuente: CIS, cuestionario 2757. Elaboración propia.

La tabla 17 nos informa de que, de los 6.057 casos válidos de los que tenemos información
tanto sobre la variable «sexo» como sobre «voto», hubo 390 hombres que no votaron y 402
mujeres que tampoco lo hicieron, mientras que 2.536 hombres y 2.729 mujeres sí votaron o, al
menos, así lo declaran al encuestador. La última columna contabiliza el total de hombres y
mujeres que no votaron (792) y que sí que lo hicieron (5.265), respectivamente. Dado que los
casos válidos son los mismos que los de la tabla 15, estas cifras coinciden con las presentadas en
dicha tabla. La última fila nos da el total de hombres (2.926) y mujeres (3.131) para los cuales
tenemos información sobre si han votado o no. Dado que se han perdido 26 casos, estas cifras no
coinciden con las de la tabla 14 (2.938 y 3.145, respectivamente).
Quizá, lo que nos interese saber no sean los casos de cada combinación, sino su porcentaje:
Tabla 18. Voto y sexo (porcentajes de celda)

Voto \ Sexo Hombre Mujer Total

No voté 6,4 6,6 13,1

Voté 41,9 45,1 8 6,9

Total 48 ,3 51,7 100,0

Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

La tabla 18 nos informa de que un 6,4 % de la muestra (de casos válidos) corresponde a
hombres que declaran que no votaron, un 6,6 %, a mujeres que tampoco lo hicieron, un 41,9 %, a
hombres que sí votaron, y un 45,1 %, a mujeres que también votaron. La última columna nos
recuerda que un 13,1 % de la muestra declara no haber votado y un 86,9 % dice haber votado
(estos porcentajes coinciden con los de la columna correspondiente de la tabla 15). La última fila
nos da el porcentaje de hombres y mujeres para los que tenemos información sobre si han votado
o no; como el número de casos perdidos es bajo (26) y está distribuido de manera parecida entre
hombres y mujeres (2.938 - 2.926 = 12 casos de hombres perdidos; 3.145 - 3.131 = 14 casos de
mujeres perdidos), estas cifras coinciden, para el primer decimal, con las de la tabla 14.
Las tablas de contingencia nos permiten compilar información potencialmente muy útil sobre
la relación entre ambas variables. Por ejemplo: ¿entre los hombres, qué porcentaje vota? ¿Y entre
las mujeres? Dada la disposición de las variables en nuestras tablas (género, en columnas, y voto,
en filas), esto se puede conseguir con porcentajes de columna, los cuales reciben este nombre
porque suman un 100 % en cada columna:

Tabla 19. Voto y sexo (porcentajes de columna)

Voto \ Sexo Hombre Mujer Total

No voté 13,3 12,8 13,1

Voté 86,7 87,2 8 6,9

Total 100,0 100,0 100,0

Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

La tabla 19 nos da información sobre las cuestiones sobre las que nos preguntábamos. Un 13,1
% de los encuestados declara que se abstiene, y este porcentaje, a pesar de ser «muy parecido»
entre hombres y mujeres, es algo más alto para ellos (13,3 %) que para ellas (12,8 %).
Finalmente, pongamos por caso que lo que nos interesa saber no es la propensión a la
abstención y al voto para hombres y mujeres, sino el perfil de género de los votantes y de los
abstencionistas. ¿Cómo podríamos obtener la información relevante para esta tarea? Sí, lo habéis
adivinado: dada la disposición de las variables en nuestras tablas (género, en filas, y voto, en
columnas), esto se puede conseguir mostrando los porcentajes de fila:

Tabla 20. Voto y sexo (porcentajes de fila)

Voto \ Sexo Hombre Mujer Total

No voté 49,2 50,8 100,0

Voté 48,2 51,8 100,0

Total 48 ,2 51,7 100,0

Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

Como esperábamos, la tabla 20 nos da información sobre el perfil de género de los


abstencionistas (un 49,2 % son hombres, y un 50,8 % son mujeres) y de los votantes (un 48,2 %,
hombres, y un 51,8 %, mujeres).
Para maximizar la claridad de la exposición, en las tablas de contingencia presentadas hasta
ahora solamente se ha incluido una única información: número de casos, porcentajes de celda,
porcentajes de fila o porcentajes de columna. Naturalmente, varias o todas estas informaciones se
pueden combinar en una sola tabla de contingencia. Veámoslo con algún ejemplo.
Ejemplo

Consideremos las variables «interesados» y «despreocupados», construidas a partir de las variables «p201» y «p203» del
cuestionario 2757 del CIS (estas variables tratan como perdidos los casos de «No sabe» y «No contesta» de las variables
originales, y se han rescalado para que crezcan con el grado de acuerdo con las afirmaciones de que los políticos buscan sus
intereses personales y no se preocupan por gente como el encuestado).

Tabla 21. Políticos auto-interesados y despreocupados (N y % de celda)

Interesados \ Despreocupados 0_Nada 1_Un poco 2_Bastante 3_Mucho Total

87 104 71 27 28 9
0_Nada
1,6 % 1,9 % 1,3 % 0,5 % 5,2 %

47 913 608 58 1626


1_Un poco
0,8 % 16,4 % 10,9 % 1,0 % 29,2 %

32 545 1883 242 2702


2_Bastante
0,6 % 9,8 % 33,8 % 4,3 % 48,5 %

22 87 300 544 953


3_Mucho
0,4 % 1,6 % 5,4 % 9,8 % 17,1 %

18 8 1649 28 62 8 71 5570
Total
3,4 % 29,6 % 51,4 % 15,6 % 100,0 %
Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

La combinación menos frecuente corresponde a personas que opinan que los políticos no son
nada despreocupados y que a la vez son muy interesados: aunque solamente un 0,4 % de la
muestra comparte, a la vez, estas dos opiniones, este porcentaje está basado en un número de
casos (22) generalmente considerado como suficientemente alto para ser tenido en cuenta. La
segunda combinación menos frecuente (un 0,5 % de la muestra, o 27 casos) corresponde a
personas que consideran que los políticos son muy despreocupados pero nada interesados.
En consecuencia, esta tabla permite comprobar que ninguna de las combinaciones de
respuesta válidas presenta una frecuencia absoluta inferior muy baja (digamos que inferior a
cinco) y, por lo tanto, nos garantiza que ninguno de los porcentajes calculados está demasiado
condicionado a unos pocos casos en particular.
Asimismo, la tabla nos permite constatar que el grueso de las observaciones se concentra en
combinaciones de respuestas «poco o bastante» a ambas preguntas, aunque también hay un grupo
significativo de gente que piensa que son muy desinteresados y se despreocupan mucho de
personas como los encuestados. Observad que, a pesar de tener más filas y más columnas, la
interpretación de la tabla es análoga a la de las tablas presentadas más arriba.

2.3. Gráficos multivariantes

Los gráficos pueden ayudar a captar de una manera muy poderosa e intuitiva la distribución
conjunta de dos (o, incluso, más) variables. Algunos de los gráficos empleados en el capítulo
precedente se pueden extender al caso multivariable. Los gráficos de pastel no permiten
representar directamente la relación entre dos (o más) variables, aunque se podrían mostrar varios
de ellos de forma yuxtapuesta, uno junto a otro, para conferir una imagen conjunta de la
distribución de ambas variables. Una opción más sofisticada es recurrir a los gráficos de
columnas:

Figura 15. Género según participación electoral (número de casos)


Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

La figura 15 ejemplifica la extensión de un gráfico de columnas para el caso de dos variables,


el género y el voto; en concreto, recoge, de manera gráfica, la información correspondiente a la
tabla 17. Análogamente, los gráficos de barras también se pueden aplicar al caso de más de una
variable. Observad que estos gráficos –y, de hecho, muchos otros– se pueden emplear con un
espíritu bastante más imaginativo que, simplemente, la transposición visual y directa de una tabla
tal como esta ha sido construida.
Por ejemplo, pongamos que queremos representar gráficamente los porcentajes de la tabla 21.
Nadie nos obliga a representar los datos para todas las categorías de la primera variable: somos
nosotros quienes tenemos que elegir qué queremos resaltar y qué categorías tenemos que incluir.
Consideremos la ilustración que se presenta a continuación:

Figura 16. Percepciones sobre los políticos

Perfil de los políticos nada y muy despreocupados por los ciudadanos en términos de la medida en
que son (percibidos como) guiados por sus propios intereses (porcentajes)
Fuente: CIS, cuestionario 2757. Elaboración propia.
Clave: 0: nada despreocupados; 3: muy despreocupados.

La figura 16 muestra cómo se podrían emplear los gráficos de barras para ilustrar las
diferencias en los perfiles de las categorías extremas de (percepción de) despreocupación por los
ciudadanos.
Muy a menudo, la información proporcionada mediante un gráfico concreto se habría podido
ofrecer por medio de un gráfico alternativo. Como se puede ver a continuación, habría sido
posible mostrar la misma información con un gráfico de líneas:

Figura 17. Alternativa de representación de la misma información mediante un gráfico de líneas


Clave: 0: nada despreocupados; 3: muy despreocupados. Fuente: CIS, cuestionario 2757. Elaboración
propia

En cuanto a los gráficos de líneas, su utilidad más habitual no es la de representar perfiles de


categorías de variables, sino la representación de la evolución temporal de los valores de
determinadas variables. Para ejemplificar este uso fundamental de los gráficos de líneas,
emplearemos datos del National Health Expenditure Data de Estados Unidos para el periodo
1997-2008:

Figura 18. Evolución del gasto sanitario nacional per cápita ($) y de las primas de seguros sanitarios
(Estados Unidos, 1997-2008); escala inadecuada

Clave: NHEp.c.: gasto sanitario nacional per cápita ($); Premium: coste de los seguros sanitarios.
Fuente: NHE (National Health Expenditure Data), Estados Unidos. Elaboración propia.

El objetivo de gráficos como este es el de mostrar la evolución temporal conjunta de las


variables representadas –en este caso, para apoyar un argumento en el sentido de que una de las
razones del crecimiento porcentual del gasto sanitario nacional podría consistir en el aumento
sostenido de las primas de seguro sanitario.
Aun así, como se puede ver en este ejemplo (un poco extremo, quizá), cuando la escala de las
variables es muy diferente, no es posible apreciar (nada) bien la evolución de la variable medida
en una escala más pequeña. La solución, en estos casos, radica, simplemente, en la construcción
del gráfico empleando dos escalas, con sus respectivos ejes a cada lado del gráfico. Una vez hecho
esto, se puede apreciar sin dificultad la evolución de los valores de ambas series, a pesar de que
estén denominadas en escalas muy diferentes:

Figura 19. Evolución del gasto sanitario nacional per cápita ($) y de las primas de seguros sanitarios
(Estados Unidos, 1997-2008); escala bien construida

Clave: NHEp.c.: gasto sanitario nacional per cápita ($); Premium: coste de los seguros sanitarios.
Fuente: NHE (National Health Expenditure Data), Estados Unidos. Elaboración propia.

El nuevo gráfico ilustra bastante bien la idea de una correlación positiva entre ambas variables
que se podía estar interesado en defender. Vale la pena comentar, aun así, que hay que juzgar la
evidencia fundamentada en este tipo de representaciones –y, en definitiva, en la evolución
temporal de las variables– con un espíritu crítico especialmente alerta, puesto que el mero hecho
de que dos variables evolucionen de manera parecida a lo largo del tiempo no constituye una
prueba suficiente de su eventual relación causal; hay muchas más cosas que pueden cambiar a lo
largo del mismo periodo, y es fundamental estar seguros de que se están controlando estas otras
variables, puesto que, si no fuera así, la correlación entre ambas variables podría ser espuria, es
decir, podría ser un artificio provocado por los cambios en terceras variables.
A pesar de que los gráficos de líneas resultan idóneos para la representación de la evolución
temporal de las variables, este tipo de información también puede ser representada mediante
cualquiera de los gráficos estudiados a lo largo de esta sección. Considerad la información
siguiente sobre la evolución de la pobreza de los BRIC (Brasil, China, India y Rusia) a lo largo
del periodo 1981-2001 (observad que se ha empleado una definición «absoluta» de pobreza,
tomando el umbral de un dólar per cápita como la línea de pobreza):

Figura 20. Evolución del porcentaje de pobreza en los BRIC (1981-2001)


Fuente: Tsai (2010). Datos originales: Banco Mundial, 2007.

Observad que un gráfico de este tipo también permite mostrar la evolución de un conjunto
de variables. En este caso, se ve cómo, a lo largo del periodo, China y, en segundo lugar, India
consiguieron una reducción sustancial de la pobreza absoluta, Brasil experimentó un aumento
inicial y una reducción posterior que la dejó al final del periodo con un porcentaje parecido al
que tenía al principio, mientras que, en el caso de Rusia, la pobreza aumentó, a pesar de que el
último año analizado se puede observar una disminución en esta dimensión.
Además de los gráficos vistos hasta ahora, cuando trabajéis con más de una variable, hay otro
tipo de gráficos que conviene tener muy presente: los gráficos de dispersión, a menudo
denominados también gráficos de nubes de puntos, muy útiles para capturar la relación entre
variables cuantitativas, como el producto interior bruto, las importaciones, las exportaciones o el
porcentaje de gasto social.

Gráficos de dispersión

Estos gráficos representan cada observación según sus coordenadas en un gráfico de dos
dimensiones, en el que los valores de una variable se representan en el eje de abscisas y los
valores de la otra variable, en el eje de ordenadas.

Con el fin de mostrar un gráfico de este tipo, utilizaremos datos de la OCDE sobre los estados de salud y, en concreto, datos
sobre la esperanza de vida de hombres y mujeres para el año 2006:

Figura 21. Gráfico de dispersión: esperanza de vida de hombres y mujeres (2006)


Fuente: OCDE (2010). Panel A: escala bien elegida. Panel B: escala inadecuada.

Por ejemplo, la observación que hay más a la izquierda del gráfico corresponde a Turquía, país para el que, en 2006, la esperanza
de vida de las mujeres al nacer era de 75,3 años, y la de los hombres, de 71,1 años; la observación que hay más a la derecha
corresponde a Japón, país para el que las cifras eran 85,8 y 79, respectivamente.

1) Observad, primero, que, cuando se hacen gráficos de dispersión, es muy importante definir
la escala de los ejes de manera adecuada. Así, mientras que el panel de la izquierda tiene la escala
de los dos ejes bien definida, y permite distinguir con claridad el patrón de la relación entre
ambas variables, el panel de la derecha se caracteriza por una definición inadecuada de la escala
del eje vertical, o eje de ordenadas, correspondiente, en este caso, a la esperanza de vida de los
hombres; como se puede ver, este hecho dificulta mucho (incluso casi lo imposibilita) detectar el
patrón de la correlación entre ambas variables.
2) Observad, en segundo lugar, que estos gráficos (cuando están bien construidos) permiten
apreciar con bastante claridad en qué medida la distribución de ambas variables está
correlacionada. Aun así, es importante tener presente que, en ausencia de análisis más detallados,
como sería el caso de los modelos (causales) de regresión discutidos en el capítulo siguiente, los
gráficos no nos permiten extraer inferencias sobre las posibles relaciones de causalidad entre las
variables. En particular, un gráfico de estas características sería coherente con diferentes mundos
posibles:

Podría ser que la esperanza de vida de los hombres dependiera de la esperanza de vida de las
mujeres, es decir, que esta última variable fuera una causa de aquella.
Podría también ser que la correlación puesta de manifiesto en el gráfico obedeciera a la
relación causal inversa, es decir, que la esperanza de vida de las mujeres fuera una función de
la esperanza de vida de los hombres;
Finalmente, la figura presentada también sería coherente con el hecho de que tanto la
esperanza de vida de los hombres como la de las mujeres no estuvieran en una relación de
causalidad directa entre ellas, sino que ambas respondieran a terceras variables, como los
estilos de vida, la alimentación o la calidad del sistema sanitario; en este caso, decimos que la
correlación observada entre ambas variables es una correlación espuria. De hecho, en el caso
de las variables estudiadas, es muy probable que la tercera opción sea la correcta.
3) En tercer lugar, vale la pena comentar que los gráficos de dispersión resultan poco útiles
para las variables categóricas. Cuando se trata de representar un gráfico de esta clase para
variables de este tipo, es muy probable que todas las combinaciones se vean representadas por, al
menos, alguna observación en la base de datos.

Figura 22. Gráfico de dispersión aplicado a variables categoriales («interesados» y «despreocupados»)

Clave: 0: nada despreocupados; 3: muy despreocupados. Fuente: CIS, cuestionario 2757. Elaboración
propia.

Una posibilidad para representar dos variables de este tipo en un eje de coordenadas consiste
en construir un gráfico de burbujas, cuyo tamaño sea una función de la frecuencia de observación
de cada una de las combinaciones posibles.
Volviendo a los gráficos de nubes de puntos, se tiene que hacer un pequeño comentario sobre
su lectura:

Figura 23. Gráficos de dispersión: Esperanza de vida y tabaco (2006)

Panel A: esperanza de vida de hombres y de mujeres. Panel B: esperanza de vida de mujeres y tabaco,
con Turquía. Panel C: esperanca de vida de mujeres y tabaco, sin Turquía. Fuente: OCDE (2010).
Cuando la pendiente del gráfico es positiva (como en el panel izquierdo de la figura 23, que
reproduce los datos presentados en la figura 15), esto es signo de que hay una correlación positiva
(sea causal o no) entre las variables; cuando la pendiente es horizontal o vertical (caso al que se
aproxima el panel central), esto es signo de que no hay ninguna correlación lineal entre las
variables; finalmente, cuando la pendiente es negativa (como en el panel de la derecha), esto
indica que hay una correlación negativa entre las variables.
Observad, por cierto, que la correlación negativa entre esperanza de vida de las mujeres y
porcentaje de mujeres fumadoras (ambas, medidas en 2006) resulta distinguible cuando Turquía
se excluye de la muestra, y observad también que, cuando este país se incluye, queda muy alejado
de todo el resto de los países. En estos casos, quizá convenga mostrar los resultados tanto con
Turquía como sin ella, y discutir las razones por las que creemos que Turquía es especial
(técnicamente, un outlier): por ejemplo, ¿es posible que la relación se vea empañada en este país
por cuestiones relacionadas con desigualdades y discriminaciones de género?
Finalmente, un comentario. Como se vio al presentar la figura 16 y su alternativa, la figura 17,
no hay una manera única de representar gráficamente unos mismos datos. Consideradas
conjuntamente, las dos figuras ponen de relieve una cuestión fundamental: la decisión de qué tipo
de gráfico emplear para cada caso es esencialmente vuestra. A veces, resultará especialmente
adecuado un tipo de gráfico, mientras que otras, juzgaréis que es otro el que mejor se ajusta a los
objetivos de vuestro estudio. Los ejemplos puestos a lo largo de esta sección están pensados para
daros una perspectiva amplia de las posibilidades que tenéis a vuestro alcance; aun así, el dominio
de esta valiosa herramienta es una cuestión que, en parte, se adquiere con el tiempo y con la
práctica. En este sentido, el mejor consejo que os podemos dar es el siguiente: ¡ejercitad los
gráficos, hacedlos de manera habitual, que la experiencia es la mejor escuela (o una de las
mejores)!

3. Las medidas de asociación


Cuando se presenta una tabla de contingencia, es casi seguro que los porcentajes de fila (o de
columna) sean diferentes para las diferentes categorías consideradas. Por ejemplo, mientras que el
porcentaje de hombres que declara haber votado es 86,7 % (2.536 observaciones de un total de
2.926 hombres para los cuales hay casos válidos), el de mujeres es 87,2 % (2.729 casos sobre
3.131). De manera parecida, mientras que el porcentaje de políticos percibidos como «nada
despreocupados» que es valorado como «nada interesado» es 46,3 %, esta cifra cae a 3,1 % entre
los políticos percibidos como «muy despreocupados». Ahora bien, ¿son estas diferencias grandes
o pequeñas? ¿Son suficientemente grandes como para juzgar que los resultados son
suficientemente diferentes? ¿O son suficientemente pequeñas como para concluir que son «casi»
iguales? Para responder a estas preguntas, disponemos de una serie de medidas de asociación
entre las variables, cuyo estudio es el objeto de esta sección.

3.1. Medidas de asociación e independencia

Consideremos las variables «sexo» y «voto». La lógica que seguimos para determinar si están
relacionadas entre ellas es la siguiente. Imaginemos que no estén relacionadas. Entonces, ¿cuántos
casos deberíamos encontrar de cada combinación de sus valores?
Para responder a esta pregunta, deberemos tener presente la distribución de cada variable por
separado. Antes de nada, tenemos que introducir los conceptos siguientes:

Porcentaje observado de una combinación de valores (Pjk)

O frecuencia relativa observada. Porcentaje efectivo de casos correspondiente a la


combinación de valores.

Casos observados de una combinación de valores (Ojk)

O frecuencia absoluta observada. Número efectivo de casos correspondiente a la


combinación de valores.

Porcentaje esperado de una combinación de valores (Ejk)

O frecuencia relativa esperada. Porcentaje de casos que habría que esperar observar (bajo el
supuesto de independencia de las dos variables) para la combinación de valores.

Si dos variables J y K son independientes, el porcentaje esperado de casos de una combinación


de categorías j y k será igual a la probabilidad de que J asuma el valor j multiplicada por la
probabilidad de que K logre el valor k:

Ecuación 4. Porcentaje esperado de la combinación jk

Ejk = Pj × Pk

Así, la frecuencia esperada relativa de la casilla «hombres que votaron» se calcula


multiplicando la probabilidad de ser hombre por la probabilidad de votar:
Ecuación 5. Porcentaje esperado de la combinación «hombre» y «sí voté»

Ehombre, sí que voté = Phombre × Psí que voté

Dado que tenemos 2.926 hombres sobre una muestra de 6.057 casos válidos, esto representa
un 48,31 % del total; por otro lado, el porcentaje de votantes es 86,92 % (5.265 dividido por
6.057). Entonces, bajo el supuesto de independencia, esperaríamos que el porcentaje de hombres
que votan fuera 48,31 % × 86,92 % = 41,99 %.
La tabla siguiente muestra el resultado de repetir estos cálculos para las cuatro combinaciones
posibles (hombres que no votaron, hombres que sí votaron, mujeres que no votaron y mujeres
que sí votaron):

Tabla 22. Frecuencias relativas esperadas («sexo» y «voto»)

Voto \ Sexo Hombre Mujer Total

No voté 6,3 % 6,8 % 13,1 %

Voté 42,0 % 44,9 % 8 6,9 %

Total 48,3 % 51,7 % 100,0 %

Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

Veamos, ahora, cómo se calcula el porcentaje esperado de la casilla «un poco interesados y
bastante despreocupados». La frecuencia relativa de «un poco interesados» es 29,2 %, y la de
«bastante despreocupados», 51,4 %; por lo tanto, bajo el supuesto de independencia, esperaríamos
que el porcentaje para esta combinación fuera igual a 29,2 % × 51,4 % = 15,0 %. La tabla
siguiente muestra el resultado de llevar a cabo estos cálculos para todas las combinaciones
posibles entre las dos variables:

Tabla 23. Porcentajes esperados (variables «interesados» y «despreocupados»)

Interesados \ despreocupados 0_Nada 1_Un poco 2_Bastante 3_Mucho Total

0_Nada 0,2 % 1,5 % 2,7 % 0,8 % 5,2 %

1_Un poco 1,0 % 8,6 % 15,0 % 4,6 % 29,2 %

2_Bastante 1,6 % 14,4 % 24,9 % 7,6 % 48 ,5 %

3_Mucho 0,6 % 5,1 % 8,8 % 2,7 % 17,1 %

Total 3,4 % 29,6 % 51,4 % 15,6 % 100,0 %

Fuente: CIS, cuestionario 2757. N = 5.570. Elaboración propia.


Casos esperados de una combinación de valores (Njk)

O frecuencia absoluta esperada. Número de casos que habría que esperar observar (bajo el
supuesto de independencia de las dos variables) para la combinación de valores.

Si dos variables J y K son independientes, el número esperado de casos de una combinación


de categorías será igual al porcentaje de casos esperado para esta combinación multiplicado por el
número total de casos con información de ambas variables:

Ecuación 6. Casos esperados de la combinación jk

Njk = N × Pj × Pk

Continuando con el ejemplo propuesto, la frecuencia esperada absoluta de la casilla «hombres


que votaron» se calcula multiplicando la probabilidad de ser hombre por la probabilidad de votar
y por el número de casos:

Ecuación 7. Casos esperados de la combinación «hombre» y «sí voté»

Nhombre, sí que voté = N × Phombre × Psí que voté

Entonces, bajo el supuesto de independencia, esperaríamos que el total de hombres que votan
fuera igual a 0,4831 × 0,8692 × 6.057 = 2.543,4 casos. La tabla siguiente muestra el resultado de
hacer estos cálculos para las cuatro combinaciones posibles, así como los casos efectivamente
observados.

Tabla 24. Frecuencias absolutas observadas y esperadas («sexo» y «voto»)

Voto \ Sexo Hombre Mujer Total

390 402 792


No voté
382,6 409,4 792

2.536 2.729 3.131


Voté
2.543,4 2.721,6 3.131

2.926 5.265 6.057


Total
2.926 5.265 6.057
Fuente: CIS, cuestionario 2757. Elaboración propia.

La tabla 24 permite comparar los casos efectivamente observados con los que se habrían
observado bajo el supuesto de independencia total de ambas variables. Intuitivamente, cuanto
más se asemejen unos a otros, más cerca estaremos de cumplir el supuesto de independencia,
mientras que, cuanto mayores sean las diferencias, más lejos estaremos del supuesto de
independencia.
Considerad, ahora, la tabla siguiente, que muestra, para cada combinación, las diferencias entre
los casos observados y los esperados; los cuadrados de estas diferencias, así como estos últimos
divididos por los casos esperados:

Tabla 25. Diferencias entre las frecuencias observadas y esperadas («sexo» y «voto»)

Voto \ Sexo Hombre Mujer Total

7,40 -7,40 0,00

No voté 54,76 54,76 109,52

0,14 0,13 0,28

-7,40 7,40 0,00

Voté 54,76 54,76 109,52

0,02 0,02 0,04

0,00 0,00 0,00

Total 109,52 109,52 219,04

0,16 0,15 0,32

Fuente: CIS, cuestionario 2757. Elaboración propia.

Como evidencia la primera fila de la tabla 25, a pesar de que lo que quizá parecería más
intuitivo sería sumar directamente las diferencias en cada casilla (combinación), o sacar la media,
dado que las diferencias positivas y negativas se compensan entre ellas, el resultado siempre sería
cero. Esto plantea un problema similar al de la utilización de la desviación media como medida
del grado de dispersión de una distribución, y la solución es muy parecida a una de las soluciones
comentadas en aquella ocasión (la varianza): sacar el cuadrado de las diferencias para cada
combinación, y sumar estos cuadrados. Sin embargo, esta suma se verá afectada por cuestiones de
escala (como el tamaño de la muestra). Para evitar esto, se puede dividir cada una de las
diferencias al cuadrado por la frecuencia esperada: esto es lo que se hace en la tercera fila de cada
combinación.
El valor correspondiente a la suma de la tercera fila (en este caso concreto, 0,32) es conocido
en la literatura como coeficiente chi cuadrado, y es la medida más empleada para dilucidar si dos
variables están relacionadas entre ellas (si hay asociación entre ellas) o si, por el contrario, son
independientes la una de la otra.

Coeficiente chi cuadrado (χ2)

Medida de asociación entre variables construida mediante la suma de las diferencias al


cuadrado entre las frecuencias observadas y las frecuencias esperadas para cada casilla,
divididas por esta última. También se le conoce como chi2, khi2, ji2, chi2, khi2 o ji2.

Ecuación 8. Coeficiente chi cuadrado

Este coeficiente sigue una distribución muestral que recibe el nombre de distribución chi
cuadrado. La distribución chi cuadrado es una distribución derivada de la normal y sus valores
dependen de la medida de la tabla, es decir, del número de filas y columnas de la tabla, expresado
en grados de libertad (Sánchez Carrión, 1995, pág. 261).
Observad, en este sentido, que, como este coeficiente suma valores elevados al cuadrado,
nunca será negativo y, todo lo demás constante, cuanto mayor sea el número de filas y columnas,
mayor será el número de términos no negativos sumados, con lo que mayor será su valor.
Por lo tanto, para evaluar el valor del coeficiente chi cuadrado obtenido mediante el
procedimiento comentado más arriba, es necesario tener presente los grados de libertad definidos
por la tabla en la que se basa el coeficiente. La fórmula para computar los grados de libertad es la
siguiente:

Ecuación 9. Fórmula para calcular los grados de libertad

GL = (NF - 1) × (NC - 1)

Donde GL son los grados de libertad, NF, el número de filas, y NC, el número de columnas.
Si volvemos a los ejemplos antes comentados, el coeficiente chi2 para las variables «género» y
«voto» asume un valor de 0,3188 (en la tabla 25, el valor computado se presentó solamente con
dos decimales, 0,32), el cual corresponde a una probabilidad de 0,572, es decir, podría ser, en un
57,2 % de los casos, consecuencia del azar.
Dados los criterios tradicionales de significación con los cuales trabajamos en ciencias sociales
(un 5 % o, en ocasiones, un 1 o un 10 %), la probabilidad de que el valor logrado por el
coeficiente chi2 se deba al azar es demasiado grande. Por lo tanto, diremos que no podemos
rechazar la posibilidad de que el valor del coeficiente se deba al azar, o que el coeficiente chi2 no
es significativo (a los niveles de confianza usualmente empleados), y concluiremos que ambas
variables no están significativamente relacionadas. Es decir, el valor (bajo) del coeficiente chi2 no
nos permite rechazar la hipótesis nula de independencia entre las variables «género» y «voto».
En cuanto a las variables «interesados» y «despreocupados», el coeficiente chi2 es igual a 2.900,
que es suficientemente grande como para corresponder a un nivel de probabilidad inferior a
0,001. Esto significa que ni siquiera en un 0,1 % de los casos un coeficiente chi2 tan grande
podría ser fruto del azar. La conclusión, en este caso, es que rechazamos la hipótesis nula de
independencia entre las variables «interesados» y «despreocupados», y concluiremos que ambas
están relacionadas entre sí.
Ahora bien, además de estudiar si dos variables están relacionadas entre sí, podemos estar
interesados en analizar de manera más detallada la relación entre ellas y, en lugar de fijarnos en el
coeficiente chi2 asociado a la tabla en su conjunto, tendremos que prestar atención al coeficiente
para cada celda (Sánchez Carrión, 1995, pág. 264):

Tabla 26. Coeficiente chi2 para cada celda («interesados» y «despreocupados»)

Interesados \ despreocupados 0_Nada 1_Un poco 2_Bastante 3_Mucho Total

0_Nada 611,7 4 40,4 7,3 663,5

1_Un poco 1,1 387,0 61,9 151,5 601,6

2_Bastante 38,4 81,2 176,2 77,1 373

3_Mucho 3,2 135,0 73,5 1.046,9 1.258 .5

Total 655 607 352 1.283 2.8 97

Fuente: CIS, cuestionario 2757. N = 5.570. Elaboración propia.

La inspección detallada de la tabla 26 nos muestra que todas las celdas, excepto las
correspondientes a las combinaciones «un poco interesados y nada despreocupados» y «muy
interesados y nada despreocupados» son responsables de la relación entre las variables
«interesados» y «despreocupados». En efecto, todos los coeficientes chi2 son significativos,
excepto los de las dos celdas mencionadas (1,1 y 3,2, respectivamente), que son menores que el
valor crítico correspondiente a una distribución chi2 para un grado de libertad si empleamos un
nivel de significación del 5 % (para este nivel, el valor crítico para un grado de libertad es 3,84).
Una vez más, la mayoría de los paquetes estadísticos incluyen comandos para pedir
directamente el coeficiente chi2, tanto para la relación de las variables en su conjunto, como para
cada celda en particular.
3.2. Estadísticos de resumen para variables nominales

A lo largo de esta sección, estudiaremos tres tipos de estadísticos de resumen: medidas


basadas en el coeficiente chi cuadrado; medidas basadas en la reducción del error de predicción; y
la diferencia de porcentajes.

3.2.1. Medidas basadas en el coeficiente chi cuadrado

La primera parte de esta sección se dedicará a comentar algunos estadísticos adicionales


diseñados para solucionar algunos problemas que surgen como consecuencia de las propiedades
del estadístico chi cuadrado.
Para ilustrar la razón que lleva a su construcción, convendrá construir una tabla que muestre
los valores chi2 para las variables «sexo» y «voto», pero suponiendo que el tamaño de la muestra
es exactamente el doble de la original:

Tabla 27. Valores chi2 cuando se dobla el número de casos («sexo» y «voto»)

Voto \ Sexo Hombre Mujer Total

No voté 0,29 0,27 0,55

Voté 0,04 0,04 0,08

Total 0,33 0,31 0,64

Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.

Como se puede apreciar, el valor del estadístico chi2 es exactamente el doble del valor que
calculamos para la muestra original. Algunos de los estadísticos utilizados más a menudo para
solucionar este problema son los siguientes:

Ecuación 10. Estadístico phi

El estadístico phi se calcula tomando la raíz cuadrada del cociente entre el estadístico chi
cuadrado y el número de casos. Su valor oscila entre 0 y 1 para variables con dos categorías, y es
igual al coeficiente de correlación de Pearson para variables dicotómicas. No obstante, cuando las
variables no son dicotómicas, el estadístico phi no tiene máximo. Para solucionar este
inconveniente, tenemos el coeficiente de contingencia.
Ecuación 11. Coeficiente de contingencia

A diferencia de phi, el estadístico C sí tiene máximo, pero su problema es que este máximo no
llega a la unidad ni siquiera cuando las variables están perfectamente correlacionadas. De hecho,
en el caso de las tablas cuadradas, sabemos que su máximo es la raíz del cociente entre el número
de filas menos 1 y el número de filas. Esta última propiedad está en la base de una variante de este
coeficiente.

Ecuación 12. Coeficiente de contingencia ajustado

Tiene un valor máximo igual a uno en las tablas cuadradas, pero no en las demás. Hay un
coeficiente alternativo, la V de Cramer, que se puede calcular para cualquier tipo de tablas:

Ecuación 13. V de Cramer

Este coeficiente siempre está comprendido en el rango entre cero y uno, para cualquier tabla, y
es el preferido por muchos investigadores. Ahora bien, se deben tener en cuenta tres limitaciones
de esta medida sumaria.

Primera, tomada aisladamente, no nos informa sobre qué categorías son las responsables de
la asociación entre las variables.
Segunda, no está claro cómo interpretar un valor concreto del estadístico: ¿qué significa
que la V de Cramer valga 0,34, por ejemplo?
Tercera, asume que las tablas son simétricas –no distingue entre variables dependientes e
independientes– (Sánchez Carrión, 1995, págs. 270-271).

3.2.2. Medidas basadas en la reducción del error de predicción

El estadístico de esta clase utilizado más a menudo es la lambda de Goodman y Kruskal.

Coeficiente lambda de Goodman y Kruskal (λ)

Medida de asociación entre variables nominales basada en la reducción del error de


predicción, que responde a la pregunta de en qué medida se puede mejorar la capacidad de
predicción de la clasificación de un individuo en una variable Y gracias a que sabemos cómo
se clasifica en otra variable X.

La fórmula para calcular λ es la siguiente:

Ecuación 14. Lambda de Goodman y Kruskal (λ)

Donde E1 es el error que se cometería en la predicción de la clasificación de un individuo en


una variable Y sin saber su clasificación en X, y E2 es el error que se cometería en la predicción
de la clasificación de un individuo en Y cuando se sabe su clasificación en X. Por lo tanto, λ
calcula la reducción en el error de predicción, y lo hace como proporción del error de predicción
inicial que se tendría sin saber cómo se clasifica el individuo en X.
El coeficiente λ puede ser simétrico, cuando no asume que una variable sea la dependiente, y la
otra, la independiente; o asimétrico, cuando sí hace esta asunción. Además, este coeficiente no
será el mismo si se asume que una variable dada es la dependiente, o si se asume que la relación
de causalidad es la inversa.
Para ilustrar el cálculo de este coeficiente, emplearemos las variables «amigos» (recodificación de la variable «p2702», que recoge
la frecuencia con la que los encuestados hablan de las elecciones con sus amigos) y «sexo» del cuestionario 2757 del CIS.

Tabla 28. Porcentajes de columna («amigos» y «sexo»)

Amigos \ Sexo Hombre Hombre Mujer Mujer Total Total


(N) (%) (N) (%) (N) (%)
0_nunca 636 21,7 1.124 35,9 1.760 29,0
Raramente 673 23,0 757 24,2 1.430 23,6
A veces 1.190 40,6 919 29,4 2.109 34,8

Habitualmente 432 14,7 329 10,5 761 12,6

Total 2.931 100 3.129 100 6.060 100


Error univariado 1.741 2.210 3.951

Error bivariado 1.741 2.005 3.746

Fuente: CIS, cuestionario 2757. Elaboración propia.

Si no sabemos nada sobre la variable «sexo», ¿cuál será nuestra mejor predicción sobre la
frecuencia con la que los encuestados hablan de las elecciones? Como no tenemos ninguna otra
información, la mejor predicción que podremos hacer es decir que un encuestado en particular
caerá en la categoría con más frecuencia en la muestra. Los datos para tomar esta decisión figuran
en la última columna de la tabla. Como se puede ver, la categoría más frecuente es «a veces», con
un 34,8 % de los casos. Por lo tanto, si hacemos esta predicción, acertaremos en 2.109 casos, y nos
equivocaremos en los restantes 3.951 (= 6.060 – 2.109) casos.
Si sabemos el género de los encuestados, podremos constatar que, mientras que en el caso de
los hombres, la categoría más habitual continúa siendo «a veces», la de las mujeres es «nunca».
Entonces, nuestra mejor predicción, cuando conocemos el género de un encuestado, continuará
siendo «a veces» si este es hombre, y nos continuaremos equivocando en 1.741 (= 2.931 – 1.190)
casos, pero cambiará a «nunca» si esta es mujer, y reduciremos nuestros errores de predicción de
2.210 (= 3.129 – 919) a 2.005 (= 3.129 – 1.124). Así pues, nuestro error habrá bajado a 3.746
casos.
Por lo tanto, habremos reducido nuestro error de predicción en 205 (3.951 - 3.746) gracias a
conocer el género de los encuestados, lo cual supone un 5,2 % (205/3.951) de reducción del error.
Este es el valor proporcionado por el coeficiente λ.
Observad que, en este caso, no tiene mucho sentido teórico calcular el coeficiente λ para la
otra dirección de causalidad –ni que fuera simétrico– puesto que es evidente que el género tiene
que haber quedado determinado mucho antes de que los encuestados hablaran de las elecciones
con sus amigos y, por lo tanto, no puede ser nunca la variable dependiente.

3.2.3. La diferencia de porcentajes

Para estudiar la intensidad de la relación entre el género y la percepción sobre si los políticos
son interesados, podemos comparar la diferencia en el porcentaje de políticos que son percibidos
como nada, un poco, bastante o muy interesados entre hombres y mujeres. Esta diferencia,
lógicamente, oscila entre d = 0,0 %, cuando las percepciones son iguales entre hombres y mujeres,
y 100 %, cuando todos los miembros de un género comparten una percepción y ninguno de los
otros las comparte.
Tabla 29. Diferencia de porcentajes («interesados» y «género»)

Interesados \ Sexo 1_Hombre 2_Mujer Diferencia

0_Nada 5,3 4,9 0,4

1_Un_poco 32,2 27,0 5,2

2_Bastante 45,5 51,4 -5,8

3 _Mucho 17,0 16,7 0,3

Total 100 100 100

Fuente: CIS, cuestionario 2757. Elaboración propia.

En la tabla 29, se puede observar que las diferencias para las categorías extremas de percepción («nada» y «muy» interesados)
son casi inapreciables, mientras que las cifras difieren más para la percepción de que son «un poco interesados» (un 5,2 % mayor
entre los hombres) o «bastante interesados» (un 5,8 % mayor entre las mujeres).

Naturalmente, si, en lugar de una variable dicotómica, como el género, consideráramos una
politómica (de varias categorías), como el estado civil, se tendría que sacar una batería de
diferencias de porcentajes. Esta es una de las razones por las cuales esta medida no es empleada
muy a menudo en tablas donde las variables tienen varias categorías; aun así, se ha de tener
presente que sacar más de un coeficiente no es en sí mismo un problema (no necesariamente un
único porcentaje tendría que ser preferido para resumir la información de la relación entre
variables). De hecho, según la opinión de algunos autores, la diferencia de porcentajes es el mejor
estadístico para ver la relación entre variables nominales (Sánchez Carrión, 1995, pág. 267).

3.3. Estadísticos de resumen para variables ordinales

3.3.1. Estadísticos para variables ordinales con pocas categorías

Cuando las variables que queremos analizar son ordinales, tendrá sentido analizar no
solamente si están relacionadas entre sí, sino también si, cuando una de ellas crece, la otra
también tiende a crecer o la otra tiende a decrecer.
Para llevar a cabo esta tarea, disponemos de un coeficiente, gama, así como de unos
coeficientes alternativos (tau b, tau c, y D de Sommers).

Coeficiente gama (γ)

Estadístico que mide si el orden para los individuos en una variable X y en otra variable Y
tiende a ser concordante o discordante. Para ello, computa la diferencia entre las parejas de
observaciones en las que encontramos órdenes concordantes y las parejas en las que
encontramos órdenes discordantes, y las divide por la suma de las dos.

Veamos cómo se calcula el coeficiente gama retomando los datos de la tabla 21 (para evitar alargar innecesariamente este
apartado, aquí solamente se presentan las frecuencias absolutas):

Tabla 30. Frecuencias absolutas («interesados» y «despreocupados»)

Interesados \ despreocupados 0_Nada 1_Un poco 2_Bastante 3_Mucho

0_Nada 87 104 71 27
1_Un poco 47 913 608 58
2_Bastante 32 545 1.883 242

3_Mucho 22 87 300 544

Fuente: CIS, cuestionario 2757. N = 5.570. Elaboración propia.

Como recordaréis, la tabla 21 daba pie a la idea «simétrica» de que las personas que ven a los
políticos como nada o poco despreocupados tienden a verlos como nada o poco interesados,
mientras que las personas que los ven como bastante o muy despreocupados suelen percibirlos
también como interesados.
En conjunto, los datos sugerían que ambas variables no son independientes, sino que más bien
se movían en la misma dirección. Gracias al coeficiente gama, podremos estudiar hasta qué punto
esta noción es defendible. Lo que haremos será estudiar sistemáticamente en qué medida es cierto
que, cuando un individuo manifiesta un valor mayor que otro en una de las variables, también
manifiesta un valor mayor en la otra variable. Para ello, calcularemos la frecuencia relativa en la
que un individuo se caracteriza por valores más altos que el otro en las dos variables.
Para referirnos rápidamente a cada par de celdas, convendrá presentar la tabla de manera más
abstracta:

Tabla 31. Órdenes y casillas de una tabla de contingencia. Presentación abstracta

V1 \ V2 Orden 1 Orden 2 Orden 3 Orden 4

Orden 1 A B C D

Orden 2 E F G H

Orden 3 I J K L

Orden 4 M N O P

Lo que debemos hacer es tratar de ver en qué medida las parejas de observaciones de los
valores de las variables 1 y 2 tienden a ser concordantes o discordantes. Cuando un individuo está
en la casilla A y otro individuo, en la F, esta pareja de observaciones presentará un carácter
concordante, puesto que el primer individuo tiene un valor menor (de orden 1) para las dos
variables, y el segundo individuo tiene valores más altos, de orden 2, para ambas. Es decir, el valor
más alto para un individuo en la primera dimensión (o variable) viene de la mano de un valor más
alto también en la segunda variable.
Para calcular el conjunto de parejas concordantes, tendremos que sumar el conjunto de parejas
definidas por las combinaciones siguientes: AF, AG, AH, AJ, AK, AL, AN, AO, AP, BG, BH, BK,
BL, BO, BP, CH, CL, CP, EJ, EK, EL, EN, EO, EP, FK, FL, FO, FP, GL, GP, IN, IO, IP, JO, JP, y
KP. Evidentemente, para cada combinación de celdas, si la primera celda tiene i individuos y la
segunda tiene j, el número de parejas posibles entre ellas viene definido por el producto i x j:

Tabla 32. Número de parejas para cada combinación de celdas concordantes

AF AG AH AJ AK AL AN AO AP

79.431 52.896 5.046 47.415 163.821 21.054 7.569 26.100 47.328

BG BH BK BL BO BP CH CL CP

63.232 6.032 195.832 25.168 31.200 56.576 4.118 17.182 38.624

EJ EK EL EN EO EP FK FL FO

25.615 88.501 11.374 4.089 14.100 25.568 1.719.179 220.946 273.900

FP GL GP IN IO IP JO JP KP

496.672 147.136 330.752 2.784 9.600 17.408 163.500 296.480 1.024.352

Total 5.760.580

Fuente: CIS, cuestionario 2757. Elaboración propia.

En cambio, cuando un individuo está en la casilla D y otro en la M, esta pareja presenta un


carácter discordante, puesto que el primer individuo tiene un valor alto (4) para la primera
variable y bajo (1) para la segunda, mientras que el segundo individuo tiene un valor bajo (1) para
la primera variable, pero un valor alto (4) para la segunda. La tabla siguiente muestra (de manera
más sintética) el número de parejas para cada combinación de celdas discordantes:

Tabla 33. Número de parejas para cada combinación de celdas discordantes

BE BI BM CE CF CI CJ CM CN DE DF DG

4.888 3.328 2.288 3.337 64.823 2.272 38.695 1.562 6.177 1.269 24.651 16.416

DI DJ DK DM DN DO FI FM GI GJ GM GN

864 14.715 50.841 594 2.349 8.100 29.216 20.086 19.456 331.360 13.376 52.896

HI HJ HK HM HN HO JM KM KN LM LN

1.856 31.610 109.214 1.276 5.046 17.400 11.990 41.426 163.821 5.324 21.054 72.600
Total 1.196.176

Fuente: CIS, cuestionario 2757. Elaboración propia.

Ahora, ya estamos en posición de calcular el coeficiente gama sin ulteriores problemas. Quizá
vale la pena presentar una ecuación con su definición formal para aplicarla después a los datos de
nuestro ejemplo:

Ecuación 15. Coeficiente gama

Donde P es el número de parejas concordantes, y Q, el número de parejas discordantes. Este


coeficiente puede valer, como máximo, +1, cuando todas las parejas son concordantes, y, como
mínimo, -1, cuando todas las parejas son discordantes.
Si aplicamos esta definición a nuestro ejemplo:

Esta cifra es positiva y «relativamente» elevada. Indica que las variables «interesados» y
«despreocupados» presentan una concordancia (algo así como una correlación, pero para
variables ordinales en lugar de cuantitativas) positiva y bastante alta, en el sentido de que valores
(rangos) más altos en una de las variables están sistemáticamente asociados a rangos más altos en
la otra.
Observad que el coeficiente gama solo contabiliza los pares concordantes (donde un
individuo manifiesta órdenes más altos para las dos variables que otro individuo) y los pares
discordantes, pero no tiene en cuenta los empates (aquellos en los que, en alguna variable, los dos
individuos asumen el mismo valor).
Hay medidas alternativas que sí tienen en cuenta las parejas empatadas. Las más conocidas son
tau b, tau c (ambas debidas a Maurice Kendall) y la D de Sommers. Las diferencias entre ellas
dependen de cómo utilizan los empates. Empezaremos con la D de Sommers, puesto que es,
quizá, el más intuitivo de los coeficientes mencionados.

Ecuación 16. D de Sommers


Intuitivamente, lo que hace no es nada más que añadir al denominador de la fórmula de la
gama la media del número de parejas fila y de parejas columna empatadas. Donde, como antes, P
es el número de parejas concordantes, y Q, el de parejas discordantes. Además, F es el número de
parejas fila empatadas, y C, el número de parejas columna empatadas.
En nuestro ejemplo, F está determinado por las parejas correspondientes a las combinaciones
AE, AI, AM, EI, EM, IM, BF, BJ, BN, FJ, FN, JN, CG, CK, CO, GK, GO, KO, DH, DL, DP, HL,
HP y LP. Por su parte, C está determinado por las parejas correspondientes a las combinaciones
AB, AC, AD, BC, BD, CD, EF, EG, EH, FG, FH, GH, IJ, IK, IL, JK, JL, KL, MN, MO, MP, NO,
NP y OP.

Ecuación 17. Coeficiente tau b (τb)

A diferencia del coeficiente gama, este estadístico usa los empates, pero lo hace de una manera
diferente a la D de Sommers. Una vez más, P es el número de parejas concordantes, Q, el de
parejas discordantes, F, el de parejas fila empatadas, y C, el de parejas columna empatadas.

Ecuación 18. Tau c

P y Q tienen los significados habituales; además, m es el mínimo número de filas o columnas, y


n, el tamaño de la muestra.
La mayoría de los paquetes estadísticos permiten calcular automáticamente gama, tau b, tau c y
la D de Sommers, y nos proporcionan, además, el nivel de significación de los estadísticos
calculados. Aun así, por razones pedagógicas, se ha juzgado conveniente seguir el proceso de su
construcción, puesto que así sabréis cuál es la lógica empleada para su cómputo.

3.3.2. Estadísticos para variables ordinales con muchas categorías

Cuando disponemos de una variable de intervalo, como la identidad ideológica, que se suele
medir en escalas de 0 al 10 o de 1 al 10, definidas sobre el conjunto de los números naturales,
algunos autores se sienten satisfechos tratándolas como variables cuantitativas, mientras que otros
consideran que es más adecuado tratarlas como variables ordinales con «muchas» categorías.
En estos casos, hay dos estadísticos habitualmente empleados para calcular la correlación entre
ellas: la rho de Spearman, y el coeficiente de Pearson, aplicados a los rangos de las observaciones.

Ecuación 19. Coeficiente de correlación rho de Spearman (rho, ρ)

Donde di es la diferencia, para cada caso i, en los rangos de las dos variables, y n, el tamaño de
la muestra.
Ejemplo

Consideremos el ejemplo siguiente: en una clase (datos «Notas 4», inventadas) hay alumnos con edades comprendidas entre los
17 y 22 años, que han sacado notas que van de 6 a 10 puntos.

Tabla 34. Tabla de dos columnas («años» y «notas»)

Observación Años Nota

1 17 6

2 18 5

3 19 7

4 20 7

5 20 7

6 20 8

7 21 7

8 21 8

9 21 10

10 22 9
Fuente: Datos inventados, «Notas 4». N = 10. Elaboración propia.

La primera tarea que hemos de llevar a cabo es ordenar las variables según los rangos de sus
valores para cada observación. Lo haremos, primero, para la variable «años»:

Tabla 35. Construcción de los rangos para la variable «años»

Rango Rango Rango Rango


Observación Años
(media) (bajo) (alto) (condensa)

1 17 1 1 1 1

2 18 2 2 2 2

3 19 3 3 3 3

4 20 5 4 6 4

5 20 5 4 6 4

6 20 5 4 6 4

7 21 8 7 9 5

8 21 8 7 9 5

9 21 8 7 9 5

10 22 10 10 10 6

Fuente: Datos inventados, «Notas 4». N = 10. Elaboración propia.

Observad que, en la tabla 35, se presentan diferentes alternativas para la construcción de los
rangos, los cuales difieren, principalmente, en su tratamiento de las categorías con más de una
observación: se puede emplear el rango correspondiente a la media de los rangos ocupados por la
categoría, el rango más bajo o el rango más alto de esta (por ejemplo, en el caso de aquellos que
tienen 20 años, ocupan las posiciones 4, 5 y 6: se les puede asignar el rango correspondiente a la
media, 5; el rango más bajo, 4; o el rango más alto, 6). Finalmente, la última alternativa
«condensa» la numeración y ordena las categorías definiendo los rangos sobre los números
naturales, sin dejar ningún «vacío». Ahora, repetimos el proceso para la variable «notas»:

Tabla 36. Construcción de los rangos para la variable «notas»

Rango Rango Rango Rango


Observación Nota
(media) (bajo) (alto) (condensa)

1 6 2 2 2 2

2 5 1 1 1 1

3 7 4,5 3 6 3
4 7 4,5 3 6 3

5 7 4,5 3 6 3

6 8 7,5 7 8 4

7 7 4,5 3 6 3

8 8 7,5 7 8 4

9 10 10 10 10 6

10 9 9 9 9 5

Fuente: Datos inventados, «Notas 4». N = 10. Elaboración propia.

El coeficiente rho de Spearman emplea, para sus cálculos, los rangos de las observaciones
basados en el procedimiento de la media. A partir de estos rangos, calcula las diferencias para
cada observación y las eleva al cuadrado:

Tabla 37. Cálculo del coeficiente rho de Spearman, detalle («años» y «notas»)

Rango Rango
Observación Años Nota d d2
(años) (nota)

1 17 6 1 2 -1 1

2 18 5 2 1 1 1

3 19 7 3 4,5 -1,5 2,25

4 20 7 5 4,5 0,5 0,25

5 20 7 5 4,5 0,5 0,25

6 20 8 5 7,5 -2,5 6,25

7 21 7 8 4,5 3,5 12,25

8 21 8 8 7,5 0,5 0,25

9 21 10 8 10 -2 4

10 22 9 10 9 1 1

TOTAL 28 ,5

Fuente: Datos inventados, «Notas 4». N = 10. Elaboración propia.

A partir de aquí, solamente queda sustituir los datos en la fórmula proporcionada en la


ecuación 19:
La otra posibilidad es recurrir al conocido estadístico de correlación de Pearson (que se verá
en el capítulo siguiente) pero usando los órdenes o rangos calculados en la tabla 35 y en la tabla
36 en lugar de los valores originales de las variables. Este cálculo se puede llevar a cabo
empleando cualquiera de los procedimientos para el cómputo de los rangos, y cuando se usan los
rangos de las observaciones basados en el procedimiento de la media, el resultado coincide con el
proporcionado por la rho de Spearman.

4. Una nota sobre los análisis con tres variables o más


Hasta el momento, hemos restringido los análisis a dos variables. En gran medida, las
herramientas estudiadas hasta aquí se pueden generalizar sin problemas a tres variables o más,
aunque esta extensión suele plantear dificultades técnicas en cuanto a la presentación adecuada e
intuitiva de la información.
Para mostrar cómo se podría llevar a cabo esta tarea, presentaremos un breve ejemplo para
tres variables, mediante el cual esperamos demostrar el potencial que este tipo de análisis puede
tener en el estudio de las relaciones entre las diferentes variables disponibles en una base de datos.
Ejemplo

Tomaremos, una vez más, los datos del cuestionario CIS 2757, en este caso, las variables «voto» (recodificada) y «P»
(consideración de que el propio voto no influye nada, influye poco, influye bastante o influye mucho en los resultados
electorales). Pongamos que queremos estudiar el efecto de esta segunda sobre la primera: es cierto que una de las variables que
más afecta a la probabilidad de votar o abstenerse es la famosa P puesta de relieve por los modelos racionales (Aldrich, 1993,
págs. 247-251; Aldrich, 1997, págs. 377-378; Downs, 1957, págs. 38-40, 244-245, 265-272; Ferejohn, Fiorina, 1974, págs. 526-
527; Riker, Ordeshook, 1968, págs. 25-26).

Tabla 38. Frecuencias absolutas y porcentajes de columna («VOTO» y «P»)

VOTO\P 0_nada 1_poco 2_bastante 3_mucho Total

60 269 281 80 690


0_No votó
30,3 24,9 8,7 6,6 12,0

138 813 2.964 1.135 5.050


1_Sí votó
69,7 75,1 91,3 93,4 88,0

198 1.082 3.245 1.215 5.740


Total
100,0 100,0 100,0 100,0 100,0

Fuente: CIS, cuestionario 2757. N = 5.740. Elaboración propia.

Los datos de la tabla 38 permiten apreciar que, tal y como postula el modelo del voto
instrumental –el modelo racional para explicar la decisión de votar o no votar–, cuanto mayor es
la percepción de la probabilidad de influir en los resultados electorales, menor es la probabilidad
de abstenerse (que pasa de 30,3 % para quienes piensan que tienen un valor mínimo de P a 6,6 %
para aquellos que juzgan tener un valor de P muy elevado).
Ahora bien, dado que más del 70 % de los ciudadanos votó, y que los datos de los
cuestionarios electorales siempre infrarrepresentan el porcentaje de abstencionistas, el porcentaje
de abstencionistas no supera el 50 % ni siquiera en el supuesto de que P asume el valor más bajo.
En este sentido, parecería que, a pesar de que P influye en la decisión de votar de la manera
predicha por los modelos racionales, los datos también apoyan a los críticos que señalan que P es
solo «marginalmente» significativa.
No obstante, lo que, de acuerdo con la teoría, alejaría a los ciudadanos de las urnas serían los
costes, pero entonces, habría que considerar la posibilidad de que, por debajo de un cierto umbral
de costes, estos dejaran de influir en la acción (Barry, 1970, pág. 49). A pesar de que, en general,
los costes son bajos, cuando estos sean altos, quizá el porcentaje de abstención y quizá, en este
contexto, la influencia de P sobre el voto resulte determinante. Comprobaremos primero si,
efectivamente, cuanto mayores sean los costes, mayor es la abstención:

Tabla 39. Porcentajes de columna («VOTO» y «COSTES»)

Voto\Coste 0_bajo 1_alto Total

573 168 741


0_No votó
10,5 35,5 12,5

4.901 305 5.206


1_Sí votó
89,5 64,5 87,5

5.474 473 5.947


Total
100,0 100,0 100,0

Fuente: CIS, cuestionario 2757. N = 5.947. Elaboración propia.

Como podemos ver, la primera de nuestras hipótesis se cumple sin problema. Ahora
pasaremos a comprobar la segunda hipótesis: cuando los costes sean grandes, ¿se convertirá en
determinante la influencia de P sobre el voto?

Tabla 40. Influencia de P sobre la abstención y el voto, según el nivel de los costes de votar
C Bajo Alto

P 0 1 2 3 0 1 2 3

No votó 17,9 % 20,8 % 7,7 % 6,3 % 65,0 % 40,8 % 24,1 % 16,7 %

Votó 82,1 % 79,2 % 92,3 % 93,7 % 35,0 % 59,2 % 75,9 % 83,3 %

Total 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 %

Fuente: CIS, cuestionario 2757. N = 5.693. Elaboración propia.


Como se puede comprobar:

Primero, para todas las categorías de P, la abstención es mucho mayor cuando el coste de
votar es alto que cuando es bajo: por ejemplo, cuando P = 0, el porcentaje de abstención
«solo» es 17,9 % cuando el coste es bajo, pero sube hasta 65 % cuando el coste es alto.
Segundo, salvo una excepción menor (paso de P = 0 a P = 1 cuando C = 0), a medida que P
crece, la abstención cae, tanto si el coste de votar es bajo como si es alto.
Tercero, el efecto de aumentos de P sobre la caída de la abstención no es independiente de
C.
Cuarto, en concreto, el efecto de aumentos de P sobre la caída de la abstención es mucho
mayor cuando C = 1: en este caso, pasar de P = 0 a P = 3 provoca una caída de la abstención
de 48,3 % (de 65,0 a 16,7 %), mientras que el mismo aumento de P solamente provoca una
caída en la abstención de 11,6 % (de 17,9 a 6,3 %) cuando los costes son bajos. Observad
que, en el primer caso, el efecto de P es determinante, en el sentido de que, si los costes son
altos, nuestra mejor predicción de si un individuo votará o no variará en función del valor
de P.

La moderación de la relación entre P y el par voto-abstención por parte de los costes de votar
no solamente se puede representar mediante tablas, sino también de forma gráfica. La figura
siguiente ilustra los resultados obtenidos:

Figura 24. Efecto de P sobre el voto, según C


Fuente: CIS, cuestionario 2757. N = 5.693. Elaboración propia.

Observad que, de acuerdo con nuestras expectativas teóricas, teníamos que esperar tres cosas:
primera, P debía incidir positivamente en la probabilidad de votar; segunda, cuando los costes
sean bajos, los ciudadanos tendrán una mayor propensión a votar que cuando sean altos; tercera,
la relación entre «P» y «voto» no tendría que ser independiente de los costes; y cuarta, el efecto de
«P» sobre el voto será más marcado cuando los costes sean altos que cuando sean bajos. La tabla
40 y la figura 24 son coherentes con todas estas hipótesis.
Como veis, las herramientas estudiadas a lo largo del capítulo no se agotan en los análisis de
dos variables, sino que se pueden aplicar al estudio de relaciones más complejas donde tomen
parte tres variables de manera simultánea. En estos casos, pueden resultar especialmente
fructíferas y poderosas, a pesar de que es extremadamente aconsejable no concluir la investigación
en este punto, sino profundizar los análisis y comenzar la contrastación de modelos causales de
regresión. Estos modelos se estudiarán en el capítulo siguiente.
Bibliografía
Aldrich, J. H. (1993). «Rational Choice and Turnout». American Journal of Political Science (vol. 37, núm. 1, págs. 246-278).
Aldrich, J. H. (1997). «When is it rational to vote?». En: D. C. Mueller (ed.). A Perspectives on Public Choice: A handbook (págs. 373-
390). Cambridge: Cambridge University Press.
Barbancho, A. G. (1973). Estadística elemental moderna. Barcelona: Ariel.
Barry, B. (1970). Sociologists, Economists and Democracy. Londres: Collier-Macmillan.
Downs, A. (1957). An Economic Theory of Democracy. Nueva York: Harper & Row.
Ferejohn, J. A.; Fiorina, M. P. (1974). «The Paradox of Not Voting: A Decision Theoretic Analysis». The American Political Science
Review (vol. 68, núm. 2, págs. 525-536).
Peña, D. (2001). Fundamentos de Estadística. Madrid: Alianza Editorial.
Riker, W. H.; Ordeshook, P. C. (1968). «A theory of the calculus of voting». American Political Science Review (vol. 62, núm. 1,
págs. 25-43).
Sánchez Carrión, J. J. (1995). Manual de análisis de datos. Madrid: Alianza Editorial.
Capítulo IV

Los análisis de regresión

1. Introducción al análisis de regresión


Los análisis explicativos nos permiten estudiar las relaciones entre variables en términos de
causas y efectos, es decir, en términos de la dependencia de los valores de una variable, la variable
dependiente (podría haber más de una variable dependiente, pero ese caso no lo veremos aquí)
con respecto a los valores de una o más variables independientes. Estas técnicas establecen una
asimetría fundamental entre las variables, según el papel (dependientes o independientes) que
ejerzan en los análisis (Tacq, 1997, págs. 35-38).
Antes de proseguir, resultará útil recordar qué entendemos por variables dependientes e
independientes:

Variable dependiente

También llamada variable explicada, endógena o regresada; es decir, el «efecto». Con mucha
diferencia, es la variable más importante, ya que es aquélla cuyos valores queremos entender,
explicar, predecir. Sus valores dependen de (están en función de; se pueden explicar por) los
valores de otras variables. Se denota mediante la letra Y. En los gráficos de coordenadas, se
representa, por tradición, en el eje de ordenadas (el eje vertical).

Variable independiente

También llamada variable explicativa, exógena o regresora; es decir, la «causa». Sus valores
condicionan o explican los valores de otras variables. Se denota con la letra X, y, en los
gráficos de coordenadas, se representa en el eje de abscisas (el eje horizontal).

Se podrían resaltar tres grupos de técnicas explicativas:

Técnicas orientadas a clasificar las observaciones en distintos grupos de una variable


cualitativa (análisis discriminante) o múltiples cualitativas (análisis discriminante múltiple),
en función de los valores de variables independientes (cuantitativas y cualitativas). El papel
de la dependiente lo juega(n) la(s) variable(s) de clasificación cualitativa(s). Estas técnicas
quedan fuera del alcance de este libro.
Técnicas orientadas a explicar la varianza (y covarianza) de una variable dependiente
cuantitativa, en función de los valores de las variables independientes (cuantitativas y
cualitativas): ANOVA, ANCOVA, MANOVA y MANCOVA. ANOVA estudia qué parte
de la varianza de Y se puede explicar en función de independientes cualitativas, y ANCOVA
extiende el procedimiento para incluir independientes cuantitativas (en la práctica, es
habitual llamar «ANOVA» a todas). MANOVA y MANCOVA son sus sendos correlatos
para múltiples variables dependientes (la M inicial alude a «Múltiple»). Estas técnicas están a
medio camino entre las técnicas de análisis descriptivo multivariante y las técnicas
explicativas pero, como están muy relacionadas con los análisis de regresión, se estudian en
uno de los apartados de la siguiente sección.
Técnicas orientadas a explicar cómo cambia el valor de la variable dependiente (que puede
ser tanto cuantitativa como cualitativa, pero eso condicionará el modelo específico más
pertinente) en función de un conjunto de variables independientes (que también pueden ser
tanto cuantitativas como cualitativas): modelos de regresión (lineales y no lineales).

La técnica de análisis estadístico explicativo por excelencia es el análisis de regresión. La


regresión es, sin duda, una de las técnicás de análisis de datos más conocidas y utilizadas, y este
capítulo está dedicado íntegramente al estudio de esta técnica en sus diferentes versiones y
posibilidades.
En esta sección introductoria, te familiarizarás con el origen histórico del análisis de regresión
y del término mismo, así como con su interpretación y definición modernas. A continuación,
estudiarás cómo seleccionar la técnica de regresión más apropiada según los datos que quieras
analizar. La sección concluye con la discusión de algunas cuestiones que ayudan a sacarle el
máximo provecho a los análisis de regresión. En la segunda sección, se presenta el modelo clásico
de regresión y, en la tercera, se discuten sus violaciones y extensiones.
Históricamente, el término regresión está motivado por el hallazgo de Galton sobre la
regresión a la mediocridad. Galton estudió la altura de los hijos y las hijas en función de la altura
de los padres. El estudio mostraba que, si bien los hijos e hijas de padres altos tendían a ser
relativamente altos (altas), y los hijos e hijas de padres bajos tendían a ser relativamente bajos
(bajas), los hijos e hijas de padres muy altos no eran tan altos (altas) como sus padres, ni los hijos
e hijas de padres muy bajos eran, en general, tan bajos (bajas) como sus progenitores. Había, por
lo tanto, una tendencia a volver a la media de la población, en palabras de Galton, una «regresión
a la mediocridad».
La interpretación moderna del término destaca la dependencia de los valores de una variable
(llamada variable dependiente) con respecto a los valores de una variable (o más), llamada(s)
variable(s) explicativa(s):
Regresión

Técnica de análisis de datos empleada para estudiar la dependencia de una variable (llamada
variable dependiente, y denotada, tradicionalmente, mediante la letra Y) con respecto a una
variable (llamada variable explicativa, y denotada, tradicionalmente, mediante la letra X). Es
decir, la estimación de la media de Y dependerá de los valores asociados de X, los cuales se
consideran fijos o dados.

En términos generales, lo que se analiza mediante una regresión es cómo cambia la media de
Y al cambiar los valores de X.
Ejemplo 1: ¿cómo cambia la altura media de los hijos al cambiar la altura de los padres?
Ejemplo 2: ¿cómo cambia la altura media de los hijos al cambiar la edad?
Ejemplo 3: ¿cómo cambia la tasa de paro media al cambiar el salario mínimo?
Ejemplo 4: ¿cómo cambian las tenencias medias de dinero al cambiar la tasa de inflación?

Más que una técnica de análisis de datos concreta, los análisis de regresión son una amplia
familia de técnicas. Lo primero es establecer si se formula un modelo de regresión lineal o no
lineal. Esta decisión está exclusivamente condicionada por el nivel de medida de la variable
dependiente.

1) Variable dependiente cuantitativa. Cuando tenemos una variable dependiente
cuantitativa, lo más adecuado será un análisis de regresión lineal.
2) Variable dependiente cualitativa. Si la variable dependiente es cualitativa, convendrá
optar por una regresión no lineal. Entonces, la segunda decisión es qué modelo no lineal es el
más pertinente:
2.1. Variable dependiente ordinal. Si la variable dependiente es ordinal, lo más adecuado
será un análisis de regresión logístico ordinal (ologit) o la variación que utiliza una estructura de
errores normal, el probit ordinal (oprobit).
2.2. Variable dependiente nominal. Si la variable dependiente es nominal, y las alternativas
de respuesta son las mismas para todos los individuos, lo mejor será un análisis de regresión
multinomial (mlogit o mprobit). Cuando las alternativas de respuesta varían para cada individuo,
serán preferibles otras opciones, como el análisis de regresión logística condicional (clogit), la
regresión logística para la ordenación de rangos y el análisis de regresión probit multinomial
específico.
2.3. Variable dependiente dicotómica. Finalmente, si la variable dependiente es dicotómica,
lo óptimo será un análisis de regresión logístico (logit) o el análisis de regresión probit (probit).

Antes de concluir este apartado, vale la pena hacer unas consideraciones adicionales.

1) Primera, recuerda el papel que tienen la teoría y la causalidad. Es la teoría la que, en última
instancia, determina qué relaciones causales se tienen que considerar plausibles –y se tienen que
someter a contrastes empíricos– y cuáles no. La detección –o no– de relaciones estadísticas que
«apoyen» o refuten las relaciones causales hipotetizadas tendrá lugar, solamente, en un segundo
momento, con el objeto de contrastar la validez de las hipótesis teóricas avanzadas. Por esta
razón, resulta fundamental otorgar una gran importancia a la revisión de la literatura y al diseño
del marco teórico, puesto que, sin sólidos fundamentos teóricos, los análisis empíricos, a pesar de
que haya relaciones estadísticas, resultan de poca utilidad.
2) Segunda, distingue entre las relaciones determinísticas y las relaciones estadísticas. Las
primeras establecen una relación funcional entre variables, sin que esta relación esté matizada por
el azar. Las segundas establecen una relación estadística entre las variables matizada por el azar.
La inclusión de un término aleatorio, estocástico, de error o de azar convierte la variable
dependiente en una variable igualmente aleatoria, estocástica.
3) Tercera, presta atención a qué análisis haces a partir de datos poblacionales y cuáles, con
datos muestrales. Cuando son del segundo tipo –como sucede la mayoría de las veces–, se deben
hacer todos los esfuerzos posibles para garantizar que las muestras utilizadas permitan realizar
inferencias válidas sobre las poblaciones estudiadas. Ahora bien, incluso los diseños muestrales
más cuidadosos son incapaces de garantizar que los datos muestrales reproduzcan exactamente
los datos poblacionales: la utilización de muestras introduce, por lo tanto, un elemento de
aleatoriedad (en la selección o no de observaciones concretas), lo que hace que esta consideración
entronque con la consideración precedente.
4) Cuarta, distingue entre la detección de la correlación (de la fuerza de la asociación) lineal
entre dos variables (estudiada ya en el capítulo precedente) y la estimación, explicación o
predicción del valor medio de la variable dependiente. Esta explicación es el objetivo principal de
los análisis de regresión, y su estudio constituye el objeto central de este capítulo.
5) Finalmente, conviene aclarar unas cuestiones de la notación que se empleará a lo largo del
capítulo. Como ya se ha avanzado, por norma general, denotaremos la variable dependiente
mediante la letra Y, y la variable o variables independientes, mediante la letra X. Cuando los
modelos incluyan más de una variable independiente, utilizaremos subíndices para diferenciar
entre la primera variable dependiente, X1, la segunda, X2, y así sucesivamente.
Estos subíndices pueden estar acompañados por subíndices adicionales, i, j, k, los cuales se
usarán para identificar diferentes unidades espaciales, como por ejemplo países o regiones.
Cuando nuestros datos incluyan varias unidades espaciales de este tipo, decimos que trabajamos
con datos de corte transversal. En cambio, para identificar observaciones correspondientes a
unidades en diferentes momentos del tiempo, lo haremos, generalmente, mediante los subíndices
t, t–1, t–2 y similares. Cuando nuestros datos no incluyan varias unidades espaciales pero sí varias
unidades temporales, decimos que trabajamos con datos longitudinales, o series temporales.
Cuando nuestros datos incluyan unidades de los dos tipos, decimos que trabajamos con datos de
panel o datos agrupados y, si estos datos son para el nivel individual, generalmente querremos
remarcar este hecho, y diremos que trabajamos con datos de micropanel.

2. El modelo clásico de regresión lineal


Dado que la mayoría de los conceptos para entender el modelo clásico de regresión se pueden
definir para los modelos, más sencillos, con dos variables, una dependiente y otra independiente,
se presentará, primero, el modelo de regresión para dos variables, para simplificar la exposición.
Este modelo tiene, además, la ventaja de que se puede graficar fácilmente en dos dimensiones, y se
puede extrapolar fácilmente al caso en el que haya más variables independientes.

2.1. Análisis de regresión con dos variables

Como se ha avanzado más arriba, lo que, en términos generales, se pretende analizar mediante
una regresión es cómo cambia la media de Y al cambiar los valores de X. Por lo tanto, lo primero
que habrá que definir con precisión es esta «media de Y».

Valor esperado incondicional de Y, E(Y)

Es el valor esperado de Y para el conjunto de todas las observaciones, sin condicionarlo a


ningún valor específico de X.

Valor esperado condicional de Y, E(Y|X=x)

Es el valor esperado de Y para el conjunto de las observaciones que tienen un valor x en la


variable X, es decir, es el valor esperado de Y condicionado a un determinado valor de X.

Observad que el análisis de regresión aportará resultados «interesantes» en la medida en que


E(Y) y E(Y|X=x) difieran, es decir, en la medida en que el valor esperado condicional de Y
(condicional a X=x) sea distinto de su correlato incondicional. Si ambos valores difieren,
significará que podemos predecir mejor la media de Y conociendo el valor de X, tarea que
constituye precisamente el objetivo de los análisis de regresión.
Observad también que, si bien E(Y) es un parámetro, E(Y|X=x) puede tomar, en principio,
valores diferentes para los distintos valores de X. El conjunto de estos valores (técnicamente,
denominado el lugar geométrico de estos valores) recibe el nombre de curva de regresión. Cuando esta
curva es una línea recta, recibe el nombre más familiar de recta de regresión.

Curva de regresión

Lugar geométrico de E(Y|X=x). Es decir, en palabras sencillas, conjunto de valores de


E(Y|X=x). Gráficamente, la curva de regresión une los puntos que satisfacen E(Y|X=x)
para todo x ε X. Esta curva también recibe los nombres de función de expectativa
condicional, función de regresión o, simplemente, regresión (de Y sobre X).

Este término puede ser precisado en función de si estamos hablando de datos poblacionales o
muestrales, con lo cual podríamos hablar de curva de regresión poblacional y curva de regresión
muestral.

2.2. La linealidad en el modelo clásico

De manera general, la curva de regresión se puede formalizar mediante una función que
relacione la esperanza (condicional) de Y con los valores de la variable independiente:

Ecuación 1. Función de regresión. Formalización general, con una variable


independiente

La forma de la función de regresión es una cuestión empírica. Por ejemplo, se puede plantear
la hipótesis de que esta función es lineal:

Ecuación 2. Función de regresión. Caso lineal, con una variable independiente

Esta función es lineal porque cada aumento de X1 en una unidad provoca un aumento de
E(Y|X1) en β1 unidades.
Recta de regresión

Caso especial de la curva de regresión en el que esta es lineal. También aquí podemos
precisar y hablar de recta de regresión poblacional y recta de regresión muestral.

Para dar una interpretación sustantiva a esta función, tomamos la descomposición tradicional
de los costes totales en costes fijos y variables:

Ecuación 3. Descomposición de los costes totales en costes fijos y costes variables

CTi = CFi + CVi

Recordemos, además, que, si el coste marginal es constante,

Ecuación 4. Coste variable en función del coste marginal, para un coste marginal
constante

CVi = CMg × Xi

Donde CMg es el coste marginal y Xi es el nivel de producción. Por lo tanto, si subsumimos la


ecuación 4 en la ecuación 3, escribiremos:

Ecuación 5. Coste total en función del coste fijo, el coste marginal y el nivel de
producción

CTi = CFi + CMg × Xi

Es inmediato comprobar que la ecuación 5 es una aplicación de la ecuación 2, donde Yi = CTi


son los costes totales de la empresa, y β0 = CFi, el coste fijo (esto se entenderá mejor de aquí a un
momento), X1i, el nivel de producción de la empresa i, y β1X1i = CMg × Xi, los costes variables
de la empresa.
Imaginemos, para entenderlo mejor, que β0 = 10, y β1 = 3. Con estos datos, hemos construido
la tabla 41, en la que podemos comprobar cómo, efectivamente, cada aumento de X1 en una
unidad provoca un aumento de E(Y|X1i) en β1 (en este caso, tres) unidades. La hemos construido
para los valores de X1 entre 0 y 10, definidos sobre el conjunto de los números naturales:
Tabla 41. Costes totales como función lineal del nivel de producción

Y = Coste total β 0 = Coste fijo X = Producción β 1 = Coste marginal β 1×X1 = Coste variable

10 10 0 3 0

13 10 1 3 3

16 10 2 3 6

19 10 3 3 9

22 10 4 3 12

25 10 5 3 15

28 10 6 3 18

31 10 7 3 21

34 10 8 3 24

37 10 9 3 27

40 10 10 3 30

«Costes 1». N = 11.


Fuente: Datos inventados. Elaboración propia.

Si se representan estos valores mediante un gráfico de coordenadas, se apreciará sin dificultad


cómo todos los puntos del gráfico se alinean a lo largo de una línea recta.

Figura 25. Costes totales como función lineal del nivel de producción
«Costes 1». N = 11.
Fuente: Datos inventados. Elaboración propia.

De hecho, el punto de corte en el eje de ordenadas (el eje vertical) es, precisamente, β0 = 10, y
la pendiente de la recta es β1 = 3. Esto no es casualidad, sino que sucederá con todos los modelos
lineales.
La linealidad observada se debe a dos razones. Primera, X1 es de primer grado, es decir, está
elevado a la unidad; si estuviera elevado al cuadrado, por ejemplo, el gráfico de coordenadas
asociado dejaría de ser lineal (comprobadlo). Segunda, β1 es un parámetro, una constante; si no
fuera así, el gráfico de coordenadas también dejaría de ser lineal (comprobadlo para el caso de
que β1 es igual a tres para X entre 0 y 2, igual a dos para X entre 2 y 4, igual a la unidad para X
entre 5 y 7, e igual a cero para X mayor que 7).

Linealidad en las X. La curva de regresión será una línea recta cuando Y experimente
siempre el mismo cambio al cambiar X, o, formalmente, cuando ∂Y/∂Xi (la derivada de Y
respecto a X) sea constante, para cualquier i. Esto implica dos cosas. Por un lado, ∂Y/∂Xi
no puede depender del valor de Xi y, por lo tanto, esta tiene que estar elevada a la unidad.
Por otro lado, en el caso de los modelos con más de una variable independiente, ∂Y/∂Xi no
puede depender del valor de ninguna Xj.
Linealidad en los parámetros. E(Y|X1i) es lineal en β1 (o, de manera más general, para los
modelos con más de una variable independiente, la esperanza condicional de Y es lineal en
las betas). Formalmente, esto sucederá cuando ∂Y/∂βi sea constante, para cualquier i. Esto
implica dos cosas. Por un lado, ∂Y/∂βi no puede depender del valor de βi y, por lo tanto, esta
tiene que estar elevada a la unidad. Por otro lado, en el caso de los modelos con más de una
variable independiente, ∂Y/∂βi no puede depender del valor de ninguna βj.

Cuando hablamos de modelos de regresión lineales, nos estamos refiriendo a modelos lineales
en los parámetros, no necesariamente en las variables.

2.3. Especificación estocástica del modelo

Hasta ahora, hemos prescindido del tema de la aleatoriedad para simplificar la discusión. No
obstante, la mayoría de las veces, encontraremos que, a pesar de que Yi está agrupada en torno a
su esperanza condicional, E(Y|X1i), habrá desviaciones en los casos individuales.

Ecuación 6. Especificación estocástica de la variable dependiente

Yi = E(Y |X1i) + ui
Y en el caso lineal:

Ecuación 7. Especificación estocástica de la variable dependiente, caso lineal

Yi = β0 + β1X1i + ui

Donde decimos que E(Y|X1i) recoge el componente sistemático, determinístico, de la variable


dependiente, y ui recoge el componente no sistemático, azaroso, aleatorio, de la variable
dependiente.
La interpretación de ui es que este término sustituye o representa todas las variables no
incluidas en el modelo –quizá porque no se pueden incluir. Hay varias razones por las cuales no
se incluyen las variables omitidas representadas por ui:

Vaguedad de la teoría. Quizá no sabemos qué variables adicionales podrían afectar a Yi.
No disponibilidad de información. Quizá no disponemos de información sobre las
variables omitidas.
Variables periféricas. Quizá las variables omitidas tengan efectos «muy pequeños», con lo
cual no se justificaría su introducción.
Aleatoriedad intrínseca del comportamiento humano. Quizá el comportamiento
humano sea, al menos en parte, inexplicable, por muchos esfuerzos que hagamos por tratar
de explicarlo.
Variables proxy inadecuadas. Quizá las medidas de las que disponemos en nuestros datos
comporten errores de medida en relación con los conceptos teóricos de nuestros modelos.
Por ejemplo, el modelo de Friedman postula una relación entre el consumo y la renta
permanente, pero esta última es inobservable.
Principio de parsimonia. Muy a menudo, nos puede parecer aconsejable aplicar la navaja
de Ockham y avanzar una explicación parsimoniosa, prescindiendo de variables cuyos
efectos sean relativamente reducidos.
Forma funcional incorrecta. Muchas veces, la forma funcional más adecuada es,
simplemente, desconocida. A pesar de que podemos emplear herramientas para trata de
elegir la forma funcional de nuestros modelos (por ejemplo, se pueden emplear diagramas
de dispersión), siempre permanecerá un cierto margen de error sobre cuál es la forma
funcional más correcta para dar cuenta de las relaciones entre las variables.

Se puede demostrar fácilmente que la esperanza del componente no sistemático tiene que ser
igual a cero. De hecho, si no fuera a así, este componente dejaría de ser no sistemático. Como la
demostración es muy sencilla, la incluiremos a continuación. Partiremos de la ecuación 6 y
aislaremos el término ui:

Ecuación 8. Término de error aleatorio

ui = Yi – E(Y |X1i)

Ahora, sacaremos las esperanzas de ambos miembros, y aplicaremos dos propiedades: primera,
la esperanza de cualquier argumento es una constante. En el caso que nos ocupa, E(Y|X1i) es una
constante. Segundo, la esperanza de una constante es la misma constante. Por lo tanto,
E(E(Y|X1i)) = E(Y|X1i):

Ecuación 9. Esperanza del componente no sistemático

E(ui) = E(Yi |X1i) – E(E(Y |X1i)) =

E(Yi |X1i) – E(Y |X1i) = 0

2.4. Muestras y poblaciones

Cuando trabajamos con datos muestrales, nuestra tarea consistirá en estimar la función de
regresión poblacional (FRP) de acuerdo con la información muestral de la que disponemos.
Ahora bien, lo que podremos construir no será la FRP directamente, sino una función de
regresión muestral (FRM) a partir de los datos de la muestra.

Ecuación 10. Función de regresión muestral no estocástica

Ecuación 11. Función de regresión muestral estocástica


Y, si subsumimos la ecuación 10 dentro de la ecuación 11, obtendremos:

Ecuación 12. Función de regresión muestral estocástica, formulación sintética

Donde son estimadores de E(Y|X1i), β0, β1 y ui, y no coincidirán necesariamente


con los parámetros poblacionales que estiman –de hecho, por norma general, habrá diferencias
entre ambos.

Estimador

Un estimador es un estadístico, es una regla para estimar un parámetro poblacional a partir


de información muestral.

Estimado

El estimado es el valor numérico particular obtenido para el estimador en una aplicación


concreta.

Ahora bien, si trabajamos con muestras aleatorias de la población, las Yi para cada Xi serán
muestras aleatorias del conjunto de Yi para cada Xi y se podrán obtener N funciones de regresión
muestral diferentes para N muestras diferentes. Por lo tanto, las FRM serán aproximaciones de la
FRP, y esta no se podrá estimar de manera precisa debido a las fluctuaciones muestrales.
El objetivo principal de la regresión será estimar la función de regresión poblacional
(ecuación 7), que es lo que verdaderamente queremos saber, a partir de la función de regresión
muestral (ecuación 11), que es lo que podemos calcular directamente a partir de los datos
muestrales disponibles. El método utilizado para realizar esta tarea es el método de los mínimos
cuadrados ordinarios (MCO).

2.5. El método de los mínimos cuadrados ordinarios (MCO)

Si el objetivo principal de la regresión es estimar la FRP a partir de la FRM, lo que tendremos


que hacer es determinar la FRM de tal manera que esté tan cerca como sea posible de Y. Para ello,
resultará útil aislar ui en la ecuación 11 (o en la ecuación 12):

Ecuación 13. Estimador del término de error aleatorio en la función de regresión


muestral

El primer criterio en el que se podría pensar sería el de minimizar el sumatorio del estimador
de los errores para el conjunto de los miembros de la muestra, es decir, minimizar el sumatorio
de los residuos (de ui). Sin embargo, si hiciéramos esto, daríamos la misma importancia a todos
los residuos, independientemente de su dispersión, independientemente de cuánto se alejaran de
los valores observados de Y. Además, los residuos positivos y los negativos se compensarían entre
ellos, y habría múltiples FRM posibles que compartirían el mismo valor para el sumatorio de los
residuos.
Este problema (que recuerda el problema de utilizar la desviación media y la solución de
elevar al cuadrado las diferencias respecto a la media) se soluciona mediante el criterio alternativo
de minimizar la suma de los residuos al cuadrado –criterio que recibe el nombre de método de
los mínimos cuadrados ordinarios:

Método (o criterio) de los mínimos cuadrados ordinarios (MCO)

Método para estimar los parámetros de un modelo consistente en minimizar la suma de los
residuos al cuadrado.

Ecuación 14. Criterio de los mínimos cuadrados ordinarios


Donde, como se puede apreciar, este mínimo es una función del valor de los estimadores de
los parámetros de la FRM, y . Además, el método de los MCO sí que proporciona valores
únicos de estos estimadores. Estos estimadores, como es habitual en los problemas de
minimización, se obtienen diferenciando la función objetivo (definida en la ecuación 14) en
función de los argumentos para los cuales se quiere encontrar el mínimo (los estimadores y ).

2.6. Inferencia estadística y el supuesto de normalidad

Hemos visto cómo estimar la FRP a partir de datos muestrales, y cómo estimar, gracias al
método de los MCO, estimadores eficientes de y . Sin embargo, estos estimadores ( y )
son variables aleatorias y, por lo tanto, cambian de muestra a muestra. En consecuencia, hemos de
saber cuán cerca está de β0, y cuán cerca está de β1.
Para llevar a cabo esta tarea, tenemos que averiguar la distribución de probabilidad de los
estimadores. Y, dado que la distribución de probabilidad de los estimadores reproduce la
distribución de probabilidad del término de error ui, para hacerlo, necesitaremos añadir un
supuesto sobre la distribución de probabilidad del término de error. El supuesto más empleado
es el supuesto de normalidad.

E(ui) = 0. Las perturbaciones aleatorias tienen una media de cero.


E(ui–E(ui))2 = σ2. La varianza de los errores es constante.
E(ui–E(ui)×E(uj–E(uj)) = E(ui×uj) = 0. Los errores de las diferentes observaciones son
independientes, no están correlacionados. La covarianza (o correlación) de los errores es
cero. De hecho, no solamente ui, uj no están correlacionados, sino que están
independientemente distribuidos.

Hay una serie de razones por las cuales el supuesto más empleado es el de normalidad.

Desde un punto de vista teórico, sabemos, por el teorema central del límite, que, cuando hay
muchas variables aleatorias idénticamente distribuidas, la distribución de su suma tiende,
asintóticamente (es decir, cuando el número de observaciones crece por encima de toda
cota), a ser normal. Recordemos, incidentalmente, que ui se puede interpretar como un
término que representa o recoge la influencia de todas las variables con una influencia
«pequeña» y no incluidas en el modelo. Sabemos, además, que el teorema central del límite es
aplicable incluso cuando N no es muy grande o cuando las variables no son del todo
independientes.
Por otro lado, sabemos que cualquier función lineal de variables normalmente distribuidas
está normalmente distribuida. Por lo tanto, la asunción de la normalidad de ui tiene la
ventaja de que implica que, como , son funciones de ui, estarán normalmente
distribuidas.
La distribución normal es sencilla, involucra pocos parámetros (la media y la varianza), es
muy conocida y muchos fenómenos siguen este tipo de distribución.
La distribución normal permite emplear las pruebas t, F y chi2 (esto es crítico para las
muestras pequeñas, de N < 100).

Bajo el supuesto de normalidad, los estimadores satisfacen las propiedades adicionales


siguientes:

Son consistentes (cuando N crece por encima de toda cota, sus valores tienden
asintóticamente a los de los parámetros poblacionales).
No solo son MELI (Mejores estimadores lineales insesgados), sino también MEI (tienen
varianza mínima entre todos los estimadores no sesgados).
Los estimadores y se distribuyen independientemente de . En concreto, , al ser una
función lineal de ui (término que, bajo el supuesto de normalidad, tiene por definición una
distribución normal) se distribuye normalmente, con una media de β0, y una varianza de .
De manera análoga, se distribuye normalmente, con una media de β1, y una varianza de
. Por su parte, tiene una distribución chi2 con (n-2) grados de libertad.

El último punto es fundamental, puesto que significa que el supuesto de normalidad nos
permite derivar distribuciones de probabilidad o muestrales de y (normal), y de σ12 (esta
última relacionada con el estadístico chi2) y esto es crucial puesto que nos permitirá establecer
intervalos de confianza para los estimadores, así como realizar contrastes de hipótesis (por
ejemplo, sobre si el estimador está cerca del parámetro poblacional que trata de estimar).

2.7. Contraste de hipótesis

El problema fundamental que hemos de resolver es el siguiente: ¿son compatibles los datos
observados con las hipótesis teóricas planteadas? En términos prácticos, esto se comprueba
tratando de definir si los estimadores presentan valores que estén suficientemente cerca de
determinados valores hipotéticos. En el caso del modelo de regresión lineal clásico, sabemos que,
gracias al supuesto de normalidad, podremos determinar la distribución de los estimadores y
realizar los contrastes de hipótesis para responder a los interrogantes planteados.
La lógica del contraste de hipótesis es la siguiente: por un lado, se plantea una hipótesis,
conocida como hipótesis nula (H0) y, por otro lado, se plantea una hipótesis alternativa (H1), la
cual puede ser simple (especifica que un parámetro asume un valor concreto: es una ecuación) o
compuesta (es una inecuación); a su vez, las hipótesis compuestas pueden ser de una cola (si
especifican que un parámetro es mayor que un valor concreto, o, alternativamente, si especifican
que es menor) o de dos colas (si especifican que es diferente de un valor concreto, pero sin
precisar si es mayor o menor). No hay reglas concretas para la formulación de H0 y H1, pero esta
formulación responderá a expectativas teóricas y al trabajo empírico previo.
Por ejemplo, imaginemos que se especifica la hipótesis nula de que X1 no afecta al valor de la variable dependiente estudiada.
Formalmente, esto equivale a establecer la hipótesis nula de que β1 = 0. Lo que hemos de determinar es si el valor obtenido
para el estimador β1 de acuerdo con los datos de nuestra muestra está «suficientemente cerca» de 0 como para concluir que,
para todas las finalidades prácticas, se puede tratar como si fuera cero, «aceptando» (en realidad, no refutando) la hipótesis nula
de ausencia de efectos de X1.

Hay dos maneras de entender la expresión suficientemente cerca. La primera, en términos


sustantivos, y la segunda, en términos estadísticos.
1) En términos sustantivos, lo que cuenta es si, desde un punto de vista teórico, está
suficientemente cerca de cero como para no refutar la idea de que se puede tratar como si fuera
exactamente igual a cero. Formalmente, en este caso, diremos que no es sustantivamente
diferente de cero, y hablaremos de la (ausencia de) significación sustantiva de .

Significación sustantiva

Decimos que un estimador de un parámetro poblacional es sustantivamente significativo


cuando el valor obtenido del estimado para una muestra dada está suficientemente lejano del
valor hipotetizado para el parámetro poblacional βi en nuestra hipótesis nula.

2) En términos estadísticos, lo que cuenta es si, desde un punto de vista estadístico, está
suficientemente cerca (o no) de cero como para no refutar la idea de que se puede tratar como si
fuera exactamente igual a cero. Lo que se trata de ver es si, en el caso de que fuera,
efectivamente, igual a cero el valor efectivamente obtenido en nuestra muestra para sería
coherente o no con el valor especificado en la hipótesis nula. Para emitir un juicio en relación con
esta cuestión, deberemos tener en cuenta la variabilidad de la distribución muestral de . Dada
esta variabilidad, ¿el estimado obtenido está tan alejado que no podemos aceptar que la diferencia
entre este valor y el valor especificado en la hipótesis nula sea fruto del azar? ¿O bien está tan
cerca que no podemos concluir que es estadísticamente diferente de este valor? Formalmente, en
este caso, diremos que es (o no) estadísticamente diferente de cero (o de cualquier otro valor
especificado en la hipótesis nula), y hablaremos de la significación estadística de .
Intuitivamente, cuanto más cerca esté de βi, más probable será que las diferencias entre
ambos se deban, simplemente, al azar, y menos probable es que nos equivoquemos al aceptar
como válido que el valor estimado para constituye evidencia a favor de la hipótesis nula sobre
el valor de βi. Ahora bien, siempre que no sea exactamente igual al valor hipotetizado para βi,
correremos un cierto riesgo de aceptar que es igual al valor hipotetizado sin que este sea el caso.
Resulta crucial, por lo tanto, definir cuál es la probabilidad de error que estamos dispuestos a
aceptar en este sentido. Esta probabilidad se conoce como nivel de significación (y se denota como
α).
En ciencias sociales, el nivel de significación más popular es el 5 %, aunque también se
emplean otros (1 %, 0,1 %, y 10 %). Sea como fuere, no hay nada «sagrado» sobre estos valores.

Valor p (p-value)

Probabilidad exacta de obtener un estadístico igual o mayor que el estadístico obtenido.


También se podría interpretar como el nivel de significación exacto asociado a un valor
dado de un estadístico.

Algunos investigadores prefieren fijarse en el p-value, ya que éste no obliga a fijar


discrecionalmente un nivel de significación α. Aunque el recurso al valor p permite reducir la
dependencia de α, esta manera de proceder puede abrir las puertas a un cierto grado de
arbitrariedad y a la tentación de reducir ex post el nivel de exigencia sobre α para apoyar las
hipótesis avanzadas teóricamente.
Hay dos métodos para contrastar hipótesis: el de los intervalos de confianza y el de la prueba
de significación.
1) Método de los intervalos de confianza:
Se construye un intervalo de confianza para el estimador al 100 (1–α) %, y se comprueba si
contiene el valor de βi avanzado en la hipótesis nula.
El intervalo se construye estableciendo una distancia δ por debajo y por encima de : su
límite de confianza inferior es ( – δ), y su límite de confianza superior es ( + δ). Estos dos
límites, considerados conjuntamente, reciben el nombre de límites de confianza.
Ejemplo

Por ejemplo, se puede construir un intervalo de confianza donde δ equivalga a dos errores estándar del estimador. Bajo la
hipótesis de normalidad, sabemos que esto corresponde, aproximadamente, a un nivel de confianza del 95 % o, dicho de otro
modo, a un nivel de significación del 5 %. Con un 95 % de confianza, este intervalo incluirá el valor real del parámetro que
queremos estimar. Si incluye el valor avanzado en la hipótesis nula, no refutaremos esta hipótesis; si no lo incluye, la
rechazaremos.

2) Método de la prueba de significación:


Se somete a hipótesis un βi dado y se comprueba si el calculado está dentro de los límites
razonables en torno al βi sometido a hipótesis. Es decir, se construye un intervalo de confianza
para βi y se comprueba si el valor estimado para cae en este intervalo.
Así, si H0: β1 = β1*, y si la distribución es normal, podemos definir el estadístico siguiente, que
sigue una distribución t:

Ecuación 20. Distribución t


Partiendo de esto, podemos definir un intervalo de confianza con probabilidad 1-α:

Ecuación 21. Prueba de significación para comprobar si el estimador es compatible


con la hipótesis H0

Lo que se hace, por lo tanto, es utilizar los resultados muestrales para verificar la verdad o
falsedad de una H0. Si el estimador muestral cae dentro del intervalo, diremos que cae dentro de
la región de aceptación o, de manera más rigurosa, de la región de no rechazo, mientras que si cae
fuera del intervalo, diremos que cae en la región de rechazo o región de refutación (de la
hipótesis nula H0). Lo que se hace, por lo tanto, es utilizar los resultados muestrales para decidir
si H0 es o no falsa.
Ahora bien, no hace falta construir un intervalo como el definido en la ecuación 21: podemos
partir directamente de la ecuación 20 y sacar el valor de t. Como la distribución de t es conocida,
podemos consultar las tablas de esta distribución (disponibles en cualquier manual de estadística),
que nos informarán sobre el valor p asociado al valor de t calculado.
Observad que, cuanto mayor sea el valor absoluto de la diferencia entre el estimador y el valor
hipotetizado para el parámetro, mayor será el valor absoluto de t, y menor será el valor p asociado
(menor será la probabilidad de haber obtenido una diferencia de esta magnitud si la hipótesis
nula es cierta). Así, cuanto mayor sea t, mayor será la evidencia contra H0. Consideraremos que el
estimador es estadísticamente significativo cuando |t| caiga en la región crítica (que depende del
nivel de significación elegido).
Antes de concluir este apartado, hay que hacer un comentario final. A lo largo de la
explicación, hemos asumido implícitamente que lo que se contrasta es una hipótesis nula simple,
es decir, una H0 en la que se especifica que un parámetro asume un valor concreto (una ecuación
del tipo H0: β1 = β1*) y que la hipótesis alternativa H1 se compone de dos colas (H1: β1 ≠ β1*).
Este será el caso cuando no tengamos información teórica a priori sobre el sentido en el que
puede afectar X1 a la variable dependiente. La hipótesis alternativa podría ser de una cola (H1: β1
< β1*) si tenemos razones teóricas para sospechar que Y es una función decreciente de X1; o bien
H1: β1 > β1*, si tenemos razones teóricas para sospechar que Y es una función creciente de X1.

2.8. Regresión múltiple e inferencia: más de una variable explicativa

La FRP para tres variables es una generalización de la FRP de dos variables:

Ecuación 22. FRP para tres variables

Ante un modelo de tres variables, se puede llevar a cabo un conjunto de contrastes de


hipótesis bastante más amplio:

Contraste de significación de un coeficiente de regresión parcial individual: generalmente, es


un contraste sobre la existencia de efectos sobre la dependiente por parte de la variable
asociada al coeficiente. Este contraste funciona igual que en el caso de una sola variable. La
hipótesis que se somete a contraste es H0: βi = 0, y sabemos que (bajo el supuesto de
normalidad) se puede hacer un contraste que sigue la distribución t.
Contraste de la igualdad entre dos coeficientes o más: La hipótesis que se somete a contraste
es del tipo H0: βi = βj, o, expresado de otro modo, βi – βj = 0. Sigue la distribución t. La
fórmula para dos coeficientes es la siguiente:

Ecuación 23. Contraste de igualdad de dos coeficientes

Donde t tiene (n–4) grados de libertad, y


.
Contraste de que dos coeficientes o más satisfacen determinadas restricciones: La hipótesis
que se somete a contraste puede tomar diferentes formas, pero una de las más empleadas es
del tipo H0: βi + βj = a, donde a es una constante; por ejemplo: H0: βi + βj = 1. Sigue la
distribución t. La fórmula es la siguiente:

Ecuación 24. Contraste de que dos coeficientes satisfacen una determinada


restricción

Por ejemplo, en el caso de H0: β3 + β4 = 1, la ecuación presentada arriba se concretaría si


sustituye a por 1:

Ecuación 25. Contrastar si dos coeficientes suman 1

Contraste de significación conjunta de un grupo de coeficientes: es un contraste sobre la


existencia de efectos sobre la dependiente por parte un grupo de independientes. La
hipótesis que se somete a contraste es H0: βi = βj = 0, y sabemos que (bajo el supuesto de
normalidad) el contraste sigue la distribución F (que es el cuadrado de la distribución t; en
la sección siguiente, se hablará con más detalle de esto).
Contraste de significación global: es, simplemente, un contraste de significación conjunta
para todos los coeficientes considerados conjuntamente. Lo que se pretende determinar es
si, en conjunto, el modelo propuesto nos permite mejorar nuestra comprensión sobre la
variable dependiente –y, lógicamente, también sigue la distribución F.

2.9. Contrastes de significación conjunta y análisis de varianza (ANOVA)

Los contrastes de significación conjunta (y global) no se pueden hacer mediante una batería de
hipótesis del tipo H0A: β1 = 0; H0B: β2 = 0; etc. La razón técnica es que se viola el supuesto de
muestras independientes. Intuitivamente, lo que sucede es que las hipótesis simples se ven
afectadas por la información de las otras hipótesis. La manera de llevar a cabo un contraste de
este tipo es mediante el análisis de varianza (ANOVA, acrónimo que viene del inglés, analysis of
variance).
Para llevar a cabo el ANOVA, elevaremos al cuadrado la función de regresión muestral
estocástica, en su forma sintética, formulada en la ecuación 12. Esto nos permitirá descomponer
la varianza total en sus elementos sistemático y aleatorio:

Ecuación 26. Varianza total como función de sus componentes sistemático y


aleatorio

STC = SEC + SRC

Donde es la suma total de cuadrados (STC), y tiene (n-1) grados de libertad (GL),
porque pierde un GL debido a la media, Y; = es la suma explicada de cuadrados
(SEC), esto es, el componente sistemático de la varianza, que, en un modelo de una variable, es
función solamente de β1, con lo que tiene 1 GL; y , es la suma de residuos al cuadrado (SRC),
esto es, el componente aleatorio, que tiene (n-2) GL, porque pierde un GL por la media y otro
por la restricción de que la esperanza de ui tiene que ser igual a cero.
La mejor manera de entender lo que hace la ANOVA es construir una tabla en la que se
sistematizan, para los tres componentes de la ecuación (total, sistémico y aleatorio), la suma de
cuadrados (SC), los GL y las medias cuadráticas (que no son otra cosa que el cociente entre SC y
GL). Veamos la tabla para el caso de una variable independiente:

Tabla 42. Descomposición del ANOVA (para 2 parámetros, o una variable explicativa)

Descomposición de la Sumas GL = Grados de Medias


varianza cuadráticas libertad cuadráticas

Total STC = ∑Yi2 n - 1 STC / (n - 1)

Parte explicada SEC = 1 SEC / 1

Parte aleatoria SRC = n–2 (SRC / (n - 2)) ≡

Fuente: Elaboración propia.

A partir de aquí, se puede definir uno de los estadísticos más importantes y más utilizados, el
famoso estadístico F, que se obtiene dividiendo la media cuadrática sistemática entre la aleatoria
(ambas en la última columna). Intuitivamente, este estadístico divide la suma de la varianza
explicada, o sistemática, entre la suma de la varianza no explicada, residual o aleatoria, ajustando
por los grados de libertad (más abajo, cuando se presenta la generalización de la fórmula para
más de una variable, se justificará la razón de ajustar por los grados de libertad):

Ecuación 28. Estadístico F (para dos parámetros, o una variable explicativa)

Observad que todas las cantidades para calcular E(F) se pueden obtener a partir de la muestra.
Esto significa que podemos calcular el estadístico F y, como su distribución es conocida,
compararlo con su valor crítico o juzgarlo directamente a partir del valor p. Cuanto mayor es el
estadístico F, mayor es la proporción de la varianza explicada por el modelo.
La extensión al caso de múltiples variables explicativas es inmediata. Lo único que hay que
tener en cuenta es que los GL están expresados en función del número de parámetros y no del
número de variables (véanse los títulos de las tablas). El primero es siempre igual al número de
variables explicativas, más uno (porque hay que sumar β0, asociado a su punto de corte). Así, por
ejemplo, para una sola variable explicativa, k era igual a 2. De manera general, para k parámetros
(k–1 variables explicativas), podemos escribir:

Tabla 43. Descomposición del ANOVA (para k parámetros, o k-1 variables explicativas)

Descomposición de la Sumas GL = Grados de Medias


varianza cuadráticas libertad cuadráticas

Total STC = n - 1 STC / (n - 1)

Parte explicada SEC = k - 1 SEC / (k - 1)

Parte aleatoria SRC = n–k (SRC / (n - k)) ≡

Fuente: Elaboración propia.

La fórmula correspondiente sería la siguiente:

Ecuación 30. Estadístico F (para k parámetros, o k-1 variables explicativas)


La razón de ajustar por los grados de libertad es la siguiente: si, partiendo de un modelo con
k-1 variables explicativas, se formulara un nuevo modelo que incluyera una variable explicativa
adicional, y esta nueva variable no estuviera relacionada en absoluto con la variable dependiente,
la nueva variable nunca reduciría la precisión de nuestra estimación de la variable explicada
(simplemente, no se tendría en cuenta para llevarla a cabo) y, por lo tanto, no reduciría nunca la
proporción de la varianza explicada (asumiendo que la muestra no cambia); por lo tanto, una
manera sencilla de incrementar la proporción de la varianza explicada sería dar vía libre a la
proliferación del número de variables explicativas. Al ajustar por los grados de libertad, el
estadístico F cuantifica la proporción de la varianza explicada y no crece necesariamente con el
número de variables explicativas.
¿Cómo interpretamos el estadístico F? Veámoslo:

R2=0: F = 0. El modelo no explica nada de la varianza total; toda la varianza es aleatoria.


R2=1: F→ ∞. Toda la varianza es explicada por el modelo; no queda nada de varianza
aleatoria.
R2 entre 0 y 1. Parte de la varianza es explicada por el modelo y parte es aleatoria. Este es el
caso más habitual, lógicamente. Cuanto mayor sea R2, mayor será la parte de la varianza
explicada por el modelo, y más útil será este para dar cuenta de los cambios de la variable
dependiente.

2.10. Capacidad explicativa y coeficientes de determinación y de correlación

A partir de la consideración sobre las magnitudes relativas de STC, SEC y SRC, se puede
llegar a conclusiones adicionales sobre la bondad del ajuste de la recta de regresión.
Consideraremos, primero, el caso de una FRM con una única variable explicativa, y
escribiremos la ecuación 26 pero, esta vez, expresaremos la ecuación para las diferencias de las
variables con respecto a sus medias (recordemos que, formalmente, una manera habitual de
denotar este hecho consiste en emplear letras minúsculas en lugar de mayúsculas).

Ecuación 31. Varianza total como función de sus componentes sistemático y


aleatorio (C)
A partir de aquí, podemos formular una ecuación análoga a la ecuación 27, dividiendo todos
los términos por STC:

Ecuación 32. Varianza total como función de sus componentes sistemático y


aleatorio (D)

El primer término del miembro de la derecha recibe el nombre de coeficiente de determinación,


constituye una medida de la bondad del ajuste de la recta de regresión (en función de la
proporción de la varianza total explicada por el modelo) y se denota como r2:

Ecuación 33. Coeficiente de determinación (r2)

Siempre que haya un punto de corte, el coeficiente de determinación r2 tiene dos propiedades:
(1) r2 no es nunca negativo; (2) r2 siempre está entre cero y la unidad. Cuando r2 es igual a cero, la
proporción de varianza explicada por el modelo es nula, lo que indica que no hay ninguna
relación entre las variables; cuando r2 es igual a la unidad, el ajuste será perfecto, y no
permanecerá ninguna fracción de la varianza no explicada por el modelo.
Detalle técnico

Observad que r2 solamente puede ser igual a cero si SEC=0, y que esto solamente puede ser cierto si es igual a
cero. Por lo tanto, para cualquier variable independiente que sea, efectivamente, variable (que no sea una constante) esto implica
que el estimador de su efecto sobre la dependiente tiene que ser igual a cero.

A partir del coeficiente de determinación r2 se puede definir otro, el coeficiente de correlación


r, que se obtiene sacando simplemente la raíz cuadrada del primero:
El coeficiente de correlación entre dos variables V1 y V2 tiene las propiedades siguientes
(Gujarati, 1997, págs. 75-77):

1) puede ser positivo o negativo;
2) su valor absoluto máximo es la unidad: por lo tanto, su rango está comprendido entre
menos uno y más uno;
3) es simétrico: rxy = ryx;
4) su valor es independiente del origen y de la escala;
5) cuando la variable que se pretende explicar y la variable que se propone como explicativa
son independientes, r=0;
6) sin embargo, la inversa no es cierta: cuando r=0, no podemos garantizar que las variables
sean independientes, sino, únicamente, que no hay una relación de dependencia lineal entre ellas;
7) cuando el valor absoluto de r es igual a la unidad, hay una relación lineal perfecta entre las
variables;
8) de manera más general, cuanto mayor sea el valor absoluto de r, más fuerte será el grado de
relación lineal entre las variables; y
9) cuando r > 0, hay una relación lineal positiva, o directa, entre las variables; cuando r < 0,
esta relación es negativa, o inversa.

Por lo tanto, el coeficiente de correlación r constituye una medida simétrica de la asociación
lineal entre dos variables, y no implica necesariamente una relación causa-efecto.
Para el caso de un modelo con n (n > 1) variables, hablamos de coeficiente de determinación
múltiple, o R2. Resulta relativamente sencillo de demostrar (Gujarati, 1997, págs. 299-300) que R2
se puede computar de la manera siguiente:

Ecuación 34. Coeficiente de determinación múltiple (R2), caso de dos variables


explicativas

A pesar de que, en la práctica econométrica, es muy habitual otorgar mucha atención al


coeficiente R2 (una práctica que algunos autores denominan «el juego de la maximización de R2»),
este coeficiente presenta una serie de problemas, lo que ha llevado a aconsejar que no se confiera
demasiada atención a las diferencias en R2.
En primer lugar, no se puede asignar de manera unívoca este coeficiente entre los diferentes
regresores, puesto que, en la medida en que estos estén correlacionados, esta asignación
dependerá del orden elegido para la asignación.
En segundo lugar, observad que, cuando se añaden variables adicionales al modelo, el
sumatorio de los residuos al cuadrado no aumentará nunca, puesto que, en el peor de los casos,
las variables adicionales introducidas no tendrán ninguna relación con la variable dependiente (y,
aunque no podremos mejorar nuestras estimaciones de la dependiente, esto es, no podremos
reducir nada el sumatorio de los residuos al cuadrado, éstos tampoco aumentarán). Esto significa
que el coeficiente R2 tenderá a aumentar, casi siempre, con el número de variables explicativas
empleadas, y nunca bajará al incluir variables adicionales (asumimos, nuevamente, que la
introducción de nuevas variables no reduce el tamaño de la muestra).
Por lo tanto, para comparar la «bondad del ajuste» o, como se denomina también a menudo, la
«capacidad explicativa» de modelos con un número diferente de variables, no podemos recurrir al
coeficiente R2, sino que hemos de tener en cuenta el número de variables independientes
presentes en cada uno de los modelos. El coeficiente alternativo más utilizado para esta tarea,
denominado R2 ajustado (que se denota a menudo mediante una barra sobre la R) tiene en cuenta
este hecho ajustando el coeficiente R2 por los grados de libertad de los modelos, y se computa de
la manera siguiente:

Ecuación 35. Coeficiente R2 ajustado (para k parámetros, o k-1 variables)

Donde es el estimador MCO de la varianza de Y.


El coeficiente de correlación también se puede generalizar al caso de la regresión múltiple.
Por un lado, se habla de los coeficientes de correlación simple, o coeficientes de correlación
bruta, o coeficientes de correlación de orden cero, entre la variable dependiente, Y, y cada una de
las variables independientes, digamos que X1 y X2, los cuales denotamos como rY,X1 y rY,X2. Estos
coeficientes son análogos al coeficiente de correlación simple presentado más arriba. Aun así,
estos coeficientes no suelen reflejar el verdadero grado de asociación entre las variables
consideradas, puesto que el resto de las variables del modelo puede afectar a su valor.
Por otro lado, hablamos de los coeficientes de correlación parcial entre la variable dependiente
y cada una de las variables independientes, los cuales denotamos como rY,X1.X2 y rY,X2.X1. Así, rY,X1.X2
es el coeficiente de correlación entre Y y X1 manteniendo constante X2, lo que permite medir la
correlación entre Y y X1 con independencia de la posible influencia de X2; mientras que rY,X2.X1 es
el coeficiente de correlación entre Y y X2 manteniendo constante X1. Veamos, a modo de
ejemplo, la fórmula de rY,X1.X2:
Ecuación 36. Coeficiente de correlación parcial rY,X1.X2

Cuando el modelo tiene más de dos variables independientes, podemos controlar por una
variable o por varias. Cuando controlamos por una variable, hablamos de coeficientes de
correlación parcial de primer orden; cuando controlamos por dos, de coeficientes de correlación
parcial de segundo orden; y así sucesivamente. Es esencial tener presente las cuestiones siguientes:

La ausencia de correlación entre dos variables no es garantía de la ausencia de asociación


entre ellas. Incluso si el coeficiente de correlación de orden cero es nulo, el coeficiente de
primer orden puede ser diferente de cero: Técnicamente, si rY,X1 = 0, solamente será cierto
que rY,X1.X2 = 0 si rY,X2 = 0, o si rX1.X2 = 0.
De manera parecida, la existencia de correlación entre dos variables no es garantía de la
existencia de asociación entre ellas.
La existencia de una correlación positiva entre dos variables no es garantía de una asociación
positiva entre ellas, la cual podría ser, incluso, negativa. Observad que es posible que rY,X1 >
0, y que, al mismo tiempo, rY,X1.X2 < 0, siempre que el producto rY,X2 × rX1.X2 > 0, y que este
producto sea mayor en valor absoluto que rY,X1.X2.
De manera parecida, la existencia de una correlación negativa entre dos variables no es
garantía de una asociación negativa entre ellas, la cual podría ser, incluso, positiva. La lógica
es la misma que en el punto precedente.

2.11. Supuestos del modelo clásico

Los supuestos del modelo clásico son los siguientes:

Supuesto 1. La esperanza condicional de ui es igual a cero, es decir, la media condicional (a


los valores de los regresores) es igual a cero. Esto significa que los factores no incluidos en
los modelos no afectan sistemáticamente (los positivos se cancelan con los negativos):

E(ui|X2i, X3i) = 0

Supuesto 2. Ausencia de correlación serial, de autocorrelación. Las perturbaciones no están


correlacionadas entre ellas. Las desviaciones de dos valores cualesquiera de Y con respecto a
su media no muestran patrones sistemáticos. Intuitivamente, observad que, si no fuera así, Yi
dependería también de uj, y no solamente de las variables independientes:

cov(ui,uj) = 0 i ≠ j

Supuesto 3. Homoscedasticidad o varianza constante de las perturbaciones. Por lo tanto, las


estimaciones de Yi son igual de fiables para todo i.

var(ui) = σ2.
El supuesto se incumpliría en caso de heteroscedasticidad, cuando
var(ui) = σi2

Supuesto 4. La covarianza entre ui y cada variable explicativa es igual a cero. En términos


prácticos, esto significa que Xi y ui tienen una influencia separada y aditiva; si no, no
podríamos distinguir perfectamente entre los efectos provocados por Xi y los efectos
provocados por ui.

E(ui, Xi) = 0.

Supuesto 5. No hay sesgo de especificación. Es decir, el modelo está especificado


correctamente. Esto significa principalmente que todas las variables que afectan
sistemáticamente a Yi están incluidas en el modelo, pero también que la forma funcional del
modelo (por ejemplo, lineal en las X, y lineal en las betas) es la correcta e, incluso, que los
supuestos probabilísticos (sobre Yi, Xi, ui) son adecuados.
Supuesto 6. El modelo es lineal en los parámetros (β0 y β1; y, si hubiera más variables, en los
parámetros asociados a cada una de ellas).
Supuesto 7. Los valores de los regresores son fijos en muestras repetidas, es decir, X no es
estocástica, y el análisis de regresión es condicional, está condicionado a los valores dados de
X.
Supuesto 8. Hay suficiente variación en los valores de X y de Y. Observad que, en el caso
extremo de que X no variara, con lo cual el denominador de la ecuación 17
sería cero, la matriz no sería invertible, y la estimación de βi sería imposible. Evidentemente,
si Y no variara (si ), no tendríamos nada que explicar, y no haría falta ningún
análisis de regresión, puesto que nuestra predicción sería siempre , sin necesidad de
prestar atención a los valores de ninguna X.
Supuesto 9. Hay más observaciones que parámetros (que variables): n > j. Evidentemente,
sería imposible llevar a cabo J estimaciones independientes basadas en menos de J
observaciones.
Supuesto 10. En el caso de modelos con más de una variable independiente, se añade el
supuesto adicional de que no hay colinealidad exacta entre las variables explicativas. Es
decir, para un modelo con dos variables independientes, X1 y X2, no hay una relación lineal
exacta entre las dos; de forma general, con un modelo con varias variables independientes,
Xk no es una combinación lineal del resto de las variables independientes, para cualquier k.

3. Violaciones y extensiones del modelo clásico


En el apartado anterior hemos concluido con la enumeración de los supuestos en los que se
fundamenta el modelo clásico de regresión lineal. En este apartado expondremos y discutiremos
tres violaciones principales del modelo clásico: la colinealidad o multicolinealidad, la
heteroscedasticidad y la autocorrelación.
Además, comentaremos algunas de las extensiones más importantes del modelo: la regresión a
través del origen; los cambios de escala; la regresión con variables estandarizadas; y los modelos
log-log, log-lin y lin-log.

3.1. Colinealidad, heteroscedasticidad y correlación

La primera violación del modelo de regresión lineal clásico que merece una explicación más
detallada es la del supuesto de ausencia de colinealidad:

Colinealidad (perfecta)

Existencia de una relación lineal, exacta o «perfecta» entre dos variables explicativas del
modelo. Una de las variables se puede poner en función de la otra, de la cual es una copia
idéntica o una copia reescalada.

Multicolinealidad (perfecta)

Existencia de una relación lineal exacta o «perfecta» entre tres o más de las variables
explicativas del modelo (al menos una de ellas se puede expresar como una combinación
lineal del resto).

Cuando hay colinealidad perfecta entre dos variables independientes (digamos que X1 y X2),
resulta imposible estimar los efectos individuales de cada una sobre la dependiente.
Desde un punto de vista intuitivo, lo que sucede es que siempre que varía una (digamos que
X1) la otra (X2) también sufre un cambio. Entonces, si observamos un cambio en la variable
dependiente (Y), no podremos estar seguros de hasta qué punto se debe a que haya variado X1 o
a la variación de X2.
Desde un punto de vista técnico, la matriz de las variables independientes no se puede invertir,
y los coeficientes (que miden los efectos) de las diferentes variables independientes son
indeterminados (y sus errores estándar, infinitos).
La multicolinealidad puede tener origen en diferentes causas, como el método de recogida de
datos particularidades de la población estudiada; y restricciones o problemas de especificación del
modelo (Gujarati, 1997, pág. 319).
Dado que la colinealidad perfecta es un caso extremo, no es habitual encontrarla en nuestros
análisis, y es más común enfrentarse a caos de (multi)colinealidad imperfecta.

Colinealidad (imperfecta)

Existencia de una interrelación elevada entre algunas de las variables explicativas del modelo
(o entre todas ellas), sin que llegue al caso de colinealidad perfecta.

En presencia de colinealidad imperfecta, la atribución de efectos a variables individuales sigue


siendo difícil, pero deja de ser imposible.
Si dos variables explicativas, X1 y X2, se mueven de forma bastante sincronizada, y
observamos que cambios en Y responden de manera fiel a cambios en estas variables, cuando
observemos que cualquiera de ellas cambie, podremos predecir relativamente bien qué sucederá
con Y. Lo predeciremos bien si observamos que X1 cambia y también lo predeciremos bien si nos
fijamos en X2.
A pesar de que podemos predecir Y relativamente bien, lo que resulta difícil de saber es cuál
de las variables, X1 o X2, es la responsable de los cambios en Y: ¿es X1 la principal responsable?
¿es X2 la principal causante? ¿tienen las dos una parte similar de responsabilidad? Técnicamente,
esto se reflejará en (a) elevadas varianzas y covarianzas de los estimadores; (b) elevados errores
estándar y amplios intervalos de confianza de los estimadores; (c) mayor dificultad para refutar la
hipótesis nula y detectar efectos estadísticamente significativos.
Observad que esta situación está caracterizada por a) una buena capacidad potencial de
predecir Y, reflejada en un R2 elevado; y b) una gran dificultad para atribuir los cambios de Y a
una variable o a la otra, reflejada en coeficientes individualmente no significativos.
¿Es la colinealidad un verdadero problema? Si el interés está en predecir, entonces, no. Los
supuestos del modelo de regresión continúan siendo satisfechos y los estimadores continúan
siendo MELI. Si el interés radica en atribuir efectos causales a cada variable, entonces, claramente,
es un problema.
Sea como fuere, la multicolinealidad es un problema de los datos, y no del modelo empírico
contrastado. Por ello, una eventual solución al problema consistiría en ampliar, si fuera posible, el
conjunto de datos utilizados.
La segunda violación del modelo de regresión lineal clásico que merece una explicación un
poco detallada es la del supuesto de homoscedasticidad. Recordemos la definición:

Homoscedasticidad

Varianza constante de las perturbaciones: ; o, expresado de otro modo,


var(ui|Xi)=0 (para cualquier variable independiente X). Por lo tanto, las estimaciones de Yi
son igual de fiables para todo i.

Recordarás que la definición de heteroscedasticidad era la opuesta de la de homoscedasticidad.


Cuando hay heteroscedasticidad, los estimadores MCO continúan siendo no sesgados y
consistentes, pero ya no son eficientes (ya no tienen varianza mínima) y, por lo tanto, ya no son
MELI. Cuando las varianzas heteroscedásticas de los errores (σi2) sean conocidas, el método
MCO se sustituye por el método MCG, es decir, el método de los mínimos cuadrados
generalizados, también conocido como método de los mínimos cuadrados ponderados.
El método de los mínimos cuadrados generalizados tiene explícitamente en cuenta que, dada
la variabilidad en la dispersión de las perturbaciones, las estimaciones de Yi no son igual de fiables
para todo i, y pondera los casos inversamente a su varianza –es decir, inversamente a su falta de
fiabilidad. Así, el MCG minimiza la expresión siguiente:

Ecuación 37. Criterio de los mínimos cuadrados generalizados

Cuando la muestra es bastante grande, los errores estándar de los estimadores MCO
corregidos se pueden obtener gracias al método de corrección de la heteroscedasticidad de
White.
La tercera violación del modelo de regresión lineal clásico que merece una explicación un
poco detallada es la del supuesto de ausencia de autocorrelación. Recordemos la definición:

Autocorrelación, o correlación serial


Los errores o perturbaciones están correlacionados entre ellos. Las desviaciones de dos
valores cualesquiera de Y con respecto a su media muestran patrones sistemáticos.
Intuitivamente, Yi dependería también de uj, y no solamente de las variables independientes.
Técnicamente, se viola el supuesto siguiente: .

Algunas de las causas más habituales para la existencia de autocorrelación son las siguientes:

1) utilización de una forma funcional incorrecta;
2) sesgo debido a la exclusión de variables importantes; e
3) inercia o lentitud de las series de tiempos.

Cuando hay autocorrelación, los estimadores MCO continúan siendo no sesgados y
consistentes, pero tampoco ahora son eficientes (ya no tienen varianza mínima) y, por lo tanto, ya
no son MELI. En consecuencia, las pruebas de significación t y F ya no se pueden utilizar
legítimamente.
Para solucionar este problema, se tiene que tratar de modelar el proceso de correlación serial.
Este es un tema fascinante, al cual se pueden dedicar cursos enteros, pero no puede ser tratado
aquí con detalle. Para nuestros objetivos, sera suficiente con mencionar, de manera rápida y de
pasada, las dos estrategias fundamentales.
En primer lugar, existe la posibilidad de asumir que los términos de error en un momento
dado del tiempo están linealmente relacionados con los términos de error en momentos
precedentes. Generalmente, se supone que estos términos de error tienden a decrecer a lo largo
del tiempo. Por ejemplo, un error de +400 en t=0 podría dar lugar a un error de +100 en t=1, el
cual, a su vez, pasaría a ser de +25 en t=2, de +6,25 en t=3, y así, sucesivamente. Observad que
podríamos recoger este proceso mediante una ecuación extremadamente sencilla: ui,t = 0,25×ui,t-1.
Este tipo de esquemas reciben el nombre de modelos autorregresivos y se denotan mediante la
notación AR(p), donde (p) sirve para indicar el número de periodos precedentes que influyen
directamente sobre el error actual. Así, el ejemplo es un proceso AR(1), mientras que un proceso
alternativo del tipo ui,t = 0,25×ui,t-1-0,10×ui,t-2 correspondería a un proceso AR(2).
En segundo lugar, existe la posibilidad de asumir que los términos de error siguen un
mecanismo de media móvil. Este tipo de esquemas reciben el nombre de modelos de media móvil
y se denotan mediante la notación MA. A veces, se puede postular un proceso combinado con un
componente autorregresivo y un componente de media móvil, a los que se suele hacer referencia
como modelos ARMA.
Una vez más, antes de concluir con esta cuestión, merece la pena hacer un resumen sobre la
detección de la autocorrelación. A pesar de que comporta una serie de problemas, y de que hay
varias alternativas que se podrían emplear en su sustitución, el más empleado es el estadístico de
Durbin y Watson. Para una discusión detallada de este estadístico y de las diferentes medidas
disponibles, podéis consultar cualquier manual de estadística, como por ejemplo el de Gujarati
(1997, págs. 408-418).

3.2. Regresión a través del origen


Ejemplo 1

De acuerdo con Milton Friedman, el consumo permanente (el consumo a lo largo de toda la vida, C P) debería ser una fracción
de la renta permanente, YP:

Ecuación 39. Modelo de Milton Friedman: consumo permanente como fracción de la


renta permanente

CP = β2YPVC

Llevado a sus últimas consecuencias, este modelo implicaría que, para una renta permanente
hipotética de cero, el consumo permanente también tendría que ser igual a cero: esto se
representa formalmente mediante la ausencia de término constante.
Ejemplo 2

En ausencia de costes fijos, los costes (totales) de producción, C, tendrían que responder a los volúmenes de producción (Y) y,
cuando no se produjera nada, los costes de producción tendrían que ser nulos, lo que nos llevaría a postular un modelo sin
término constante:

Ecuación 40. Modelo de costes de producción en función del nivel de producción,


sin costes fijos

C = β2Y

Una manera alternativa de formular un modelo como el precedente, incluso en presencia de


costes fijos, sería cambiando la variable dependiente, poniendo, en lugar de los costes totales en el
miembro izquierdo de la ecuación, los costes variables (CV):

Ecuación 41. Modelo de costes variables de producción

CV = β2Y

Ejemplo 3

Finalmente, recordaremos otro modelo conocido sin término de interacción, el que estipula que la tasa de inflación (π) es una
función directa de la tasa de crecimiento de la oferta de dinero (ΔM/M):

Ecuación 42. Inflación y crecimiento de la oferta monetaria

π = β2 (∆M / M)

De manera general, consideremos un modelo teórico como el siguiente:

Ecuación 43. Modelo teórico sin término constante

Yi = β2Xi + ui

Cuando se plantea un modelo de este tipo, se debe tener presente que tiene tres diferencias en
relación con el modelo donde sí hay punto de corte (término constante).
Primera, el estimador MCO del efecto de la variable independiente sobre la dependiente es
análogo al presentado en la ecuación 17, pero son las propias variables las que entran en la
fórmula, y no sus diferencias con respecto a la media.
Segunda, el estimador de la varianza de los residuos tiene (n–1) en lugar de (n–2) grados de
libertad, puesto que deja de tener efecto la restricción de que la suma (o la esperanza) de los
residuos ha de ser cero.
Tercera, el valor de R2 ya no es necesariamente no negativo.
Cabe señalar que, muy a menudo, conviene incluir el término de interacción incluso cuando se
tiene la sospecha de que este tendría que ser cero. Esto permite contrastar explícitamente si, tal
como sospechamos, el estimador obtenido es, efectivamente, cero (o se puede tratar como si lo
fuera) y evitar cometer un error de especificación del modelo.

3.3. Cambios de la escala

Consideremos qué sucede con un modelo como el formulado en la ecuación 11 cuando


cambiamos la escala de las variables:

Ecuación 44. Cambio de escala de la variable dependiente por un factor wY

Yi* = wYYi
Ecuación 45. Cambio de escala de la variable independiente por un factor wX

X*i* = wxYi

Donde wY, wX son factores de escala, y nos permiten reescalar las variables del modelo.
Observad que, cuando llevamos a cabo una operación de este tipo, los residuos también sufren
un cambio de escala, concretamente, por un factor wY, puesto que tienen que estar expresados en
la misma escala que la variable dependiente:

Ecuación 46. Cambio de escala de los residuos

Una vez hecho todo esto, podemos volver a escribir la FRM para las variables reescaladas:

Ecuación 47. Función de regresión muestral estocástica después de un cambio de


escala

Ejemplo

Podemos pasar de millones de euros a miles de euros. Si hacemos esto tanto para la variable dependiente como para la
independiente, ¿cuáles serán los factores de escala? Efectivamente, w Y = w X = 1.000.

¿Tiene algún tipo de efecto cambiar la escala de las variables? Veámoslo:

Ecuación 48. Estimador de β1 tras un cambio de escala


Si seguimos con el ejemplo puesto antes (pasar de millones a miles de euros tanto para la
variable dependiente como para la variable independiente), como wY = wX = 1.000, entonces es
inmediato comprobar que el coeficiente asociado a X1 no cambia (β1* = (1000/1000)β1 = β1).
Lógicamente, esta conclusión es válida para cualquier otro coeficiente (que recoja el efecto de
cualquier X sobre Y) y es aplicable no solo a los verdaderos valores poblacionales sino a sus
estimadores insesgados, con lo cual nuestro estimador de β1 permanece sin cambios. Esto
solamente será cierto cuando los cambios de escala en la variable dependiente y en la variable
independiente sean exactamente de la misma magnitud.

Ecuación 49. Derivación del estimador de β0 después de un cambio de escala de Y, X

Observad que el estimador de β0 solamente depende de la escala de la variable dependiente. Si


seguimos con el ejemplo puesto antes, como wY = 1.000, entonces tenemos que . Es
relativamente fácil demostrar también que:

Ecuación 50. Varianza del estimador de β1 después de un cambio de escala de Y, X

Si seguimos con el ejemplo puesto antes, como wY = wX = 1.000, está claro que nuestro
estimador para la varianza de β1 permanece sin cambios. Observad que esto solamente será cierto
cuando los cambios de escala en la variable dependiente y en la variable independiente sean
exactamente de la misma magnitud.

Ecuación 51. Varianza del estimador de β0 después de un cambio de escala de Y, X

Observad que la varianza del estimador de β0 solamente depende de la escala de la variable


dependiente. Si seguimos con el ejemplo puesto antes, como Wy = 1.000, entonces tenemos que la
varianza del nuevo estimados es un millón de veces mayor que la del viejo.
Y, como los residuos cambian de acuerdo con el mismo factor de escala que la variable
dependiente, no resultará ninguna sorpresa constatar que:

Ecuación 52. Varianza de los residuos después de un cambio de escala

3.4. Regresión con variables estandarizadas

Como se ha visto, cuando cambiamos la escala de las variables, cambian los valores de los
estimadores de los parámetros. Dicho de otro modo, las unidades de la variable dependiente y de
las variables independientes influyen sobre los estimadores MCO.
Esto tiene varias consecuencias, por ejemplo, dos variables independientes medidas en escalas
diferentes pueden dar lugar a estimadores diferentes, pero ¿cómo sabremos si la diferencia en la
magnitud de los estimadores se debe a la fuerza del efecto causal o a las escalas de medida
asociadas a cada una de las variables? ¿Cómo comparamos el efecto sobre la altura de la edad
(medida en años) y de la renta (medida en euros) si ambas variables están en escalas diferentes?
Para evitar los problemas asociados a estas cuestiones, se pueden estandarizar las variables.
Esto se hace (como se vio en la subsección 3.4 del capítulo II) deduciendo la media de la variable
para cada observación, y dividiendo el resultado entre la desviación estándar de la variable:

Ecuación 53. Estandarización de la variable dependiente

Ecuación 54. Estandarización de una variable independiente


Consideremos la derivación del término de intersección β0 en este contexto:

Ecuación 55. Derivación del estimador de β0 para variables estandarizadas

Como se puede apreciar, cuando se trabaja con variables estandarizadas, por definición, el
término de intersección β0 es igual a cero. Esto nos deja con el correlato siguiente de la ecuación
47 (que ahora se presenta para el caso más general con varias variables independientes):

Ecuación 56. Función de regresión muestral estocástica para variables


estandarizadas

Donde (etcétera), reciben el nombre de coeficientes estandarizados, coeficientes


beta o, simplemente, «betas», y miden cuántas desviaciones estándar cambia en respuesta a un
cambio de una desviación estándar en X1i*, X2i*, X3i*.
A pesar de que este tipo de regresión tiene la ventaja de que permite comparar de manera
directa qué regresores tienen efectos más importantes, qué variables tienen una fuerza relativa
mayor (lo cual puede ser muy interesante), se ha de tener presente que es un caso especial de
regresiones a través del origen, las cuales plantean ciertas particularidades (por ejemplo, el
coeficiente R2 no es adecuado), como se ha visto más arriba.
Los betas se pueden obtener casi directamente a partir de los estimadores obtenidos a partir
de las variables no estandarizadas. Al fin y al cabo, solamente hay que invertir el cambio de escala
que comportan: la ecuación 57 no es nada más que la aplicación de la ecuación 48 si tenemos
presente que wY = (1/sY), y que wX = (1/sX).

Ecuación 57. Obtención de los coeficientes estandarizados (betas) a partir de los no


estandarizados
3.5. Modelos log lineales, log-lin, y lin-log

A veces, puede interesar analizar no los cambios absolutos en las variables, sino sus cambios
relativos. De hecho, hay tres grandes posibilidades en este sentido.
En primer lugar, podríamos estar interesados en analizar los cambios relativos en la variable
dependiente en función de los cambios absolutos en la(s) independiente(s). Para ello, se saca el
logaritmo de la variable dependiente. Los modelos resultantes reciben la denominación de
modelos loglineales o, simplemente, log-lin.
En segundo lugar, podríamos estar interesados en analizar los cambios absolutos en la
variable dependiente en función de los cambios relativos en la(s) independiente(s)
independiente(s). En este caso, se saca el logaritmo de la variable independiente. Este tipo de
modelos recibe la denominación de modelos lin-log.
Finalmente, podríamos estar interesados en analizar los cambios relativos en la variable
dependiente en función de los cambios relativos en la(s) independiente(s). En este caso, se tiene
que sacar el logaritmo tanto de la variable dependiente como de la variable (o variables)
independiente(s), y se obtienen los modelos log-log, doble log o log lineales. Observad que el
cociente de cambios relativos es, precisamente, una elasticidad.

4. Introducción a los modelos con dependiente categórica


Independientemente de la naturaleza de las variables independientes, que, como hemos visto,
pueden ser cuantitativas o no, todos los análisis discutidos hasta ahora han partido del supuesto
de que la variable dependiente era cuantitativa.
Ahora bien, muy a menudo, las variables que nos interesa estudiar en ciencias políticas,
sociología o economía no son cuantitativas.
Así, de entrada, muchas de las variables que nos puede interesar estudiar solamente pueden
adoptar dos valores. Veamos algunos ejemplos:
Ejemplo 1

Un politólogo puede estar interesado en averiguar las motivaciones que llevan a los ciudadanos a votar o a abstenerse, a tomar
parte en una manifestación o no hacerlo, a afiliarse a algún partido (o sindicato), a tomar parte en una revolución; también
puede querer estudiar las razones que pueden dar cuenta de si los parlamentarios votarán o no a favor de una ley, seguirán la
disciplina de partido o la romperán, se presentarán a la reelección o no; o las causas que explican si dos partidos se presentarán
de forma aislada o en coalición, llegarán a un pacto de gobierno después de las elecciones, darán o no apoyo a un estatuto
autonómico, o llevarán adelante una moción de censura.

Ejemplo 2
De manera parecida, un sociólogo puede estar interesado en averiguar las motivaciones que llevan a los ciudadanos a tener hijos
o no, a vivir en casa de los padres o buscar una residencia diferente, a vivir solo o compartir piso, a reciclar o no, a migrar a
otro país o no, a seguir las prescripciones de alguna religión o no hacerlo; o a estudiar una carrera universitaria o no hacerlo.

Ejemplo 3

Lo mismo sucede con otras disciplinas. Un economista puede querer explicar por qué algunos individuos deciden formar parte
de la población activa y otros, no; por qué algunos de los individuos que forman parte de la población activa trabajan mientras
que otros están en el paro; por qué algunas empresas deciden continuar operando y otras acaban cerrando, o por qué algunas
obtienen beneficios y otras tienen pérdidas. Un abogado puede querer saber por qué unas leyes son derogadas y otras
mantienen su vigencia, por qué unas son enmendadas y otras se mantienen tal cual, por qué unos acusados son declarados
inocentes o culpables, por qué unos ciudadanos son conminados a la prisión preventiva y otros pueden acogerse a medidas
sustitutorias, o por qué algunos infringen las leyes mientras que otros prefieren cumplirlas. Y así, sucesivamente.

Otras muchas variables que nos puede interesar estudiar solamente pueden adoptar un
número reducido de categorías, que pueden estar ordenadas (variables ordinales) o no estarlo
(variables nominales). Veamos algunos ejemplos para variables nominales:
Ejemplo 4

Un politólogo puede estar interesado en las causas que explican por qué unos ciudadanos votan al PSOE y, otros, al PP,
Podemos, C’s u otro partido; por qué algunos se presentarán como candidatos a elecciones locales, y otros, a elecciones
regionales, generales o europeas; por qué unos partidos llegarán a un pacto de gobierno después de las elecciones, otros, a
acuerdos puntuales, y otros, gobernarán en minoría; por qué algunos representantes políticos votarán a favor de subir el gasto
en educación mientras que otros lo harán a favor del gasto sanitario o militar. Un sociólogo puede estar interesado en averiguar
las motivaciones que llevan a los ciudadanos a vivir en casa de los padres, de los abuelos, en una casa compartida con amigos,
en un piso compartido con la pareja, o en un hotel; a migrar a otro país europeo, asiático, africano o latinoamericano; a hablar
con los hijos en catalán, castellano, o alemán; a abrazar el catolicismo, el protestantismo, el budismo o el islam; a estudiar
Derecho, Economía, Política o Sociología. Un economista puede querer explicar por qué algunos individuos deciden comprar
la marca A, B, C o D; o por qué algunas empresas deciden contratar trabajadores, subcontratarlos o invertir en maquinaria.

Veamos, ahora, algunos ejemplos para variables ordinales (en este caso, seremos más breves,
para no alargar demasiado la discusión):
Ejemplo 5

Un politólogo puede estar interesado en las causas que explican por qué unos ciudadanos están mucho, bastante, un poco o
nada identificados con su nación, o por qué algunos discuten con mucha, bastante o poca frecuencia sobre la campaña electoral
con sus amigos. Un sociólogo puede estar interesado en averiguar las motivaciones que llevan a los ciudadanos a estudiar hasta
el nivel de secundaria, de licenciatura, de máster o de doctorado; y un economista puede querer explicar por qué algunas
empresas tienen una gama pequeña, media o amplia de productos.

El análisis riguroso y adecuado de modelos donde las variables dependientes sean categóricas
es, por lo tanto, fundamental en todas las ciencias sociales. Ahora bien, ¿podemos llevar a cabo
estos análisis mediante un modelo de regresión clásico? La respuesta, como ahora mismo
veremos, es negativa.
Ejemplo

Consideremos a un investigador que quiera explicar por qué la gente vota o se abstiene en función de la edad y la renta:

Ecuación 58. FRP para una variable dependiente dicotómica


Donde VOTOi solo puede tomar dos valores: o se abstiene (VOTOi=0) o vota
(VOTOi=1); EDADi está medida en años, y RENTAi está medida en miles de euros al mes.

Claramente, tal como está formulado, el modelo no puede ser aplicado, puesto que daría pie a
predicciones sin sentido sustantivo. Por ejemplo, si β0 = 0,15; β1 = 0,01; y β2 = 0,20, para un
ciudadano con 20 años y una renta de un millar de euros, nuestra predicción sería E(VOTOi) =
0,15 + 0,01×20 + 0,20×1 = 0,55. Aun así, un ciudadano no puede hacer 0,55 votos y 0,45
abstenciones: o bien vota, o bien se abstiene, del mismo modo que un ciudadano no puede ser
0,65 hombre y 0,35 mujer: o bien es un hombre, o bien, una mujer.
La posibilidad aparentemente más sencilla consiste en reinterpretar la variable dependiente y
estimar un modelo como el que se ha presentado antes, pero considerar que, en lugar de la
variable voto-abstención directamente, VOTOi representa la probabilidad de abstenerse o votar.
Este es el enfoque del modelo lineal de probabilidad (MLP).
Veamos cómo funciona el MLP. Definimos VOTOi=Yi=0, si no vota; Yi=1, si vota;
EDADi=X1i; RENTAi=X2i; (1-Pi)= Probabilidad de que Yi=0; y Pi= Probabilidad de que Yi=1.
Sabemos, además, que, por definición de la esperanza matemática, E(Yi)=0×(1-Pi)+1×Pi=Pi, la
cual tiene que estar comprendida entre 0 y 1, como todas las probabilidades. Sabemos, además,
que, si tratamos este modelo como un modelo lineal, (E(Yi)= β0+βiX1i+β2X2i). Observad, por
tanto, que Pi= β0+βiX1i+β2X2i y, por lo tanto, es una función de los valores de las variables
independientes.
Si bien, en una primera instancia, parecería que el MLP se puede estimar como cualquier
modelo clásico de regresión, cuando se analiza la cuestión con más detalle, se llega a la conclusión
de que el MLP implica una serie de problemas:

No normalidad de las perturbaciones ui. Las perturbaciones siguen una distribución


binomial, no una normal. En efecto, dado que Yi solamente puede alcanzar dos valores, lo
mismo sucede con ui. Cuando Yi=1, ui=1-β0-βiX1i-β2X2i; cuando Yi=0, ui=-β0-βiX1i-β2X2i. Por
tanto, dado que ui no sigue una distribución normal (sino una binomial), a pesar de que la
estimación es todavía posible, y que sabemos que todavía obtendremos estimadores no
sesgados con el método MCO, este hecho tendrá consecuencias para las estimaciones por
intervalos, puesto que cambia la distribución de las perturbaciones y de las betas.
Heteroscedasticidad de las perturbaciones ui. Es un hecho bastante conocido que una
distribución binomial de las perturbaciones significa que su varianza se puede definir como
var(ui)=(1-Pi)×Pi. Como Pi=β0+βiX1i+β2X2i y, por lo tanto, es una función de los valores de
las variables independientes, ui también es una función de estas, es decir, es heteroscedástica.
Este problema también tiene solución, puesto que podemos aplicar el MCG en lugar del
MCO.
La esperanza condicional de la variable dependiente no está necesariamente comprendida
entre 0 y 1. Técnicamente, E(Yi)=Pi=β0+βiX1i+β2X2i, y no hay ninguna garantía de que esta
esperanza esté entre 0 y 1. Si volvemos a nuestro ejemplo, para un ciudadano con 60 años y
una renta de tres mil euros, nuestra predicción sería E(VOTOi) = 0,15 + 0,01×60 + 0,20×3
= 1,35. Sin embargo, un ciudadano no puede tener una probabilidad de votar superior a la
unidad. Este es el gran problema del MLP, y es una consecuencia directa de su linealidad.

Para solucionar este último problema, se tiene que abandonar el MLP y utilizar, en su
sustitución, otros métodos que no asumen un efecto lineal de las variables independientes sobre
la variable dependiente. La no asunción de un efecto lineal de las variables independientes sobre
la variable dependiente tendrá dos virtudes. En primer lugar, permitirá evitar que E(Yi) caiga
fuera del rango entre 0 y 1. En segundo lugar, permitirá recoger la idea de que, cuando la edad y
la renta sean elevadas y, por lo tanto, también lo sea la probabilidad de votar, un incremento
adicional en los valores de las variables independientes tendrá tan solo un efecto menor sobre
dicha probabilidad, puesto que esta era, de todas maneras, muy elevada. En cambio, para valores
más bajos de las independientes, los incrementos de estas tenderán a provocar un incremento
mayor sobre la probabilidad de votar.
A pesar de que hay otros métodos, aquí discutiremos los modelos logit y probit (también
denominado normit) puesto que son los más utilizados para analizar problemas como el que se
ha expuesto aquí. Estos dos modelos tienen, esencialmente, la misma lógica, y difieren solamente
en que el modelo logit postula una distribución logística de los errores, con esperanza de cero y
varianza de π2/3; mientras que el modelo probit postula una distribución normal de los errores,
con esperanza de cero y varianza unitaria.
A pesar de que la variable dependiente de estos modelos (la cual definiremos unas líneas más
abajo) no se puede observar (técnicamente, diremos que es una variable latente) y, por lo tanto, no
podremos saber si la asunción de que los errores siguen una distribución logística es más o
menos acertada que la asunción de que estos siguen una distribución normal, en la práctica,
ambos modelos tienden a generar predicciones casi coincidentes en la casi totalidad de las
aplicaciones, con lo cual se puede elegir uno u otro según las preferencias personales del
investigador sin mucho riesgo de que esta elección condicione los resultados o las inferencias
realizadas.
La lógica de los modelos logit y probit se puede explicar de la manera siguiente. El modelo de
la ecuación 58 se reformula como un modelo más complejo compuesto por una ecuación
estructural y un modelo de medida. La ecuación estructural es análoga a la presentada en el
modelo de la ecuación 58, con la particularidad de que, ahora, la variable dependiente de este
modelo es una variable latente, no observada: VOTOi*=Yi*= β0+βiX1i+β2X2i+ ui. Esta variable
puede asumir cualquier valor dentro del conjunto de los números reales. El modelo de medida
define una variable observada, la observación de que un ciudadano efectivamente se abstenga o
vote, en función de que la variable latente caiga por debajo o por encima de un determinado
umbral. Si definimos este umbral como VOTOi*=Yi*=0 (se puede demostrar que esta elección
es arbitraria y no tiene ninguna influencia sobre los resultados, pero la demostración va más allá
de los objetivos de este capítulo), el modelo de medida será VOTOi=Yi=0 si VOTOi*=Yi*≤0;
VOTOi=Yi=1 si VOTOi*=Yi* > 0.
Lo importante, aquí, es que la probabilidad de que VOTOi=Yi=1 (que el ciudadano vote) es
una función directa de la distribución de los errores en el modelo estructural para VOTOi*=Yi*.
La estimación concreta variará en función de las asunciones que se hagan sobre el término de
error εi (a pesar de que, como se ha comentado antes, los resultados proporcionados por el
modelo logit y por el modelo probit tienden a ser casi iguales).
Veamos, de manera muy resumida, algunos de los puntos más importantes del modelo logit.
Dada su distribución logística, este modelo equivale a estimar la ecuación siguiente:

Ecuación 59. Modelo logit (para dos variables explicativas)

Donde ln (Pi/(1-Pi)) es el logaritmo natural del cociente de probabilidades entre votar y no


votar, y Li es una manera sucinta de hacer referencia a este logaritmo, y recibe el nombre de logit.
La lógica del modelo logit se asemeja más a la de una casa de apuestas, donde se hacen apuestas
del tipo «3 a 1 a que quien gana la liga de fútbol es el Barça y no el Madrid», en función de un
conjunto de variables independientes (como el gasto en nuevos fichajes o la cantidad de partidos
ganados en la liga el año pasado), que a la lógica a la que nos hemos acostumbrado en el modelo
clásico de regresión lineal, donde lo que hacíamos era tratar de predecir el valor concreto de la
variable dependiente.
En el caso de nuestro estudio sobre la decisión de abstenerse o votar en función de la edad y
la renta, la ecuación 59 se concretaría de la manera siguiente:

Ecuación 60. Modelo logit para el estudio de la decisión de votar en función de la


edad y la renta
El modelo logit presenta las características siguientes:

A pesar de que (a diferencia de lo que sucedía en el MLP) Pi está acotado entre 0 y 1, Li y,


por lo tanto, Yi*=VOTOi* está definido entre menos infinito y más infinito.
A pesar de que Li y, por tanto, Yi*=VOTOi* es lineal en las X, a diferencia de lo que sucedía
en el MLP, Pi no lo es.

La interpretación del modelo logit no es la misma que la del modelo clásico de regresión
lineal. Ahora, los estimadores no miden el aumento en el valor esperado de la variable
dependiente como consecuencia de un aumento en los valores de las variables independientes,
sino el aumento en el logaritmo natural del cociente de probabilidades.
Cuando se presentan los resultados de un modelo de estas características, resultará muy
esclarecedor ofrecer las predicciones del valor esperado de la variable dependiente para diferentes
combinaciones de las independientes y acompañar los resultados de gráficos explicativos. A pesar
de que estas tareas quedan, por necesidad, fuera de los contenidos que se pueden exponer a lo
largo de este capítulo –el cual ya resulta suficientemente extenso sin tratar estas cuestiones–,
cualquiera de los paquetes estadísticos tradicionales permite obtener las predicciones
mencionadas y construir gráficos a partir de ellas.
Finalmente, una nota breve en relación con los modelos para variables dependientes
nominales y ordinales. Ambos plantean los mismos retos que los modelos de las dicotómicas: en
primer lugar, las probabilidades de que se verifique una determinada categoría u otra de la
variable dependiente (como tener estudios primarios, secundarios o universitarios) tienen que
estar acotadas entre cero y la unidad; en segundo lugar, por las mismas razones aducidas en el
caso de las variables dependientes dicotómicas, habría que esperar que estas probabilidades no
fueran una función lineal de los valores de las variables independientes.
La lógica de los modelos para analizar estas variables es por consiguiente muy parecida a la de
los modelos logit y probit bivariados (para dicotómicas). La ecuación estructural es básicamente
análoga a la presentada en el modelo de la ecuación 58. La diferencia radica en el modelo de
medida, que tendrá que considerar, ahora, diferentes puntos de corte. Por ejemplo, en el caso de
una variable dependiente ordinal, el modelo de medida tendrá que especificar puntos de corte
para tres categorías: educación primaria, secundaria y universitaria. Además, si se trata de un
modelo ordinal, el modelo tendrá la restricción de que aumentos en los valores de las variables
dependientes tendrán un efecto de determinado sentido sobre la variable dependiente: por
ejemplo, si un aumento de la renta tiende a incrementar la probabilidad de tener estudios
secundarios y universitarios en detrimento de estudios primarios, un aumento todavía mayor
tendrá un efecto en el mismo sentido. Recordad que la ordinalidad de una variable es una
cuestión que conviene contrastar empíricamente. Una posibilidad es especificar, primero, un
modelo nominal, y comprobar si se puede aceptar la hipótesis de ordinalidad de la variable
dependiente.
El modelo empleado más a menudo para analizar problemas con una variable dependiente
nominal es el logit multinomial, o su correlato con distribución normal de los errores, el probit
multinomial. Los modelos empleados más a menudo para analizar problemas con una variable
dependiente ordinal son el logit ordinal y el probit ordinal. Cualquiera de los paquetes
estadísticos tradicionales dispone de rutinas que permiten contrastar este tipo de modelos.
Con esto, damos por concluido el capítulo –y el libro pero no el proceso de aprendizaje, que
os aconsejamos que continuéis mediante la aplicación de todas las técnicas estudiadas a datos
reales para analizar problemas de vuestro interés. ¡Esperamos que disfrutéis mucho analizando
problemas políticos y sociales usando el amplio abanico de técnicas expuestas a lo largo de estas
páginas!
Bibliografía
Gujarati, D. N. (1997). Econometría Básica [Basic econometrics.]. 3a ed. Santafé de Bogotá: McGraw-Hill.
Tacq, J. (1997). Multivariate Analysis Techniques in Social Science Research: From Problem to Analysis. Londres:Sage.

También podría gustarte