Documentos de Académico
Documentos de Profesional
Documentos de Cultura
cuantitativo
Introducción
Hasta hace no demasiado tiempo, la fuente principal de información política y social era de
carácter textual, dada la escasez de datos cuantitativos que permitieran otro tipo de
aproximaciones. Este estado de las cosas ha sufrido un cambio drástico gracias a los avances
tecnológicos de las últimas décadas, que han permitido multiplicar la cantidad, calidad y variedad
de datos sobre múltiples aspectos de la vida social, política y económica. De la mano de esta
mayor disponibilidad, estamos evolucionando hacia un mundo en el que la explotación de
información cuantitativa forma parte del quehacer diario de profesionales de la opinión, expertos
en la persuasión política y comercial y, desde luego, la comunidad científica. Los periodistas
incluyen con frecuencia tablas y gráficos en sus artículos, los políticos respaldan sus propuestas
con información sobre la evolución de variables macroeconómicas, los publicistas diseñan sus
campañas atendiendo a encuestas de satisfacción, y los investigadores incluyen secciones de
análisis empíricos en sus trabajos académicos.
Este libro te familiarizará con las técnicas de análisis cuantitativo más importantes. Aunque
está centrado en el análisis de datos sociales y políticos, su ámbito de aplicación rebasa
ampliamente el de los datos concretos con los que se ilustra cada técnica. Sin ir más lejos, yo
mismo he utilizado las técnicas expuestas en este libro para encargos de consultoría sobre los
patrones de consumo de los españoles. El objetivo principal de estas páginas es que sepas escoger
la técnica de análisis más adecuada para cada situación y puedas explicar cómo se debe interpretar
la información que presentes. A diferencia de otros manuales centrados en cómo acometer
análisis estadísticos con un paquete econométrico específico (yo mismo he escrito uno: Santana,
2017), los conocimientos que adquieras con la lectura de este libro son válidos
independientemente de los programas informáticos con los que decidas realizar tus análisis.
Hay que tener cuidado: una investigación con demasiados objetivos secundarios corre el
riesgo de la dispersión y de no lograr su objetivo general.
3. Los objetivos específicos son un conjunto de objetivos que conjuntamente (si se cumplen
todos y cada uno de ellos) permiten cumplir el objetivo general. Hay que rehuir la tendencia a
enumerar un listado para «cumplir con el expediente». En cambio, si se formulan con cuidado,
pueden facilitar muchas tareas de la investigación. Por ejemplo, en un estadio primigenio de esta,
puede resultar útil la construcción de una tabla de doble entrada que relacione las referencias
bibliográficas que se pretenden consultar y los objetivos específicos de la investigación. Esto
puede dar pistas muy valiosas: ¿se dispone de la bibliografía necesaria para lograr con éxito cada
uno de los objetivos específicos? ¿Incluye nuestra selección bibliográfica inicial muchas fuentes
que no tienen relación con ninguno de los objetivos específicos? También resultan útiles para
dividir la tarea global en una serie de tareas más pequeñas y delimitadas.
Un conjunto sensato de objetivos específicos cumple tres condiciones:
1) Ninguno puede ser tan amplio como el general.
2) Conjuntamente son suficientes. Si todos se cumplen, se cumple el general.
3) Individualmente son necesarios. Si alguno no se cumple, no se cumple el general. Es decir,
ninguno puede ser superfluo.
Finalmente, muchos proyectos incluyen una sección con una «revisión de la literatura», de los
estudios existentes sobre el tema. La ciencia es una empresa colectiva, con lo que, antes de
emprender tu investigación, deberás revisar bien lo que ya se ha escrito. Así, evitarás dos cosas:
reinventar la rueda y caer en plagio. La mayoría de las universidades cuenta con software antiplagio,
como Turnitin, con lo que es importante que documentes qué ideas son tuyas y cuáles han sido
defendidas en otros estudios. Para citar bien las fuentes consultadas, lo mejor es incorporar cada
referencia a medida que la usas (nunca dejes todas para el final) y emplear programas
especializados de gestión bibliográfica, tales como Zotero, Refworks o Endnote.
Una buena revisión del estado del arte sirve para mucho más que evitar duplicidades (King;
Kehoane; Verba, 2000, pág. 27) o plagios: supone una ayuda inestimable para definir el trabajo
(circunscribirlo al «hueco» dejado por los estudios existentes), defender su relevancia (quienes
investigaron temas afines habrán tenido que explicar por qué lo hicieron), justificar los efectos
esperados y los mecanismos causales (gracias a ideas e hipótesis desarrolladas por otros
estudiosos), percatarse de posibles variables relevantes o relaciones entre variables, elegir los
indicadores más adecuados de los conceptos, y maximizar la comparabilidad y el alcance del
propio trabajo.
Una nota final. Si tu proyecto compite por financiación, escribirlo bien se convierte en un arte
en sí mismo (Przeworski; Salomon, 1995). Suele valorarse positivamente que sugieras cuál será el
producto esperado (un libro, un artículo, una tesis), que demuestres un conocimiento profundo y
actualizado de la literatura, y que relaciones tu investigación con discusiones teóricas
controvertidas en la disciplina.
2. Conceptos
En esta sección, clarifico conceptos que serán empleados con profusión a lo largo del libro.
Empiezo con los de descripción y explicación, ya que los dos capítulos siguientes se refieren a la
primera, y el cuarto, a la segunda.
Describir unos datos implica organizarlos, clasificarlos, resumirlos y mostrar sus
regularidades (Spiegel, 1991, pág. 1).
Explicar un fenómeno implica desvelar cuáles son los factores que lo causan.
Los análisis de datos pueden ser univariantes (segundo capítulo) o multivariantes (capítulos
tres y cuatro).
Los análisis univariantes estudian las variables considerándolas de manera aislada, y son
siempre y necesariamente descriptivos: ¿cuál es la edad media de los estudiantes de este
curso?
Los análisis multivariantes estudian las relaciones entre variables, las consideran de manera
conjunta. Algunos de ellos son descriptivos, y resumen la distribución conjunta de dos o
más variables: ¿con qué frecuencia encontramos estudiantes que tengan al mismo tiempo los
cabellos negros y los ojos azules? Otros, son explicativos: ¿cuál es el efecto del régimen
político sobre la tasa de crecimiento económico de los países? Mientras que la descripción
puede ser univariante o multivariante, la explicación siempre presupone poner en relación al
menos dos variables, una causa y un efecto.
En ciencias sociales, es muy habitual trabajar con muestras, ya que contar con datos
poblacionales puede ser muy costoso o simplemente inviable. Cuando se trabaja con muestras, se
parte de unos datos (los de la muestra) de los cuales se dispone, y se va más allá, ya que lo que se
pretende es establecer conclusiones sobre la población en su conjunto. A este proceso se le llama
inferencia. La inferencia implica un razonamiento inductivo:
Ejemplo
Negri es perro y tiene 4 patas --------------- (x es X; x cumple Y)
Tobi es perro y tiene 4 patas ---------------- (x es X; x cumple Y)
Pillín es perro y tiene 4 patas -------------- (x es X; x cumple Y)
→ Los perros tienen 4 patas --------- (todo X cumple Y)
La deducción es el proceso por el cual llegamos a una conclusión razonada a partir de una
generalización lógica de hechos conocidos.
Ejemplo
Negri es perro ------------------------ (x es X)
Los perros tienen 4 patas ------- (todo X cumple Y)
→ Negri tiene 4 patas --------------- (x cumple Y)
Uno de los conceptos más importantes para el análisis de datos es el de variable, pero no todas
las variables funcionan de la misma manera. La distinción más importante se establece entre las
cuantitativas y las cualitativas:
A menudo, se establecen divisiones aún más detalladas entre tipos de variables. Por ejemplo, es
muy común distinguir entre subtipos de variables categóricas:
Las variables ordinales tienen tres o más valores, entre los que importa el orden (pero no se
pueden hacer afirmaciones en relación con la distancia que separa a cada uno de ellos).
Ejemplos
Las medallas obtenidas en unas olimpíadas (de oro, plata y bronce). Tiene más valor una de oro que una de plata, y esta más
que una de bronce, pero no se puede decir fácilmente cuánto valor adicional tiene obtener una medalla de oro en lugar de una
de plata y cuánto una de plata en relación a una de bronce. La eventual asignación de valores numéricos a las distintas categorías
es parcialmente arbitraria. Podría asignarse el valor 1 a las de oro, 2 a las de plata, y 3 a las de bronce; o los valores 3, 44 y 52,
respectivamente; pero no los valores 2, 5 y 4. Fíjate que la «media» de un país con una medalla de cada tipo sería (1 + 2 + 3) /
3 = 2 bajo la primera asignación, pero (3 + 44 + 52) / 3 = 33 bajo la segunda. Precisamente por esto, la media no tiene
sentido.
Las variables nominales son variables entre cuyos valores no importa el orden; no se puede
establecer una ordenación lógica.
Ejemplos
Las variables dicotómicas son un subtipo de las nominales con solo dos valores (el término
nominal se suele reservar para las de tres o más). Obviamente, al haber solo dos categorías, la
cuestión de si importa o no el orden ni se plantea.
Ejemplos
Vivir en democracia o en dictadura. Votar o abstenerse. Ser mujer u hombre. La eventual asignación de valores numéricos a las
distintas categorías es totalmente arbitraria: mujer = 1 y hombre = 0, o bien mujer = 1 y hombre = 2, o cualquier otra.
En ocasiones, también se diferencia entre subtipos de variables cuantitativas:
Las variables de intervalo tienen un origen (valor 0) arbitrario, sin sentido en sí mismo. Por
ello, no tiene sentido sacar cocientes entre sus valores.
Ejemplos
La temperatura, medida en grados Celsius o Fahrenheit. Entre tres días, lunes, martes y miércoles, con 10ºC, 12ºC y 20ºC,
respectivamente, tiene sentido decir que el miércoles hizo más calor que el martes y que el martes hizo más calor que el lunes;
tiene, además, sentido decir que la diferencia de temperaturas entre el miércoles y el martes fue más marcada que entre el martes
y el miércoles; pero no tiene sentido decir que «el miércoles hizo el doble de calor que el lunes». Esto se debe al hecho de que el
0 de la escala Celsius es arbitrario.
Las variables de razón son variables cuantitativas cuyo origen, cuyo valor 0, tiene sentido en
sí mismo, no es arbitrario. Ahora, los cocientes tienen sentido.
Ejemplos
La edad, la renta, el peso, o la temperatura en grados Kelvin. Si María tiene 20 años, Juan, 30, y Pedro, 40, tiene sentido decir
que Pedro es más viejo que Juan y que este es mayor que María, que la diferencia de edad entre Juan y María es la misma que
entre Pedro y Juan, y que Pedro tiene el doble de edad que María.
No importa ni el orden ni la
Nominales Más de dos categorías
distancia
Merece la pena comentar que la distinción entre las variables cualitativas ordinales y las
cuantitativas es, a menudo, una cuestión de grado. A fin de cuentas, ¿cuántas categorías son
necesarias para considerar que su número es «elevado» y que es adecuado asumir que la distancia
importa? No existe, lógicamente, un «número mágico» para dirimirlo, pero, en la práctica, la
mayoría de los investigadores no suele encontrar problemático asumir que, con diez categorías, es
aceptable considerar que la variable es cuantitativa.
Además, en última instancia, el carácter ordinal o nominal de una variable no constituye una
característica intrínseca de una variable, sino que depende de los fines del investigador. Por
ejemplo, frente al orden aparentemente lógico extrema izquierda < izquierda moderada < centro
< derecha moderada < extrema derecha (o el orden inverso), es posible que, para estudiar la
estabilidad democrática, lo relevante sea la situación más o menos extrema de los partidos, de
manera que la estabilidad sería creciente con un orden del tipo centro > izquierda moderada,
derecha moderada > extrema izquierda, extrema derecha.
En los párrafos precedentes, se han clasificado las variables en función de cómo recaban la
información, diferenciando según las relaciones de orden, distancia, etc., que se pueden (o no)
establecer entre sus valores. Esta es la distinción más importante para el análisis de datos, ya que
condiciona qué tipo de información (distribución de frecuencias, medias o incluso cocientes)
puede tener sentido (o no) y, con ello, los tipos de análisis posibles. En consecuencia, los análisis
descriptivos de variables cualitativas muestran distribuciones de frecuencias de variables aisladas
(en el caso univariante) o de combinaciones de valores de más de una variable (en el
multivariante); y los de variables cuantitativas muestran medias y otras medidas sumarias (en el
caso univariante) o tendencias a crecer conjuntamente o a moverse en direcciones opuestas (en el
caso multivariante):
Univariante Multivariantes
Frecuencias conjuntas
Distribución de frecuencias
Cualitativas (tablas de contingencia)
(tablas y gráficos de frecuencias)
(gráficos anidados de frecuencias)
Comparaciones de medias
Mezcla
(contrastes y gráficos de comparación de medias)
En los análisis explicativos, se establece una distinción adicional muy importante entre las
variables según el papel que desempeñan en tus modelos:
Por una parte, las variables dependientes o endógenas o regresandos: son las que quieres
explicar, los efectos. Es decir, son aquellas cuyos cambios (cuyos diferentes valores) quiere
entender y explicar el investigador, el consultor o el gerente. Es habitual etiquetarlas con la
letra Y. Para que se pueda estudiar qué genera cambios en Y, es necesario que esta
experimente variaciones. Cuando la dependiente no varía o varía poco, surgen problemas.
Ejemplo
¿Qué factores influyen sobre el régimen político de los países de la Unión Europea? ¡La variable dependiente no varía! Todos
los países de la UE son democracias: técnicamente, la variable dependiente es una columna de ceros. Una variable degenerada es
una «variable que no varía», que adopta un valor constante, el valor de un parámetro. ¿Qué factores influyen sobre la
probabilidad de que un país experimente una revolución? Hay tan pocas revoluciones que es difícil de estudiar. Es difícil
determinar cuáles de las innumerables diferencias entre países y en el tiempo son las responsables del pequeño número de
revoluciones. La variable dependiente es casi una columna de ceros.
Ejemplo
Si todos los trabajadores de un local tienen el mismo sueldo, entonces el sueldo no podrá dar cuenta de las variaciones en sus
tasas de absentismo laboral.
La popularidad de los análisis econométricos para estimar relaciones causales entre variables
ha comportado una sofisticación en la identificación de posibles relaciones entre variables. No
todas las relaciones posibles se limitan a efectos directos de una o varias variables independientes
sobre la dependiente. Quienes se dedican a proponer modelos causales consideran a menudo
otros tipos de variables:
Las variables moderadoras son las que (crees que) afectan a la relación entre la variable
independiente y la dependiente; esto es, condicionan o modifican el efecto de aquella sobre
esta. Cuando una variable moderadora está en juego, la variable independiente tiene un
efecto contingente sobre la dependiente en función de los valores asumidos por la
moderadora.
Ejemplo
En muchos países, el efecto del número de hijos sobre el número de horas trabajadas por semana depende del género (está
moderado o condicionado por este), hasta tal punto de que suele ser positivo para los hombres y negativo para las mujeres.
Obviamente, este hallazgo debería dar que pensar a los responsables de las políticas de igualdad de género.
Puede que la religiosidad tenga efectos sobre el voto porque aquella afectara a la ideología, que, a su vez, podría afectar al voto.
De ser así, la ideología sería una variable interviniente.
Las variables antecedentes son responsables de los cambios en otras variables entre las que
se detecta la existencia de algún tipo de relación.
Ejemplo
El hecho de que en las localidades en las que hay más cigüeñas haya más nacimientos no se debe a que las cigüeñas traigan a los
bebés, sino a la presencia de una variable antecedente (que la localidad pertenezca al ámbito rural en lugar de al urbano) que
propicia un aumento tanto de la población de cigüeñas como de la tasa de natalidad.
Bibliografía
King, G.; Keohane, R.; Verba, S. (2000). El diseño de la investigación social: La inferencia científica en los estudios cualitativos. J. Cuéllar
(trad.). Madrid: Alianza Editorial.
Przeworski, A.; Salomon, F. (1995). On the Art of Writing Proposals: Some Candid Suggestions for Applicants to Social Science Research
Council Competitions. Nueva York: Social Science Research Council.
Santana, A. (2013). Fundamentos para la investigación social. Madrid: Alianza Editorial.
Santana, A.; Rama, J. (2017). Manual de análisis de datos con Stata. Madrid: Tecnos.
Spiegel, M. R. (1991). Estadística (2.ª edición). R. Hernández Heredero (trad.). Madrid: McGraw-Hill.
Capítulo II
1. Tabulaciones de frecuencias
Las tabulaciones de frecuencias son la herramienta más sencilla e inmediata para obtener
información sobre la distribución de una o más variables.
Tabulaciones de frecuencias
Tablas de distribución de una variable donde se presentan las frecuencias absolutas de cada
categoría de la variable (es decir, el número de veces que se repite cada categoría), sus
frecuencias relativas (es decir, sus porcentajes) o las frecuencias relativas acumuladas (es
decir, el porcentaje acumulado de cada categoría y todas las precedentes).
Tomemos los datos del cuestionario postelectoral español del CIS (Centro de Investigaciones Sociológicas) correspondiente a
las elecciones generales españolas de 2008 (cuestionario CIS 2757, disponible de manera gratuita, se puede descargar
directamente desde la página web del CIS). Sacaremos una tabla de frecuencias de la variable correspondiente al género
(variable «sexo», en el cuestionario):
1
2.938 48,30 48,30
(hombre)
2 (mujer) 3.145 51,70 100,00
Total 6.083 100,00
Ahora, empleamos la variable correspondiente a la clase social (variable «p69» del cuestionario).
La tabla 4 (más abajo) permite observar la distribución de la variable ordinal «clase social».
Vemos que, de un total de 6.083 encuestados, la mayoría se sitúa como de clase media-media
(3.682, o un 60,53 % de la muestra) y, en segundo lugar, de clase media-baja (1.554, o un 25,55 %),
mientras que las categorías extremas son muy poco habituales: solamente 13 de los 6.083
encuestados, o un 0,21 % de la muestra, dicen ser de clase alta, y 346, o un 5,69 %, manifiestan ser
de clase baja. Observad que, ante una pregunta como esta, hay un porcentaje de casos que o bien
no se sabe posicionar, o bien no contesta. En este caso, el porcentaje acumulado sí proporciona
información relevante adicional. Por ejemplo, nos permite saber que un 5,10 % de la muestra se
posiciona como de clase media-alta o más alta, o que un 96,86 % proporciona algún tipo de
respuesta posicionándose en una de las clases ofrecidas por los encuestadores.
3 (media-
3.682 60,53 65,63
media)
Ejemplo 3
5
106 1,74 99,70
(divorciado/a)
La tabla 5 permite observar la distribución de la variable «estado civil», una variable nominal.
Observemos que, de un total de 6.083 encuestados, la mayoría están casados (3.585, o un 58,93 %
de la muestra), seguidos por los solteros (1.764, o un 29,00 %), mientras que las categorías
extremas son bastante menos habituales. Fijaos en que esta parece ser una pregunta menos
sensible que la de la clase social, y solamente dieciocho individuos, un 0,30 %, opta por no
contestar. Dado que la ordenación de las categorías es arbitraria, el porcentaje acumulado no
tiene sentido.
Las tabulaciones de frecuencias también son muy útiles para comprobar que las
recodificaciones de las variables llevadas a cabo han sido realizadas correctamente. Esto se puede
hacer tanto mediante una tabla de contingencia (como se verá en el capítulo siguiente) como
mediante la comparación de la tabla de distribución de frecuencias de la variable recodificada y de
la variable original.
Tabla 6. Distribución de frecuencias de la variable «clase social» (recodificada)
Total
5.8 92 100,00
(válidos)
Una comparación rápida de la tabla 6 con la tabla 4 permite comprobar que la recodificación
ha sido llevada a cabo correctamente. Por ejemplo, la diferencia en el número de casos (6.083 –
5.892 = 191) corresponde a la suma de aquellos que no saben o no quieren contestar a la
pregunta (111 + 80 = 191). Por otro lado, si sumamos el número de casos de clase media-alta,
media-media y media-baja en la tabla 4 (297 + 3.682 + 1.554 = 5.533), el resultado es el mismo
que el número de casos de clase media en la tabla 6.
Observad que todas las tablas están encabezadas por un título y que llevan un pie de tabla
donde se indica la fuente de procedencia de los datos. Esta información es fundamental, y se debe
incluir siempre en la presentación de tablas en un trabajo (de investigación), tanto si se trata de
tablas de frecuencias como de cualquier otro tipo. Dado que la codificación de las variables estaba
incluida en las tablas, no era necesario añadir información adicional, pero si no fuera así, sería
necesario incluir también la codificación al pie de la tabla:
1 13 0,22 0,22
Total
5.8 92 100,00
(válidos)
Gráficos de pastel
Gráficos con forma circular o de pastel que representan cada valor de la variable con un
área o «porción del pastel» proporcional a su frecuencia.
Ejemplo
Se presenta un gráfico de pastel de la variable «remordimiento» (variable «p505» del cuestionario), que recoge en qué medida los
encuestados están de acuerdo con la afirmación según la cual se sentirían fatal si no hubieran votado y su partido preferido
hubiera perdido por un solo voto, debidamente recodificada para prescindir de los individuos que no saben o no quieren
contestar y para que la escala sea creciente con el grado de acuerdo con la afirmación (originalmente, la escala estaba invertida).
Ejemplo
Se presenta un gráfico de barras (o, según algunos autores, un diagrama de Pareto; unas líneas más abajo se discute este punto)
de la misma variable, «remordimiento», una variable cualitativa con cuatro categorías:
Observad que, en este gráfico, se ha decidido resaltar la diferencia entre las categorías que
manifiestan acuerdo y las categorías que manifiestan desacuerdo mediante su representación en
tonos diferentes. ¿Estáis de acuerdo en que permite diferenciar más fácilmente entre ambos
grupos?
Observad también que en lugar de las frecuencias relativas (porcentajes) se ha optado por
representar las frecuencias absolutas (casos). Sería perfectamente posible representar porcentajes
con un gráfico de este tipo: para pasar de un gráfico con casos a uno de porcentajes (o viceversa),
solo es necesario cambiar la escala (Wonnacott; Wonnacott, 1979, pág. 32).
Algunos autores (Peña, 2001, págs. 51-52) reservan el término de diagrama de barras (el cual,
en nuestra notación, se subdivide en los gráficos de barras y en los gráficos de columnas, como
veremos dentro de poco) para las variables cuantitativas discretas, y prefieren emplear el término
de diagramas de Pareto para los gráficos correspondientes para variables cualitativas.
Por lo tanto, si se siguiera este criterio, la figura 2 sería un ejemplo de un diagrama de Pareto, y
no de de barras. Sin embargo, otros autores (Spiegel, 1991, págs. 19-23) no establecen esta
diferencia.
Por otro lado, muchos autores utilizan el término gráfico de barras para hacer referencia tanto a
los gráficos en los que las barras se representan de forma horizontal como a los que las
representan de forma vertical (Spiegel, 1991, págs. 19-23). Aquí, reservaremos el término para los
primeros, y denotaremos a los segundos con el nombre de gráficos de columnas, los cuales se
estudian a continuación.
Gráficos de columnas
Ejemplo 1
Observad que, en este gráfico, se ha decidido resaltar la categoría más frecuente mediante su
representación en otro color:
Ejemplo 2
A continuación, se presenta un gráfico de la variable «tasa de paro», tomada de EUROSTAT para los países europeos (y con
fines comparativos), para Estados Unidos y Japón; en concreto, de la tasa de paro no ajustada estacionalmente para 2008
(conviene advertir que el gráfico que se presentará ahora es mejorable, tal como quedará patente en la discusión que lo sigue):
Figura 4. Tasa de paro de los países de la UE, 2008 (gráfico no aconsejado)
Como se puede ver, tal como ha sido presentado, el gráfico no es muy cómodo de leer, y no
incluye ni detalles sobre cómo se ha calculado la tasa ni las claves de las etiquetas de los países.
Ahora, considerad un gráfico sobre los mismos datos, pero hecho con más cuidado:
Figura 5. Tasa de paro de los países de la UE, 2008 (gráfico más aconsejable)
Fuente: EUROSTAT. Datos de la tasa de paro no ajustada estacionalmente. Elaboración propia. Clave:
NOR: Noruega; HOL: Holanda; DIN: Dinamarca; CHI: Chipre; AUS: Austria; JAP: Japón; CHE: República
Checa; ESL: Eslovenia; LUX: Luxemburgo; EST: Estonia; BUL: Bulgaria; RUN: Reino Unido; LIT: Lituania;
RUM: Rumanía; USA: Estados Unidos; MAL: Malta; IRL: Irlanda; SUE: Suecia; FIN: Finlandia; ITA: Italia;
UE27: Unión Europea (27 países); BEL: Bélgica; POL: Polonia; ALE: Alemania; UE16: Unión Europea (16
países); LET: Letonia; GRE: Grecia; POR: Portugal; FRA: Francia; HUN: Hungría; CRO: Croacia; ESK:
Eslovaquia; TUR: Turquía; ESP: España.
En este nuevo gráfico, además de incluir toda la información relevante al pie de la tabla, los
países se han ordenado según su tasa de paro, lo que hace mucho más fácil detectar la posición
relativa de cada uno en esta dimensión. Además, se han rellenado con tonos diferentes las barras
de nuestro país y del resto de «PIGS» (Portugal, Italia, Irlanda y Grecia). Finalmente, se han
añadido etiquetas con los valores de la tasa de paro para algunos de los países. Como se puede
observar, este gráfico es mucho más atractivo que el precedente.
Histogramas
El primer histograma tiene todos los intervalos del mismo ancho, y esto hace que su
interpretación sea muy parecida a la de los gráficos de columna. De hecho, la proporción de casos
de los cuatro intervalos (de 18 a 37, de 38 a 57, de 58 a 77, y de 78 a 97) es, respectivamente, de un
36,3, 33,3, 24,6 y 5,8 %: las cifras correspondientes a las alturas del histograma de la izquierda son
precisamente estas (pero divididas por 100). Sin embargo, el segundo histograma tiene anchos
diferentes, y lo que es proporcional a la probabilidad de cada intervalo no es ya la altura, sino el
área de los rectángulos asociados a cada intervalo. La tabla siguiente nos ayudará a comprender la
interpretación del panel de la derecha:
Alto
IDEOLOGÍA Casos Área Inicio Final Ancho
(= Área/Ancho)
Gráficos que representan la frecuencia (absoluta o relativa) de las categorías de las variables
proporcionalmente mediante la altura de cada una de ellas en el gráfico, y que conectan los
valores con una línea. Son especialmente útiles para representar la evolución temporal de las
variables.
Ejemplo
Como se puede ver, los gráficos de líneas resultan muy adecuados para representar la
evolución temporal de una variable –y, de hecho, también de más variables. Estos gráficos se
pueden enriquecer señalando la ocurrencia de circunstancias que pueden dar cuenta de los
cambios de tendencia, como, por ejemplo, las crisis económicas o los cambios de gobierno.
A pesar de que cada vez hay más tipos de gráficos univariantes potencialmente útiles, estos
son, probablemente, los más utilizados y, si los empleáis bien, podréis representar de manera
gráfica la mayoría de los rasgos que queráis de una variable dada.
Las medidas de localización permiten establecer qué elemento de una variable ocupa una
determinada posición dentro de ésta, por ejemplo, qué observación está, precisamente, en el 10 %
más bajo o en el 5 % más alto. También permiten saber qué valor toma la variable en una
posición dada: por ejemplo, cuál es la nota de un estudiante que sólo tiene a un 2% de estudiantes
por encima. Obviamente, para que estas medidas tengan sentido, es necesario que los elementos
de la variable estén ordenados en términos de valor, sea de manera ascendente o descendente.
3.1.1. Percentil
El percentil k % es el elemento situado en la posición correspondiente al k % de los datos
cuando estos están ordenados. Así, el percentil 85 % tiene un 85 % de casos por debajo (con
valores inferiores) y un 15 %, con valores mayores. Sin tener en cuenta el mínimo y el
máximo (a los que se podría aludir como percentil 0 % y 100 %, respectivamente), hay 99
percentiles, que permiten dividir la variable en cien divisiones iguales. Cada división
contiene una centésima parte de las observaciones.
Los pediatras usan mucho los percentiles para decirle a los padres si su bebé pesa poco o
mucho: «cuidado, debe insistir en que coma, está en el percentil 8». Las universidades prestigiosas
(como la tuya) aplican los percentiles en sus procesos de selección, por ejemplo, si aceptan sólo a
los estudiantes que se hayan situado en el percentil 97 % o superior en alguna prueba. La nota de
corte para entrar en la universidad (digamos que 480 puntos sobre 500) sería el valor del percentil
97 %.
Si hay 300 personas y están ordenadas en orden creciente según la altura, el percentil 1 % sería la tercera persona, y el percentil
50 %, la persona número 150. De manera más general, si hay N personas, el percentil k estará en la posición N * k / 100.
Si se quiere ser más riguroso, habrá que realizar un ajuste. ¿Por qué? Veámoslo con el ejemplo siguiente. La definición del
percentil 50 %, por analogía a la del percentil 1 %, es la del elemento situado en la posición correspondiente a un 50 % de los
datos cuando estos están ordenados. Tomemos el percentil 50 % de una variable con cuatro observaciones (1, 3, 5 y 6). Con
estos cuatro elementos, si se tomara simplemente el segundo, el valor del percentil 50 % sería 3, correspondiente al segundo
elemento. Ahora bien, resulta evidente que este valor no recoge bien el valor del 50 % de la variable, sino que, entre los cuatro
elementos, lo más adecuado sería hacer una media entre el segundo y el tercer elemento, dado que lo que está en medio sería el
«elemento segundo y medio», el cual, lógicamente, no existe.
Este procedimiento se puede generalizar a cualquier otro percentil. El percentil 17 % de una variable de N = 2000 casos
(ordenados de menor a mayor) se encuentra en la posición (2000 x 17 / 100) + (1/2) = 340,5. Por lo tanto, se ha de realizar
una media entre el valor de los individuos que caen en las posiciones 340 y 341.
De acuerdo con las consideraciones arriba mencionadas, para el percentil k %, la fórmula es:
3.1.2. Decil
D1 ≡ P10;
D2 ≡ P20;
D3 ≡ P30;
(tres equivalencias omitidas)
D7 ≡ P70;
D8 ≡ P80;
D9 ≡ P90;
Habrás notado también que he usado un signo de igualdad un poco raro, con tres líneas en
lugar de con dos. No se trata de un error tipográfico, el triple igual se emplea para indicar que
una relación es de identidad. Decimos que existe una relación de identidad entre dos términos
cuando se da una relacion de igualdad entre ellos por pura definición de los mismos. Es decir, tal
y como están definidos los términos, sería lógicamente imposible que no fueran iguales.
Hay nueve deciles (más allá del mínimo de la variable o «decil 0» y del máximo o «decil 10»),
que dividen la variable o el conjunto de datos en diez partes iguales, con sendas décimas partes de
las observaciones.
En cualquiera de los dos casos, cuanto mayor sea el cociente, mayor será la desigualdad. Este
cociente cumple, además, dos propiedades:
Propiedad 1: el cociente es siempre mayor si se emplea el método (b), del intervalo, que el
método (a), puntual. Observad que la renta media del último decil (RmediaD10) hace una media
entre D9 (la renta de la persona situada precisamente en el decil 9) y la renta de personas que
tienen todas una renta mayor (observad que D9 es el extremo inferior de RmediaD10). Por lo
tanto, RmediaD10 > RD9. Ved, también, que D1 es el extremo superior de RmediaD1. Por lo tanto,
RmediaD1 < RD1. Lógicamente, la ratio del método (b), RmediaD10 / RmediaD1, es mayor que la
ratio del método puntual, RD9 / RD1, dado que, en el primero, el numerador es más grande y
el denominador, más pequeño.
Propiedad 2: ambos cocientes son mayores que 1. Basta con demostrar que RD9 / RD1 > 1,
dado que la otra ratio siempre es mayor. Por definición, la renta de la persona del decil 9 es
superior a la del decil 1.
3.1.3. Quintil
Quintil 1 ≡ D2 ≡ P20;
Quintil 2 ≡ D4 ≡ P40;
Quintil 3 ≡ D6 ≡ P60;
Quintil 4 ≡ D8 ≡ P80;
Nuevamente, he usado el signo ‘≡’ para denotar que las relaciones indicadas son de identidad,
y no solo de mera igualdad. Sin contar el elemento en el mínimo y en el máximo, hay cuatro
quintiles que dividen los datos en cinco partes iguales.
El primer y el último quintil son los más utilizados, y se emplean, sobre todo, en estudios
sobre desigualdades. Al igual que con los deciles, se pueden calcular cocientes tanto por el
método puntual como por el de los intervalos. En cualquiera de los dos casos, cuanto mayor
sea el cociente, mayor será la desigualdad.
3.1.4. Cuartil
Veamos sus equivalencias con las medidas de posición estudiadas en los párrafos precedentes
(el signo ‘≡’ denota que las relaciones son de identidad):
Cuartil 1 ≡ Q1 ≡ P25;
Cuartil 2 ≡ Q2 ≡ P50 ≡ D5;
Cuartil 3 ≡ Q3 ≡ P75;
Los cuartiles se utilizan, entre otras cosas, para construir medidas de dispersión de las
variables, como el rango intercuartílico.
3.1.5. Mediana
3.2.1. Mediana
Obviamente, solo hay una mediana, y divide los datos en dos partes iguales. Por definición, la
mediana coincide con el segundo cuartil y el quinto decil:
Suma de los valores (de un grupo o variable) dividida por el número de valores (del grupo
o variable).
La existencia de personas de rentas muy elevadas puede resultar importante en términos de las posibilidades para el desarrollo
de la industria local.
Ejemplo 2
De manera parecida, la existencia de un grupo (reducido) de estudiantes con una nota de cero (que podría dar pie a un caso de
distribución asimétrica negativa) podría indicar que el profesor no es capaz de motivar a los alumnos menos interesados o con
menos preparación previa.
Consideremos el precio del pan en los países de la Unión Europea. Imaginemos que tenemos una tabla con el valor del pan en
estos países. ¿Cuál es el «valor central» en torno al cual oscila el precio del pan en Europa? Una opción es sumar el precio del
pan en cada país y dividir por el número de países integrantes de la Unión –es decir, hacer la media aritmética simple. No
obstante, este procedimiento supone darle, implícitamente, la misma importancia a Luxemburgo que a Francia. Para muchas
finalidades, esta no será la mejor estrategia. Quizá queramos ponderar por el número de habitantes, por el número de toneladas
consumidas o producidas, o por otros criterios. Así, si viajamos por Europa y pasamos cinco días en Francia, ocho en Italia,
dos en Luxemburgo, y no visitamos ningún otro país, para nuestros propósitos, le tendríamos que dar un peso de 5/15 a
Francia, 8/15 a Italia, 2/15 a Luxemburgo, y 0/15 al resto de los países, ya que, dado nuestro plan de viaje, lo que nos interesa
es cuán a menudo nos enfrentaremos al precio del pan en cada uno de los países. Observad que la determinación de cuáles son
las ponderaciones más adecuadas depende de la finalidad para la que estamos calculando el «valor central del pan» en la Unión
Europea.
3.2.3. Moda
Dependiendo del hecho de si la moda es única o no, las distribuciones pueden ser unimodales
o multimodales.
Distribución unimodal
Distribución en la que la única moda local es la moda global; en la que no existe ningún
valor que sea mayor que todos los valores de su entorno si no es también mayor que todo el
resto de los valores.
En términos prácticos, una distribución unimodal es una distribución con un único máximo o
«pico» de frecuencias.
Ejemplo
A continuación, se presenta un histograma de la variable «RENTA» del cuestionario postelectoral español de 2008, ya visto
antes. Esta variable mide, en una escala de 0 al 10, en cuál de los intervalos de renta se sitúan los encuestados, y ha sido
recodificada a partir de la variable «p68» para excluir la categoría de no respuesta «no contesta» (un 31,7 % de la muestra):
Como se puede ver, la variable «RENTA» tiene un solo pico de frecuencias, es decir, tiene una
única moda, correspondiente a la categoría «5» de renta (de 1201 a 1800 €).
Distribución multimodal
Se presenta un histograma de la variable «ETA_DIÁLOGO», tomada también del cuestionario postelectoral español de 2008.
Esta variable mide, en una escala de 0 al 10, en qué medida los encuestados creen que, para acabar con ETA, es necesario
derrotarla policialmente (0) o también hace falta diálogo (10), y ha sido recodificada a partir de la variable «p10» para excluir las
categorías de no respuesta («no sabe» y «no contesta»: un 6,0 % y un 1,1 % de la muestra, respectivamente):
Como se puede ver, las opiniones se polarizan, y hay un grupo sustancial de individuos que
opta por la solución puramente policial (0), y otro grupo claramente en favor del diálogo (10).
Aparte de estos dos grupos, también hay un grupo de gente que ve la necesidad de ambas
estrategias. Esta configuración de opiniones da lugar a una distribución con tres modas de la
variable, dos en los extremos, y una en el centro (0, 5 y 10).
En general, cuando la distribución de preferencias es bimodal («de dos jorobas»), es poco
probable que las decisiones basadas en la mediana o en la media sean acertadas: en una sociedad
con grandes desigualdades de ingresos, puede ser mejor elegir un producto de coste bajo dirigido
a una demanda de mercado centrada en el precio, o bien un producto de gama alta aunque sea
costoso, pero no uno de gama media, que podría resultar demasiado caro para quienes se fijan
primordialmente en el precio y demasiado vulgar para quienes se fijan en la calidad.
Producto de los valores (de un grupo o variable) elevado a la inversa del número de valores
(del grupo o variable).
Es decir, la raíz n-ésima del producto de los valores de un grupo o variable (en el que hay n
elementos):
La media geométrica se suele utilizar cuando se supone que una variable presenta procesos de
crecimiento a una tasa constante. Habitualmente, se extraen medias geométricas para porcentajes,
tasas e índices.
1 15 0 0
2 15 1 1
3 15 15 2
4 15 15 15
5 15 15 28
6 15 29 29
7 15 30 30
MEDIA 15 15 15
MEDIANA 15 15 15
MODA 15 15 No hay
Como se puede comprobar, las medidas de tendencia central son casi iguales (la única
diferencia, en este sentido, sería la ausencia de moda en el último caso). Esto significa que, si los
gerentes de las tres empresas recibieran solamente información de la media de ventas, llegarían a
conclusiones muy parecidas. No obstante, la tabla revela que las diferencias entre las empresas son
considerables.
La clave es la variabilidad, la dispersión de los datos: mientras que en la empresa A las
medidas de tendencia central representan de forma extremadamente fidedigna la situación (los
datos se aglomeran en torno a la tendencia central), en las empresas B y C las medidas de
tendencia central no aportan toda la información necesaria, dado que los datos están
considerablemente alejados de las medidas de tendencia central.
Considerad X = {1,2,3,4,5,6,7,8,9} e Y = {3,3,3,3,3,3,9,11,11}. Como podéis ver, para ambas, la media es 5 y el recorrido, 8.
Este ejemplo demuestra que distribuciones con una misma media (μ = 5) y un mismo rango (R = 8) pueden ser
considerablemente diferentes.
Diferencia entre el valor del tercer y del primer cuartil, esto es, entre el percentil 75 y el
percentil 25.
Desviación Media
Naturalmente, esta media es, simplemente, 0, puesto que, por definición, las diferencias
positivas entre cada valor y la media se compensan con las diferencias negativas:
Por lo tanto, la desviación media, como tal, es un parámetro igual a cero, no sirve para medir
la variabilidad de una distribución y, naturalmente, no se utiliza. No obstante, se puede modificar
levemente la definición para evitar que los valores positivos y los negativos se compensen. Eso es
lo que hacen los cuatro estadísticos que vienen a continuación:
Al tomar valores absolutos, los valores positivos y los negativos ya no se compensan, con lo
que esta medida deja de ser un parámetro.
El cálculo es análogo al presentado para la media aritmética, pero se sustituye esta por la
mediana:
Esta medida es un parámetro, dado que tanto la media (μ) como la mediana (Med) son
parámetros, y la diferencia de parámetros es un parámetro. ¿Qué información proporciona,
entonces, esta medida (paramétrica) de dispersión? La información que nos proporciona esta
medida es hasta qué punto dos de las medidas de tendencia central, la media y la mediana, se
diferencian una de la otra. Cuando la media y la mediana coinciden, la desviación media respecto
a la mediana valdrá cero.
Es decir, aplica simultáneamente las ideas de los dos últimas propuestas: tomar valores
absolutos de las diferencias y calcular éstas en relación con la mediana. Del mismo modo que en
el caso de la desviación media absoluta, al tomar valores absolutos, los valores positivos y los
negativos ya no se compensan, con lo que esta medida deja de ser un parámetro igual a cero por
definición.
Varianza
Para muestras, cambiaría la notación: se usaría ‘s’ en lugar de ‘σ’, la x con la barra en lugar de
‘μ’ y una ‘n’ minúscula en lugar de la ‘N’ mayúscula en el denominador. De hecho, por razones
que no merece la pena desarrollar aquí, se pone ‘n-1’ en lugar de ‘N’. La varianza es muy similar
en su construcción a la DMA (desviación media absoluta), pero, para evitar que los positivos y
negativos se compensen, en lugar de tomar valores absolutos, toma cuadrados (como se eleva al
cuadrado, siempre será positiva).
Desventaja: una desventaja de la varianza es que sus unidades son difíciles de interpretar,
dado que, al tomar cuadrados, no se está en la misma escala que la distribución a partir de la
cual se construye. Por ejemplo, si la variable original está definida en euros, la varianza estará
expresada en euros al cuadrado. Pero ¿qué es un euro al cuadrado? ¿Cómo debemos
interpretar una varianza de tantos o cuantos euros al cuadrado?
Varianza como segundo momento: si se retoma la fórmula inicial, se apreciará que la
varianza es, a su vez, una media aritmética, ya que suma algo (en este caso, desviaciones al
cuadrado) para un grupo o variable, y divide esta suma entre el número de valores.
Desviación estándar
Es decir, raíz cuadrada de la suma del cuadrado de la diferencia entre cada valor y la media,
dividida entre la raíz cuadrada de la medida poblacional:
Desde un punto de vista interpretativo, por el hecho de tomar la raíz cuadrada de la varianza,
las unidades de la desviación estándar vuelven a ser coherentes con las unidades de la distribución
de la que proceden, es decir, vuelven a estar en la misma escala.
Además de las medidas presentadas hasta ahora, todas dimensionales, en el sentido de que
dependen de las unidades de medida empleadas, hay también medidas diseñadas para no depender
de las unidades de medida ni, por lo tanto, de cuestiones de escala.
En la literatura, es común hablar de medidas de dispersión relativas o adimensionales para
referirse a estas medidas que no dependen de la unidad de medida ni de la escala de las variables,
en oposición a las medidas de dispersión absolutas o dimensionales, que sí dependen de la unidad
de medida.
Coeficiente de variación de Pearson (CV)
Interpretación del CV: en cuanto a su interpretación, cuanto mayor sea el CV, mayor es la
desviación estándar en relación con la media y, por lo tanto, menos representativa es la
media de la distribución.
Propiedades y restricciones del CV: los valores del CV no están acotados, con lo que pueden
variar entre menos infinito y más infinito. Conviene remarcar que no resulta adecuado
utilizar el CV cuando la media es cero, dado que, en este caso, el CV no estaría definido, ya
que el resultado de dividir cualquier número por cero no está definido. Tampoco sería
adecuado utilizar el CV cuando la media es negativa, puesto que, en este caso, no sería
posible interpretar el valor del CV.
El objetivo de este índice es similar al del CV, pero para la mediana. En lugar de usar la
desviación estándar en el numerador, se utiliza la desviación media absoluta con respecto a la
mediana y, en lugar de usar la media en el denominador, se emplea la mediana.
Además de las medidas de localización, de tendencia central y de dispersión, hay otros dos
tipos de medidas, ambas relacionadas con la forma de la distribución, que son útiles para
caracterizar y describir de manera sucinta los rasgos fundamentales de una distribución: las
medidas de simetría y las de apuntamiento o curtosis.
Una de las cuestiones más importantes relacionadas con la forma de una distribución es si esta
es simétrica, asimétrica positiva o asimétrica negativa.
A continuación, explicaremos qué significan estos términos y presentaremos algunas de las
medidas más utilizadas para evaluar el grado de asimetría de una distribución.
Entre las aplicaciones que tiene la información sobre el grado de asimetría de una distribución
destaca el hecho de que la distribución normal, la cual se asume en un gran número de contrastes
estadísticos, es asimétrica. Las medidas de asimetría permiten, entre otras cosas, comprobar si la
asunción sobre la normalidad de la distribución es razonable o no.
Distribución simétrica
Distribución en la que «el lado derecho» (con respecto a la mediana, para variables
continuas, y con respecto a la media, para variables discretas) de la gráfica es «igual» al «lado
izquierdo». Dicho de otro modo, cada lado es la imagen especular del otro. Esta definición
implica que una distribución simétrica es una distribución en la que la media y la mediana
coinciden –y, si la distribución es unimodal, también coinciden con la moda.
Como se puede ver, la variable «RENTA» es muy simétrica, a pesar de que las categorías a la
izquierda de la mediana tienen algo más de datos que las categorías a la derecha (es decir, si
somos muy estrictos, deberemos reconocer que tiene una pequeña cola a la derecha). Conviene
tener en cuenta que, en la práctica, será muy raro encontrar una distribución perfectamente
simétrica. Por ello, se considerará que es simétrica si es aproximadamente simétrica. El elevado
grado de simetría de la variable «RENTA» se debe a que esta ha sido codificada en intervalos.
Cuando se piden estimaciones precisas de la renta, esta resulta mucho más asimétrica.
Se presenta el histograma de la variable «edad», tomada también del cuestionario postelectoral español de 2008.
Figura 14. Ejemplo de una distribución asimétrica positiva o a la derecha (variable «edad»)
Como se puede apreciar, las observaciones de las personas con edades avanzadas, a pesar de no ser excesivamente numerosas,
conforman una «cola a la derecha» que «arrastra» la media hacia la derecha, dado que «pesan» más que las observaciones de los
más jóvenes. Esto hace que la media (47) sea algo mayor que la mediana (45).
Normalmente, la media es menor que la mediana y esta es, a su vez, menor que la moda.
Cociente entre el momento de tercer orden y la desviación estándar elevada a la tercera –es
decir, el «tercer momento estandarizado».
Momento de orden n
Observad que el primer momento es igual a la desviación media (DM) por el número de
observaciones. Como DM es cero, el primer momento es cero. Observad también que todos los
momentos estandarizados son adimensionales. Volviendo al coeficiente de asimetría de Fisher, es
inmediato comprobar que éste no tiene unidades, dado la desviación estándar está expresada en
las mismas unidades que las diferencias respecto a la media.
La lógica que motiva la construcción de este coeficiente es la siguiente: si la distribución es
simétrica, existirá el mismo número de valores a la izquierda que a la derecha de x; si es
asimétrica negativa, existirán más valores a la izquierda que a la derecha de x; y si es asimétrica
positiva, habrá menos valores a la izquierda que a la derecha de x. Las desviaciones elevadas a una
potencia impar permitirán mantener los signos de las desviaciones: si la distribución es asimétrica
negativa, el signo del sumatorio elevado al cubo, a la quinta o a la séptima será negativo, y si es
asimétrica positiva, este sumatorio tendrá un signo positivo. Naturalmente, si se elevan a una
potencia par, todos resultarán positivos. Por otro lado, la potencia más simple que se puede
utilizar es tres, puesto que, por definición, el momento de primer orden es cero. Por ello, este
coeficiente de simetría utiliza el tercer momento. En consecuencia, la interpretación del
coeficiente es la siguiente:
λ3 < 0: la distribución será asimétrica negativa, con una cola hacia la izquierda de la
distribución;
λ3 = 0: la distribución será simétrica, sin colas;
λ3 > 0: la distribución será asimétrica positiva, con una cola hacia la derecha de la
distribución;
Diferencia entre la suma de Q1 y Q3 menos dos veces la mediana, dividida por la diferencia
entre Q3 y Q1.
Para entender la lógica de esta medida, convendrá definir las siguientes distancias: d32 = (Q3 –
Q2), la distancia entre el tercer cuartil y la mediana; y d21 = (Q2 – Q1), la distancia entre la
mediana y el primer cuartil.
Propiedades:
Claramente, en este caso, el coeficiente estará entre –1 y 1, y no depende de los cambios de
origen o de escala. En efecto, observad que el denominador se puede expresar como (Q3 – Q1) =
(Q3 – Q2) + (Q2 – Q1) = d32 + d21. Por lo tanto, ASYB = (d32 – d21) / (d32 + d21), el cual está,
evidentemente, comprendido en el rango [–1, 1]. En cuanto a la escala, está claro que, como las
unidades en el numerador y en el denominador son las mismas, este coeficiente es adimensional y
no depende de los cambios de escala.
Diferencia entre la suma de Q1 y Q3 menos dos veces la mediana, dividida por el doble de la
mediana.
La lógica de este coeficiente es muy parecida a la del coeficiente de Bowley, lo único que varía
es que, en lugar de dividir por la diferencia entre Q3 y Q1, lo hace entre el doble de Q2.
Obviamente, también en este caso, el coeficiente estará entre –1 y 1, y tampoco depende de los
cambios de origen o de escala.
La curtosis es mínima cuando todas las observaciones están igual de alejadas de la media (por
ejemplo, todas son ceros o unos y la media es 0,5), porque todas contribuyen igual a la
variabilidad. La curtosis es máxima cuando toda la variabilidad está provocada por dos valores
extremos. De manera más general, la curtosis es baja cuando una parte importante de la varianza
está provocada por desviaciones frecuentes y de poca magnitud, y es alta cuando una parte
importante de la varianza es consecuencia de desviaciones extremas pero poco frecuentes.
En los trabajos clásicos, la curtosis se definía como el cuarto momento estandarizado, es decir,
como el cociente entre el momento de cuarto orden y la desviación estándar elevada a la cuarta.
Distribución mesocúrtica
Distribución leptocúrtica
Las distribuciones leptocúrticas tienen un pico más alto, pero más estrecho que el de las
distribuciones mesocúrticas, y unas colas más gruesas, «más largas».
Distribución platicúrtica
Las distribuciones platicúrticas tienen un pico más bajo, pero más ancho o grueso que el de
las distribuciones mesocúrticas, y unas colas más finas, «más cortas».
Bibliografía
Barbancho, A. G. (1973). Estadística elemental moderna. Barcelona: Ariel.
Downs, A. (1957). An Economic Theory of Democracy. Nueva York: Harper & Row.
Ferejohn, J. A.; Fiorina, M. P. (1974). «The Paradox of Not Voting: A Decision Theoretic Analysis». The American Political Science
Review (vol. 68, núm. 2, págs. 525-536).
Hamilton, L. C. (1992). Regression with Graphics: A Second Course in Applied Statistics. Pacific Grove (CA): Brooks/Cole.
Peña, D. (2001). Fundamentos de Estadística. Madrid: Alianza Editorial.
Spiegel, M. R. (1991). Estadística (2.ª ed.). Madrid: McGraw-Hill.
Wonnacott, T. H.; Wonnacott, R. J. (1979). Introducción a la Estadística. México: Limusa.
Capítulo III
Ecuación 1. Covarianza
Cuando una observación tiene un valor de x por encima de la media, el primer término del
productorio será positivo; cuando tiene un valor de y por encima de la media, el segundo término
será positivo. Cuando ambas están por encima de la media, ambas serán positivas, y la covarianza
será positiva. Cuando ambas están por debajo de la media, ambas serán negativas, y la covarianza
será positiva. Cuando una esté por debajo de la media y la otra, por encima, una será negativa y la
otra, positiva, y la covarianza será negativa. Por lo tanto, la covarianza es positiva cuando las dos
variables se mueven en el mismo sentido, es decir, cuando, al aumentar una, aumenta la otra, y es
negativa, cuando se mueven en sentido contrario (Sánchez Carrión, 1995, pág. 240).
La misma idea se puede traducir visualmente de la manera siguiente. Si dibujamos un gráfico
de coordenadas con el origen de coordenadas centrado en la media de x en el eje de abscisas
(horizontal) y en la media de y en el eje de ordenadas (vertical), si los datos se agrupan en el
cuadrante superior derecho (x, y positivas) o en el cuadrante inferior izquierdo (x, y negativas) la
covarianza será positiva, mientras que si los datos se agrupan en el cuadrante superior izquierdo
(x negativa, y positiva) o en el cuadrante inferior derecho (x positiva, y negativa) la covarianza
será negativa (Peña, 2001, pág. 96).
Observad, además, que la covarianza tiene unidades (xy), lo cual la hace dependiente de la
escala de estas, y es una de las causas que han dado pie a la amplia difusión del coeficiente de
correlación, que es adimensional (Peña, 2001, pág. 102).
Una fórmula alternativa para calcular este coeficiente de manera más rápida es la siguiente:
Decimos que dos variables están correlacionadas positivamente cuando los incrementos en
los valores de una están asociados estadísticamente a incrementos en los valores de la otra (y
los decrementos en los valores de una están asociados a decrementos en los valores de la
otra).
Dos variables están correlacionadas negativamente cuando los incrementos en los valores de
una están asociados estadísticamente a decrementos en los valores de la otra (y viceversa).
Decimos que dos variables no están correlacionadas (ni positiva ni negativamente) cuando
los cambios en los valores de una no están asociados estadísticamente ni a incrementos ni a
decrementos en los valores de la otra. También decimos que hay una correlación nula entre
las variables consideradas, o que hay una ausencia de correlación entre ellas. Recordad que
hablamos de relaciones lineales, y que podría haber relaciones no lineales entre ellas.
Es una función que asigna la probabilidad de ocurrencia para cada par de valores de las
variables (por ejemplo, la probabilidad de que X=x a la vez que Y=y). Cada probabilidad
tiene que estar comprendida entre 0 y 1, y su sumatorio para todas las combinaciones
posibles de valores de las variables tiene que ser (como cualquier distribución acumulada)
igual a la unidad.
Consideración técnica:
La probabilidad de un acontecimiento en el que X asume el valor x e Y asume el valor y, es
igual a la probabilidad de que Y = y, multiplicada por la probabilidad de que X = x, dado Y = y,
es decir, P(Y = y) * P(X = x|Y = y). Cuando las variables son independientes, la condicionalidad
del segundo término resulta superflua, y este se reduce, simplemente, a P(X = x).
Función de distribución marginal de una variable
Función que asigna la probabilidad de ocurrencia de cada valor de la variable, sin tener en
cuenta otra(s) variable(s).
Función que asigna la probabilidad de ocurrencia de cada valor de la variable (digamos que
X) de manera condicional a la observación de un valor de otra variable (Y = y) o de una
combinación de valores de otras variables (Y = y, Z = z).
Cuando hay «pocas» observaciones, la manera más sencilla de presentar una tabla para mostrar
la información consiste en disponer la información de cada pareja de valores en dos columnas,
una para cada variable (Barbancho, 1973, págs. 48-49).
Consideremos el ejemplo siguiente: en una clase (datos «Notas 1», inventadas) hay diez estudiantes, todos ellos con edades
comprendidas entre los 20 y 22 años, y con notas que van de 7 a 9 puntos sobre 10. Una manera muy sencilla de presentar la
información sobre las dos variables consideradas (los años y las notas de cada estudiante) sería la siguiente:
Años Notas
20 7
20 7
20 8
20 8
20 9
21 9
21 9
22 7
22 8
22 9
Ahora bien, esta manera de presentar la información solamente resultará practicable cuando el
número de observaciones sea muy reducido: necesitaremos formas de representación alternativas
para «reducir» la información que queremos mostrar.
El caso más sencillo se da cuando tenemos «muchas» observaciones, pero «pocas» parejas de
valores diferentes. Podemos representar en dos columnas las parejas de valores distintas,
añadiendo una tercera columna donde anotamos el número de veces que aparece cada pareja
(Barbancho, 1973, págs. 49-50).
Consideremos una clase (datos «Notas 2», inventadas), en la que, en lugar de diez estudiantes, hay 99 alumnos, pero todos ellos
tienen edades comprendidas entre los 20 y 22 años, y todos ellos han sacado notas que van de 7 a 9 puntos sobre 10:
Tabla 11. Tabla de dos columnas y una columna de frecuencias («años» y «notas»)
Este tipo de representaciones será útil para mostrar en forma de tablas muchas variables
políticas y sociales, puesto que muchas de ells están medidas en el nivel nominal u ordinal, y
tienen pocas categorías.
También servirá para variables cuantitativas si previamente las hemos agrupado en intervalos.
Este es un procedimiento empleado a menudo con variables como la edad o la renta.
Consideración
Al recodificar los valores originales de una variable cuantitativa a una variable con un número limitado de intervalos, se pierde
parte de la información original. Por ejemplo, si convertimos la edad, originalmente medida en años, en una variable de seis
intervalos, la nueva variable permitirá saber que un individuo dado pertenece al intervalo de edad 20-25 años, pero no
sabremos si tiene 21 años o 24.
Regla de «higiene»
¡Nunca recodifiquéis una variable sobre la variable original! No os imagináis cuánto tiempo
valioso y cuántos problemas os ahorraréis si seguís esta regla.
Consideremos una clase (datos «Notas 3», inventadas) con 99 alumnos, de entre 20 y 35 años, y con calificaciones entre 4 y 10.
Una manera de presentar la información sobre las dos variables consideradas sería la siguiente:
Es decir, una persona con una edad exacta de 25 años caerá en el primer intervalo, no en el
segundo. Asumimos que solamente se pueden poner notas con valores enteros, es decir, las notas
están definidas sobre el con junto de los números naturales.
Fuente: Datos inventados, «Notas 3». N = 99. Asumimos que los límites superiores de los intervalos
son cerrados, y los límites inferiores, abiertos. Elaboración propia.
Regla 1: exhaustividad: cualquier valor de una variable de un individuo tiene que poder
ser atribuido a uno de los intervalos.
Regla 2: exclusividad: cualquier valor de una variable de un individuo solamente tiene que
poder ser atribuido a uno de los intervalos.
Tomadas conjuntamente, las dos reglas implican que cualquier valor de una variable de un
individuo se debe poder atribuir a uno y solo a uno de los intervalos.
Hay una alternativa que sirve para presentar la información de una manera más sintética,
mediante tablas de doble entrada.
Consideremos, nuevamente, los datos «Notas 2», inventadas, y la siguiente representación alternativa de la información mediante
una tabla de doble entrada:
Años \ Notas 7 8 9
20 15 12 10
21 10 13 15
22 7 9 8
Fuente: Datos inventados, «Notas 2». N = 99. Celdas: frecuencias absolutas. Elaboración propia.
Como podéis comprobar, la tabla 13 permite presentar la misma información que la tabla 11,
pero lo hace de una manera más sintética, más eficiente. Este tipo de tablas se denomina tablas
de contingencia, y se discute de manera detallada en la sección siguiente.
Conviene notar que se está empleando una versión dicotómica (de dos categorías) de la
variable «voto», la cual, originalmente, tenía cuatro categorías (además de una categoría adicional
que recogía la no respuesta por parte de un reducido número de encuestados que no quiso
responder). Para aquellos que tengan curiosidad, la distribución de la variable original del
cuestionario 2757 del CIS (donde se diferenciaba entre tres categorías de abstencionistas: las
personas que no pudieron votar, las que no quisieron votar y las que puntualizaban que,
generalmente, votan, pero que, en el caso de las elecciones de 2008, no lo quisieron hacer) es la
siguiente:
Hasta aquí, no hemos hecho nada que no supiéramos hacer ya. Pero ahora empezaremos a
sacar tablas de contingencia, que nos permitirán observar de manera simultánea la distribución de
estas dos variables:
Tabla 17. Tabla de contingencia de las variables «sexo» y «voto» (frecuencias absolutas)
La tabla 17 nos informa de que, de los 6.057 casos válidos de los que tenemos información
tanto sobre la variable «sexo» como sobre «voto», hubo 390 hombres que no votaron y 402
mujeres que tampoco lo hicieron, mientras que 2.536 hombres y 2.729 mujeres sí votaron o, al
menos, así lo declaran al encuestador. La última columna contabiliza el total de hombres y
mujeres que no votaron (792) y que sí que lo hicieron (5.265), respectivamente. Dado que los
casos válidos son los mismos que los de la tabla 15, estas cifras coinciden con las presentadas en
dicha tabla. La última fila nos da el total de hombres (2.926) y mujeres (3.131) para los cuales
tenemos información sobre si han votado o no. Dado que se han perdido 26 casos, estas cifras no
coinciden con las de la tabla 14 (2.938 y 3.145, respectivamente).
Quizá, lo que nos interese saber no sean los casos de cada combinación, sino su porcentaje:
Tabla 18. Voto y sexo (porcentajes de celda)
La tabla 18 nos informa de que un 6,4 % de la muestra (de casos válidos) corresponde a
hombres que declaran que no votaron, un 6,6 %, a mujeres que tampoco lo hicieron, un 41,9 %, a
hombres que sí votaron, y un 45,1 %, a mujeres que también votaron. La última columna nos
recuerda que un 13,1 % de la muestra declara no haber votado y un 86,9 % dice haber votado
(estos porcentajes coinciden con los de la columna correspondiente de la tabla 15). La última fila
nos da el porcentaje de hombres y mujeres para los que tenemos información sobre si han votado
o no; como el número de casos perdidos es bajo (26) y está distribuido de manera parecida entre
hombres y mujeres (2.938 - 2.926 = 12 casos de hombres perdidos; 3.145 - 3.131 = 14 casos de
mujeres perdidos), estas cifras coinciden, para el primer decimal, con las de la tabla 14.
Las tablas de contingencia nos permiten compilar información potencialmente muy útil sobre
la relación entre ambas variables. Por ejemplo: ¿entre los hombres, qué porcentaje vota? ¿Y entre
las mujeres? Dada la disposición de las variables en nuestras tablas (género, en columnas, y voto,
en filas), esto se puede conseguir con porcentajes de columna, los cuales reciben este nombre
porque suman un 100 % en cada columna:
La tabla 19 nos da información sobre las cuestiones sobre las que nos preguntábamos. Un 13,1
% de los encuestados declara que se abstiene, y este porcentaje, a pesar de ser «muy parecido»
entre hombres y mujeres, es algo más alto para ellos (13,3 %) que para ellas (12,8 %).
Finalmente, pongamos por caso que lo que nos interesa saber no es la propensión a la
abstención y al voto para hombres y mujeres, sino el perfil de género de los votantes y de los
abstencionistas. ¿Cómo podríamos obtener la información relevante para esta tarea? Sí, lo habéis
adivinado: dada la disposición de las variables en nuestras tablas (género, en filas, y voto, en
columnas), esto se puede conseguir mostrando los porcentajes de fila:
Consideremos las variables «interesados» y «despreocupados», construidas a partir de las variables «p201» y «p203» del
cuestionario 2757 del CIS (estas variables tratan como perdidos los casos de «No sabe» y «No contesta» de las variables
originales, y se han rescalado para que crezcan con el grado de acuerdo con las afirmaciones de que los políticos buscan sus
intereses personales y no se preocupan por gente como el encuestado).
87 104 71 27 28 9
0_Nada
1,6 % 1,9 % 1,3 % 0,5 % 5,2 %
18 8 1649 28 62 8 71 5570
Total
3,4 % 29,6 % 51,4 % 15,6 % 100,0 %
Fuente: CIS, cuestionario 2757. N = 6.057. Elaboración propia.
La combinación menos frecuente corresponde a personas que opinan que los políticos no son
nada despreocupados y que a la vez son muy interesados: aunque solamente un 0,4 % de la
muestra comparte, a la vez, estas dos opiniones, este porcentaje está basado en un número de
casos (22) generalmente considerado como suficientemente alto para ser tenido en cuenta. La
segunda combinación menos frecuente (un 0,5 % de la muestra, o 27 casos) corresponde a
personas que consideran que los políticos son muy despreocupados pero nada interesados.
En consecuencia, esta tabla permite comprobar que ninguna de las combinaciones de
respuesta válidas presenta una frecuencia absoluta inferior muy baja (digamos que inferior a
cinco) y, por lo tanto, nos garantiza que ninguno de los porcentajes calculados está demasiado
condicionado a unos pocos casos en particular.
Asimismo, la tabla nos permite constatar que el grueso de las observaciones se concentra en
combinaciones de respuestas «poco o bastante» a ambas preguntas, aunque también hay un grupo
significativo de gente que piensa que son muy desinteresados y se despreocupan mucho de
personas como los encuestados. Observad que, a pesar de tener más filas y más columnas, la
interpretación de la tabla es análoga a la de las tablas presentadas más arriba.
Los gráficos pueden ayudar a captar de una manera muy poderosa e intuitiva la distribución
conjunta de dos (o, incluso, más) variables. Algunos de los gráficos empleados en el capítulo
precedente se pueden extender al caso multivariable. Los gráficos de pastel no permiten
representar directamente la relación entre dos (o más) variables, aunque se podrían mostrar varios
de ellos de forma yuxtapuesta, uno junto a otro, para conferir una imagen conjunta de la
distribución de ambas variables. Una opción más sofisticada es recurrir a los gráficos de
columnas:
Perfil de los políticos nada y muy despreocupados por los ciudadanos en términos de la medida en
que son (percibidos como) guiados por sus propios intereses (porcentajes)
Fuente: CIS, cuestionario 2757. Elaboración propia.
Clave: 0: nada despreocupados; 3: muy despreocupados.
La figura 16 muestra cómo se podrían emplear los gráficos de barras para ilustrar las
diferencias en los perfiles de las categorías extremas de (percepción de) despreocupación por los
ciudadanos.
Muy a menudo, la información proporcionada mediante un gráfico concreto se habría podido
ofrecer por medio de un gráfico alternativo. Como se puede ver a continuación, habría sido
posible mostrar la misma información con un gráfico de líneas:
Figura 18. Evolución del gasto sanitario nacional per cápita ($) y de las primas de seguros sanitarios
(Estados Unidos, 1997-2008); escala inadecuada
Clave: NHEp.c.: gasto sanitario nacional per cápita ($); Premium: coste de los seguros sanitarios.
Fuente: NHE (National Health Expenditure Data), Estados Unidos. Elaboración propia.
Figura 19. Evolución del gasto sanitario nacional per cápita ($) y de las primas de seguros sanitarios
(Estados Unidos, 1997-2008); escala bien construida
Clave: NHEp.c.: gasto sanitario nacional per cápita ($); Premium: coste de los seguros sanitarios.
Fuente: NHE (National Health Expenditure Data), Estados Unidos. Elaboración propia.
El nuevo gráfico ilustra bastante bien la idea de una correlación positiva entre ambas variables
que se podía estar interesado en defender. Vale la pena comentar, aun así, que hay que juzgar la
evidencia fundamentada en este tipo de representaciones –y, en definitiva, en la evolución
temporal de las variables– con un espíritu crítico especialmente alerta, puesto que el mero hecho
de que dos variables evolucionen de manera parecida a lo largo del tiempo no constituye una
prueba suficiente de su eventual relación causal; hay muchas más cosas que pueden cambiar a lo
largo del mismo periodo, y es fundamental estar seguros de que se están controlando estas otras
variables, puesto que, si no fuera así, la correlación entre ambas variables podría ser espuria, es
decir, podría ser un artificio provocado por los cambios en terceras variables.
A pesar de que los gráficos de líneas resultan idóneos para la representación de la evolución
temporal de las variables, este tipo de información también puede ser representada mediante
cualquiera de los gráficos estudiados a lo largo de esta sección. Considerad la información
siguiente sobre la evolución de la pobreza de los BRIC (Brasil, China, India y Rusia) a lo largo
del periodo 1981-2001 (observad que se ha empleado una definición «absoluta» de pobreza,
tomando el umbral de un dólar per cápita como la línea de pobreza):
Observad que un gráfico de este tipo también permite mostrar la evolución de un conjunto
de variables. En este caso, se ve cómo, a lo largo del periodo, China y, en segundo lugar, India
consiguieron una reducción sustancial de la pobreza absoluta, Brasil experimentó un aumento
inicial y una reducción posterior que la dejó al final del periodo con un porcentaje parecido al
que tenía al principio, mientras que, en el caso de Rusia, la pobreza aumentó, a pesar de que el
último año analizado se puede observar una disminución en esta dimensión.
Además de los gráficos vistos hasta ahora, cuando trabajéis con más de una variable, hay otro
tipo de gráficos que conviene tener muy presente: los gráficos de dispersión, a menudo
denominados también gráficos de nubes de puntos, muy útiles para capturar la relación entre
variables cuantitativas, como el producto interior bruto, las importaciones, las exportaciones o el
porcentaje de gasto social.
Gráficos de dispersión
Estos gráficos representan cada observación según sus coordenadas en un gráfico de dos
dimensiones, en el que los valores de una variable se representan en el eje de abscisas y los
valores de la otra variable, en el eje de ordenadas.
Con el fin de mostrar un gráfico de este tipo, utilizaremos datos de la OCDE sobre los estados de salud y, en concreto, datos
sobre la esperanza de vida de hombres y mujeres para el año 2006:
Por ejemplo, la observación que hay más a la izquierda del gráfico corresponde a Turquía, país para el que, en 2006, la esperanza
de vida de las mujeres al nacer era de 75,3 años, y la de los hombres, de 71,1 años; la observación que hay más a la derecha
corresponde a Japón, país para el que las cifras eran 85,8 y 79, respectivamente.
1) Observad, primero, que, cuando se hacen gráficos de dispersión, es muy importante definir
la escala de los ejes de manera adecuada. Así, mientras que el panel de la izquierda tiene la escala
de los dos ejes bien definida, y permite distinguir con claridad el patrón de la relación entre
ambas variables, el panel de la derecha se caracteriza por una definición inadecuada de la escala
del eje vertical, o eje de ordenadas, correspondiente, en este caso, a la esperanza de vida de los
hombres; como se puede ver, este hecho dificulta mucho (incluso casi lo imposibilita) detectar el
patrón de la correlación entre ambas variables.
2) Observad, en segundo lugar, que estos gráficos (cuando están bien construidos) permiten
apreciar con bastante claridad en qué medida la distribución de ambas variables está
correlacionada. Aun así, es importante tener presente que, en ausencia de análisis más detallados,
como sería el caso de los modelos (causales) de regresión discutidos en el capítulo siguiente, los
gráficos no nos permiten extraer inferencias sobre las posibles relaciones de causalidad entre las
variables. En particular, un gráfico de estas características sería coherente con diferentes mundos
posibles:
Podría ser que la esperanza de vida de los hombres dependiera de la esperanza de vida de las
mujeres, es decir, que esta última variable fuera una causa de aquella.
Podría también ser que la correlación puesta de manifiesto en el gráfico obedeciera a la
relación causal inversa, es decir, que la esperanza de vida de las mujeres fuera una función de
la esperanza de vida de los hombres;
Finalmente, la figura presentada también sería coherente con el hecho de que tanto la
esperanza de vida de los hombres como la de las mujeres no estuvieran en una relación de
causalidad directa entre ellas, sino que ambas respondieran a terceras variables, como los
estilos de vida, la alimentación o la calidad del sistema sanitario; en este caso, decimos que la
correlación observada entre ambas variables es una correlación espuria. De hecho, en el caso
de las variables estudiadas, es muy probable que la tercera opción sea la correcta.
3) En tercer lugar, vale la pena comentar que los gráficos de dispersión resultan poco útiles
para las variables categóricas. Cuando se trata de representar un gráfico de esta clase para
variables de este tipo, es muy probable que todas las combinaciones se vean representadas por, al
menos, alguna observación en la base de datos.
Clave: 0: nada despreocupados; 3: muy despreocupados. Fuente: CIS, cuestionario 2757. Elaboración
propia.
Una posibilidad para representar dos variables de este tipo en un eje de coordenadas consiste
en construir un gráfico de burbujas, cuyo tamaño sea una función de la frecuencia de observación
de cada una de las combinaciones posibles.
Volviendo a los gráficos de nubes de puntos, se tiene que hacer un pequeño comentario sobre
su lectura:
Panel A: esperanza de vida de hombres y de mujeres. Panel B: esperanza de vida de mujeres y tabaco,
con Turquía. Panel C: esperanca de vida de mujeres y tabaco, sin Turquía. Fuente: OCDE (2010).
Cuando la pendiente del gráfico es positiva (como en el panel izquierdo de la figura 23, que
reproduce los datos presentados en la figura 15), esto es signo de que hay una correlación positiva
(sea causal o no) entre las variables; cuando la pendiente es horizontal o vertical (caso al que se
aproxima el panel central), esto es signo de que no hay ninguna correlación lineal entre las
variables; finalmente, cuando la pendiente es negativa (como en el panel de la derecha), esto
indica que hay una correlación negativa entre las variables.
Observad, por cierto, que la correlación negativa entre esperanza de vida de las mujeres y
porcentaje de mujeres fumadoras (ambas, medidas en 2006) resulta distinguible cuando Turquía
se excluye de la muestra, y observad también que, cuando este país se incluye, queda muy alejado
de todo el resto de los países. En estos casos, quizá convenga mostrar los resultados tanto con
Turquía como sin ella, y discutir las razones por las que creemos que Turquía es especial
(técnicamente, un outlier): por ejemplo, ¿es posible que la relación se vea empañada en este país
por cuestiones relacionadas con desigualdades y discriminaciones de género?
Finalmente, un comentario. Como se vio al presentar la figura 16 y su alternativa, la figura 17,
no hay una manera única de representar gráficamente unos mismos datos. Consideradas
conjuntamente, las dos figuras ponen de relieve una cuestión fundamental: la decisión de qué tipo
de gráfico emplear para cada caso es esencialmente vuestra. A veces, resultará especialmente
adecuado un tipo de gráfico, mientras que otras, juzgaréis que es otro el que mejor se ajusta a los
objetivos de vuestro estudio. Los ejemplos puestos a lo largo de esta sección están pensados para
daros una perspectiva amplia de las posibilidades que tenéis a vuestro alcance; aun así, el dominio
de esta valiosa herramienta es una cuestión que, en parte, se adquiere con el tiempo y con la
práctica. En este sentido, el mejor consejo que os podemos dar es el siguiente: ¡ejercitad los
gráficos, hacedlos de manera habitual, que la experiencia es la mejor escuela (o una de las
mejores)!
Consideremos las variables «sexo» y «voto». La lógica que seguimos para determinar si están
relacionadas entre ellas es la siguiente. Imaginemos que no estén relacionadas. Entonces, ¿cuántos
casos deberíamos encontrar de cada combinación de sus valores?
Para responder a esta pregunta, deberemos tener presente la distribución de cada variable por
separado. Antes de nada, tenemos que introducir los conceptos siguientes:
O frecuencia relativa esperada. Porcentaje de casos que habría que esperar observar (bajo el
supuesto de independencia de las dos variables) para la combinación de valores.
Ejk = Pj × Pk
Dado que tenemos 2.926 hombres sobre una muestra de 6.057 casos válidos, esto representa
un 48,31 % del total; por otro lado, el porcentaje de votantes es 86,92 % (5.265 dividido por
6.057). Entonces, bajo el supuesto de independencia, esperaríamos que el porcentaje de hombres
que votan fuera 48,31 % × 86,92 % = 41,99 %.
La tabla siguiente muestra el resultado de repetir estos cálculos para las cuatro combinaciones
posibles (hombres que no votaron, hombres que sí votaron, mujeres que no votaron y mujeres
que sí votaron):
Veamos, ahora, cómo se calcula el porcentaje esperado de la casilla «un poco interesados y
bastante despreocupados». La frecuencia relativa de «un poco interesados» es 29,2 %, y la de
«bastante despreocupados», 51,4 %; por lo tanto, bajo el supuesto de independencia, esperaríamos
que el porcentaje para esta combinación fuera igual a 29,2 % × 51,4 % = 15,0 %. La tabla
siguiente muestra el resultado de llevar a cabo estos cálculos para todas las combinaciones
posibles entre las dos variables:
O frecuencia absoluta esperada. Número de casos que habría que esperar observar (bajo el
supuesto de independencia de las dos variables) para la combinación de valores.
Njk = N × Pj × Pk
Entonces, bajo el supuesto de independencia, esperaríamos que el total de hombres que votan
fuera igual a 0,4831 × 0,8692 × 6.057 = 2.543,4 casos. La tabla siguiente muestra el resultado de
hacer estos cálculos para las cuatro combinaciones posibles, así como los casos efectivamente
observados.
La tabla 24 permite comparar los casos efectivamente observados con los que se habrían
observado bajo el supuesto de independencia total de ambas variables. Intuitivamente, cuanto
más se asemejen unos a otros, más cerca estaremos de cumplir el supuesto de independencia,
mientras que, cuanto mayores sean las diferencias, más lejos estaremos del supuesto de
independencia.
Considerad, ahora, la tabla siguiente, que muestra, para cada combinación, las diferencias entre
los casos observados y los esperados; los cuadrados de estas diferencias, así como estos últimos
divididos por los casos esperados:
Tabla 25. Diferencias entre las frecuencias observadas y esperadas («sexo» y «voto»)
Como evidencia la primera fila de la tabla 25, a pesar de que lo que quizá parecería más
intuitivo sería sumar directamente las diferencias en cada casilla (combinación), o sacar la media,
dado que las diferencias positivas y negativas se compensan entre ellas, el resultado siempre sería
cero. Esto plantea un problema similar al de la utilización de la desviación media como medida
del grado de dispersión de una distribución, y la solución es muy parecida a una de las soluciones
comentadas en aquella ocasión (la varianza): sacar el cuadrado de las diferencias para cada
combinación, y sumar estos cuadrados. Sin embargo, esta suma se verá afectada por cuestiones de
escala (como el tamaño de la muestra). Para evitar esto, se puede dividir cada una de las
diferencias al cuadrado por la frecuencia esperada: esto es lo que se hace en la tercera fila de cada
combinación.
El valor correspondiente a la suma de la tercera fila (en este caso concreto, 0,32) es conocido
en la literatura como coeficiente chi cuadrado, y es la medida más empleada para dilucidar si dos
variables están relacionadas entre ellas (si hay asociación entre ellas) o si, por el contrario, son
independientes la una de la otra.
Este coeficiente sigue una distribución muestral que recibe el nombre de distribución chi
cuadrado. La distribución chi cuadrado es una distribución derivada de la normal y sus valores
dependen de la medida de la tabla, es decir, del número de filas y columnas de la tabla, expresado
en grados de libertad (Sánchez Carrión, 1995, pág. 261).
Observad, en este sentido, que, como este coeficiente suma valores elevados al cuadrado,
nunca será negativo y, todo lo demás constante, cuanto mayor sea el número de filas y columnas,
mayor será el número de términos no negativos sumados, con lo que mayor será su valor.
Por lo tanto, para evaluar el valor del coeficiente chi cuadrado obtenido mediante el
procedimiento comentado más arriba, es necesario tener presente los grados de libertad definidos
por la tabla en la que se basa el coeficiente. La fórmula para computar los grados de libertad es la
siguiente:
GL = (NF - 1) × (NC - 1)
Donde GL son los grados de libertad, NF, el número de filas, y NC, el número de columnas.
Si volvemos a los ejemplos antes comentados, el coeficiente chi2 para las variables «género» y
«voto» asume un valor de 0,3188 (en la tabla 25, el valor computado se presentó solamente con
dos decimales, 0,32), el cual corresponde a una probabilidad de 0,572, es decir, podría ser, en un
57,2 % de los casos, consecuencia del azar.
Dados los criterios tradicionales de significación con los cuales trabajamos en ciencias sociales
(un 5 % o, en ocasiones, un 1 o un 10 %), la probabilidad de que el valor logrado por el
coeficiente chi2 se deba al azar es demasiado grande. Por lo tanto, diremos que no podemos
rechazar la posibilidad de que el valor del coeficiente se deba al azar, o que el coeficiente chi2 no
es significativo (a los niveles de confianza usualmente empleados), y concluiremos que ambas
variables no están significativamente relacionadas. Es decir, el valor (bajo) del coeficiente chi2 no
nos permite rechazar la hipótesis nula de independencia entre las variables «género» y «voto».
En cuanto a las variables «interesados» y «despreocupados», el coeficiente chi2 es igual a 2.900,
que es suficientemente grande como para corresponder a un nivel de probabilidad inferior a
0,001. Esto significa que ni siquiera en un 0,1 % de los casos un coeficiente chi2 tan grande
podría ser fruto del azar. La conclusión, en este caso, es que rechazamos la hipótesis nula de
independencia entre las variables «interesados» y «despreocupados», y concluiremos que ambas
están relacionadas entre sí.
Ahora bien, además de estudiar si dos variables están relacionadas entre sí, podemos estar
interesados en analizar de manera más detallada la relación entre ellas y, en lugar de fijarnos en el
coeficiente chi2 asociado a la tabla en su conjunto, tendremos que prestar atención al coeficiente
para cada celda (Sánchez Carrión, 1995, pág. 264):
La inspección detallada de la tabla 26 nos muestra que todas las celdas, excepto las
correspondientes a las combinaciones «un poco interesados y nada despreocupados» y «muy
interesados y nada despreocupados» son responsables de la relación entre las variables
«interesados» y «despreocupados». En efecto, todos los coeficientes chi2 son significativos,
excepto los de las dos celdas mencionadas (1,1 y 3,2, respectivamente), que son menores que el
valor crítico correspondiente a una distribución chi2 para un grado de libertad si empleamos un
nivel de significación del 5 % (para este nivel, el valor crítico para un grado de libertad es 3,84).
Una vez más, la mayoría de los paquetes estadísticos incluyen comandos para pedir
directamente el coeficiente chi2, tanto para la relación de las variables en su conjunto, como para
cada celda en particular.
3.2. Estadísticos de resumen para variables nominales
Tabla 27. Valores chi2 cuando se dobla el número de casos («sexo» y «voto»)
Como se puede apreciar, el valor del estadístico chi2 es exactamente el doble del valor que
calculamos para la muestra original. Algunos de los estadísticos utilizados más a menudo para
solucionar este problema son los siguientes:
El estadístico phi se calcula tomando la raíz cuadrada del cociente entre el estadístico chi
cuadrado y el número de casos. Su valor oscila entre 0 y 1 para variables con dos categorías, y es
igual al coeficiente de correlación de Pearson para variables dicotómicas. No obstante, cuando las
variables no son dicotómicas, el estadístico phi no tiene máximo. Para solucionar este
inconveniente, tenemos el coeficiente de contingencia.
Ecuación 11. Coeficiente de contingencia
A diferencia de phi, el estadístico C sí tiene máximo, pero su problema es que este máximo no
llega a la unidad ni siquiera cuando las variables están perfectamente correlacionadas. De hecho,
en el caso de las tablas cuadradas, sabemos que su máximo es la raíz del cociente entre el número
de filas menos 1 y el número de filas. Esta última propiedad está en la base de una variante de este
coeficiente.
Tiene un valor máximo igual a uno en las tablas cuadradas, pero no en las demás. Hay un
coeficiente alternativo, la V de Cramer, que se puede calcular para cualquier tipo de tablas:
Este coeficiente siempre está comprendido en el rango entre cero y uno, para cualquier tabla, y
es el preferido por muchos investigadores. Ahora bien, se deben tener en cuenta tres limitaciones
de esta medida sumaria.
Primera, tomada aisladamente, no nos informa sobre qué categorías son las responsables de
la asociación entre las variables.
Segunda, no está claro cómo interpretar un valor concreto del estadístico: ¿qué significa
que la V de Cramer valga 0,34, por ejemplo?
Tercera, asume que las tablas son simétricas –no distingue entre variables dependientes e
independientes– (Sánchez Carrión, 1995, págs. 270-271).
Si no sabemos nada sobre la variable «sexo», ¿cuál será nuestra mejor predicción sobre la
frecuencia con la que los encuestados hablan de las elecciones? Como no tenemos ninguna otra
información, la mejor predicción que podremos hacer es decir que un encuestado en particular
caerá en la categoría con más frecuencia en la muestra. Los datos para tomar esta decisión figuran
en la última columna de la tabla. Como se puede ver, la categoría más frecuente es «a veces», con
un 34,8 % de los casos. Por lo tanto, si hacemos esta predicción, acertaremos en 2.109 casos, y nos
equivocaremos en los restantes 3.951 (= 6.060 – 2.109) casos.
Si sabemos el género de los encuestados, podremos constatar que, mientras que en el caso de
los hombres, la categoría más habitual continúa siendo «a veces», la de las mujeres es «nunca».
Entonces, nuestra mejor predicción, cuando conocemos el género de un encuestado, continuará
siendo «a veces» si este es hombre, y nos continuaremos equivocando en 1.741 (= 2.931 – 1.190)
casos, pero cambiará a «nunca» si esta es mujer, y reduciremos nuestros errores de predicción de
2.210 (= 3.129 – 919) a 2.005 (= 3.129 – 1.124). Así pues, nuestro error habrá bajado a 3.746
casos.
Por lo tanto, habremos reducido nuestro error de predicción en 205 (3.951 - 3.746) gracias a
conocer el género de los encuestados, lo cual supone un 5,2 % (205/3.951) de reducción del error.
Este es el valor proporcionado por el coeficiente λ.
Observad que, en este caso, no tiene mucho sentido teórico calcular el coeficiente λ para la
otra dirección de causalidad –ni que fuera simétrico– puesto que es evidente que el género tiene
que haber quedado determinado mucho antes de que los encuestados hablaran de las elecciones
con sus amigos y, por lo tanto, no puede ser nunca la variable dependiente.
Para estudiar la intensidad de la relación entre el género y la percepción sobre si los políticos
son interesados, podemos comparar la diferencia en el porcentaje de políticos que son percibidos
como nada, un poco, bastante o muy interesados entre hombres y mujeres. Esta diferencia,
lógicamente, oscila entre d = 0,0 %, cuando las percepciones son iguales entre hombres y mujeres,
y 100 %, cuando todos los miembros de un género comparten una percepción y ninguno de los
otros las comparte.
Tabla 29. Diferencia de porcentajes («interesados» y «género»)
En la tabla 29, se puede observar que las diferencias para las categorías extremas de percepción («nada» y «muy» interesados)
son casi inapreciables, mientras que las cifras difieren más para la percepción de que son «un poco interesados» (un 5,2 % mayor
entre los hombres) o «bastante interesados» (un 5,8 % mayor entre las mujeres).
Naturalmente, si, en lugar de una variable dicotómica, como el género, consideráramos una
politómica (de varias categorías), como el estado civil, se tendría que sacar una batería de
diferencias de porcentajes. Esta es una de las razones por las cuales esta medida no es empleada
muy a menudo en tablas donde las variables tienen varias categorías; aun así, se ha de tener
presente que sacar más de un coeficiente no es en sí mismo un problema (no necesariamente un
único porcentaje tendría que ser preferido para resumir la información de la relación entre
variables). De hecho, según la opinión de algunos autores, la diferencia de porcentajes es el mejor
estadístico para ver la relación entre variables nominales (Sánchez Carrión, 1995, pág. 267).
Cuando las variables que queremos analizar son ordinales, tendrá sentido analizar no
solamente si están relacionadas entre sí, sino también si, cuando una de ellas crece, la otra
también tiende a crecer o la otra tiende a decrecer.
Para llevar a cabo esta tarea, disponemos de un coeficiente, gama, así como de unos
coeficientes alternativos (tau b, tau c, y D de Sommers).
Estadístico que mide si el orden para los individuos en una variable X y en otra variable Y
tiende a ser concordante o discordante. Para ello, computa la diferencia entre las parejas de
observaciones en las que encontramos órdenes concordantes y las parejas en las que
encontramos órdenes discordantes, y las divide por la suma de las dos.
Veamos cómo se calcula el coeficiente gama retomando los datos de la tabla 21 (para evitar alargar innecesariamente este
apartado, aquí solamente se presentan las frecuencias absolutas):
0_Nada 87 104 71 27
1_Un poco 47 913 608 58
2_Bastante 32 545 1.883 242
Como recordaréis, la tabla 21 daba pie a la idea «simétrica» de que las personas que ven a los
políticos como nada o poco despreocupados tienden a verlos como nada o poco interesados,
mientras que las personas que los ven como bastante o muy despreocupados suelen percibirlos
también como interesados.
En conjunto, los datos sugerían que ambas variables no son independientes, sino que más bien
se movían en la misma dirección. Gracias al coeficiente gama, podremos estudiar hasta qué punto
esta noción es defendible. Lo que haremos será estudiar sistemáticamente en qué medida es cierto
que, cuando un individuo manifiesta un valor mayor que otro en una de las variables, también
manifiesta un valor mayor en la otra variable. Para ello, calcularemos la frecuencia relativa en la
que un individuo se caracteriza por valores más altos que el otro en las dos variables.
Para referirnos rápidamente a cada par de celdas, convendrá presentar la tabla de manera más
abstracta:
Orden 1 A B C D
Orden 2 E F G H
Orden 3 I J K L
Orden 4 M N O P
Lo que debemos hacer es tratar de ver en qué medida las parejas de observaciones de los
valores de las variables 1 y 2 tienden a ser concordantes o discordantes. Cuando un individuo está
en la casilla A y otro individuo, en la F, esta pareja de observaciones presentará un carácter
concordante, puesto que el primer individuo tiene un valor menor (de orden 1) para las dos
variables, y el segundo individuo tiene valores más altos, de orden 2, para ambas. Es decir, el valor
más alto para un individuo en la primera dimensión (o variable) viene de la mano de un valor más
alto también en la segunda variable.
Para calcular el conjunto de parejas concordantes, tendremos que sumar el conjunto de parejas
definidas por las combinaciones siguientes: AF, AG, AH, AJ, AK, AL, AN, AO, AP, BG, BH, BK,
BL, BO, BP, CH, CL, CP, EJ, EK, EL, EN, EO, EP, FK, FL, FO, FP, GL, GP, IN, IO, IP, JO, JP, y
KP. Evidentemente, para cada combinación de celdas, si la primera celda tiene i individuos y la
segunda tiene j, el número de parejas posibles entre ellas viene definido por el producto i x j:
AF AG AH AJ AK AL AN AO AP
BG BH BK BL BO BP CH CL CP
EJ EK EL EN EO EP FK FL FO
FP GL GP IN IO IP JO JP KP
Total 5.760.580
BE BI BM CE CF CI CJ CM CN DE DF DG
4.888 3.328 2.288 3.337 64.823 2.272 38.695 1.562 6.177 1.269 24.651 16.416
DI DJ DK DM DN DO FI FM GI GJ GM GN
864 14.715 50.841 594 2.349 8.100 29.216 20.086 19.456 331.360 13.376 52.896
HI HJ HK HM HN HO JM KM KN LM LN
1.856 31.610 109.214 1.276 5.046 17.400 11.990 41.426 163.821 5.324 21.054 72.600
Total 1.196.176
Ahora, ya estamos en posición de calcular el coeficiente gama sin ulteriores problemas. Quizá
vale la pena presentar una ecuación con su definición formal para aplicarla después a los datos de
nuestro ejemplo:
Esta cifra es positiva y «relativamente» elevada. Indica que las variables «interesados» y
«despreocupados» presentan una concordancia (algo así como una correlación, pero para
variables ordinales en lugar de cuantitativas) positiva y bastante alta, en el sentido de que valores
(rangos) más altos en una de las variables están sistemáticamente asociados a rangos más altos en
la otra.
Observad que el coeficiente gama solo contabiliza los pares concordantes (donde un
individuo manifiesta órdenes más altos para las dos variables que otro individuo) y los pares
discordantes, pero no tiene en cuenta los empates (aquellos en los que, en alguna variable, los dos
individuos asumen el mismo valor).
Hay medidas alternativas que sí tienen en cuenta las parejas empatadas. Las más conocidas son
tau b, tau c (ambas debidas a Maurice Kendall) y la D de Sommers. Las diferencias entre ellas
dependen de cómo utilizan los empates. Empezaremos con la D de Sommers, puesto que es,
quizá, el más intuitivo de los coeficientes mencionados.
A diferencia del coeficiente gama, este estadístico usa los empates, pero lo hace de una manera
diferente a la D de Sommers. Una vez más, P es el número de parejas concordantes, Q, el de
parejas discordantes, F, el de parejas fila empatadas, y C, el de parejas columna empatadas.
Cuando disponemos de una variable de intervalo, como la identidad ideológica, que se suele
medir en escalas de 0 al 10 o de 1 al 10, definidas sobre el conjunto de los números naturales,
algunos autores se sienten satisfechos tratándolas como variables cuantitativas, mientras que otros
consideran que es más adecuado tratarlas como variables ordinales con «muchas» categorías.
En estos casos, hay dos estadísticos habitualmente empleados para calcular la correlación entre
ellas: la rho de Spearman, y el coeficiente de Pearson, aplicados a los rangos de las observaciones.
Donde di es la diferencia, para cada caso i, en los rangos de las dos variables, y n, el tamaño de
la muestra.
Ejemplo
Consideremos el ejemplo siguiente: en una clase (datos «Notas 4», inventadas) hay alumnos con edades comprendidas entre los
17 y 22 años, que han sacado notas que van de 6 a 10 puntos.
1 17 6
2 18 5
3 19 7
4 20 7
5 20 7
6 20 8
7 21 7
8 21 8
9 21 10
10 22 9
Fuente: Datos inventados, «Notas 4». N = 10. Elaboración propia.
La primera tarea que hemos de llevar a cabo es ordenar las variables según los rangos de sus
valores para cada observación. Lo haremos, primero, para la variable «años»:
1 17 1 1 1 1
2 18 2 2 2 2
3 19 3 3 3 3
4 20 5 4 6 4
5 20 5 4 6 4
6 20 5 4 6 4
7 21 8 7 9 5
8 21 8 7 9 5
9 21 8 7 9 5
10 22 10 10 10 6
Observad que, en la tabla 35, se presentan diferentes alternativas para la construcción de los
rangos, los cuales difieren, principalmente, en su tratamiento de las categorías con más de una
observación: se puede emplear el rango correspondiente a la media de los rangos ocupados por la
categoría, el rango más bajo o el rango más alto de esta (por ejemplo, en el caso de aquellos que
tienen 20 años, ocupan las posiciones 4, 5 y 6: se les puede asignar el rango correspondiente a la
media, 5; el rango más bajo, 4; o el rango más alto, 6). Finalmente, la última alternativa
«condensa» la numeración y ordena las categorías definiendo los rangos sobre los números
naturales, sin dejar ningún «vacío». Ahora, repetimos el proceso para la variable «notas»:
1 6 2 2 2 2
2 5 1 1 1 1
3 7 4,5 3 6 3
4 7 4,5 3 6 3
5 7 4,5 3 6 3
6 8 7,5 7 8 4
7 7 4,5 3 6 3
8 8 7,5 7 8 4
9 10 10 10 10 6
10 9 9 9 9 5
El coeficiente rho de Spearman emplea, para sus cálculos, los rangos de las observaciones
basados en el procedimiento de la media. A partir de estos rangos, calcula las diferencias para
cada observación y las eleva al cuadrado:
Tabla 37. Cálculo del coeficiente rho de Spearman, detalle («años» y «notas»)
Rango Rango
Observación Años Nota d d2
(años) (nota)
1 17 6 1 2 -1 1
2 18 5 2 1 1 1
9 21 10 8 10 -2 4
10 22 9 10 9 1 1
TOTAL 28 ,5
Tomaremos, una vez más, los datos del cuestionario CIS 2757, en este caso, las variables «voto» (recodificada) y «P»
(consideración de que el propio voto no influye nada, influye poco, influye bastante o influye mucho en los resultados
electorales). Pongamos que queremos estudiar el efecto de esta segunda sobre la primera: es cierto que una de las variables que
más afecta a la probabilidad de votar o abstenerse es la famosa P puesta de relieve por los modelos racionales (Aldrich, 1993,
págs. 247-251; Aldrich, 1997, págs. 377-378; Downs, 1957, págs. 38-40, 244-245, 265-272; Ferejohn, Fiorina, 1974, págs. 526-
527; Riker, Ordeshook, 1968, págs. 25-26).
Los datos de la tabla 38 permiten apreciar que, tal y como postula el modelo del voto
instrumental –el modelo racional para explicar la decisión de votar o no votar–, cuanto mayor es
la percepción de la probabilidad de influir en los resultados electorales, menor es la probabilidad
de abstenerse (que pasa de 30,3 % para quienes piensan que tienen un valor mínimo de P a 6,6 %
para aquellos que juzgan tener un valor de P muy elevado).
Ahora bien, dado que más del 70 % de los ciudadanos votó, y que los datos de los
cuestionarios electorales siempre infrarrepresentan el porcentaje de abstencionistas, el porcentaje
de abstencionistas no supera el 50 % ni siquiera en el supuesto de que P asume el valor más bajo.
En este sentido, parecería que, a pesar de que P influye en la decisión de votar de la manera
predicha por los modelos racionales, los datos también apoyan a los críticos que señalan que P es
solo «marginalmente» significativa.
No obstante, lo que, de acuerdo con la teoría, alejaría a los ciudadanos de las urnas serían los
costes, pero entonces, habría que considerar la posibilidad de que, por debajo de un cierto umbral
de costes, estos dejaran de influir en la acción (Barry, 1970, pág. 49). A pesar de que, en general,
los costes son bajos, cuando estos sean altos, quizá el porcentaje de abstención y quizá, en este
contexto, la influencia de P sobre el voto resulte determinante. Comprobaremos primero si,
efectivamente, cuanto mayores sean los costes, mayor es la abstención:
Como podemos ver, la primera de nuestras hipótesis se cumple sin problema. Ahora
pasaremos a comprobar la segunda hipótesis: cuando los costes sean grandes, ¿se convertirá en
determinante la influencia de P sobre el voto?
Tabla 40. Influencia de P sobre la abstención y el voto, según el nivel de los costes de votar
C Bajo Alto
P 0 1 2 3 0 1 2 3
Como se puede comprobar:
Primero, para todas las categorías de P, la abstención es mucho mayor cuando el coste de
votar es alto que cuando es bajo: por ejemplo, cuando P = 0, el porcentaje de abstención
«solo» es 17,9 % cuando el coste es bajo, pero sube hasta 65 % cuando el coste es alto.
Segundo, salvo una excepción menor (paso de P = 0 a P = 1 cuando C = 0), a medida que P
crece, la abstención cae, tanto si el coste de votar es bajo como si es alto.
Tercero, el efecto de aumentos de P sobre la caída de la abstención no es independiente de
C.
Cuarto, en concreto, el efecto de aumentos de P sobre la caída de la abstención es mucho
mayor cuando C = 1: en este caso, pasar de P = 0 a P = 3 provoca una caída de la abstención
de 48,3 % (de 65,0 a 16,7 %), mientras que el mismo aumento de P solamente provoca una
caída en la abstención de 11,6 % (de 17,9 a 6,3 %) cuando los costes son bajos. Observad
que, en el primer caso, el efecto de P es determinante, en el sentido de que, si los costes son
altos, nuestra mejor predicción de si un individuo votará o no variará en función del valor
de P.
La moderación de la relación entre P y el par voto-abstención por parte de los costes de votar
no solamente se puede representar mediante tablas, sino también de forma gráfica. La figura
siguiente ilustra los resultados obtenidos:
Observad que, de acuerdo con nuestras expectativas teóricas, teníamos que esperar tres cosas:
primera, P debía incidir positivamente en la probabilidad de votar; segunda, cuando los costes
sean bajos, los ciudadanos tendrán una mayor propensión a votar que cuando sean altos; tercera,
la relación entre «P» y «voto» no tendría que ser independiente de los costes; y cuarta, el efecto de
«P» sobre el voto será más marcado cuando los costes sean altos que cuando sean bajos. La tabla
40 y la figura 24 son coherentes con todas estas hipótesis.
Como veis, las herramientas estudiadas a lo largo del capítulo no se agotan en los análisis de
dos variables, sino que se pueden aplicar al estudio de relaciones más complejas donde tomen
parte tres variables de manera simultánea. En estos casos, pueden resultar especialmente
fructíferas y poderosas, a pesar de que es extremadamente aconsejable no concluir la investigación
en este punto, sino profundizar los análisis y comenzar la contrastación de modelos causales de
regresión. Estos modelos se estudiarán en el capítulo siguiente.
Bibliografía
Aldrich, J. H. (1993). «Rational Choice and Turnout». American Journal of Political Science (vol. 37, núm. 1, págs. 246-278).
Aldrich, J. H. (1997). «When is it rational to vote?». En: D. C. Mueller (ed.). A Perspectives on Public Choice: A handbook (págs. 373-
390). Cambridge: Cambridge University Press.
Barbancho, A. G. (1973). Estadística elemental moderna. Barcelona: Ariel.
Barry, B. (1970). Sociologists, Economists and Democracy. Londres: Collier-Macmillan.
Downs, A. (1957). An Economic Theory of Democracy. Nueva York: Harper & Row.
Ferejohn, J. A.; Fiorina, M. P. (1974). «The Paradox of Not Voting: A Decision Theoretic Analysis». The American Political Science
Review (vol. 68, núm. 2, págs. 525-536).
Peña, D. (2001). Fundamentos de Estadística. Madrid: Alianza Editorial.
Riker, W. H.; Ordeshook, P. C. (1968). «A theory of the calculus of voting». American Political Science Review (vol. 62, núm. 1,
págs. 25-43).
Sánchez Carrión, J. J. (1995). Manual de análisis de datos. Madrid: Alianza Editorial.
Capítulo IV
Variable dependiente
También llamada variable explicada, endógena o regresada; es decir, el «efecto». Con mucha
diferencia, es la variable más importante, ya que es aquélla cuyos valores queremos entender,
explicar, predecir. Sus valores dependen de (están en función de; se pueden explicar por) los
valores de otras variables. Se denota mediante la letra Y. En los gráficos de coordenadas, se
representa, por tradición, en el eje de ordenadas (el eje vertical).
Variable independiente
También llamada variable explicativa, exógena o regresora; es decir, la «causa». Sus valores
condicionan o explican los valores de otras variables. Se denota con la letra X, y, en los
gráficos de coordenadas, se representa en el eje de abscisas (el eje horizontal).
Técnica de análisis de datos empleada para estudiar la dependencia de una variable (llamada
variable dependiente, y denotada, tradicionalmente, mediante la letra Y) con respecto a una
variable (llamada variable explicativa, y denotada, tradicionalmente, mediante la letra X). Es
decir, la estimación de la media de Y dependerá de los valores asociados de X, los cuales se
consideran fijos o dados.
En términos generales, lo que se analiza mediante una regresión es cómo cambia la media de
Y al cambiar los valores de X.
Ejemplo 1: ¿cómo cambia la altura media de los hijos al cambiar la altura de los padres?
Ejemplo 2: ¿cómo cambia la altura media de los hijos al cambiar la edad?
Ejemplo 3: ¿cómo cambia la tasa de paro media al cambiar el salario mínimo?
Ejemplo 4: ¿cómo cambian las tenencias medias de dinero al cambiar la tasa de inflación?
Más que una técnica de análisis de datos concreta, los análisis de regresión son una amplia
familia de técnicas. Lo primero es establecer si se formula un modelo de regresión lineal o no
lineal. Esta decisión está exclusivamente condicionada por el nivel de medida de la variable
dependiente.
1) Variable dependiente cuantitativa. Cuando tenemos una variable dependiente
cuantitativa, lo más adecuado será un análisis de regresión lineal.
2) Variable dependiente cualitativa. Si la variable dependiente es cualitativa, convendrá
optar por una regresión no lineal. Entonces, la segunda decisión es qué modelo no lineal es el
más pertinente:
2.1. Variable dependiente ordinal. Si la variable dependiente es ordinal, lo más adecuado
será un análisis de regresión logístico ordinal (ologit) o la variación que utiliza una estructura de
errores normal, el probit ordinal (oprobit).
2.2. Variable dependiente nominal. Si la variable dependiente es nominal, y las alternativas
de respuesta son las mismas para todos los individuos, lo mejor será un análisis de regresión
multinomial (mlogit o mprobit). Cuando las alternativas de respuesta varían para cada individuo,
serán preferibles otras opciones, como el análisis de regresión logística condicional (clogit), la
regresión logística para la ordenación de rangos y el análisis de regresión probit multinomial
específico.
2.3. Variable dependiente dicotómica. Finalmente, si la variable dependiente es dicotómica,
lo óptimo será un análisis de regresión logístico (logit) o el análisis de regresión probit (probit).
Antes de concluir este apartado, vale la pena hacer unas consideraciones adicionales.
1) Primera, recuerda el papel que tienen la teoría y la causalidad. Es la teoría la que, en última
instancia, determina qué relaciones causales se tienen que considerar plausibles –y se tienen que
someter a contrastes empíricos– y cuáles no. La detección –o no– de relaciones estadísticas que
«apoyen» o refuten las relaciones causales hipotetizadas tendrá lugar, solamente, en un segundo
momento, con el objeto de contrastar la validez de las hipótesis teóricas avanzadas. Por esta
razón, resulta fundamental otorgar una gran importancia a la revisión de la literatura y al diseño
del marco teórico, puesto que, sin sólidos fundamentos teóricos, los análisis empíricos, a pesar de
que haya relaciones estadísticas, resultan de poca utilidad.
2) Segunda, distingue entre las relaciones determinísticas y las relaciones estadísticas. Las
primeras establecen una relación funcional entre variables, sin que esta relación esté matizada por
el azar. Las segundas establecen una relación estadística entre las variables matizada por el azar.
La inclusión de un término aleatorio, estocástico, de error o de azar convierte la variable
dependiente en una variable igualmente aleatoria, estocástica.
3) Tercera, presta atención a qué análisis haces a partir de datos poblacionales y cuáles, con
datos muestrales. Cuando son del segundo tipo –como sucede la mayoría de las veces–, se deben
hacer todos los esfuerzos posibles para garantizar que las muestras utilizadas permitan realizar
inferencias válidas sobre las poblaciones estudiadas. Ahora bien, incluso los diseños muestrales
más cuidadosos son incapaces de garantizar que los datos muestrales reproduzcan exactamente
los datos poblacionales: la utilización de muestras introduce, por lo tanto, un elemento de
aleatoriedad (en la selección o no de observaciones concretas), lo que hace que esta consideración
entronque con la consideración precedente.
4) Cuarta, distingue entre la detección de la correlación (de la fuerza de la asociación) lineal
entre dos variables (estudiada ya en el capítulo precedente) y la estimación, explicación o
predicción del valor medio de la variable dependiente. Esta explicación es el objetivo principal de
los análisis de regresión, y su estudio constituye el objeto central de este capítulo.
5) Finalmente, conviene aclarar unas cuestiones de la notación que se empleará a lo largo del
capítulo. Como ya se ha avanzado, por norma general, denotaremos la variable dependiente
mediante la letra Y, y la variable o variables independientes, mediante la letra X. Cuando los
modelos incluyan más de una variable independiente, utilizaremos subíndices para diferenciar
entre la primera variable dependiente, X1, la segunda, X2, y así sucesivamente.
Estos subíndices pueden estar acompañados por subíndices adicionales, i, j, k, los cuales se
usarán para identificar diferentes unidades espaciales, como por ejemplo países o regiones.
Cuando nuestros datos incluyan varias unidades espaciales de este tipo, decimos que trabajamos
con datos de corte transversal. En cambio, para identificar observaciones correspondientes a
unidades en diferentes momentos del tiempo, lo haremos, generalmente, mediante los subíndices
t, t–1, t–2 y similares. Cuando nuestros datos no incluyan varias unidades espaciales pero sí varias
unidades temporales, decimos que trabajamos con datos longitudinales, o series temporales.
Cuando nuestros datos incluyan unidades de los dos tipos, decimos que trabajamos con datos de
panel o datos agrupados y, si estos datos son para el nivel individual, generalmente querremos
remarcar este hecho, y diremos que trabajamos con datos de micropanel.
Como se ha avanzado más arriba, lo que, en términos generales, se pretende analizar mediante
una regresión es cómo cambia la media de Y al cambiar los valores de X. Por lo tanto, lo primero
que habrá que definir con precisión es esta «media de Y».
Curva de regresión
Este término puede ser precisado en función de si estamos hablando de datos poblacionales o
muestrales, con lo cual podríamos hablar de curva de regresión poblacional y curva de regresión
muestral.
De manera general, la curva de regresión se puede formalizar mediante una función que
relacione la esperanza (condicional) de Y con los valores de la variable independiente:
La forma de la función de regresión es una cuestión empírica. Por ejemplo, se puede plantear
la hipótesis de que esta función es lineal:
Esta función es lineal porque cada aumento de X1 en una unidad provoca un aumento de
E(Y|X1) en β1 unidades.
Recta de regresión
Caso especial de la curva de regresión en el que esta es lineal. También aquí podemos
precisar y hablar de recta de regresión poblacional y recta de regresión muestral.
Para dar una interpretación sustantiva a esta función, tomamos la descomposición tradicional
de los costes totales en costes fijos y variables:
Ecuación 4. Coste variable en función del coste marginal, para un coste marginal
constante
CVi = CMg × Xi
Ecuación 5. Coste total en función del coste fijo, el coste marginal y el nivel de
producción
Y = Coste total β 0 = Coste fijo X = Producción β 1 = Coste marginal β 1×X1 = Coste variable
10 10 0 3 0
13 10 1 3 3
16 10 2 3 6
19 10 3 3 9
22 10 4 3 12
25 10 5 3 15
28 10 6 3 18
31 10 7 3 21
34 10 8 3 24
37 10 9 3 27
40 10 10 3 30
Figura 25. Costes totales como función lineal del nivel de producción
«Costes 1». N = 11.
Fuente: Datos inventados. Elaboración propia.
De hecho, el punto de corte en el eje de ordenadas (el eje vertical) es, precisamente, β0 = 10, y
la pendiente de la recta es β1 = 3. Esto no es casualidad, sino que sucederá con todos los modelos
lineales.
La linealidad observada se debe a dos razones. Primera, X1 es de primer grado, es decir, está
elevado a la unidad; si estuviera elevado al cuadrado, por ejemplo, el gráfico de coordenadas
asociado dejaría de ser lineal (comprobadlo). Segunda, β1 es un parámetro, una constante; si no
fuera así, el gráfico de coordenadas también dejaría de ser lineal (comprobadlo para el caso de
que β1 es igual a tres para X entre 0 y 2, igual a dos para X entre 2 y 4, igual a la unidad para X
entre 5 y 7, e igual a cero para X mayor que 7).
Linealidad en las X. La curva de regresión será una línea recta cuando Y experimente
siempre el mismo cambio al cambiar X, o, formalmente, cuando ∂Y/∂Xi (la derivada de Y
respecto a X) sea constante, para cualquier i. Esto implica dos cosas. Por un lado, ∂Y/∂Xi
no puede depender del valor de Xi y, por lo tanto, esta tiene que estar elevada a la unidad.
Por otro lado, en el caso de los modelos con más de una variable independiente, ∂Y/∂Xi no
puede depender del valor de ninguna Xj.
Linealidad en los parámetros. E(Y|X1i) es lineal en β1 (o, de manera más general, para los
modelos con más de una variable independiente, la esperanza condicional de Y es lineal en
las betas). Formalmente, esto sucederá cuando ∂Y/∂βi sea constante, para cualquier i. Esto
implica dos cosas. Por un lado, ∂Y/∂βi no puede depender del valor de βi y, por lo tanto, esta
tiene que estar elevada a la unidad. Por otro lado, en el caso de los modelos con más de una
variable independiente, ∂Y/∂βi no puede depender del valor de ninguna βj.
Cuando hablamos de modelos de regresión lineales, nos estamos refiriendo a modelos lineales
en los parámetros, no necesariamente en las variables.
Hasta ahora, hemos prescindido del tema de la aleatoriedad para simplificar la discusión. No
obstante, la mayoría de las veces, encontraremos que, a pesar de que Yi está agrupada en torno a
su esperanza condicional, E(Y|X1i), habrá desviaciones en los casos individuales.
Yi = E(Y |X1i) + ui
Y en el caso lineal:
Yi = β0 + β1X1i + ui
Vaguedad de la teoría. Quizá no sabemos qué variables adicionales podrían afectar a Yi.
No disponibilidad de información. Quizá no disponemos de información sobre las
variables omitidas.
Variables periféricas. Quizá las variables omitidas tengan efectos «muy pequeños», con lo
cual no se justificaría su introducción.
Aleatoriedad intrínseca del comportamiento humano. Quizá el comportamiento
humano sea, al menos en parte, inexplicable, por muchos esfuerzos que hagamos por tratar
de explicarlo.
Variables proxy inadecuadas. Quizá las medidas de las que disponemos en nuestros datos
comporten errores de medida en relación con los conceptos teóricos de nuestros modelos.
Por ejemplo, el modelo de Friedman postula una relación entre el consumo y la renta
permanente, pero esta última es inobservable.
Principio de parsimonia. Muy a menudo, nos puede parecer aconsejable aplicar la navaja
de Ockham y avanzar una explicación parsimoniosa, prescindiendo de variables cuyos
efectos sean relativamente reducidos.
Forma funcional incorrecta. Muchas veces, la forma funcional más adecuada es,
simplemente, desconocida. A pesar de que podemos emplear herramientas para trata de
elegir la forma funcional de nuestros modelos (por ejemplo, se pueden emplear diagramas
de dispersión), siempre permanecerá un cierto margen de error sobre cuál es la forma
funcional más correcta para dar cuenta de las relaciones entre las variables.
Se puede demostrar fácilmente que la esperanza del componente no sistemático tiene que ser
igual a cero. De hecho, si no fuera a así, este componente dejaría de ser no sistemático. Como la
demostración es muy sencilla, la incluiremos a continuación. Partiremos de la ecuación 6 y
aislaremos el término ui:
ui = Yi – E(Y |X1i)
Ahora, sacaremos las esperanzas de ambos miembros, y aplicaremos dos propiedades: primera,
la esperanza de cualquier argumento es una constante. En el caso que nos ocupa, E(Y|X1i) es una
constante. Segundo, la esperanza de una constante es la misma constante. Por lo tanto,
E(E(Y|X1i)) = E(Y|X1i):
Cuando trabajamos con datos muestrales, nuestra tarea consistirá en estimar la función de
regresión poblacional (FRP) de acuerdo con la información muestral de la que disponemos.
Ahora bien, lo que podremos construir no será la FRP directamente, sino una función de
regresión muestral (FRM) a partir de los datos de la muestra.
Estimador
Estimado
Ahora bien, si trabajamos con muestras aleatorias de la población, las Yi para cada Xi serán
muestras aleatorias del conjunto de Yi para cada Xi y se podrán obtener N funciones de regresión
muestral diferentes para N muestras diferentes. Por lo tanto, las FRM serán aproximaciones de la
FRP, y esta no se podrá estimar de manera precisa debido a las fluctuaciones muestrales.
El objetivo principal de la regresión será estimar la función de regresión poblacional
(ecuación 7), que es lo que verdaderamente queremos saber, a partir de la función de regresión
muestral (ecuación 11), que es lo que podemos calcular directamente a partir de los datos
muestrales disponibles. El método utilizado para realizar esta tarea es el método de los mínimos
cuadrados ordinarios (MCO).
El primer criterio en el que se podría pensar sería el de minimizar el sumatorio del estimador
de los errores para el conjunto de los miembros de la muestra, es decir, minimizar el sumatorio
de los residuos (de ui). Sin embargo, si hiciéramos esto, daríamos la misma importancia a todos
los residuos, independientemente de su dispersión, independientemente de cuánto se alejaran de
los valores observados de Y. Además, los residuos positivos y los negativos se compensarían entre
ellos, y habría múltiples FRM posibles que compartirían el mismo valor para el sumatorio de los
residuos.
Este problema (que recuerda el problema de utilizar la desviación media y la solución de
elevar al cuadrado las diferencias respecto a la media) se soluciona mediante el criterio alternativo
de minimizar la suma de los residuos al cuadrado –criterio que recibe el nombre de método de
los mínimos cuadrados ordinarios:
Método para estimar los parámetros de un modelo consistente en minimizar la suma de los
residuos al cuadrado.
Hemos visto cómo estimar la FRP a partir de datos muestrales, y cómo estimar, gracias al
método de los MCO, estimadores eficientes de y . Sin embargo, estos estimadores ( y )
son variables aleatorias y, por lo tanto, cambian de muestra a muestra. En consecuencia, hemos de
saber cuán cerca está de β0, y cuán cerca está de β1.
Para llevar a cabo esta tarea, tenemos que averiguar la distribución de probabilidad de los
estimadores. Y, dado que la distribución de probabilidad de los estimadores reproduce la
distribución de probabilidad del término de error ui, para hacerlo, necesitaremos añadir un
supuesto sobre la distribución de probabilidad del término de error. El supuesto más empleado
es el supuesto de normalidad.
Hay una serie de razones por las cuales el supuesto más empleado es el de normalidad.
Desde un punto de vista teórico, sabemos, por el teorema central del límite, que, cuando hay
muchas variables aleatorias idénticamente distribuidas, la distribución de su suma tiende,
asintóticamente (es decir, cuando el número de observaciones crece por encima de toda
cota), a ser normal. Recordemos, incidentalmente, que ui se puede interpretar como un
término que representa o recoge la influencia de todas las variables con una influencia
«pequeña» y no incluidas en el modelo. Sabemos, además, que el teorema central del límite es
aplicable incluso cuando N no es muy grande o cuando las variables no son del todo
independientes.
Por otro lado, sabemos que cualquier función lineal de variables normalmente distribuidas
está normalmente distribuida. Por lo tanto, la asunción de la normalidad de ui tiene la
ventaja de que implica que, como , son funciones de ui, estarán normalmente
distribuidas.
La distribución normal es sencilla, involucra pocos parámetros (la media y la varianza), es
muy conocida y muchos fenómenos siguen este tipo de distribución.
La distribución normal permite emplear las pruebas t, F y chi2 (esto es crítico para las
muestras pequeñas, de N < 100).
Son consistentes (cuando N crece por encima de toda cota, sus valores tienden
asintóticamente a los de los parámetros poblacionales).
No solo son MELI (Mejores estimadores lineales insesgados), sino también MEI (tienen
varianza mínima entre todos los estimadores no sesgados).
Los estimadores y se distribuyen independientemente de . En concreto, , al ser una
función lineal de ui (término que, bajo el supuesto de normalidad, tiene por definición una
distribución normal) se distribuye normalmente, con una media de β0, y una varianza de .
De manera análoga, se distribuye normalmente, con una media de β1, y una varianza de
. Por su parte, tiene una distribución chi2 con (n-2) grados de libertad.
El último punto es fundamental, puesto que significa que el supuesto de normalidad nos
permite derivar distribuciones de probabilidad o muestrales de y (normal), y de σ12 (esta
última relacionada con el estadístico chi2) y esto es crucial puesto que nos permitirá establecer
intervalos de confianza para los estimadores, así como realizar contrastes de hipótesis (por
ejemplo, sobre si el estimador está cerca del parámetro poblacional que trata de estimar).
El problema fundamental que hemos de resolver es el siguiente: ¿son compatibles los datos
observados con las hipótesis teóricas planteadas? En términos prácticos, esto se comprueba
tratando de definir si los estimadores presentan valores que estén suficientemente cerca de
determinados valores hipotéticos. En el caso del modelo de regresión lineal clásico, sabemos que,
gracias al supuesto de normalidad, podremos determinar la distribución de los estimadores y
realizar los contrastes de hipótesis para responder a los interrogantes planteados.
La lógica del contraste de hipótesis es la siguiente: por un lado, se plantea una hipótesis,
conocida como hipótesis nula (H0) y, por otro lado, se plantea una hipótesis alternativa (H1), la
cual puede ser simple (especifica que un parámetro asume un valor concreto: es una ecuación) o
compuesta (es una inecuación); a su vez, las hipótesis compuestas pueden ser de una cola (si
especifican que un parámetro es mayor que un valor concreto, o, alternativamente, si especifican
que es menor) o de dos colas (si especifican que es diferente de un valor concreto, pero sin
precisar si es mayor o menor). No hay reglas concretas para la formulación de H0 y H1, pero esta
formulación responderá a expectativas teóricas y al trabajo empírico previo.
Por ejemplo, imaginemos que se especifica la hipótesis nula de que X1 no afecta al valor de la variable dependiente estudiada.
Formalmente, esto equivale a establecer la hipótesis nula de que β1 = 0. Lo que hemos de determinar es si el valor obtenido
para el estimador β1 de acuerdo con los datos de nuestra muestra está «suficientemente cerca» de 0 como para concluir que,
para todas las finalidades prácticas, se puede tratar como si fuera cero, «aceptando» (en realidad, no refutando) la hipótesis nula
de ausencia de efectos de X1.
Significación sustantiva
2) En términos estadísticos, lo que cuenta es si, desde un punto de vista estadístico, está
suficientemente cerca (o no) de cero como para no refutar la idea de que se puede tratar como si
fuera exactamente igual a cero. Lo que se trata de ver es si, en el caso de que fuera,
efectivamente, igual a cero el valor efectivamente obtenido en nuestra muestra para sería
coherente o no con el valor especificado en la hipótesis nula. Para emitir un juicio en relación con
esta cuestión, deberemos tener en cuenta la variabilidad de la distribución muestral de . Dada
esta variabilidad, ¿el estimado obtenido está tan alejado que no podemos aceptar que la diferencia
entre este valor y el valor especificado en la hipótesis nula sea fruto del azar? ¿O bien está tan
cerca que no podemos concluir que es estadísticamente diferente de este valor? Formalmente, en
este caso, diremos que es (o no) estadísticamente diferente de cero (o de cualquier otro valor
especificado en la hipótesis nula), y hablaremos de la significación estadística de .
Intuitivamente, cuanto más cerca esté de βi, más probable será que las diferencias entre
ambos se deban, simplemente, al azar, y menos probable es que nos equivoquemos al aceptar
como válido que el valor estimado para constituye evidencia a favor de la hipótesis nula sobre
el valor de βi. Ahora bien, siempre que no sea exactamente igual al valor hipotetizado para βi,
correremos un cierto riesgo de aceptar que es igual al valor hipotetizado sin que este sea el caso.
Resulta crucial, por lo tanto, definir cuál es la probabilidad de error que estamos dispuestos a
aceptar en este sentido. Esta probabilidad se conoce como nivel de significación (y se denota como
α).
En ciencias sociales, el nivel de significación más popular es el 5 %, aunque también se
emplean otros (1 %, 0,1 %, y 10 %). Sea como fuere, no hay nada «sagrado» sobre estos valores.
Valor p (p-value)
Por ejemplo, se puede construir un intervalo de confianza donde δ equivalga a dos errores estándar del estimador. Bajo la
hipótesis de normalidad, sabemos que esto corresponde, aproximadamente, a un nivel de confianza del 95 % o, dicho de otro
modo, a un nivel de significación del 5 %. Con un 95 % de confianza, este intervalo incluirá el valor real del parámetro que
queremos estimar. Si incluye el valor avanzado en la hipótesis nula, no refutaremos esta hipótesis; si no lo incluye, la
rechazaremos.
Lo que se hace, por lo tanto, es utilizar los resultados muestrales para verificar la verdad o
falsedad de una H0. Si el estimador muestral cae dentro del intervalo, diremos que cae dentro de
la región de aceptación o, de manera más rigurosa, de la región de no rechazo, mientras que si cae
fuera del intervalo, diremos que cae en la región de rechazo o región de refutación (de la
hipótesis nula H0). Lo que se hace, por lo tanto, es utilizar los resultados muestrales para decidir
si H0 es o no falsa.
Ahora bien, no hace falta construir un intervalo como el definido en la ecuación 21: podemos
partir directamente de la ecuación 20 y sacar el valor de t. Como la distribución de t es conocida,
podemos consultar las tablas de esta distribución (disponibles en cualquier manual de estadística),
que nos informarán sobre el valor p asociado al valor de t calculado.
Observad que, cuanto mayor sea el valor absoluto de la diferencia entre el estimador y el valor
hipotetizado para el parámetro, mayor será el valor absoluto de t, y menor será el valor p asociado
(menor será la probabilidad de haber obtenido una diferencia de esta magnitud si la hipótesis
nula es cierta). Así, cuanto mayor sea t, mayor será la evidencia contra H0. Consideraremos que el
estimador es estadísticamente significativo cuando |t| caiga en la región crítica (que depende del
nivel de significación elegido).
Antes de concluir este apartado, hay que hacer un comentario final. A lo largo de la
explicación, hemos asumido implícitamente que lo que se contrasta es una hipótesis nula simple,
es decir, una H0 en la que se especifica que un parámetro asume un valor concreto (una ecuación
del tipo H0: β1 = β1*) y que la hipótesis alternativa H1 se compone de dos colas (H1: β1 ≠ β1*).
Este será el caso cuando no tengamos información teórica a priori sobre el sentido en el que
puede afectar X1 a la variable dependiente. La hipótesis alternativa podría ser de una cola (H1: β1
< β1*) si tenemos razones teóricas para sospechar que Y es una función decreciente de X1; o bien
H1: β1 > β1*, si tenemos razones teóricas para sospechar que Y es una función creciente de X1.
Los contrastes de significación conjunta (y global) no se pueden hacer mediante una batería de
hipótesis del tipo H0A: β1 = 0; H0B: β2 = 0; etc. La razón técnica es que se viola el supuesto de
muestras independientes. Intuitivamente, lo que sucede es que las hipótesis simples se ven
afectadas por la información de las otras hipótesis. La manera de llevar a cabo un contraste de
este tipo es mediante el análisis de varianza (ANOVA, acrónimo que viene del inglés, analysis of
variance).
Para llevar a cabo el ANOVA, elevaremos al cuadrado la función de regresión muestral
estocástica, en su forma sintética, formulada en la ecuación 12. Esto nos permitirá descomponer
la varianza total en sus elementos sistemático y aleatorio:
Donde es la suma total de cuadrados (STC), y tiene (n-1) grados de libertad (GL),
porque pierde un GL debido a la media, Y; = es la suma explicada de cuadrados
(SEC), esto es, el componente sistemático de la varianza, que, en un modelo de una variable, es
función solamente de β1, con lo que tiene 1 GL; y , es la suma de residuos al cuadrado (SRC),
esto es, el componente aleatorio, que tiene (n-2) GL, porque pierde un GL por la media y otro
por la restricción de que la esperanza de ui tiene que ser igual a cero.
La mejor manera de entender lo que hace la ANOVA es construir una tabla en la que se
sistematizan, para los tres componentes de la ecuación (total, sistémico y aleatorio), la suma de
cuadrados (SC), los GL y las medias cuadráticas (que no son otra cosa que el cociente entre SC y
GL). Veamos la tabla para el caso de una variable independiente:
Tabla 42. Descomposición del ANOVA (para 2 parámetros, o una variable explicativa)
A partir de aquí, se puede definir uno de los estadísticos más importantes y más utilizados, el
famoso estadístico F, que se obtiene dividiendo la media cuadrática sistemática entre la aleatoria
(ambas en la última columna). Intuitivamente, este estadístico divide la suma de la varianza
explicada, o sistemática, entre la suma de la varianza no explicada, residual o aleatoria, ajustando
por los grados de libertad (más abajo, cuando se presenta la generalización de la fórmula para
más de una variable, se justificará la razón de ajustar por los grados de libertad):
Observad que todas las cantidades para calcular E(F) se pueden obtener a partir de la muestra.
Esto significa que podemos calcular el estadístico F y, como su distribución es conocida,
compararlo con su valor crítico o juzgarlo directamente a partir del valor p. Cuanto mayor es el
estadístico F, mayor es la proporción de la varianza explicada por el modelo.
La extensión al caso de múltiples variables explicativas es inmediata. Lo único que hay que
tener en cuenta es que los GL están expresados en función del número de parámetros y no del
número de variables (véanse los títulos de las tablas). El primero es siempre igual al número de
variables explicativas, más uno (porque hay que sumar β0, asociado a su punto de corte). Así, por
ejemplo, para una sola variable explicativa, k era igual a 2. De manera general, para k parámetros
(k–1 variables explicativas), podemos escribir:
Tabla 43. Descomposición del ANOVA (para k parámetros, o k-1 variables explicativas)
A partir de la consideración sobre las magnitudes relativas de STC, SEC y SRC, se puede
llegar a conclusiones adicionales sobre la bondad del ajuste de la recta de regresión.
Consideraremos, primero, el caso de una FRM con una única variable explicativa, y
escribiremos la ecuación 26 pero, esta vez, expresaremos la ecuación para las diferencias de las
variables con respecto a sus medias (recordemos que, formalmente, una manera habitual de
denotar este hecho consiste en emplear letras minúsculas en lugar de mayúsculas).
Siempre que haya un punto de corte, el coeficiente de determinación r2 tiene dos propiedades:
(1) r2 no es nunca negativo; (2) r2 siempre está entre cero y la unidad. Cuando r2 es igual a cero, la
proporción de varianza explicada por el modelo es nula, lo que indica que no hay ninguna
relación entre las variables; cuando r2 es igual a la unidad, el ajuste será perfecto, y no
permanecerá ninguna fracción de la varianza no explicada por el modelo.
Detalle técnico
Observad que r2 solamente puede ser igual a cero si SEC=0, y que esto solamente puede ser cierto si es igual a
cero. Por lo tanto, para cualquier variable independiente que sea, efectivamente, variable (que no sea una constante) esto implica
que el estimador de su efecto sobre la dependiente tiene que ser igual a cero.
Cuando el modelo tiene más de dos variables independientes, podemos controlar por una
variable o por varias. Cuando controlamos por una variable, hablamos de coeficientes de
correlación parcial de primer orden; cuando controlamos por dos, de coeficientes de correlación
parcial de segundo orden; y así sucesivamente. Es esencial tener presente las cuestiones siguientes:
E(ui|X2i, X3i) = 0
cov(ui,uj) = 0 i ≠ j
var(ui) = σ2.
El supuesto se incumpliría en caso de heteroscedasticidad, cuando
var(ui) = σi2
E(ui, Xi) = 0.
La primera violación del modelo de regresión lineal clásico que merece una explicación más
detallada es la del supuesto de ausencia de colinealidad:
Colinealidad (perfecta)
Existencia de una relación lineal, exacta o «perfecta» entre dos variables explicativas del
modelo. Una de las variables se puede poner en función de la otra, de la cual es una copia
idéntica o una copia reescalada.
Multicolinealidad (perfecta)
Existencia de una relación lineal exacta o «perfecta» entre tres o más de las variables
explicativas del modelo (al menos una de ellas se puede expresar como una combinación
lineal del resto).
Cuando hay colinealidad perfecta entre dos variables independientes (digamos que X1 y X2),
resulta imposible estimar los efectos individuales de cada una sobre la dependiente.
Desde un punto de vista intuitivo, lo que sucede es que siempre que varía una (digamos que
X1) la otra (X2) también sufre un cambio. Entonces, si observamos un cambio en la variable
dependiente (Y), no podremos estar seguros de hasta qué punto se debe a que haya variado X1 o
a la variación de X2.
Desde un punto de vista técnico, la matriz de las variables independientes no se puede invertir,
y los coeficientes (que miden los efectos) de las diferentes variables independientes son
indeterminados (y sus errores estándar, infinitos).
La multicolinealidad puede tener origen en diferentes causas, como el método de recogida de
datos particularidades de la población estudiada; y restricciones o problemas de especificación del
modelo (Gujarati, 1997, pág. 319).
Dado que la colinealidad perfecta es un caso extremo, no es habitual encontrarla en nuestros
análisis, y es más común enfrentarse a caos de (multi)colinealidad imperfecta.
Colinealidad (imperfecta)
Existencia de una interrelación elevada entre algunas de las variables explicativas del modelo
(o entre todas ellas), sin que llegue al caso de colinealidad perfecta.
Homoscedasticidad
Cuando la muestra es bastante grande, los errores estándar de los estimadores MCO
corregidos se pueden obtener gracias al método de corrección de la heteroscedasticidad de
White.
La tercera violación del modelo de regresión lineal clásico que merece una explicación un
poco detallada es la del supuesto de ausencia de autocorrelación. Recordemos la definición:
Algunas de las causas más habituales para la existencia de autocorrelación son las siguientes:
1) utilización de una forma funcional incorrecta;
2) sesgo debido a la exclusión de variables importantes; e
3) inercia o lentitud de las series de tiempos.
Cuando hay autocorrelación, los estimadores MCO continúan siendo no sesgados y
consistentes, pero tampoco ahora son eficientes (ya no tienen varianza mínima) y, por lo tanto, ya
no son MELI. En consecuencia, las pruebas de significación t y F ya no se pueden utilizar
legítimamente.
Para solucionar este problema, se tiene que tratar de modelar el proceso de correlación serial.
Este es un tema fascinante, al cual se pueden dedicar cursos enteros, pero no puede ser tratado
aquí con detalle. Para nuestros objetivos, sera suficiente con mencionar, de manera rápida y de
pasada, las dos estrategias fundamentales.
En primer lugar, existe la posibilidad de asumir que los términos de error en un momento
dado del tiempo están linealmente relacionados con los términos de error en momentos
precedentes. Generalmente, se supone que estos términos de error tienden a decrecer a lo largo
del tiempo. Por ejemplo, un error de +400 en t=0 podría dar lugar a un error de +100 en t=1, el
cual, a su vez, pasaría a ser de +25 en t=2, de +6,25 en t=3, y así, sucesivamente. Observad que
podríamos recoger este proceso mediante una ecuación extremadamente sencilla: ui,t = 0,25×ui,t-1.
Este tipo de esquemas reciben el nombre de modelos autorregresivos y se denotan mediante la
notación AR(p), donde (p) sirve para indicar el número de periodos precedentes que influyen
directamente sobre el error actual. Así, el ejemplo es un proceso AR(1), mientras que un proceso
alternativo del tipo ui,t = 0,25×ui,t-1-0,10×ui,t-2 correspondería a un proceso AR(2).
En segundo lugar, existe la posibilidad de asumir que los términos de error siguen un
mecanismo de media móvil. Este tipo de esquemas reciben el nombre de modelos de media móvil
y se denotan mediante la notación MA. A veces, se puede postular un proceso combinado con un
componente autorregresivo y un componente de media móvil, a los que se suele hacer referencia
como modelos ARMA.
Una vez más, antes de concluir con esta cuestión, merece la pena hacer un resumen sobre la
detección de la autocorrelación. A pesar de que comporta una serie de problemas, y de que hay
varias alternativas que se podrían emplear en su sustitución, el más empleado es el estadístico de
Durbin y Watson. Para una discusión detallada de este estadístico y de las diferentes medidas
disponibles, podéis consultar cualquier manual de estadística, como por ejemplo el de Gujarati
(1997, págs. 408-418).
De acuerdo con Milton Friedman, el consumo permanente (el consumo a lo largo de toda la vida, C P) debería ser una fracción
de la renta permanente, YP:
CP = β2YPVC
Llevado a sus últimas consecuencias, este modelo implicaría que, para una renta permanente
hipotética de cero, el consumo permanente también tendría que ser igual a cero: esto se
representa formalmente mediante la ausencia de término constante.
Ejemplo 2
En ausencia de costes fijos, los costes (totales) de producción, C, tendrían que responder a los volúmenes de producción (Y) y,
cuando no se produjera nada, los costes de producción tendrían que ser nulos, lo que nos llevaría a postular un modelo sin
término constante:
C = β2Y
CV = β2Y
Ejemplo 3
Finalmente, recordaremos otro modelo conocido sin término de interacción, el que estipula que la tasa de inflación (π) es una
función directa de la tasa de crecimiento de la oferta de dinero (ΔM/M):
π = β2 (∆M / M)
Yi = β2Xi + ui
Cuando se plantea un modelo de este tipo, se debe tener presente que tiene tres diferencias en
relación con el modelo donde sí hay punto de corte (término constante).
Primera, el estimador MCO del efecto de la variable independiente sobre la dependiente es
análogo al presentado en la ecuación 17, pero son las propias variables las que entran en la
fórmula, y no sus diferencias con respecto a la media.
Segunda, el estimador de la varianza de los residuos tiene (n–1) en lugar de (n–2) grados de
libertad, puesto que deja de tener efecto la restricción de que la suma (o la esperanza) de los
residuos ha de ser cero.
Tercera, el valor de R2 ya no es necesariamente no negativo.
Cabe señalar que, muy a menudo, conviene incluir el término de interacción incluso cuando se
tiene la sospecha de que este tendría que ser cero. Esto permite contrastar explícitamente si, tal
como sospechamos, el estimador obtenido es, efectivamente, cero (o se puede tratar como si lo
fuera) y evitar cometer un error de especificación del modelo.
Yi* = wYYi
Ecuación 45. Cambio de escala de la variable independiente por un factor wX
X*i* = wxYi
Donde wY, wX son factores de escala, y nos permiten reescalar las variables del modelo.
Observad que, cuando llevamos a cabo una operación de este tipo, los residuos también sufren
un cambio de escala, concretamente, por un factor wY, puesto que tienen que estar expresados en
la misma escala que la variable dependiente:
Una vez hecho todo esto, podemos volver a escribir la FRM para las variables reescaladas:
Ejemplo
Podemos pasar de millones de euros a miles de euros. Si hacemos esto tanto para la variable dependiente como para la
independiente, ¿cuáles serán los factores de escala? Efectivamente, w Y = w X = 1.000.
Si seguimos con el ejemplo puesto antes, como wY = wX = 1.000, está claro que nuestro
estimador para la varianza de β1 permanece sin cambios. Observad que esto solamente será cierto
cuando los cambios de escala en la variable dependiente y en la variable independiente sean
exactamente de la misma magnitud.
Como se ha visto, cuando cambiamos la escala de las variables, cambian los valores de los
estimadores de los parámetros. Dicho de otro modo, las unidades de la variable dependiente y de
las variables independientes influyen sobre los estimadores MCO.
Esto tiene varias consecuencias, por ejemplo, dos variables independientes medidas en escalas
diferentes pueden dar lugar a estimadores diferentes, pero ¿cómo sabremos si la diferencia en la
magnitud de los estimadores se debe a la fuerza del efecto causal o a las escalas de medida
asociadas a cada una de las variables? ¿Cómo comparamos el efecto sobre la altura de la edad
(medida en años) y de la renta (medida en euros) si ambas variables están en escalas diferentes?
Para evitar los problemas asociados a estas cuestiones, se pueden estandarizar las variables.
Esto se hace (como se vio en la subsección 3.4 del capítulo II) deduciendo la media de la variable
para cada observación, y dividiendo el resultado entre la desviación estándar de la variable:
Como se puede apreciar, cuando se trabaja con variables estandarizadas, por definición, el
término de intersección β0 es igual a cero. Esto nos deja con el correlato siguiente de la ecuación
47 (que ahora se presenta para el caso más general con varias variables independientes):
A veces, puede interesar analizar no los cambios absolutos en las variables, sino sus cambios
relativos. De hecho, hay tres grandes posibilidades en este sentido.
En primer lugar, podríamos estar interesados en analizar los cambios relativos en la variable
dependiente en función de los cambios absolutos en la(s) independiente(s). Para ello, se saca el
logaritmo de la variable dependiente. Los modelos resultantes reciben la denominación de
modelos loglineales o, simplemente, log-lin.
En segundo lugar, podríamos estar interesados en analizar los cambios absolutos en la
variable dependiente en función de los cambios relativos en la(s) independiente(s)
independiente(s). En este caso, se saca el logaritmo de la variable independiente. Este tipo de
modelos recibe la denominación de modelos lin-log.
Finalmente, podríamos estar interesados en analizar los cambios relativos en la variable
dependiente en función de los cambios relativos en la(s) independiente(s). En este caso, se tiene
que sacar el logaritmo tanto de la variable dependiente como de la variable (o variables)
independiente(s), y se obtienen los modelos log-log, doble log o log lineales. Observad que el
cociente de cambios relativos es, precisamente, una elasticidad.
Un politólogo puede estar interesado en averiguar las motivaciones que llevan a los ciudadanos a votar o a abstenerse, a tomar
parte en una manifestación o no hacerlo, a afiliarse a algún partido (o sindicato), a tomar parte en una revolución; también
puede querer estudiar las razones que pueden dar cuenta de si los parlamentarios votarán o no a favor de una ley, seguirán la
disciplina de partido o la romperán, se presentarán a la reelección o no; o las causas que explican si dos partidos se presentarán
de forma aislada o en coalición, llegarán a un pacto de gobierno después de las elecciones, darán o no apoyo a un estatuto
autonómico, o llevarán adelante una moción de censura.
Ejemplo 2
De manera parecida, un sociólogo puede estar interesado en averiguar las motivaciones que llevan a los ciudadanos a tener hijos
o no, a vivir en casa de los padres o buscar una residencia diferente, a vivir solo o compartir piso, a reciclar o no, a migrar a
otro país o no, a seguir las prescripciones de alguna religión o no hacerlo; o a estudiar una carrera universitaria o no hacerlo.
Ejemplo 3
Lo mismo sucede con otras disciplinas. Un economista puede querer explicar por qué algunos individuos deciden formar parte
de la población activa y otros, no; por qué algunos de los individuos que forman parte de la población activa trabajan mientras
que otros están en el paro; por qué algunas empresas deciden continuar operando y otras acaban cerrando, o por qué algunas
obtienen beneficios y otras tienen pérdidas. Un abogado puede querer saber por qué unas leyes son derogadas y otras
mantienen su vigencia, por qué unas son enmendadas y otras se mantienen tal cual, por qué unos acusados son declarados
inocentes o culpables, por qué unos ciudadanos son conminados a la prisión preventiva y otros pueden acogerse a medidas
sustitutorias, o por qué algunos infringen las leyes mientras que otros prefieren cumplirlas. Y así, sucesivamente.
Otras muchas variables que nos puede interesar estudiar solamente pueden adoptar un
número reducido de categorías, que pueden estar ordenadas (variables ordinales) o no estarlo
(variables nominales). Veamos algunos ejemplos para variables nominales:
Ejemplo 4
Un politólogo puede estar interesado en las causas que explican por qué unos ciudadanos votan al PSOE y, otros, al PP,
Podemos, C’s u otro partido; por qué algunos se presentarán como candidatos a elecciones locales, y otros, a elecciones
regionales, generales o europeas; por qué unos partidos llegarán a un pacto de gobierno después de las elecciones, otros, a
acuerdos puntuales, y otros, gobernarán en minoría; por qué algunos representantes políticos votarán a favor de subir el gasto
en educación mientras que otros lo harán a favor del gasto sanitario o militar. Un sociólogo puede estar interesado en averiguar
las motivaciones que llevan a los ciudadanos a vivir en casa de los padres, de los abuelos, en una casa compartida con amigos,
en un piso compartido con la pareja, o en un hotel; a migrar a otro país europeo, asiático, africano o latinoamericano; a hablar
con los hijos en catalán, castellano, o alemán; a abrazar el catolicismo, el protestantismo, el budismo o el islam; a estudiar
Derecho, Economía, Política o Sociología. Un economista puede querer explicar por qué algunos individuos deciden comprar
la marca A, B, C o D; o por qué algunas empresas deciden contratar trabajadores, subcontratarlos o invertir en maquinaria.
Veamos, ahora, algunos ejemplos para variables ordinales (en este caso, seremos más breves,
para no alargar demasiado la discusión):
Ejemplo 5
Un politólogo puede estar interesado en las causas que explican por qué unos ciudadanos están mucho, bastante, un poco o
nada identificados con su nación, o por qué algunos discuten con mucha, bastante o poca frecuencia sobre la campaña electoral
con sus amigos. Un sociólogo puede estar interesado en averiguar las motivaciones que llevan a los ciudadanos a estudiar hasta
el nivel de secundaria, de licenciatura, de máster o de doctorado; y un economista puede querer explicar por qué algunas
empresas tienen una gama pequeña, media o amplia de productos.
El análisis riguroso y adecuado de modelos donde las variables dependientes sean categóricas
es, por lo tanto, fundamental en todas las ciencias sociales. Ahora bien, ¿podemos llevar a cabo
estos análisis mediante un modelo de regresión clásico? La respuesta, como ahora mismo
veremos, es negativa.
Ejemplo
Consideremos a un investigador que quiera explicar por qué la gente vota o se abstiene en función de la edad y la renta:
Claramente, tal como está formulado, el modelo no puede ser aplicado, puesto que daría pie a
predicciones sin sentido sustantivo. Por ejemplo, si β0 = 0,15; β1 = 0,01; y β2 = 0,20, para un
ciudadano con 20 años y una renta de un millar de euros, nuestra predicción sería E(VOTOi) =
0,15 + 0,01×20 + 0,20×1 = 0,55. Aun así, un ciudadano no puede hacer 0,55 votos y 0,45
abstenciones: o bien vota, o bien se abstiene, del mismo modo que un ciudadano no puede ser
0,65 hombre y 0,35 mujer: o bien es un hombre, o bien, una mujer.
La posibilidad aparentemente más sencilla consiste en reinterpretar la variable dependiente y
estimar un modelo como el que se ha presentado antes, pero considerar que, en lugar de la
variable voto-abstención directamente, VOTOi representa la probabilidad de abstenerse o votar.
Este es el enfoque del modelo lineal de probabilidad (MLP).
Veamos cómo funciona el MLP. Definimos VOTOi=Yi=0, si no vota; Yi=1, si vota;
EDADi=X1i; RENTAi=X2i; (1-Pi)= Probabilidad de que Yi=0; y Pi= Probabilidad de que Yi=1.
Sabemos, además, que, por definición de la esperanza matemática, E(Yi)=0×(1-Pi)+1×Pi=Pi, la
cual tiene que estar comprendida entre 0 y 1, como todas las probabilidades. Sabemos, además,
que, si tratamos este modelo como un modelo lineal, (E(Yi)= β0+βiX1i+β2X2i). Observad, por
tanto, que Pi= β0+βiX1i+β2X2i y, por lo tanto, es una función de los valores de las variables
independientes.
Si bien, en una primera instancia, parecería que el MLP se puede estimar como cualquier
modelo clásico de regresión, cuando se analiza la cuestión con más detalle, se llega a la conclusión
de que el MLP implica una serie de problemas:
Para solucionar este último problema, se tiene que abandonar el MLP y utilizar, en su
sustitución, otros métodos que no asumen un efecto lineal de las variables independientes sobre
la variable dependiente. La no asunción de un efecto lineal de las variables independientes sobre
la variable dependiente tendrá dos virtudes. En primer lugar, permitirá evitar que E(Yi) caiga
fuera del rango entre 0 y 1. En segundo lugar, permitirá recoger la idea de que, cuando la edad y
la renta sean elevadas y, por lo tanto, también lo sea la probabilidad de votar, un incremento
adicional en los valores de las variables independientes tendrá tan solo un efecto menor sobre
dicha probabilidad, puesto que esta era, de todas maneras, muy elevada. En cambio, para valores
más bajos de las independientes, los incrementos de estas tenderán a provocar un incremento
mayor sobre la probabilidad de votar.
A pesar de que hay otros métodos, aquí discutiremos los modelos logit y probit (también
denominado normit) puesto que son los más utilizados para analizar problemas como el que se
ha expuesto aquí. Estos dos modelos tienen, esencialmente, la misma lógica, y difieren solamente
en que el modelo logit postula una distribución logística de los errores, con esperanza de cero y
varianza de π2/3; mientras que el modelo probit postula una distribución normal de los errores,
con esperanza de cero y varianza unitaria.
A pesar de que la variable dependiente de estos modelos (la cual definiremos unas líneas más
abajo) no se puede observar (técnicamente, diremos que es una variable latente) y, por lo tanto, no
podremos saber si la asunción de que los errores siguen una distribución logística es más o
menos acertada que la asunción de que estos siguen una distribución normal, en la práctica,
ambos modelos tienden a generar predicciones casi coincidentes en la casi totalidad de las
aplicaciones, con lo cual se puede elegir uno u otro según las preferencias personales del
investigador sin mucho riesgo de que esta elección condicione los resultados o las inferencias
realizadas.
La lógica de los modelos logit y probit se puede explicar de la manera siguiente. El modelo de
la ecuación 58 se reformula como un modelo más complejo compuesto por una ecuación
estructural y un modelo de medida. La ecuación estructural es análoga a la presentada en el
modelo de la ecuación 58, con la particularidad de que, ahora, la variable dependiente de este
modelo es una variable latente, no observada: VOTOi*=Yi*= β0+βiX1i+β2X2i+ ui. Esta variable
puede asumir cualquier valor dentro del conjunto de los números reales. El modelo de medida
define una variable observada, la observación de que un ciudadano efectivamente se abstenga o
vote, en función de que la variable latente caiga por debajo o por encima de un determinado
umbral. Si definimos este umbral como VOTOi*=Yi*=0 (se puede demostrar que esta elección
es arbitraria y no tiene ninguna influencia sobre los resultados, pero la demostración va más allá
de los objetivos de este capítulo), el modelo de medida será VOTOi=Yi=0 si VOTOi*=Yi*≤0;
VOTOi=Yi=1 si VOTOi*=Yi* > 0.
Lo importante, aquí, es que la probabilidad de que VOTOi=Yi=1 (que el ciudadano vote) es
una función directa de la distribución de los errores en el modelo estructural para VOTOi*=Yi*.
La estimación concreta variará en función de las asunciones que se hagan sobre el término de
error εi (a pesar de que, como se ha comentado antes, los resultados proporcionados por el
modelo logit y por el modelo probit tienden a ser casi iguales).
Veamos, de manera muy resumida, algunos de los puntos más importantes del modelo logit.
Dada su distribución logística, este modelo equivale a estimar la ecuación siguiente:
La interpretación del modelo logit no es la misma que la del modelo clásico de regresión
lineal. Ahora, los estimadores no miden el aumento en el valor esperado de la variable
dependiente como consecuencia de un aumento en los valores de las variables independientes,
sino el aumento en el logaritmo natural del cociente de probabilidades.
Cuando se presentan los resultados de un modelo de estas características, resultará muy
esclarecedor ofrecer las predicciones del valor esperado de la variable dependiente para diferentes
combinaciones de las independientes y acompañar los resultados de gráficos explicativos. A pesar
de que estas tareas quedan, por necesidad, fuera de los contenidos que se pueden exponer a lo
largo de este capítulo –el cual ya resulta suficientemente extenso sin tratar estas cuestiones–,
cualquiera de los paquetes estadísticos tradicionales permite obtener las predicciones
mencionadas y construir gráficos a partir de ellas.
Finalmente, una nota breve en relación con los modelos para variables dependientes
nominales y ordinales. Ambos plantean los mismos retos que los modelos de las dicotómicas: en
primer lugar, las probabilidades de que se verifique una determinada categoría u otra de la
variable dependiente (como tener estudios primarios, secundarios o universitarios) tienen que
estar acotadas entre cero y la unidad; en segundo lugar, por las mismas razones aducidas en el
caso de las variables dependientes dicotómicas, habría que esperar que estas probabilidades no
fueran una función lineal de los valores de las variables independientes.
La lógica de los modelos para analizar estas variables es por consiguiente muy parecida a la de
los modelos logit y probit bivariados (para dicotómicas). La ecuación estructural es básicamente
análoga a la presentada en el modelo de la ecuación 58. La diferencia radica en el modelo de
medida, que tendrá que considerar, ahora, diferentes puntos de corte. Por ejemplo, en el caso de
una variable dependiente ordinal, el modelo de medida tendrá que especificar puntos de corte
para tres categorías: educación primaria, secundaria y universitaria. Además, si se trata de un
modelo ordinal, el modelo tendrá la restricción de que aumentos en los valores de las variables
dependientes tendrán un efecto de determinado sentido sobre la variable dependiente: por
ejemplo, si un aumento de la renta tiende a incrementar la probabilidad de tener estudios
secundarios y universitarios en detrimento de estudios primarios, un aumento todavía mayor
tendrá un efecto en el mismo sentido. Recordad que la ordinalidad de una variable es una
cuestión que conviene contrastar empíricamente. Una posibilidad es especificar, primero, un
modelo nominal, y comprobar si se puede aceptar la hipótesis de ordinalidad de la variable
dependiente.
El modelo empleado más a menudo para analizar problemas con una variable dependiente
nominal es el logit multinomial, o su correlato con distribución normal de los errores, el probit
multinomial. Los modelos empleados más a menudo para analizar problemas con una variable
dependiente ordinal son el logit ordinal y el probit ordinal. Cualquiera de los paquetes
estadísticos tradicionales dispone de rutinas que permiten contrastar este tipo de modelos.
Con esto, damos por concluido el capítulo –y el libro pero no el proceso de aprendizaje, que
os aconsejamos que continuéis mediante la aplicación de todas las técnicas estudiadas a datos
reales para analizar problemas de vuestro interés. ¡Esperamos que disfrutéis mucho analizando
problemas políticos y sociales usando el amplio abanico de técnicas expuestas a lo largo de estas
páginas!
Bibliografía
Gujarati, D. N. (1997). Econometría Básica [Basic econometrics.]. 3a ed. Santafé de Bogotá: McGraw-Hill.
Tacq, J. (1997). Multivariate Analysis Techniques in Social Science Research: From Problem to Analysis. Londres:Sage.