Está en la página 1de 21

Exploración y análisis de datos

con dos variables


Tema 5

Técnicas de Investigación en Ciencia Política I

Sergio Pérez Castaños


spcastanos@ubu.es

Universidad de Burgos
Índice de contenidos
Exploración estadística de dos variables

Exploración gráfica de dos variables

Tablas de contingencia

Coeficientes de asociación

Covariación vs. Causalidad

Contraste de hipótesis

Correlación

Presentación e interpretación de resultados

Ejercicio
práctico
Universidad de Burgos
Exploración estadística de dos variables

• Su objetivo es estudiar la relación estadística entre variables.


• Dependiendo del tipo de variables involucradas, se consigue mediante una
serie de técnicas estadísticas y/o estadísticos:
– Coeficientes de correlación.
– Tablas de contingencias
– Tablas de medias.

• El planteamiento estadístico de una relación se desarrolla en una serie de


apartados que van buscando…
– Existencia de relación (igual o distinta de 0)
– Naturaleza de dicha relación
– Cuantía (de -1 a +1)
– Sentido o dirección (positiva o negativa)
– Significación estadística
– Interpretación (análisis de tablas)
Técnicas de Investigación I Universidad de Burgos
Exploración gráfica de dos variables: Gráfico de barras o columnas

• Nos permite conocer la distribución de dos o más variables o de su entre


sus diferentes categorías.
• El ejemplo nos muestra las diferentes categorías existentes de manera
comparada en tres variables diferentes.
• De la misma manera, se puede representar en formato de columnas.

Técnicas de Investigación I Universidad de Burgos


Exploración gráfica de dos variables: Gráfico de barras o columnas compuestas

• Existen dos tipos de diagramas, aquellos que poseen base 100% (como en
el ejemplo) y los que no hacen.
– Base 100%: Se opera en frecuencia relativa.
– Otra base: Se convierte en frecuencia acumulada.
• Nos permite conocer visualmente las diferencias de nuestras categorías en
función de su número de casos.

Técnicas de Investigación I Universidad de Burgos


Exploración gráfica de dos variables: Líneas simples

• Especialmente útiles para recoger la evolución a lo largo del tiempo y especialmente


óptimas para el análisis de series temporales de datos, recogiendo de una manera muy
fiel la evolución y trayectoria de nuestra variable.
• El principal problema de este tipo de gráficas es que cuando se trata de hacer
representaciones muy próximas entre sí, las diferencias visuales son prácticamente
nulas.
• Es necesario utilizar de forma correcta estas líneas, dado que, por ejemplo, existen
índices que, a pesar de que puedan ser explicativos, la utilización de sus números
inversos pueda ser más visual (p.e. tasa de analfabetos o de alfabetización).

Técnicas de Investigación I Universidad de Burgos


Exploración gráfica de dos variables: Líneas múltiples

• A través de este tipo de gráficos se puede representar de manera clara la


evolución temporal de varias variables.
• A la hora de componer este tipo de gráficos, debemos de tener en cuenta
la capacidad visual de los mismos, y no incluir demasiadas variables en el
análisis, dado que de lo contrario, nos encontramos con un espacio
repleto de líneas, que resultará engorroso para su lectura.

Técnicas de Investigación I Universidad de Burgos


Exploración gráfica de dos variables: Líneas compuestas o estratos

• Útil cuando estamos tratando de comparar datos que, a su vez, forman


parte de un agregado (p.e. Presupuestos Generales del Estado).
• Nos permite representar el peso específico de cada uno de ellos, además
de su evolución temporal.
• Cada estrato se encuentra superpuesto al anterior, siendo el total igual a la
suma de los estratos para cada uno de los elementos analizados o
períodos temporales.
• También puede operar en base 100%.

Técnicas de Investigación I Universidad de Burgos


Tablas de contingencia (I)

• Se denomina así a la tabla de doble entrada que se representa para una distribución
bidimensional de atributos.
• Es una de las fórmulas más comunes de realizar análisis de dos o más variables en ciencias
sociales. De esta manera, se puede conocer la relación entre dos variables nominales u
ordinales.
• En las filas, a la izquierda, se incluirá a nuestra variable dependiente, mientras que en las
columnas, arriba, se explicitarán las categorías de nuestra variable independiente.
• Los resultados indican qué porcentaje de cada categoría se encuentra representado en el
otro. Por ello, debemos de tener cuidado ante cómo presentamos nuestros porcentajes, si
por filas o por columnas. Así, los primeros nos indicarían cuántos casos dentro de cada
categoría de nuestra variable dependiente se engloban en cada categoría de la
independiente. Por el contrario, si decidimos mostrar los porcentajes por columnas, el
resultado que arrojaría se correspondería con el inverso; es decir, con cuantos casos de cada
categoría de nuestra variable independiente se engloban en cada una de las categorías de
nuestra variable dependiente.
• Es importante no utilizar con variables con muchas categorías o, al menos, no presentarlas así
en un posterior informe. También resulta relevante incluir el número de casos total y en cada
una de las celdas.
• A partir de los datos de las tablas se pueden realizar comprobaciones estadísticas de
correlación y asociación para poder establecer que lo que los datos parecen decir a simple
vista posee, de verdad, una relación estadística real.

Técnicas de Investigación I Universidad de Burgos


Tablas de contingencia (II)

Técnicas de Investigación I Universidad de Burgos


Coeficientes de asociación: ¿Qué son? (I)

• La asociación entre dos variables puede definirse de dos formas.


– La más simple y frecuente forma de examinar la asociación es por
contraposición a la independencia estadística. Para esto se desarrollan
coeficientes que tratan de resumir la distribución conjunta a través de
magnitudes rápidamente interpretables.
– La segunda forma de hablar de asociación es verificando si existe o no
articulación entre las proposiciones deducidas desde el marco teórico
(incluidos los antecedentes) y las distribuciones observadas empíricamente.

• En el análisis de asociación o correlación entre dos variables es necesario


distinguir 4 aspectos distintos que pueden ser objetivo de una hipótesis:
– La existencia (si/no) de una asociación simplemente verificada a través del
rechazo de la hipótesis nula que afirma independencia estadística.
– La magnitud de la asociación existente entre dos variables con base en una
escala fácilmente interpretable (muy fuerte/ fuerte/moderada/ débil/
despreciable) y que permita comparar distintas asociaciones estimadas en
distintos cruces.
– El sentido de la asociación entre las variables distribuidas conjuntamente.
– La forma de la relación entre las variables examinadas

Técnicas de Investigación I Universidad de Burgos


Coeficientes de asociación: ¿Qué son? (II)
• Desde el punto de vista estadístico, los coeficientes más apropiados por versátiles
y elocuentes, tienen las siguientes propiedades:
– No están afectados por el N total de la distribución. Es decir están normalizados.
– El valor “cero” indica la inexistencia de una relación o más estrictamente, independencia
estadística.
– Existe un valor máximo teóricamente establecido, el mismo para cualquier distribución, que
indica una relación de asociación o correlación perfecta.
– En el caso de que el objetivo sea un análisis del sentido, también existirá un valor teórico
mínimo menor que cero que indicará asociación perfecta pero en sentido inverso.
– Los estadísticos de asociación que cumplen con estas propiedades varían entre 0 y 1; o entre -
1 y 1.

• De esta manera, el coeficiente de asociación es un número que oscilará entre 0 y 1


o entre -1 y 1 y nos dice la probabilidad que tenemos de intuir mejor los casos de
una variable (dependiente) basándonos en el conocimiento que tenemos de una
segunda variable (independiente).

• Previamente al cálculo de nuestros estadísticos, debemos de conocer cómo se


distribuyen nuestras variables. Así, en el caso de que cuando el número de casos
en una dirección creciente aumente en ambas variables, diremos que nos
encontramos ante una asociación directa o positiva. Si, por el contrario, los
incrementos se dan en direcciones opuestas, hablamos de una asociación inversa
o negativa.

Técnicas de Investigación I Universidad de Burgos


Coeficientes de asociación: R de Pearson
• El coeficiente de correlación de Pearson, pensado para variables cuantitativas
(escala mínima de intervalo), es un índice que mide el grado de covariación entre
distintas variables relacionadas linealmente.
• El coeficiente de correlación de Pearson es un índice de fácil ejecución e,
igualmente, de fácil interpretación.
• Sus valores absolutos oscilan entre -1 y 1.
• Decimos que la correlación entre dos variables es perfecta positiva cuando
exactamente en la medida que aumenta una de ellas aumenta la otra. Se dice que
la relación es perfecta negativa cuando exactamente en la medida que aumenta
una variable disminuye la otra.

Técnicas de Investigación I Universidad de Burgos


Coeficientes de asociación: Otros coeficientes

Niveles de
Posibilidades Coeficientes
medición
Existencia Chi cuadrado
Existencia y Magnitud V de Cramer
Ambas dicotómicas
Phi
Existencia, Magnitud y Sentido
Q de Yule
Existencia Chi Cuadrado
Ambas nominales Pluricotómicas Existencia y
V de Cramer
Magnitud
Rho de
Existencia,
Spearman
Ambas ordinales Varias categorías Magnitud y
Tau-C
Dirección
Gamma
Una nominal –
Existencia y Magnitud Etha
Otra intervalo
Técnicas de Investigación I Universidad de Burgos
Covariación vs. Causalidad

• A pesar de todo lo que nuestros indicadores puedan decir, en las ciencias


sociales, es muy complicado establecer relaciones explicativas que
determinen la causalidad de forma única.
• Esto se debe a que existen multitud de factores que el análisis estadístico
no puede tomar en consideración.
• De esta manera, siempre nos encontramos delimitados por la medición
que consigamos realizar y, sobre todo, por las posibilidades de aislar los
efectos de nuestras variables independientes.
• Muchas veces, puede que variables que no hemos tenido en
consideración ejerzan una influencia mucho mayor, simplemente porque
las opiniones ante un elemento en concreto se encuentran polarizadas,
generando algo que no es real.
• Incluyendo variables de carácter socio-demográfico, por ejemplo, nuestros
análisis pueden arrojar matices que, al analizar únicamente nuestras
variables independientes se pierden y, a la postre, puedan estar
adulterando el resultado de la significación y de la relación causal
existente hacia la variable dependiente. Esto es lo que se denomina como
una relación espuria.
• Un buen ejemplo sobre esto puede encontrarse en el texto de Anduiza,
Crespo y Méndez (2011: 108-111), disponible en la plataforma.

Técnicas de Investigación I Universidad de Burgos


Contraste de hipótesis: ¿Qué es?

• Contraste: Proceso de decisión mediante el cual una hipótesis


formulada en términos estadísticos se mantiene o rechaza a la luz de los
datos muestrales.
• Hipótesis estadística: Formulación que se hace sobre la forma de la
distribución, F(x), o sobre uno o varios parámetros.

Técnicas de Investigación I Universidad de Burgos


Contraste de hipótesis: Procedimiento
1. Plantear las hipótesis: Nula (Ho). La que se contrasta: la mantenemos o la
rechazamos. Debe ser exacta (=). Alternativa (H1). Negación de la anterior. Siempre
inexacta (≠, >, <). Ambas son exhaustivas y mutuamente exclusivas: el rechazo de
Ho lleva a la aceptación de H1. Distíngase: contraste unilateral (>,<) y contraste
bilateral (≠).
2. Supuestos.: Condiciones que deben cumplir la muestra y la población para asegurar
el proceso de decisión (independencia, normalidad, simetría...).
3. Estadístico de contraste: Todo aquel que proporciona información sobre H0 y tiene
distribución muestral conocida.
4. Regla de decisión: Criterio que se sigue para mantener o rechazar Ho. Consiste en
dividir el espacio muestral del estadístico de contraste en dos zonas:
– Zona crítica: Con los valores extremos, poco probables si H0 es verdadera. Su probabilidad es α.
Se denomina nivel de significación. Los habituales son 0’05 y 0’01.
– Zona de aceptación: con valores muy probables si H0 es verdadera. Su probabilidad es 1-α.
5. Decisión: Siempre sobre H0. Mantenerla, si el estadístico cae en la zona de
aceptación. Rechazarla, si el estadístico cae en la zona crítica.
6. Nivel Crítico (p): Es el menor nivel de significación a partir del cual podemos
rechazar H0. Es la probabilidad asociada con el valor del estadístico de contraste
obtenido en la muestra. En los informes, tras la decisión, aparece como p<0’05, p<
0'01 0’05<p<0’01 etc.

Técnicas de Investigación I Universidad de Burgos


Correlación: Chi Cuadrado (x2)
El coeficiente de Chi cuadrado, simbólicamente x2 , es una medida o coeficiente que
permite contrastar la hipótesis de que dos variables distribuidas conjuntamente en un
cuadro son estadísticamente independientes1. Su procedimiento de cálculo es el
siguiente:

• Para cada celda hay que calcular las "frecuencias esperadas". Supongamos que lo
hacemos para la primera celda del cuadro (columna 1, fila 1).
• Una vez que tenemos todas frecuencias esperadas para todas las celdas del
cuadro, conviene realizar una prueba para comprobar de que no hubo errores de
cálculo. Esto se hace simplemente, sumando todas las "frecuencias esperadas", las
cuales deben ser igual al total de casos; es decir, el "N". Si el resultado no es
aproximadamente igual, sería conveniente revisar.
• El siguiente paso consiste en calcular para cada celda del cuadro la discrepancia
entre lo esperado y lo observado. Esto se hace simplemente restando ambos
números. Pero aquí es necesario hacer dos correcciones.
– La primera es elevar al cuadrado las diferencias calculadas en cada celda. Esto se hace para
eliminar los signos; si no lo hiciéramos, las diferencias terminarían por anularse.
– La segunda corrección es dividir el cuadrado calculado en cada celda entre las "frecuencias
esperadas" en esa celda. Esto se llama "normalización" y el objetivo es controlar el hecho de
que las celdas tienen diferentes cantidades de casos.
• Una vez que tenemos estos cuadrados, estamos en condiciones de sumar todos los
valores. El resultado va a ser el valor de la Chi cuadrado para nuestro cuadro.

Técnicas de Investigación I Universidad de Burgos


Correlación: V de Cramer

• La chi cuadrado va desde 0 hasta un valor que varía según el número de datos y el número
de celdas. Eso de no contar con un máximo fijo dificulta bastante la interpretación.
• Harald Cramer propuso un índice, llamado V de Cramer, para transformar la Chi cuadrado
de Pearson. La V consiste en dividir la chi entre su máximo, por lo que el resultado va de 0
(no hay nada de relación) a 1 (relación máxima). Dado que χ2 está elevada al cuadrado, la
propuesta concreta de Cramer es aplicar también una raíz cuadrada:
• El problema ahora es qué hacer con esa V; es decir, cómo concluir si existe o no relación.
Esto es lo que ha venido llamándose problema del tamaño de efecto.
• Para cada índice o estadístico de relación, nos enfrentamos a la tarea de interpretarlo, por
lo que ideamos una estrategia que suministre un valor acotado o estandarizado (como
ocurre con la V) y ahí tenemos el tamaño del efecto.
• Pero en muchas ocasiones necesitamos traducir el continuo del efecto en una dicotomía:
“al final, dime, ¿hay o no relación?”. Autores como Jacob Cohen, han dado muchas vueltas
a este asunto y nos han suministrado alguna guía. Ya la conocemos:
– De 0 a 0,10, podemos decir que no hay efecto (el grado de relación es ridículo, despreciable o achacable al
ruido).
– Desde 0,10 hasta 0,30, el efecto es pequeño.
– Desde 0,30 hasta 0,50, el efecto es mediano o moderado.
– Y desde 0,50 hasta 1,00, el efecto es grande.

Técnicas de Investigación I Universidad de Burgos


Presentación e interpretación de resultados (I)
• La selección del gráfico más adecuada se deberá ajustar a las características que posean las variables que
vamos a introducir en los mismos. Es necesario saber distinguir en caso podemos utilizar una línea
continua (por ejemplo, número de votos de un partido a lo largo de los diferentes comicios) y cuando no
(si queremos representar la opinión hacia un determinado aspecto, como el aumento de impuestos).
Aunque en ambos ejemplos pueda plasmarse de manera gráfica lineal estas variables, hemos de entender
que, tan sólo en el primero de los casos la explicación visual que obtenemos al mirar el gráfico es la
correcta.
• De la misma manera sucede cuando nos enfrentamos a otro tipo de gráficos. Así, la máxima que siempre
debe de guiar nuestra mano a la hora de cruzar las variables y representarlas de forma gráfica es que los y
las lectoras puedan, a simple vista, entender la relación de la que estamos hablando. Si conseguimos eso,
habremos tenido éxito en plasmar nuestras relaciones bivariadas.
• La exploración de datos a través de las tablas de contingencia es una de las fórmulas más comunes de
realizar análisis de dos o más variables en ciencias sociales. De esta manera, se puede conocer la relación
entre dos variables nominales u ordinales. Según el modelo más utilizado, en las filas, a la izquierda, se
incluirá a nuestra variable dependiente, mientras que en las columnas, arriba, se explicitarán las categorías
de nuestra variable independiente.
• Así, los resultados nos indican qué porcentaje de cada categoría se encuentra representado en el otro. Por
ello, debemos de tener cuidado ante cómo presentamos nuestros porcentajes, si por filas o por columnas.
Así, los primeros nos indicarían cuántos casos dentro de cada categoría de nuestra variable dependiente
se engloban en cada categoría de la independiente. Por el contrario, si decidimos mostrar los porcentajes
por columnas, el resultado que arrojaría se correspondería con el inverso; es decir, con cuántos casos de
cada categoría de nuestra variable independiente se engloban en cada una de las categorías de nuestra
variable dependiente.
• Es importante no calcular este tipo de tablas con variables con muchas categorías o, al menos, no
presentarlas así en un posterior informe, dado que la función principal es la de comprender de manera
visual si existe algún tipo de relación entre las variables incluidas. Además, también resulta relevante
incluir el número de casos total y en cada una de las celdas.

Técnicas de Investigación I Universidad de Burgos


Presentación e interpretación de resultados (II)
• En cuanto a la interpretación de los diferentes coeficientes de asociación o de correlación, generalmente
se corresponde con un número que oscilará entre 0 y 1 o entre -1 y 1 y nos dice la probabilidad que
tenemos de intuir mejor los casos de una variable (dependiente) basándonos en el conocimiento que
tenemos de una segunda variable (independiente). Así, en el caso de que cuando el número de casos en
una dirección creciente aumente en ambas variables, diremos que nos encontramos ante una asociación
directa o positiva. Si, por el contrario, los incrementos se dan en direcciones opuestas, hablamos de una
asociación inversa o negativa.
• Estos estadísticos se suelen presentar en tabla aparte, indicando el nombre del mismo y el dato obtenido a
través de los diferentes programas estadísticos que utilicemos. Una vez que eso se encuentra plasmado, es
necesario comentar dicho dato que, como se ha comentado anteriormente, oscilará entre diferentes
parámetros y significará una u otra cosa.
• De la misma manera, es importante establecer cuando los datos que disponemos son estadísticamente
significativos. Como hemos visto, esta significatividad se divide entre aquellos datos que son significativos
al 90%, al 95% y al 99%. A la hora de plasmar gráficamente en tablas dicha significatividad, se emplea el
sistema de asteriscos (*). Así, cuando la significatividad de nuestras variables independientes sea nula, no
añadiremos nada al lado del dato. Por el contrario, en cuanto supere el 90% comenzaremos a añadir los
asteriscos de la siguiente manera:
– Significatividad entre 90 y 94,99% -> *
– Significatividad entre 95 y 98,99% -> **
– Significatividad del 99% o más -> ***

• Este es el sistema estándar de notación para nuestros datos que cualquier lector del mundo conoce y
entiende. De cualquier manera, suele referenciar en nota en tabla (debajo de la fuente) de la siguiente
manera: * p<0,1 / ** p<0,05 / *** p<0,01.

Técnicas de Investigación I Universidad de Burgos

También podría gustarte