Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Wuolah Free Tema 5 Analisis de Datos Sociologicos Gulag Free
Wuolah Free Tema 5 Analisis de Datos Sociologicos Gulag Free
Los valores de las dos variables y sus correspondientes frecuencias suelen disponerse en
una tabla de doble entrada que reciben el nombre de:
- Tabla de contingencia: ambos caracteres cualitativos.
- Tabla de correlación: ambos caracteres cuantitativos.
En el caso de que una sea cualitativa y otra variable cuantitativa será contingencia.
Las dos variables pueden presentarse conjuntamente en una tabla de doble entrada, en
la primera columna de la tabla figurarán las categorías de la variable dependiente y en la
primera fila las categorías de la variable dependiente. Por lo tanto, la tabla tendrá tantas
filas como categorías de la variable dependiente y tantas columnas como categorías
tiene la variable independiente. En este ejemplo: la tabla tendrá 6 filas y 3 columnas y
diremos que es una tabla de 6x3. Seis de los tipos de programas y tres de los estatus
socioeconómicos.
Tabla de contingencia:
Tabla de correlación:
Estatura Padres 1.80 1.76 1.63 1.79 1.68 1.79 1.71 1.84
Estatura hijos 1.60 1.46 1.40 1.49 1.50 1.48 1.43 1.64
En este ejemplo la tabla es de 2x8.
1
2. GRADOS DE LIBERTAD
Para obtener el grado de libertad multiplicaremos las modalidades de una de las
variables menos 1 por las modalidades de la otra variable menos 1.
Por tanto, el grado de libertad son el número mínimo de celdas que debemos conocer
para poder completar la tabla.
EJ.:
Actitud sobre el
MUJER HOMBRE Total
cambio de hora
A FAVOR 290 340 630
EN CONTRA 160 210 370
Total 450 550 1000
EJ.: en una tabla con dos variables, teniendo una de ellas 7 modalidades y la otra variable
teniendo 9, el grado de libertad sería (7-1) x (9-1) = 6 x 8 = 48, es decir, deberíamos
conocer 48 datos de esa tabla para poder completarla.
3. DISTRIBUCIONES MARGINALES
Las distribuciones marginales son aquellas que coinciden con las de cada una de las
variables por separado.
EJ.: respecto a la tabla del apartado anterior de la actitud sobre el cambio de hora.
La distribución marginal de la variable “actitud” sería:
ACTITUD n
A FAVOR 630
EN CONTRA 370
Total 1000
2
La distribución marginal de la variable “sexo” sería:
ACTITUD n
MUJER 450
HOMBRE 550
Total 1000
Consiste, por tanto, en hacer dos tablas, con las diferentes variables en las que se ponen
las modalidades de cada una de las variables y el número total de cada modalidad.
Dado que las frecuencias absolutas son poco informativas, si se desean establecer
comparaciones, es necesario estandarizar los datos mediante el cálculo de porcentajes.
Lo que interesa es comparar los valores de la variable independiente para cada una de
las categorías de la variable dependiente, por lo que deben tomarse las frecuencias
absolutas de la distribución marginal de la variable independiente como base para el
cálculo de los porcentajes. Deben tomarse los totales de las columnas como base para
el cálculo de los porcentajes.
Los porcentajes deben calcularse tomando como base la distribución marginal de la
variable independiente, es decir, deben calcularse en el sentido del factor causal o de la
variable independiente.
Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 20 35
[22-26) 18 24 42
[26-30) 18 16 34
[30-34) 15 10 25
Total 66 70 136
Hay dos variables: edad y sexo con sus respectivas modalidades. En la primera fila y
columna se colocan las modalidades de las variables.
En la intersección de cada par de modalidades, se colocan el número de individuos que
presentan conjuntamente ambas modalidades.
Esta sería la distribución bidimensional de frecuencias absolutas (fi).
De toda la distribución bidimensional se pueden obtener tres distribuciones
porcentuales, en función del total que se tome como referencia para determinar los
porcentajes, es decir, en base al total, por columnas o por filas.
3
EJ.: distribuciones porcentuales con respecto al total de la columna.
Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 (22,7) 20 (28,6) 35
Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 (42,8) 20 (57,2) 35 (100%)
4
EJ. 2.: distribución marginal de la variable edad y distribución marginal de la variable
sexo.
EDAD Ni
18-22 35
22-26 42
26-30 34
30-34 25
Total 136
5. DISTRIBUCIONES CONDICIONADAS
A partir de una tabla bivariable es posible formar un nuevo tipo de distribuciones que
denominaremos distribuciones condicionadas, ya que para su obtención es preciso
definir previamente una condición.
Esta condición hace referencia a la fijación a priori de una de las variables para
posteriormente calcular la distribución de la otra variable sujeta a esta condición.
NIVEL EDUCATIVO
5
Distribución de la variable “nivel educativo” condicionada por la categoría fútbol de la
variable “deporte practicado”. Quedaría:
DEPORTE n
FÚTBOL 30
BALONCESTO 60
ATLETISMO 80
Total 170
DEPORTE n
FÚTBOL 60
BALONCESTO 90
ATLETISMO 100
Total 250
· PRESENTACIÓN DE LA TABLA:
1. Encabezar la tabla con un título que describa de forma breve y concisa el
contenido de la tabla.
2. Presentar el contenido original de las variables. El significado de las respuestas
depende en gran medida de la formulación exacta de las preguntas.
3. Indicar la base sobre la que se han calculado los porcentajes. La importancia de
un porcentaje viene condicionada por el total de personal sobre el que se ha
calculado.
4. Indicar los valores no sabe/no contesta.
· LECTURA DE LA TABLA:
1. Información sobre la muestra objeto de estudio.
2. Mirar las variables y sus categorías y comparar con las preguntas originales de las
que se obtuvo información.
3. Mirar las distribuciones marginales para ver la distribución de los individuos en
cada una de las variables de la tabla.
4. Calcular las distribuciones condicionadas porcentuales para poder comparar las
categorías de la variable dependiente para cada categoría de la variable
independiente.
6
6. CARACTERÍSTICAS DE UNA ASOCIACIÓN DE DOS VARIABLES
El objetivo que pretendemos conseguir cuando establecemos un cruce de variables, es
conocer la forma en la que se distribuye la variable dependiente en cada una de las
categorías de la variable independiente.
La forma en que se relacionan dos variables se denomina asociación entre dos variables.
Al igual que las distribuciones univariables quedan caracterizadas mediante el estudio
de su tendencia central, dispersión y forma, se puede caracterizar la relacion entre dos
variables mediante el estudio de las siguientes características:
1. Existencia de asociación.
2. Fuerza de la asociación.
3. Dirección de la asociación.
4. Naturaleza de la asociación.
SEXO
INTERÉS POLÍTICO HOMBRES MUJERES TOTAL
MUCHO 59 25 84
REGULAR 155 117 272
POCO 167 117 284
NADA 184 333 517
NS/NC 11 25 36
TOTAL 576 617 1193
Para saber si hay asociación hay dos formas: calcular el porcentaje o con la frecuencia
esperada.
Si lo hacemos por la vía del porcentaje lo primero que haremos será calcular hombre-
mucho que es 59, por lo que sería (59:576)x100 que es 10% y el mujer-mucho que es
(25:617)x100 que es 4%. Al ser diferentes el porcentaje diremos que hay asociación o
que son dependientes.
7
Si la primera vez que lo hacemos salen el mismo porcentaje haremos lo mismo con el
siguiente, es decir, hombres-regular y mujeres-regular, si vuelve a salir el mismo
porcentaje en ambos diremos que no hay asociación o que son independientes.
Cuanto más diferentes son, más discriminas y, por tanto, más asociadas están esas
variables.
· FRECUENCIAS ESPERADAS:
Las frecuencias esperadas es la otra vía para decir si dos variables están asociadas o no.
Las frecuencias esperadas son aquellos valores que debieran presentarse para que las
dos variables fuesen independientes, es decir, que no exista asociación.
A la frecuencia esperada la denominamos fe. Para obtenerla se multiplica el total de la
fila a la que pertenece la celda por el total de la columna a la que pertenece esa celda y
el resultado lo dividimos entre el total de individuos.
Las frecuencias observadas son los valores reales que se presentan en una distribución
bidimensional.
La comparación entre los valores observados y los esperados se hace mediante sus
diferencias, es decir, a cada valor observado se le resta sus correspondientes valores
esperados. Si alguna de esas diferencias es distinta de cero, se puede decir que existe
algún tipo de asociación. EJ. hombres-mucho: 59 que es la frecuencia observada menos
40,55 que es la frecuencia esperada, el resultado es distinto a cero por lo que hay
asociación.
8
- Estadística: existe un tipo de relacion que no puede representarse de manera
exacta por una fórmula matemática.
Por tanto, hacer referencia a la fuerza de relación supone responder a la pregunta ¿qué
tan bien predice la variable independiente los resultados de la variable dependiente?
PRÁCTICA DEPORTIVA
SENSACIÓN DE
SÍ NO TOTAL
BIENESTAR
fo fe fo fe
SÍ 20 13,5 25 31,5 45
NO 10 16,5 45 38,5 55
TOTAL 30 70 100
9
7. MEDIDAS SIMÉTRICAS Y ASIMÉTRICAS DE ASOCIACIÓN
Una última característica de las medidas de asociación es la que hace referencia a la
capacidad de tales medidas para diferenciar o no hacerlo entre la variable dependiente
e independiente.
- Medidas simétricas: reflejan la fuerza de la relacion entre dos variables y no
distinguen entre los papeles asignados a cada variable. Tales medidas reflejan tan
solo la fuerza (y dirección) de la relación entre dos variables, pero no distinguen
entre los papeles asignados a cada variable.
- Medidas asimétricas de asociación: requieres para su cálculo que se distingan
previamente entre la variable independiente y la variable dependiente. Están
orientadas, en general, a la medición de la capacidad e influencia de una variable
independiente para predecir los valores de la variable dependiente.
NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR TOTAL
FÚTBOL 30 60 80 170
BALONCESTO 50 90 40 180
ATLETISMO 120 100 30 250
TOTAL 200 250 150 600
NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR TOTAL
FÚTBOL 56,6 70,75 42,45 170
BALONCESTO 60 75 45 180
ATLETISMO 83,4 104,25 62,55 250
TOTAL 200 250 150 600
10
Diferencias entre las frecuencias observadas y esperadas:
NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR
FÚTBOL -26,6 -10,75 37,55
BALONCESTO -10 15 -5
ATLETISMO 36,6 -4,25 -32,55
∑ ∆= ∑(𝑓𝑜 − 𝑓𝑒)
· CHI CUADRADO (𝑋 2 ):
Se suman los cuadrados de delta y se divide cada delta al cuadrado por el valor esperado
de cada celdilla.
Las características son:
- Desaparece el problema de los signos.
- Control de los problemas del diferente número de casos considerados.
- Medida de distribución libre.
- Útil para variables mediadas a nivel nominal y ordinal.
- Es siempre un número positivo.
- Vale cero cuando no hay asociación entre las variables, para que valga cero todos
los sumandos deben ser nulos, y eso solo ocurre en el caso de que todas las
frecuencias observadas coincidan con sus correspondientes esperadas.
- Representa las discrepancias que hay entre lo esperado y observado.
Es muy importante tener en cuenta que el límite superior de chi-cuadrado no es fijo, sino
que tiene un valor igual a N(K-1), siendo N el tamaño de la muestra, K el número de filas
o columnas en la tabla según sean unas u otras las que representan el número más
pequeño.
11
EJ. Continuación del ejemplo anterior con la tabla:
NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR
FÚTBOL -26,6 -10,75 37,55
BALONCESTO -10 15 -5
ATLETISMO 36,6 -4,25 -32,55
∆2
𝑋2 = ∑ ( )
𝑓𝑒
O lo que es lo mismo:
(𝑓𝑜 − 𝑓𝑒)2
𝑋2 = ∑ ( )
𝑓𝑒
Para calcular los límites o rango de variación que sería 0≤ 𝑋 2 ≤ 𝑁(𝐾 − 1) . Por lo
que en este ejemplo sería:
N(K-1); 600 (3-1); 600x2=1200.
Quedaría: 0≤ 85,77 ≤1200. Por lo que chi cuadrado variará entre 0 y 1200.
12
8.2. COEFICIENTES BASADOS EN CHI-CUADRADO
Todos se definen a partir del chi-cuadrado.
· COEFICIENTE DE CONTIGENCIA CUADRÁTICA MEDIA O FI-CUADRADO:
El grado de asociación entre dos variables se puede evaluar empleando coeficientes, el
más simple es el coeficiente de fi-cuadrado que deriva del chi-cuadrado, y N es el total
de observaciones. Dicho coeficiente puede oscilar entre 0 que indica que no hay
asociación entre variables e infinito. Se suele utilizar en tablas de 2x2.
- Puede tomar valores mayores a uno en tablas que tengan más de dos categorías.
- Se utiliza en tablas dicotómicas.
- Valor máximo de fi es K-1, siendo K el número de filas o columnas más pequeño
2
𝑋2
∅ =
𝑁
𝑋2
𝐶=√
𝑋2 + 𝑁
𝐾−1
El rango de variación es 0 ≤ 𝐶 ≤ √ 𝐾
13
· COEFICIENTE T DE TSCHRUPROW:
El coeficiente de Tschruprow:
- Se corrige el problema del límite superior de C, mediante una ligera modificación
del denominador de la expresión del coeficiente máximo, de tal modo que
incluya un valor que refleje el número de celdillas de la tabla.
- El límite superior de T vale la unidad en cuanto que esta sea cuadrada, es decir,
tenga igual número de filas que de columnas.
- La abreviatura gl de la fórmula de Tschruprow es el grado de libertad.
𝑋2
𝑇=√
𝑁 · 𝑔𝑙
1
El rango de variación es 0≤𝑇≤√
𝑎−1
· COEFICIENTE V DE CRAMER:
En el coeficiente de Cramer:
- t representa el número más pequeño de las dos cantidades, es decir, del grado
de libertad. EJ.: en una tabla de 3x5, el grado de libertad sería (3-1)x(5-1), por lo
que t es 2 que es el número más pequeño de esa resta.
- Puede alcanzar el límite superior de la unidad, con independencia del tamaño de
la tabla, y vale cero cuando no existe asociación en la tabla. Siendo 0
independencia absoluta y 1 dependencia absoluta.
De 0 a 0,10 podemos decir que el grado de relación es ridículo.
De 0,10 a 0,30 el efecto es pequeño.
De 0,30 hasta 0,50 el efecto es mediano.
De 0,50 a 1 el efecto es grande.
- Se trata de un coeficiente más adecuado y mejor que los anteriores.
14
EJ.:
c) ¿Chi-cuadrado?f
𝟐
(𝒇𝒐 − 𝒇𝒆)𝟐
𝑿 = ∑
𝒇𝒆
(20 − 18)2 (10 − 12)2 (30 − 21)2 (5 − 14)2 (5 − 15)2
= + + + +
18 12 21 14 15
(20 − 10)2
+ = 0,22 + 0,33 + 3,85 + 5,78 + 6,66 + 10 = 26,84
10
t = (2-1)·(3-1); (1)·(2)
Rango de variación: 0≤ 𝑉 ≤ 1; 0≤ 0,54 ≤ 1
15
8.3. COEFICIENTES DE ASOCIACIÓN BASADOS EN LA REDUCCIÓN
PROPORCIONAL DEL ERROR
Son medidas que nos indican el porcentaje en que se consigue reducir un error de
predicción sobre la variable dependiente si en lugar de utilizar únicamente la
información proporcionada por esa variable se tiene en cuenta la información que
aporta la variable dependiente.
A diferencia de los anteriores que estaban basados en Chi-cuadrado. Estos tratan de ver
la relacion entre variables intentando predecir como se clasificarían un sujeto de la
variable Y a partir de conocer su clasificación en la variable X (independiente).
Las medidas del error de predicción fueron creadas para cuantificar y describir la
reducción proporcional del erro en una clasificación.
Si llamamos E1 al error que cometemos cuando queremos hacer una predicción de la
variable que queremos predecir (dependiente) sin conocer la otra variable, y E2 son los
errores que cometemos cuando queremos hacer una predicción de la variable
dependiente conociendo la otra variable.
El objetivo en función del conocimiento de una variable pretendemos predecir el valor
de otra variable.
A) COEFICIENTE LAMBDA:
Este coeficiente parte del criterio de que al predecir a que categoría de la variable
dependiente pertenecen los individuos de la muestra, elegimos la categoría más
probable, esto es, la que mayor frecuencia tiene. En este caso la probabilidad de cometer
error es igual a la probabilidad de que pertenezca a alguna de las otras categorías.
Se basa en la reducción proporcional del error en la predicción de la moda, es decir, el
número de aciertos que proporciona el conocer la distribución dividido por el número
de errores sin conocerla.
Se trata de una medida asimétrica de asociación creada para analizar distribuciones
bivariables en las que ambas variables son de tipo nominal.
𝐸1 − 𝐸2
λ=
𝐸1
∑ 𝑚𝑦 − 𝑀𝑌
λ𝑥,𝑦 =
𝑁 − 𝑀𝑦
16
EJ.: a la vista de estos datos, si quisiéramos predecir la escala ideológica, que porcentaje
de error. La variable dependiente es la que queremos predecir (izquierda, centro,
derecha).
𝐸1 − 𝐸2
λ=
𝐸1
𝐸1 − 𝐸2 486 − 445
λ= = = 0,084 = 8,4%
𝐸1 486
Para calcular E1 se toma el total (795) y se resta el número mayor del total de la variable
escala ideológica (309).
Para calcular E2 se toma el total de cada modalidad de situación económica (182) menos
el número mayor de cada modalidad (82) y así con todas las modalidades.
17
𝐸1 − 𝐸2
λ=
𝐸1
𝐸1 − 𝐸2 383 − 370
λ= = = 0,033 = 3,3 %
𝐸1 383
∑ 𝑚𝑦 − 𝑀𝑌
λ𝑥,𝑦 =
𝑁 − 𝑀𝑦
∑ 𝑚𝑦 −𝑀𝑌 350−309
λ𝑥,𝑦 = = = 0,084 = 8,4%
𝑁−𝑀𝑦 795−309
My = el número máximo del total de la variable que queremos predecir. En este caso 309
my = 82 + 93 + 175 = 350.
18
EJ.: para predecir la situación económica:
∑ 𝑚𝑦 −𝑀𝑌 425−412
λ𝑥,𝑦 = = = 0,033 = 3,3%
𝑁−𝑀𝑦 795−412
My = 412.
my = 168 + 82+ 175 = 425
19
9. MEDIDAS DE ASOCIACIÓN PARA VARIABLES ORDINALES: COEFICIENTE
RHO DE SPEARMAN
El coeficiente Rho de Spearman mide la dirección y la fuerza.
Es recomendable en los casos en que se cuenta con el ordenamiento de todos los casos
individuales en las dos variables de modo que en cada variable los ordenamientos tienen
recorrido de 1 a N.
Al ser ordinal el nivel de medida de las variables puede distinguirse entre asociación
positiva y negativa. La asociación es positiva si los valores altos de una variable se asocian
con los valores altos de la otra, y los valores bajos con los valores bajos; una asociación
es negativa si los valores altos de una variable se asocian con los valores bajos de la otra,
y los valores bajos con los valores altos.
También se puede usar en variables de razón o intervalo.
Pero para variables cuantitativas continuas es más adecuado el coeficiente de Pearson.
El coeficiente Rho de Spearman mide el grado de asociación de dos variables ordinales,
basándose en las diferencias de rango.
Para su cálculo se utiliza el sumatorio de los valores de las diferencias al cuadrado,
porque la suma de los valores simples es igual a 0.
Donde d es la distancia existente entre los puestos que ocupan las puntuaciones
correspondientes a un sujeto i, cuando estas puntuaciones han sido ordenadas X y para
Y.
N es el número de datos.
El valor de rho varía entre -1 y +1 siendo:
- -1: ordenación puesta de los casos en la variable, por tanto, asociación perfecta
negativa.
- +1: perfecto acoplamiento de las dos ordenaciones, por tano, asociación
perfecta positiva.
- 0: no existe una ordenación sistemática de ningún tipo entre las dos variables.
La fórmula es:
6 · ∑ 𝑑𝑖 2
𝜌=1−
𝑛 (𝑛2 − 1)
-1≤ 𝜌 ≤ 1
20
EJ.: Rho de Spearman.
Para obtener la segunda columna de las evaluaciones se ordenan del número mayor al
menor, si hay dos números iguales se coge el número intermedio de los puestos que les
tocaría. Por ejemplo, en la columna de evaluación 1, en el puesto 3 iría el 7 pero como
hay dos, a ambos se le pone el número intermedio entre el puesto 3 y 4 que sería 3,5.
Con la columna de evaluación 2 pasa igual, hay dos 9, les tocaría el puesto 1 porque es
el número más grande, pero al haber dos 9, se pone el número intermedio entre el
puesto 1 y 2 que es el 1,5.
Para obtener di se resta la segunda columna de evaluación 1 y evaluación 2.
Para obtener 𝒅𝟐 se eleva al cuadrado los números de la columna di.
𝜌 = 1 − 1,82; 𝜌 = −0,82
21