Está en la página 1de 21

Análisis de Datos Sociológicos

TEMA 5. ANÁLISIS DESCRIPTIVOS BIVARIADO

1. PRESENTACIÓN Y ANÁLISIS DE UNA TABLA BIVARIABLE


Las distribuciones bivariables surgen cuando se considera simultáneamente dos
caracteres de una misma población o muestra, de forma que a cada elemento observado
le corresponde un par de valores o un par de categorías.
El objetivo de estas tablas es estudiar si existe relación entre dos variables.

Los valores de las dos variables y sus correspondientes frecuencias suelen disponerse en
una tabla de doble entrada que reciben el nombre de:
- Tabla de contingencia: ambos caracteres cualitativos.
- Tabla de correlación: ambos caracteres cuantitativos.
En el caso de que una sea cualitativa y otra variable cuantitativa será contingencia.

Las dos variables pueden presentarse conjuntamente en una tabla de doble entrada, en
la primera columna de la tabla figurarán las categorías de la variable dependiente y en la
primera fila las categorías de la variable dependiente. Por lo tanto, la tabla tendrá tantas
filas como categorías de la variable dependiente y tantas columnas como categorías
tiene la variable independiente. En este ejemplo: la tabla tendrá 6 filas y 3 columnas y
diremos que es una tabla de 6x3. Seis de los tipos de programas y tres de los estatus
socioeconómicos.

Tabla de contingencia:

Tabla de correlación:
Estatura Padres 1.80 1.76 1.63 1.79 1.68 1.79 1.71 1.84
Estatura hijos 1.60 1.46 1.40 1.49 1.50 1.48 1.43 1.64
En este ejemplo la tabla es de 2x8.

1
2. GRADOS DE LIBERTAD
Para obtener el grado de libertad multiplicaremos las modalidades de una de las
variables menos 1 por las modalidades de la otra variable menos 1.

Grado de libertad = (modalidades de una variable - 1) x (modalidades de otra variable - 1)

Por tanto, el grado de libertad son el número mínimo de celdas que debemos conocer
para poder completar la tabla.

EJ.:
Actitud sobre el
MUJER HOMBRE Total
cambio de hora
A FAVOR 290 340 630
EN CONTRA 160 210 370
Total 450 550 1000

Grado de libertad aquí sería: modalidades de la variable sexo 2, modalidades de la


variable actitud 2. Fórmula: grado de libertad = (2-1) x (2-1) = 1.
En este caso, con conocer un solo dato podemos rellenar el resto de la tabla.

EJ.: en una tabla con dos variables, teniendo una de ellas 7 modalidades y la otra variable
teniendo 9, el grado de libertad sería (7-1) x (9-1) = 6 x 8 = 48, es decir, deberíamos
conocer 48 datos de esa tabla para poder completarla.

3. DISTRIBUCIONES MARGINALES
Las distribuciones marginales son aquellas que coinciden con las de cada una de las
variables por separado.

EJ.: respecto a la tabla del apartado anterior de la actitud sobre el cambio de hora.
La distribución marginal de la variable “actitud” sería:

ACTITUD n
A FAVOR 630
EN CONTRA 370
Total 1000

2
La distribución marginal de la variable “sexo” sería:

ACTITUD n
MUJER 450
HOMBRE 550
Total 1000

Consiste, por tanto, en hacer dos tablas, con las diferentes variables en las que se ponen
las modalidades de cada una de las variables y el número total de cada modalidad.

Dado que las frecuencias absolutas son poco informativas, si se desean establecer
comparaciones, es necesario estandarizar los datos mediante el cálculo de porcentajes.
Lo que interesa es comparar los valores de la variable independiente para cada una de
las categorías de la variable dependiente, por lo que deben tomarse las frecuencias
absolutas de la distribución marginal de la variable independiente como base para el
cálculo de los porcentajes. Deben tomarse los totales de las columnas como base para
el cálculo de los porcentajes.
Los porcentajes deben calcularse tomando como base la distribución marginal de la
variable independiente, es decir, deben calcularse en el sentido del factor causal o de la
variable independiente.

4. DISTRIBUCIONES BIDEMENSIONALES O PORCENTUALES

Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 20 35

[22-26) 18 24 42
[26-30) 18 16 34
[30-34) 15 10 25
Total 66 70 136

Hay dos variables: edad y sexo con sus respectivas modalidades. En la primera fila y
columna se colocan las modalidades de las variables.
En la intersección de cada par de modalidades, se colocan el número de individuos que
presentan conjuntamente ambas modalidades.
Esta sería la distribución bidimensional de frecuencias absolutas (fi).
De toda la distribución bidimensional se pueden obtener tres distribuciones
porcentuales, en función del total que se tome como referencia para determinar los
porcentajes, es decir, en base al total, por columnas o por filas.

3
EJ.: distribuciones porcentuales con respecto al total de la columna.

Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 (22,7) 20 (28,6) 35

[22-26) 18 (27,3) 24 (34,3) 42


[26-30) 18 (27,3) 16 (22,9) 34
[30-34) 15 (22,7) 10 (14,2) 25
Total 66 (100%) 70 (100%) 136

EJ.: distribuciones porcentuales con respecto al total de la fila.

Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 (42,8) 20 (57,2) 35 (100%)

[22-26) 18 (42,8) 24 (57,2) 42 (100%)


[26-30) 18 (52,9) 16 (47,1) 34 (100%)
[30-34) 15 (60,0) 10 (40,0) 25 (100%)
Total 66 70 136

EJ.: distribuciones porcentuales con respecto al total de la muestra.


Sexo
MUJER HOMBRE Total
Edad
[18-22) 15 (11,1) 20 (14,7) 35

[22-26) 18 (13,2) 24 (17,6) 42


[26-30) 18 (13,2) 16 (11,8) 34
[30-34) 15 (11,1) 10 (7,3) 25
Total 66 70 136 (100%)

4
EJ. 2.: distribución marginal de la variable edad y distribución marginal de la variable
sexo.

DISTRIBUCIÓN MARGINAL DE LA VARIABLE EDAD

EDAD Ni
18-22 35
22-26 42
26-30 34
30-34 25
Total 136

DISTRIBUCIÓN MARGINAL DE LA VARIABLE EDAD

Sexo Mujer Hombre Total


Total 66 70 136

5. DISTRIBUCIONES CONDICIONADAS
A partir de una tabla bivariable es posible formar un nuevo tipo de distribuciones que
denominaremos distribuciones condicionadas, ya que para su obtención es preciso
definir previamente una condición.
Esta condición hace referencia a la fijación a priori de una de las variables para
posteriormente calcular la distribución de la otra variable sujeta a esta condición.

EJ.: distribución condicionada.

NIVEL EDUCATIVO

DEPORTE BÁSICO MEDIO SUPERIOR TOTAL


FÚTBOL 30 60 80 170
BALONCESTO 50 90 40 180
ATLETISMO 120 100 30 250
Total 200 250 150 600

5
Distribución de la variable “nivel educativo” condicionada por la categoría fútbol de la
variable “deporte practicado”. Quedaría:

DEPORTE n
FÚTBOL 30
BALONCESTO 60
ATLETISMO 80
Total 170

Distribución de la variable “deporte practicado” condicionada a la categoría “estudios


medios”. Quedaría:

DEPORTE n
FÚTBOL 60
BALONCESTO 90
ATLETISMO 100
Total 250

· PRESENTACIÓN DE LA TABLA:
1. Encabezar la tabla con un título que describa de forma breve y concisa el
contenido de la tabla.
2. Presentar el contenido original de las variables. El significado de las respuestas
depende en gran medida de la formulación exacta de las preguntas.
3. Indicar la base sobre la que se han calculado los porcentajes. La importancia de
un porcentaje viene condicionada por el total de personal sobre el que se ha
calculado.
4. Indicar los valores no sabe/no contesta.

· LECTURA DE LA TABLA:
1. Información sobre la muestra objeto de estudio.
2. Mirar las variables y sus categorías y comparar con las preguntas originales de las
que se obtuvo información.
3. Mirar las distribuciones marginales para ver la distribución de los individuos en
cada una de las variables de la tabla.
4. Calcular las distribuciones condicionadas porcentuales para poder comparar las
categorías de la variable dependiente para cada categoría de la variable
independiente.

6
6. CARACTERÍSTICAS DE UNA ASOCIACIÓN DE DOS VARIABLES
El objetivo que pretendemos conseguir cuando establecemos un cruce de variables, es
conocer la forma en la que se distribuye la variable dependiente en cada una de las
categorías de la variable independiente.
La forma en que se relacionan dos variables se denomina asociación entre dos variables.
Al igual que las distribuciones univariables quedan caracterizadas mediante el estudio
de su tendencia central, dispersión y forma, se puede caracterizar la relacion entre dos
variables mediante el estudio de las siguientes características:
1. Existencia de asociación.
2. Fuerza de la asociación.
3. Dirección de la asociación.
4. Naturaleza de la asociación.

6.1. EXISTENCIA DE ASOCIACIÓN


Dada una distribución bidimensional diremos que existen asociación entre dos variables
si las distribuciones porcentuales de una de las variables condicionada a cada una de las
modalidades de la otra variable son distintas.
EJ.: si se desea conocer si hay asociación entre la variable “sexo” y la variable “interés
por la política” deben calcularse la distribución de la variable interés por la la política si
se es mujer, e interés por la política si se es hombre si son iguales diremos que entre esas
variables no hay asociación o que son independientes, si, por el contrario, son distintas
se puede afirmar que existe asociación entre ellas.

SEXO
INTERÉS POLÍTICO HOMBRES MUJERES TOTAL
MUCHO 59 25 84
REGULAR 155 117 272
POCO 167 117 284
NADA 184 333 517
NS/NC 11 25 36
TOTAL 576 617 1193

Para saber si hay asociación hay dos formas: calcular el porcentaje o con la frecuencia
esperada.
Si lo hacemos por la vía del porcentaje lo primero que haremos será calcular hombre-
mucho que es 59, por lo que sería (59:576)x100 que es 10% y el mujer-mucho que es
(25:617)x100 que es 4%. Al ser diferentes el porcentaje diremos que hay asociación o
que son dependientes.

7
Si la primera vez que lo hacemos salen el mismo porcentaje haremos lo mismo con el
siguiente, es decir, hombres-regular y mujeres-regular, si vuelve a salir el mismo
porcentaje en ambos diremos que no hay asociación o que son independientes.
Cuanto más diferentes son, más discriminas y, por tanto, más asociadas están esas
variables.

· FRECUENCIAS ESPERADAS:
Las frecuencias esperadas es la otra vía para decir si dos variables están asociadas o no.
Las frecuencias esperadas son aquellos valores que debieran presentarse para que las
dos variables fuesen independientes, es decir, que no exista asociación.
A la frecuencia esperada la denominamos fe. Para obtenerla se multiplica el total de la
fila a la que pertenece la celda por el total de la columna a la que pertenece esa celda y
el resultado lo dividimos entre el total de individuos.
Las frecuencias observadas son los valores reales que se presentan en una distribución
bidimensional.

EJ. Con la tabla anterior (hombres-mucho):


La frecuencia observada será 59 que es respectiva a hombres-mucho.
La frecuencia esperada se obtiene haciendo 84 (total de la fila) x 576 (total de la
columna) y el resultado entre 1193 (total individuos) dando como resultado 40,55.

EJ. Con la tabla anterior (mujeres-mucho):


La frecuencia observada es 25 respectiva a mujeres-mucho.
La frecuencia esperada será (84x617):1193 = 43,44.
Y así sucesivamente.

La comparación entre los valores observados y los esperados se hace mediante sus
diferencias, es decir, a cada valor observado se le resta sus correspondientes valores
esperados. Si alguna de esas diferencias es distinta de cero, se puede decir que existe
algún tipo de asociación. EJ. hombres-mucho: 59 que es la frecuencia observada menos
40,55 que es la frecuencia esperada, el resultado es distinto a cero por lo que hay
asociación.

6.2. FUERZA DE LA ASOCIACIÓN


Son dos los tipos de asociación entre variables:
- Funcional: si existe una expresión matemática que nos permite obtener de
manera inequívoca los valores de una de las variables a partir de los de la otra.
Por lo que la tabla tiene que ser de correlación, es decir, las dos variables
cuantitativas.

8
- Estadística: existe un tipo de relacion que no puede representarse de manera
exacta por una fórmula matemática.

Por tanto, hacer referencia a la fuerza de relación supone responder a la pregunta ¿qué
tan bien predice la variable independiente los resultados de la variable dependiente?

6.3. DIRECCIÓN DE LA ASOCIACIÓN


La dirección de la asociación se dice que:
- Hay asociación positiva si cuando ambas variables varían en el mismo sentido, es
decir, al aumentar una aumenta la otra o si al disminuir una disminuye la otra.
- Hay asociación negativa si cuando al aumentar una variable disminuye la otra y
viceversa.

La asociación perfecta estricta se produce cuando todos los casos de la tabla se


concentran en una diagonal, los demás son todo ceros.
La asociación perfecta implícita tipo I se produce cuando la categoría de la variable A
está relacionada con una categoría de la variable B, pero alguna categoría de la variable
B lo está con más de una de la A.
La asociación perfecta implícita tipo II es cuando la categoría de la variable A está
relacionada con más de una de la B y viceversa.

EJ. cálculo de frecuencias esperadas: un investigador quiere estudiar si hay asociación


entre la práctica deportiva y la sensación de bienestar. Extrae una muestra aleatoria de
100 sujetos. Los datos son los siguientes.

PRÁCTICA DEPORTIVA
SENSACIÓN DE
SÍ NO TOTAL
BIENESTAR
fo fe fo fe
SÍ 20 13,5 25 31,5 45
NO 10 16,5 45 38,5 55
TOTAL 30 70 100

Se ha obtenido haciendo, por ejemplo, “práctica deportiva sí” y “sensación de bienestar


sí” (45x30):100=13,5.
En “práctica deportiva no” y “sensación de bienestar sí” es (45x70):100.
Y así sucesivamente.

9
7. MEDIDAS SIMÉTRICAS Y ASIMÉTRICAS DE ASOCIACIÓN
Una última característica de las medidas de asociación es la que hace referencia a la
capacidad de tales medidas para diferenciar o no hacerlo entre la variable dependiente
e independiente.
- Medidas simétricas: reflejan la fuerza de la relacion entre dos variables y no
distinguen entre los papeles asignados a cada variable. Tales medidas reflejan tan
solo la fuerza (y dirección) de la relación entre dos variables, pero no distinguen
entre los papeles asignados a cada variable.
- Medidas asimétricas de asociación: requieres para su cálculo que se distingan
previamente entre la variable independiente y la variable dependiente. Están
orientadas, en general, a la medición de la capacidad e influencia de una variable
independiente para predecir los valores de la variable dependiente.

8. MEDIDAS DE ASOCIACIÓN PARA VARIABLES


8.1. CHI-CUADRADO Y COEFICIENTES BASADOS EN CHI-CUADRADO
Una de las formas de comprobar la existencia de asociación entre dos variables es
comparar las frecuencias observadas con las frecuencias esperadas que cabría esperar
si entre las variables no hubiera asociación, a esas frecuencias, las llamaremos
frecuencias esperadas. Si no hay diferencia entre ellas, diremos que no hay asociación
entre las variables.
Cuánto más distintas sean estas frecuencias mayor fuerza tendrán.
EJ.:

NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR TOTAL
FÚTBOL 30 60 80 170
BALONCESTO 50 90 40 180
ATLETISMO 120 100 30 250
TOTAL 200 250 150 600

La tabla de frecuencias esperadas quedaría así:

NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR TOTAL
FÚTBOL 56,6 70,75 42,45 170
BALONCESTO 60 75 45 180
ATLETISMO 83,4 104,25 62,55 250
TOTAL 200 250 150 600

10
Diferencias entre las frecuencias observadas y esperadas:

NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR
FÚTBOL -26,6 -10,75 37,55
BALONCESTO -10 15 -5
ATLETISMO 36,6 -4,25 -32,55

∑ ∆= ∑(𝑓𝑜 − 𝑓𝑒)

∑ ∆= ∑((−26,6) + (−10) + (36,6) + (−10,75) + (15) + (−4,25) + (37,55)


+ (−5) + (−32,55)) = 0

· CHI CUADRADO (𝑋 2 ):
Se suman los cuadrados de delta y se divide cada delta al cuadrado por el valor esperado
de cada celdilla.
Las características son:
- Desaparece el problema de los signos.
- Control de los problemas del diferente número de casos considerados.
- Medida de distribución libre.
- Útil para variables mediadas a nivel nominal y ordinal.
- Es siempre un número positivo.
- Vale cero cuando no hay asociación entre las variables, para que valga cero todos
los sumandos deben ser nulos, y eso solo ocurre en el caso de que todas las
frecuencias observadas coincidan con sus correspondientes esperadas.
- Representa las discrepancias que hay entre lo esperado y observado.
Es muy importante tener en cuenta que el límite superior de chi-cuadrado no es fijo, sino
que tiene un valor igual a N(K-1), siendo N el tamaño de la muestra, K el número de filas
o columnas en la tabla según sean unas u otras las que representan el número más
pequeño.

11
EJ. Continuación del ejemplo anterior con la tabla:

NIVEL EDUCATIVO
DEPORTE BÁSICO MEDIO SUPERIOR
FÚTBOL -26,6 -10,75 37,55
BALONCESTO -10 15 -5
ATLETISMO 36,6 -4,25 -32,55

∆2
𝑋2 = ∑ ( )
𝑓𝑒

O lo que es lo mismo:
(𝑓𝑜 − 𝑓𝑒)2
𝑋2 = ∑ ( )
𝑓𝑒

707,56 115,56 1410 100 225 25 1339,56


𝑋 2 = [( )+( )+( )+( )+( )+( )+( )
56,6 70,75 42,45 60 75 45 83,4
18,06 1059,50
+( )+( )] = 85,77
104,25 62,55

Se ha calculado, por ejemplo, la primera división se ha obtenido haciendo fo que es 30


menos frecuencia esperada que es 56,6 al cuadrado entre la frecuencia esperada que es
56,6.
Y así sucesivamente.

Para calcular los límites o rango de variación que sería 0≤ 𝑋 2 ≤ 𝑁(𝐾 − 1) . Por lo
que en este ejemplo sería:
N(K-1); 600 (3-1); 600x2=1200.
Quedaría: 0≤ 85,77 ≤1200. Por lo que chi cuadrado variará entre 0 y 1200.

12
8.2. COEFICIENTES BASADOS EN CHI-CUADRADO
Todos se definen a partir del chi-cuadrado.
· COEFICIENTE DE CONTIGENCIA CUADRÁTICA MEDIA O FI-CUADRADO:
El grado de asociación entre dos variables se puede evaluar empleando coeficientes, el
más simple es el coeficiente de fi-cuadrado que deriva del chi-cuadrado, y N es el total
de observaciones. Dicho coeficiente puede oscilar entre 0 que indica que no hay
asociación entre variables e infinito. Se suele utilizar en tablas de 2x2.
- Puede tomar valores mayores a uno en tablas que tengan más de dos categorías.
- Se utiliza en tablas dicotómicas.
- Valor máximo de fi es K-1, siendo K el número de filas o columnas más pequeño

2
𝑋2
∅ =
𝑁

El rango de variación es 0 ≤ ∅2 ≤ K-1

· COEFICIENTE DE CONTINGENCIA C DE PEARSON:


Las características del coeficiente de Pearson son:
- Siempre es positivo y menor que 1.
- Nunca dará uno si no un error.
- Es útil para tablas cuadradas.
- Cerca de 0 indica características independientes, cerca de 1 señala una mayor
medida de dependencia entre las características, menor dependencia cuanto
más se acerque a 0.
- Comparemos su valor con el máximo para ver si la asociación es moderada o baja.
Cuanto más se acerque más fuerte será esa asociación. Si fuera igual a su C
máximo significaría que existe asociación máxima entre las variables.
- No es constante, es variable ya que el rango de variación depende de K.

𝑋2
𝐶=√
𝑋2 + 𝑁

𝐾−1
El rango de variación es 0 ≤ 𝐶 ≤ √ 𝐾

13
· COEFICIENTE T DE TSCHRUPROW:
El coeficiente de Tschruprow:
- Se corrige el problema del límite superior de C, mediante una ligera modificación
del denominador de la expresión del coeficiente máximo, de tal modo que
incluya un valor que refleje el número de celdillas de la tabla.
- El límite superior de T vale la unidad en cuanto que esta sea cuadrada, es decir,
tenga igual número de filas que de columnas.
- La abreviatura gl de la fórmula de Tschruprow es el grado de libertad.

𝑋2
𝑇=√
𝑁 · 𝑔𝑙

1
El rango de variación es 0≤𝑇≤√
𝑎−1

Siendo a el número mayor de filas o columnas de las variables, es decir, el contrario a k.

· COEFICIENTE V DE CRAMER:
En el coeficiente de Cramer:
- t representa el número más pequeño de las dos cantidades, es decir, del grado
de libertad. EJ.: en una tabla de 3x5, el grado de libertad sería (3-1)x(5-1), por lo
que t es 2 que es el número más pequeño de esa resta.
- Puede alcanzar el límite superior de la unidad, con independencia del tamaño de
la tabla, y vale cero cuando no existe asociación en la tabla. Siendo 0
independencia absoluta y 1 dependencia absoluta.
De 0 a 0,10 podemos decir que el grado de relación es ridículo.
De 0,10 a 0,30 el efecto es pequeño.
De 0,30 hasta 0,50 el efecto es mediano.
De 0,50 a 1 el efecto es grande.
- Se trata de un coeficiente más adecuado y mejor que los anteriores.

Siendo t el número mínimo de


los grados de libertad. EJ.: en
𝑋2
𝑉=√ una tabla de 3x5, el grado de
𝑁·𝑡
libertad es (3-1)·(5-1), que da
como resultado 2·4, por lo que
t es el número 2 que es el
resultado más pequeño.
El rango de variación es 0 ≤ 𝑉 ≤ 1

14
EJ.:

GRADO DE MUJER HOMBRE


TOTAL
SATISFACCIÓN
fo fe fo fe
MUY SATISFECHO 20 18 10 12 30
REGULAR 30 21 5 14 35
NADA SATISFECHO 5 15 20 10 25
TOTAL 55 35 90

a) ¿Están asociadas estas dos variables?


Si lo calculamos mediante las distribuciones porcentuales:
(20:55)x100=36,36
(10:35)x100=28,57
Por tanto, hay asociación.

b) ¿Las frecuencias esperadas?


Con cada una habría que hacer:
Fo 20 de mujer y muy satisfecho: (30x55):90=18
Fo 10 de hombre y muy satisfecho: (30x35):90=12
Fo 30 de mujer y regular: (35x55):90=21
Y así sucesivamente hasta obtener todas las frecuencias esperadas.

c) ¿Chi-cuadrado?f

𝟐
(𝒇𝒐 − 𝒇𝒆)𝟐
𝑿 = ∑
𝒇𝒆
(20 − 18)2 (10 − 12)2 (30 − 21)2 (5 − 14)2 (5 − 15)2
= + + + +
18 12 21 14 15
(20 − 10)2
+ = 0,22 + 0,33 + 3,85 + 5,78 + 6,66 + 10 = 26,84
10

Rango de variación: 0≤ 𝑋 2 ≤ 𝑁(𝐾 − 1); 0≤ 𝑋 2 ≤ 90(3-1); 0≤ 𝑋 2 ≤ 90(2);


0≤ 26,84 ≤ 180.
Hay asociación, pero es débil.

d) Calcular coeficiente V de Cramer


𝑋2 26,84
𝑉 = √𝑁·𝑡 ; √ 90·1 ; √0,29 = 0,54

t = (2-1)·(3-1); (1)·(2)
Rango de variación: 0≤ 𝑉 ≤ 1; 0≤ 0,54 ≤ 1

15
8.3. COEFICIENTES DE ASOCIACIÓN BASADOS EN LA REDUCCIÓN
PROPORCIONAL DEL ERROR
Son medidas que nos indican el porcentaje en que se consigue reducir un error de
predicción sobre la variable dependiente si en lugar de utilizar únicamente la
información proporcionada por esa variable se tiene en cuenta la información que
aporta la variable dependiente.
A diferencia de los anteriores que estaban basados en Chi-cuadrado. Estos tratan de ver
la relacion entre variables intentando predecir como se clasificarían un sujeto de la
variable Y a partir de conocer su clasificación en la variable X (independiente).
Las medidas del error de predicción fueron creadas para cuantificar y describir la
reducción proporcional del erro en una clasificación.
Si llamamos E1 al error que cometemos cuando queremos hacer una predicción de la
variable que queremos predecir (dependiente) sin conocer la otra variable, y E2 son los
errores que cometemos cuando queremos hacer una predicción de la variable
dependiente conociendo la otra variable.
El objetivo en función del conocimiento de una variable pretendemos predecir el valor
de otra variable.

A) COEFICIENTE LAMBDA:
Este coeficiente parte del criterio de que al predecir a que categoría de la variable
dependiente pertenecen los individuos de la muestra, elegimos la categoría más
probable, esto es, la que mayor frecuencia tiene. En este caso la probabilidad de cometer
error es igual a la probabilidad de que pertenezca a alguna de las otras categorías.
Se basa en la reducción proporcional del error en la predicción de la moda, es decir, el
número de aciertos que proporciona el conocer la distribución dividido por el número
de errores sin conocerla.
Se trata de una medida asimétrica de asociación creada para analizar distribuciones
bivariables en las que ambas variables son de tipo nominal.

Hay dos fórmulas:

𝐸1 − 𝐸2
λ=
𝐸1

∑ 𝑚𝑦 − 𝑀𝑌
λ𝑥,𝑦 =
𝑁 − 𝑀𝑦

16
EJ.: a la vista de estos datos, si quisiéramos predecir la escala ideológica, que porcentaje
de error. La variable dependiente es la que queremos predecir (izquierda, centro,
derecha).

ESCALA SITUACIÓN ECONÓMICA


IDEOLÓGICA BUENA REGULAR MALA TOTAL
IZQUIERDA 72 69 168 309
CENTRO 28 93 175 296
DERECHA 82 39 69 196
TOTAL 182 201 412 795

𝐸1 − 𝐸2
λ=
𝐸1

E1 = 795 – 309 = 486


E2 = (182 - 82) + (201 - 93) + (412 - 175) = 100 + 108 + 237 = 445

𝐸1 − 𝐸2 486 − 445
λ= = = 0,084 = 8,4%
𝐸1 486

Para calcular E1 se toma el total (795) y se resta el número mayor del total de la variable
escala ideológica (309).
Para calcular E2 se toma el total de cada modalidad de situación económica (182) menos
el número mayor de cada modalidad (82) y así con todas las modalidades.

EJ.: si queremos predecir la situación económica.

ESCALA SITUACIÓN ECONÓMICA


IDEOLÓGICA BUENA REGULAR MALA TOTAL
IZQUIERDA 72 69 168 309
CENTRO 28 93 175 296
DERECHA 82 39 69 196
TOTAL 182 201 412 795

17
𝐸1 − 𝐸2
λ=
𝐸1

E1 = 795 – 412 = 383


E2 = (309 – 168) + (296 - 175) + (190 - 82) = 141 + 121 + 108 = 370

𝐸1 − 𝐸2 383 − 370
λ= = = 0,033 = 3,3 %
𝐸1 383

EJ. Con la otra forma de calcular lambda:

∑ 𝑚𝑦 − 𝑀𝑌
λ𝑥,𝑦 =
𝑁 − 𝑀𝑦

My: la frecuencia modal de la distribución marginal de la variable que queremos


predecir.
Sumatoria my: suma de las frecuencias modales de la variable dependiente.
N = tamaño de la muestra.

Siguiendo el ejemplo de la tabla anterior para predecir escala ideológica:

ESCALA SITUACIÓN ECONÓMICA


IDEOLÓGICA BUENA REGULAR MALA TOTAL
IZQUIERDA 72 69 168 309
CENTRO 28 93 175 296
DERECHA 82 39 69 196
TOTAL 182 201 412 795

∑ 𝑚𝑦 −𝑀𝑌 350−309
λ𝑥,𝑦 = = = 0,084 = 8,4%
𝑁−𝑀𝑦 795−309

My = el número máximo del total de la variable que queremos predecir. En este caso 309
my = 82 + 93 + 175 = 350.

18
EJ.: para predecir la situación económica:

ESCALA SITUACIÓN ECONÓMICA


IDEOLÓGICA BUENA REGULAR MALA TOTAL
IZQUIERDA 72 69 168 309
CENTRO 28 93 175 296
DERECHA 82 39 69 196
TOTAL 182 201 412 795

∑ 𝑚𝑦 −𝑀𝑌 425−412
λ𝑥,𝑦 = = = 0,033 = 3,3%
𝑁−𝑀𝑦 795−412

My = 412.
my = 168 + 82+ 175 = 425

· CARACTERÍSTICAS DEL COEFICIENTE LAMBDA:


El coeficiente Lambda es asimétrico, es decir, su valor depende de la variable que se
considere como independiente. Si no hay razón para decidir cual es la variable
independiente y cual es la variable dependiente, suelen calcularse los dos valores y
tomar la media aritmética de ellos como valor del coeficiente Lambda.
Como todos los coeficientes, el coeficiente Lambda varía entre 0 y 1. Cero significa que
no se ha conseguido reducir el número de errores con la información de la variable
independiente y uno significa que se ha reducido totalmente, es decir, que la información
de la variable independiente permite redecir con toda precisión a que categoría de la
variable dependiente pertenecen los individuos.
El valor 1 es que no existe error en la predicción si todos los casos en cada categoría de
la variable independiente se concentraran en una única categoría.
El valor 0 es el máximo error en la predicción que se realizó la misma predicción modal
dentro de todas las categorías de la variable dependiente.
Es una medida bastante sensible de la fuerza de asociación, pero no ofrece información
sobre la naturaleza de la asociación (distribución).
Permite conocer que variable proporciona una reducción mayor del error cometido al
predecir las modas de una variable dependiente determinada.

19
9. MEDIDAS DE ASOCIACIÓN PARA VARIABLES ORDINALES: COEFICIENTE
RHO DE SPEARMAN
El coeficiente Rho de Spearman mide la dirección y la fuerza.
Es recomendable en los casos en que se cuenta con el ordenamiento de todos los casos
individuales en las dos variables de modo que en cada variable los ordenamientos tienen
recorrido de 1 a N.
Al ser ordinal el nivel de medida de las variables puede distinguirse entre asociación
positiva y negativa. La asociación es positiva si los valores altos de una variable se asocian
con los valores altos de la otra, y los valores bajos con los valores bajos; una asociación
es negativa si los valores altos de una variable se asocian con los valores bajos de la otra,
y los valores bajos con los valores altos.
También se puede usar en variables de razón o intervalo.
Pero para variables cuantitativas continuas es más adecuado el coeficiente de Pearson.
El coeficiente Rho de Spearman mide el grado de asociación de dos variables ordinales,
basándose en las diferencias de rango.
Para su cálculo se utiliza el sumatorio de los valores de las diferencias al cuadrado,
porque la suma de los valores simples es igual a 0.
Donde d es la distancia existente entre los puestos que ocupan las puntuaciones
correspondientes a un sujeto i, cuando estas puntuaciones han sido ordenadas X y para
Y.
N es el número de datos.
El valor de rho varía entre -1 y +1 siendo:
- -1: ordenación puesta de los casos en la variable, por tanto, asociación perfecta
negativa.
- +1: perfecto acoplamiento de las dos ordenaciones, por tano, asociación
perfecta positiva.
- 0: no existe una ordenación sistemática de ningún tipo entre las dos variables.

La fórmula es:

6 · ∑ 𝑑𝑖 2
𝜌=1−
𝑛 (𝑛2 − 1)

El rango de variación es:

-1≤ 𝜌 ≤ 1

20
EJ.: Rho de Spearman.

PROYECTOS EVALUACIÓN 1 EVALUACIÓN 2 di 𝒅𝟐


A 7 3,5º 8 3º 0,5 0,25
B 9 2º 6 4º -2 4
C 7 3,5º 9 1,5º 2 4
D 10 1º 5 5º -4 16
E 5 5º 9 1,5º 3,5 12,25
Total 36,50

Para obtener la segunda columna de las evaluaciones se ordenan del número mayor al
menor, si hay dos números iguales se coge el número intermedio de los puestos que les
tocaría. Por ejemplo, en la columna de evaluación 1, en el puesto 3 iría el 7 pero como
hay dos, a ambos se le pone el número intermedio entre el puesto 3 y 4 que sería 3,5.
Con la columna de evaluación 2 pasa igual, hay dos 9, les tocaría el puesto 1 porque es
el número más grande, pero al haber dos 9, se pone el número intermedio entre el
puesto 1 y 2 que es el 1,5.
Para obtener di se resta la segunda columna de evaluación 1 y evaluación 2.
Para obtener 𝒅𝟐 se eleva al cuadrado los números de la columna di.

6· ∑ 𝑑𝑖 2 6·∑ 36,50 219 219


𝜌=1− ;𝜌 = 1− ; 𝜌 = 1− ; 𝜌=1− ;
𝑛 (𝑛2 −1) 5 (52 −1) 5·(25−1) 120

𝜌 = 1 − 1,82; 𝜌 = −0,82

El rango de variación es:


−1 ≤ 𝜌 ≤ 1
−1 ≤ −0,82 ≤ 1
Hay concordancia, pero negativa.

21

También podría gustarte