Está en la página 1de 13

Julio Hernández March y Miguel Ángel Marcos Estadística

Análisis estadístico de dos variables


Distribuciones Bidimensionales

DISTRIBUCIONES BIDIMENSIONALES

4.1 ANÁLISIS DE DATOS BIDIMENSIONALES

Hasta ahora hemos estudiado la distribución de una variable que nos expresaba la medida de un
carácter cuantitativo/cualitativo. Pero también podemos estudiar simultáneamente dos o más.
Así por ejemplo se puede medir el consumo de un individuo en función de su renta.

A menudo nos encontramos con:

Un fenómeno que tiene dos o más características observables con la intención de explicar el
comportamiento de una de ellos a partir de otra u otras
o Ejemplo 1. Fenómeno: familia
o Características: nº. de componentes, renta, gasto, nº. de teléfonos móviles,
edad del cabeza de familia, lugar de residencia …

Ejemplo 2. Fenómeno: empresa


o
Características: sector, nº. trabajadores, volumen de ventas, beneficios,
o
ámbito de trabajo (local, regional, nacional o internacional) …
Con dos fenómenos distintos sobre los que, igualmente, queremos conocer si están relacionados
o no
o Ejemplo 1. Mercado de capitales y empresa, observando la posible
relación existente entre tipos de interés y volumen de inversión
empresarial

o Ejemplo 2. Mercado energético y empresa, tratando de explicar los


beneficios empresariales a partir del precio de los carburantes

Además no solo nos conformaremos con descubrir si existe o no relación sino que buscaremos
medir su grado ya que este puede ser desde fuerte (relación máxima o matemática) a nula (no
existencia de relación).

1
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

INDEPENDENCIA Y RELACIÓN FUNCIONAL DE DOS VARIABLES


Cuando no existe relación entre dos variables se dice que las variables son INDEPENDIENTES,
cuando la relación es perfecta, se dice que están relacionadas FUNCIONALMENTE y podemos
expresarlo como:

Y Y

𝑦 𝑓 𝑥
𝑦 𝑎 + 𝑏𝑥

X X

La importancia de disponer de la relación funcional reside en que podemos determinar


elementos de Y conocidos los de X o viceversa.

Un punto intermedio entre la ausencia total de relación (independencia) y la relación total o


funcional es la DEPENDENCIA ESTADÍSTICA, la cual admite distintos grados de dependencia.

Pues bien, se llama variable estadística bidimensional al conjunto de pares de valores (X,Y) en
que se puede concretar una observación conjunta cualquiera, ya sea procedente de dos
características de un mismo fenómeno o de dos fenómenos.

Esta variable estadística bidimensional puede presentarse de dos formas:


a) Con observaciones sin agrupar:
(xi, yi) i=1..N
Describiendo los N pares de observaciones repetidos o no.

b) Con observaciones agrupadas por frecuencias:


[(xi, yj) ; nij ] i=1..h j=1..k
Describiendo cualquier par de observaciones (xi, yj) observado nij veces de la variable (X,Y)

2
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

4.2. DISTRIBUCIÓN CONJUNTA

Llamamos distribución conjunta de la variable (X,Y) al conjunto de observaciones [(xi, yj) ; nij ]
i=1..h j=1..k una vez ordenadas en una tabla que llamaremos de correlación cuando ambas variables
sean cuantitativas y de contingencia en caso de que alguna o las dos sean atributos.

Tabla 1: Tabla de correlación o de contingencia


Y
X y1 y2 ... yj ... yk ni.

x1 n11 n12 … n1j … n1k n1.


x2 n21 n22 … n2j … n2k n2.
... … … … … … … …
xi ni1 ni2 … nij … nik ni.
… … … … … … … …
xh nh1 nh2 … nhj … nhk nh.
n.j n.1 n.2 … n.j … n.k N

∑∑

Cuando las frecuencias absolutas conjuntas nij se dividen entre N se obtienen frecuencias
relativas conjuntas, ofreciendo otra forma de definir una distribución conjunta de frecuencias:

[(xi, yj) ; fij ] i=1..h j=1..k

4.3 DISTRIBUCIONES MARGINALES

Puede ocurrir que nos interese, a partir de la distribución bidimensional (conjunta) estudiar
aisladamente cada una de las variables. De esta forma tendíamos dos distribuciones
unidimensionales, que serían las distribuciones de X y de Y, llamadas distribuciones marginales.

Ambas se incluyen en la propia tabla de correlación o contingencia.

Para X:

Tabla 2: Distribución marginal de X


xi ni. fi.

x1 n1. f1.

x2 n2. f2.

3
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

... … …

xi ni. fi.

… … …

xh nh. fh.

Total N 1

Según que en la tabla de correlación utilicemos frecuencias absolutas o relativas.

Cumpliéndose para las frecuencias absolutas:

+ + + + + ∑

Y que: ∑

Análogamente para las frecuencias relativas:

+ + + + + ∑

Y que: ∑

Para Y:

Tabla 3: Distribución marginal de Y


yj n.j f.j

y1 n.1 f.1

y2 n.2 f.2

... … …

yi n.j f.j

… … …

yk n.k f.k

Total N 1

Cumpliéndose:

4
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

Respecto a las frecuencias absolutas:

+ + + + + ∑

Así como que: ∑

Respecto a las frecuencias relativas:

+ + + + + ∑

Así como que: ∑

Por lo tanto también se verifica que:

∑∑

Y que:

∑∑

4.4 DISTRIBUCIONES CONDICIONADAS

Son distribuciones unidimensionales que surgen al fijar en una variable bidimensional (X,Y) un
valor de una de las variables (condicionante) y considerar la distribución de valores de la otra
(condicionada). Es decir, se forman fijando previamente una condición.

Se obtienen así, k distribuciones condicionadas de X y h de Y; en total h+k:

o X/Y=yj para j=1…k

Tabla 4: Distribución condicionada de X/Y=yj para j=1…k


xi/yj ni/j fi/j

x1 n1j f1/j

x2 n2j f2/j

... … …

xi nij fi/j

5
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

… … …

xh nhj fh/j

Total n.j 1

Donde:

+ + + + + ∑

(únicamente se consideran
las frecuencias absolutas vinculadas a la condición.)

o Y/X=xi para i=1…h

Tabla 5: Distribución condicionada de Y/X=xi para i=1…h


yj/xi nj/i fj/i

y1 ni1 f1/i

y2 ni2 f2/i

... … …

yj nij fj/i

… … …

yk nik fk/i

Total ni. 1

Cumpliéndose:

+ + + + + ∑

6
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

4.5 INDEPENDENCIA ESTADÍSTICA

Se dice que la variable Y es independiente de la variable X cuando las “h” distribuciones


condicionadas Y/X=xi son iguales entre sí e iguales, a su vez, a la distribución marginal de Y.

Se dice que la variable X es independiente de la variable Y cuando las “k” distribuciones


condicionadas X/Y=yj son iguales entre sí e iguales, a su vez, a la distribución marginal de X.

 En el primer caso estamos afirmando que la variable X no afecta para nada a la variable Y,
mientras que en el segundo decimos que la variable Y no afecta para nada a la variable X

Ambas condiciones se resumen analíticamente en la condición necesaria y suficiente de


independencia (para distribuciones agrupadas por frecuencias):

La independencia es recíproca, de manera que si X es independiente de Y también Y lo es de X

En la práctica es muy difícil que se cumpla esta condición, aunque las variables no tengan nada
que ver

Como ya hemos comentado, en el extremo opuesto se encuentra la dependencia funcional, que se


establece a partir de una fórmula matemática.

Lo habitual en estadística es trabajar con variables cuyo grado de dependencia está comprendido
entre los dos extremos que acabamos de enunciar: la independencia estadística y la dependencia
funcional.

¿Qué problemas nos vamos a plantear? En este contexto, trataremos de analizar la relación
entre las variables, tanto en lo que respecta a la forma funcional que resulta más adecuada
como al grado de intensidad de la misma.

7
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

4.6 MOMENTOS

a) En observaciones sin agrupar:


(xi, yi) i=1..N

 Momentos con respecto al origen:

Los más empleados:

∑ ∑
̅ ̅

∑ ∑ ∑

 Momentos con respecto a la media:

∑ ̅ ̅

Los más empleados:

∑ ̅
̅

∑ ̅
̅ =

∑ ̅ ̅ ∑
̅̅

b) En observaciones agrupadas por frecuencias:


[(xi, yj) ; nij ] i=1..h j=1..k

 Momentos con respecto al origen:

∑ ∑
∑∑

8
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

 Momentos con respecto a la media:

∑∑ ̅ ( ̅)

Desarrollando para r y s obtendríamos los momentos empleados de manera más habitual


en uno y otro caso, tal y como se presentó en las distribuciones sin agrupar.

COVARIANZA

Al momento

∑∑ ̅ ( ̅)

se le llama covarianza y es una medida del grado de asociación lineal entre las variables X e Y.

Veamos el porqué:

Si representáramos cada par de observaciones xi, yj de la variable bidimensional por un punto en


el plano, la primera observación correspondería al eje de abcisas y la segunda al de ordenadas.

De esta forma, el conjunto de observaciones recogidas en la muestra conformaría lo que se llama


nube de puntos.

Si a continuación trazáramos dos ejes imaginarios por el punto ̅ ̅ las observaciones se


repartirían por los cuatro cuadrantes generados, resultando evidente que observaciones en los
cuadrantes I y III aportan sumandos positivos a la covarianza, mientras que puntos en los
cuadrantes II y IV suponen sumandos negativos para el cálculo de la covarianza.

En virtud de ello, una relación lineal positiva entre las variables, como la indicada en el gráfico,
conllevará la existencia de más puntos en los cuadrantes I y III y menos en los cuadrantes II y IV,
determinando una covarianza positiva. En el caso de una relación lineal perfecta todos los puntos
se situarían en los cuadrantes I y III y la covarianza alcanzaría su valor más alto.

De manera análoga, una covarianza negativa nos informaría de una relación lineal negativa entre
las variables, a partir de la cual valores altos en una de las variables se corresponden con
valores bajos en la otra.

Por lo tanto, una covarianza grande en valor absoluto indicará un mayor grado de asociación
lineal entre las variables. Por otra parte, el signo determinará el sentido de la relación: el mismo
si es positivo, el contrario si es negativo.

9
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

10
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

yj

x i 
- x  0 y j - y  0   x - x  0  y - y  0
i j
·
· · ··
II · · · I
· · · ··
y ··
III · · · IV
· · ·

·· · x i 
- x  0 y j - y  0 
x i 
- x  0 y j - y  0  x
xi

11
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

Ejemplo: Supongamos que del fenómeno familia se estudian las variables número de miembros
de la unidad familiar (X) y número de teléfonos móviles (Y). Para ello se seleccionan 35 familias y
se les pregunta por ambas variables. Una vez agrupadas las parejas de observaciones de la
variable (X,Y) en una tabla de correlación, el resultado ha sido:

Y: nº de teléfonos móviles por unidad familiar


X: nº de miembros de una unidad familiar

Tabla de correlación
Y
X 0 1 2 3 4 ni.
1 1 6 2 0 0 9
2 0 2 6 1 0 9
3 0 0 5 3 1 9
4 0 0 3 4 1 8
n.j 1 8 16 8 2 35

Tabla de correlación expresada en frecuencias relativas


Y
X 0 1 2 3 4 fi.
1 0,0286 0,1714 0,0571 0,0000 0,0000 0,2571
2 0,0000 0,0571 0,1714 0,0286 0,0000 0,2571
3 0,0000 0,0000 0,1429 0,0857 0,0286 0,2571
4 0,0000 0,0000 0,0857 0,1143 0,0286 0,2286
f.j 0,0286 0,2286 0,4571 0,2286 0,0571 1

Distribuciones marginales:
X:
xi ni. fi.
1 9 0,2571
2 9 0,2571
3 9 0,2571
4 8 0,2286
Totales 35 1,0000

Y:
yj n.j f.j
0 1 0,0286
1 8 0,2286
2 16 0,4571
3 8 0,2286
4 2 0,0571
Totales 35 1,0000
Distribuciones condicionadas (ejemplos):

12
Julio Hernández March y Miguel Ángel Marcos Estadística
Análisis estadístico de dos variables
Distribuciones Bidimensionales

Y/X=2
yj nj/i=2 fj/i=2
0 0 0,0000
1 2 0,2222
2 6 0,6667
3 1 0,1111
4 0 0,0000
Totales 9 1,0000

X/Y=3
xi ni/j=3 fi/j=3
1 0 0,0000
2 1 0,1250
3 3 0,3750
4 4 0,5000
Totales 8 1,0000

13

También podría gustarte