Está en la página 1de 17

CAPITULO 5

DISTRIBUCION DE FRECUENCIAS BIVARIANTES

“Solíamos pensar que si sabíamos lo que significaba uno, sabríamos lo que es dos,
porque uno y uno son dos. Ahora descubrimos que primero debemos aprender mucho
más sobre lo que significa Y.”
Sir Arthur Eddington (1882-1944)

Diremos que tenemos una muestra estadística bidimensional cuando sobre cada elemento
de la muestra se realiza la observación simultánea de dos caracteres. Por ejemplo, una
muestra bidimensional sería una serie de datos sobre altura y presión atmosférica, o la
edad y el peso de un grupo de individuos. Tendremos en este caso una variable
estadística bidimensional, representada por la pareja de símbolos (X, Y) y que en general,
para una muestra de elementos, podrá tomar los valores (𝑋1 ,𝑌1 ) (𝑋2 ,𝑌2 ) (𝑋3 ,𝑌3 ) . . . (𝑋𝑛 ,𝑌𝑛 )
Evidentemente, los caracteres representados por las variables X y Y no tienen por qué ser
del mismo tipo, pudiendo ser cada uno de ellos de tipo cuantitativo o cualitativo. Además
en el caso de ser ambas variables cuantitativas (caso en el que nos concentraremos en
nuestro análisis) cada una de ellas podrá ser continua o discreta. En este capıtulo se
describirá en primer lugar como se puede estudiar la distribución de frecuencias de una
variable bidimensional. Posteriormente se abordara el estudio de cómo se pueden analizar
las posibles relaciones entre los dos caracteres de una variable bidimensional. Hay que
indicar que el estudio de las variables bidimensionales es un caso particular de las
variables n-dimensionales, el cual se puede abordar con facilidad generalizando el
primero.

Distribuciones de frecuencias de una variable bidimensional


De la misma manera que el análisis de la distribución de frecuencias de una variable
unidimensional constituye un primer paso para la descripción estadística de la muestra, el
estudio de la distribución de frecuencias de una variable bidimensional es de gran utilidad.
Evidentemente este estudio solo tendrá sentido cuando tratemos con una variable discreta
en la que haya repetición de valores o una variable continua agrupada en intervalos.

Tabla de frecuencias de doble entrada


Al igual que en el caso unidimensional, el primer paso para el estudio de la distribución de
frecuencias es la construcción de una tabla de frecuencias. Supongamos que tenemos n
pares de medidas de una variable bidimensional (X,Y). Diremos que dos pares de medidas
serán iguales (o estarán repetidos) cuando coincidan ambas componentes. Supongamos
que X puede tomar los k valores distintos 𝑋1 , 𝑋2 , 𝑋3 , . . . , 𝑋𝑘 y que Y puede tomar h
valores distintos 𝑌1 , 𝑌2 , 𝑌3 , . . . , 𝑌ℎ , donde h no tiene por qué ser igual a k. Para construir
la tabla de frecuencias habrá que contabilizar el número de veces que cada par distinto de
la variable bidimensional aparece repetido, ordenándose dichos valores en la llamada
tabla de frecuencias de doble entrada, donde en las ordenadas se escriben los diferentes
valores de X y en abscisas los valores de Y:

Distribución de frecuencias absolutas bidimensional en forma simbólica de las


variables X y Y

𝑌𝑗 Total
𝑋𝑖
𝑌1 𝑌2 . . . 𝑌𝑗 . . . 𝑌ℎ nxi
𝑋1 𝑛11 𝑛12 . . . 𝑛1𝑗 . . . 𝑛1ℎ ∑ℎ1 𝑛1𝑗
𝑋2 𝑛21 𝑛22 . . . 𝑛2𝑗 . . . 𝑛2ℎ ∑ℎ1 𝑛2𝑗
. . . . . .
. . . . . .
. . . . . .
𝑋𝑖 𝑛𝑖1 𝑛𝑖2 . . . 𝑛𝑖𝑗 . . . 𝑛𝑖ℎ ∑ℎ1 𝑛𝑖𝑗
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
𝑋𝑘 𝑛𝑘1 𝑛𝑘2 . . . 𝑛𝑘𝑗 . . . 𝑛𝑘ℎ ∑ℎ1 𝑛𝑘𝑗
Total 𝑘
∑1 𝑛𝑖1 ∑𝑘1 𝑛𝑖2 . . . ∑𝑘1 𝑛𝑖𝑗 . . . ∑𝑘1 𝑛𝑖ℎ n
nyj

La suma de frecuencias conjuntas de 𝑋𝑘 es: 𝑛𝑘1 +𝑛𝑘2 + . . . +𝑛𝑘ℎ = ∑ℎ1 𝑛𝑘𝑗 ,


y la suma de las frecuencias marginales de la primera variable (𝑋𝑖 )
es ∑ℎ1 𝑛1𝑗 + ∑ℎ1 𝑛2𝑗 + . . . +∑ℎ1 𝑛𝑘𝑗 = ∑ℎ1(𝑛1𝑗 + 𝑛2𝑗 +. . . +𝑛𝑘𝑗 )=∑ℎ1 ∑𝑘1 𝑛𝑖𝑗 = n
y la suma de las frecuencias marginales de la segunda variable (𝑌𝑗 )
es: ∑𝑘1 𝑛𝑖1 +∑𝑘1 𝑛𝑖2 + . . . +∑𝑘1 𝑛𝑖ℎ = ∑𝑘1(𝑛𝑖1 + 𝑛𝑖2 +. . . +𝑛𝑖ℎ )=∑𝑘1 ∑ℎ1 𝑛𝑖𝑗 =n
En esta tabla 𝑛𝑖𝑗 es la frecuencia absoluta conjunta, o número de veces que se repite el
par (𝑋𝑖 ,𝑌𝑗 ). De la misma forma se podría construir una tabla de frecuencias relativas
𝑛𝑖𝑗
conjuntas escribiendo los valores ℎ𝑖𝑗 , definidos como ℎ𝑖𝑗 = 𝑛

Al igual que ocurre en las variables unidimensionales se cumplen las propiedades:


𝑛𝑖𝑗 ∑∑𝑛𝑖𝑗 𝑛
∑∑𝑛𝑖𝑗 = n, por definición ; ∑∑ℎ𝑖𝑗 = ∑∑ 𝑛 = =𝑛=1
𝑛

Distribución de frecuencias relativas bidimensional en forma simbólica de las


variables X y Y

𝑌𝑗 Total
𝑋𝑖
𝑌1 𝑌2 . . . 𝑌𝑗 . . . 𝑌ℎ ℎ𝑥𝑖
𝑋1 ℎ11 ℎ12 . . . ℎ1𝑗 . . . ℎ1ℎ ∑ℎ1 ℎ1𝑗 =ℎ𝑥1
𝑋2 ℎ21 ℎ22 . . . ℎ2𝑗 . . . ℎ2ℎ ∑ℎ1 ℎ2𝑗 =ℎ𝑥2
. . . . . .
. . . . . .
. . . . . .
𝑋𝑖 ℎ𝑖1 ℎ𝑖2 . . . ℎ𝑖𝑗 . . . ℎ𝑖ℎ ∑ℎ1 ℎ𝑖𝑗 =ℎ𝑥𝑖
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
𝑋𝑘 ℎ𝑘1 ℎ𝑘2 . . . ℎ𝑘𝑗 . . . ℎ𝑘ℎ ∑ℎ1 ℎ𝑘𝑗 =ℎ𝑥𝑘
ℎ𝑦𝑗 ∑𝑘1 ℎ𝑖1 ∑𝑘1 ℎ𝑖2 . . . ∑𝑘1 ℎ𝑖𝑗 . . . ∑𝑘1 ℎ𝑖ℎ 1

Ejemplo.- Mediante una encuesta realizada en el Municipio de Viacha se obtuvieron los


siguientes datos correspondientes al ingreso semanal (X en dólares) y gasto en consumo
también semanal (Y en dólares) de una muestra de 25 hogares. Elaborar la distribución de
frecuencias conjunta.
X: 80 90 85 70 70 95 85 100 160 70 88 73 78 90 140
Y: 65 75 75 70 65 80 80 88 150 60 66 70 68 75 100
X: 165 168 170 165 110 160 180 200 220 150
Y: 120 125 130 100 90 110 150 140 150 110
En primer lugar se determina la amplitud de clase para cada una de las dos variables
como sigue:
𝑅𝑋 𝑋𝑚𝑎𝑥 −𝑋𝑚𝑖𝑛 220−70 𝑅𝑌 𝑌𝑚𝑎𝑥 −𝑌𝑚𝑖𝑛 150−60
𝐶𝑋 = = = = 30$; 𝐶𝑌 = = = = 18$.
√𝑛 √25 5 √𝑛 √25 5

Con los datos anteriores se elabora la distribución de frecuencias absolutas bidimensional;


la cual, es la siguiente:
Distribución de frecuencias del ingreso y gasto semanal de una muestra de 25
hogares, extraída del Municipio de Viacha

Ingreso Gasto semanal (𝒀ʹ𝒋−𝟏 - 𝒀ʹ𝒋 )


TOTAL
semanal
60 – 78 78 - 96 96 - 114 114 - 132 132 – 150 𝒏𝒙𝒊
𝑿ʹ𝒊−𝟏 - 𝑿ʹ𝒊
70 - 100 10/0,40 2/0,08 12/0,48
100 - 130 2/0,08 2/0,08
130 - 160 2/0,08 2/0,08
160 - 190 2/0,08 3/0,12 2/0,08 7/0,28
190 - 220 2/0,08 2/0,08
𝒏𝒚𝒋 10/0,40 4/0,16 4/0,16 3/0,12 4/0,16 25/1,00

La interpretación de las frecuencias absolutas conjuntas (las más significativas) de la tabla


anterior es la siguiente:
 10 de los 25 hogares tienen ingreso semanal comprendido entre 70 y 100 $, cuyos
gastos varían entre 60 y 78 $.
 3 de los 25 hogares tienen ingresos comprendidos entre 160 y 190 $, cuyos gastos
varían entre 114 y 132 $.
 Etc.

La interpretación de algunas frecuencias absolutas marginales (totales de la última fila) es


la siguiente:
 10 de los 25 hogares tienen gasto semanal comprendido entre 60 y 78 $. Pero no
se conoce sus montos de ingreso.
 4 de los 25 hogares tienen ingreso semanal comprendido entre 78 y 96 $; pero no
se conoce sus montos de ingreso.
 Etc.
La interpretación de algunas de las frecuencias absolutas marginales (totales de la
última columna) es la siguiente:
 12 de los 25 hogares tienen ingreso semanal comprendido entre 70 y 100 $;
pero no se conoce sus montos de gasto.
 7 de los 25 hogares tienen ingreso semanal comprendido entre 160 y 190$; pero
no se conoce sus montos de gasto.
 Etc.

Distribuciones de frecuencias marginales

A veces es interesante analizar cuantas veces se repite un cierto valor de X sin tener en
cuenta para nada a los posibles valores de Y, o viceversa. Para estudiar cada una de las
componentes de la variable bidimensional aisladamente de la otra se definen las
frecuencias marginales 𝑛𝑥𝑖 y 𝑛𝑦𝑗 como: 𝑛𝑥𝑖 = ∑ℎ𝑗=1 𝑛𝑖𝑗 , y 𝑛𝑦𝑗 = ∑𝑘𝑖=1 𝑛𝑖𝑗 . De esta forma, 𝑛𝑥𝑖
representa el número de veces que X toma el valor 𝑋𝑖 , independientemente de los
posibles valores de Y, y lo mismo para 𝑛𝑦𝑗 .

A la distribución formada por los diferentes valores de X y sus frecuencias marginales se la


denomina distribución marginal de X. Normalmente las frecuencias marginales de X y de Y
se escriben respectivamente en la última columna y última fila de la tabla de frecuencias
de doble entrada. Su cálculo es muy sencillo ya que basta con sumar las correspondientes
frecuencias absolutas conjuntas de cada fila y columna.
𝑛𝑥𝑖
De la misma manera se pueden definir las frecuencias relativas marginales como: ℎ𝑥𝑖 =
𝑛
𝑛𝑦𝑗
y ℎ𝑦𝑗 = 𝑛

Algunas propiedades evidentes son: ∑𝑘1 𝑛𝑥𝑖 = n; ∑ℎ1 𝑛𝑦𝑗 = n; ∑𝑘1 ℎ𝑥𝑖 = 1 y ∑ℎ1 ℎ𝑦𝑗 = 1

Para caracterizar estas distribuciones marginales se pueden calcular sus medias y


2
∑𝑘
1 𝑋𝑖 𝑛𝑥𝑖
∑ℎ
1 𝑌𝑗 𝑛𝑦𝑗 ∑(𝑋𝑖−𝑋̅ )2 𝑛𝑥𝑖 ∑(𝑌𝑗 −𝑌̅) 𝑛𝑦𝑗
varianzas como: 𝑋̅ = ; 𝑌̅ = ; 𝑆𝑋2 = y 𝑆𝑌2 = , y las
𝑛 𝑛 𝑛 𝑛

desviaciones estándar son las correspondientes raíces cuadradas de las varianzas.

Se debe indicar que al evaluar las frecuencias marginales se está perdiendo información,
ya que se obvian las distribuciones en la otra parte de la variable. Es más, el análisis de
ambas distribuciones marginales no proporciona tanta información como la tabla de
frecuencias conjunta.
Ejemplo. Las distribuciones de frecuencias marginales y sus correspondientes
estadígrafos descriptivos más importantes son los siguientes:

Distribución marginal del ingreso semanal (X en dólares)

Ingreso ̅ )𝟐 𝒏𝒙𝒊 ̅ )𝟑 𝒏𝒙𝒊 ̅ )𝟒 𝒏𝒙𝒊


𝒏𝒙𝒊 𝑿𝒊 𝑿𝒊 𝒏𝒙𝒊 (𝑿 𝒊 − 𝑿 (𝑿 𝒊 − 𝑿 (𝑿 𝒊 − 𝑿
semanal

70 - 100 12 85 1.020 21.168 -889.056 37.340.352


100 - 130 2 115 230 288 -3.456 41.472
130 - 160 2 145 290 648 11.664 209.952
160 - 190 7 175 1.225 16.128 774.144 37.158.912
190 - 220 2 205 410 12.168 949.104 74.030.112
TOTAL 25 3.175 50.400 842.400 148.780.800

3.175 50,400
Media aritmética: 𝑋̅ = = 127$; Varianza: 𝑆𝑋2 = = 2.016 $2 ; Desviación Estándar:
25 25
842.400
𝑆𝑋 = √2.016 $2 = 44,90 $; Tercer Momento Centrado respecto a la media: 𝑀3 = =
25
148.780.800
33.696 $3 ; Cuarto Momento Centrado respecto a la media: 𝑀4 = = 5.951.232 $4 ;
25
33.696 $3 5.951.232$4
Coeficiente de Asimetría: 𝐶𝐴𝐹 = (44,90 $)3
= 0,37; Coeficiente de Curtosis: 𝐶𝐶4 = (44,90 $)4
=

1,46.

Por la información anterior, se establece que la distribución marginal del ingreso semanal
de la muestra de 25 hogares, presenta leve sesgo positivo y es mucho más aplanada que
la distribución normal.

Distribución marginal del gasto semanal (Y en dólares)

Gasto ̅ )𝟒 𝒏𝒚𝒋
𝒏𝒚𝒋 𝒀𝒋 ̅ )𝟐 𝒏𝒚𝒋 (𝒀𝒋 − 𝒀
𝒀𝒋 𝒏𝒚𝒋 (𝒀𝒋 − 𝒀 ̅ )𝟑 𝒏𝒚𝒋 (𝒀𝒋 − 𝒀
semanal
60 - 78 10 69 690 7.096,9 -189.061,3 5.036.593,3
78 - 96 4 87 348 298,6 -2.579,9 22.290,3
96 - 114 4 105 420 350,4 3.280,1 30.701,8
114 - 132 3 123 369 2.245,7 61.442,6 1.681.069,3
132 - 150 4 141 564 8.230,1 373.318,2 16.933.712,2
TOTAL 25 2.391 18.221,8 246.399,7 23.704.366,9
2.391 18.221,8
Media aritmética: 𝑌̅ = = 95,64 $; Varianza: 𝑆𝑌2 = = 728,87 $2 ; Desviación
25 25

Estándar: 𝑆𝑌 = √728,87 $2 = 27 $; Tercer Momento Centrado respecto a la media: 𝑀3 =


246.399,7 23.704.366,9
= 9.855,99 $3; Cuarto Momento Centrado respecto a la media: 𝑀4 = =
25 25
9.855,99 $3
948.174,68 $4; Coeficiente de Asimetría de Fisher: 𝐶𝐴𝐹 = (27 $)3
= 0,50; Coeficiente de
948.174,68 $4
Curtosis: 𝐶𝐶4 = (27 $)4
= 1,78.

Por la información anterior, se establece que la distribución marginal del gasto semanal de
la muestra de 25 hogares, como en el caso anterior presenta también leve sesgo positivo y
es mucho más aplanada que la distribución normal.

Distribuciones de frecuencias condicionadas

En muchos casos es importante conocer la distribución de la variable X para todos


aquellos pares de datos en los que la variable Y toma un cierto valor 𝑌𝑗 . Es decir, al
contrario que en las distribuciones marginales en que no importa el valor que tomase la
otra variable, ahora se fija dicho valor. A este conjunto de valores que puede tomar la
variable X para un cierto valor 𝑌𝑗 de Y se le denomina distribución de X condicionada a Y =
𝑌𝑗 y las correspondientes frecuencias absolutas se representan por n(𝑋𝑖 /𝑌 = 𝑌𝑗 ), cuyo
significado es, entonces, el número de veces que aparece repetido el valor 𝑋𝑖 entre
aquellos pares de datos que tiene Y = 𝑌𝑗 .

De la misma forma se puede definir la distribución de Y condicionada a X = 𝑋𝑖 . Los valores


de estas frecuencias absolutas condicionadas pueden extraerse directamente de la tabla
de doble entrada, ya que es claro que: n(𝑋𝑖 /𝑌 = 𝑌𝑗 ) = 𝑛𝑖𝑗 y n(𝑌𝑗 /𝑋 = 𝑋𝑖 ) = 𝑛𝑖𝑗 . Es decir, la
tabla de frecuencias para la distribución de X condicionada a Y = 𝑌𝑗 es:

𝑋𝑖 n(X/Y=𝑌𝑗 ) h(X/Y=𝑌𝑗 )
𝑋1 𝑛1𝑗 ℎ1𝑗
𝑋2 𝑛2𝑗 ℎ2𝑗
. . .
. . .
. . .
𝑋𝑖 𝑛𝑖𝑗 ℎ𝑖𝑗
. . .
. . .
. . .
𝑋𝑘 𝑛𝑘𝑗 ℎ𝑘𝑗
Total 𝑛𝑦𝑗 1
Para calcular las frecuencias relativas de X condicionadas a Y = 𝑌𝑗 habrá que dividir por el
número de datos que tiene Y = 𝑌𝑗 , es decir por la frecuencia marginal de 𝑌𝑗 (𝑛𝑦𝑗 ), que son:
𝑛(𝑋𝑖 /𝑌=𝑌𝑗 ) 𝑛𝑖𝑗 𝑛(𝑌𝑗 /𝑋=𝑋𝑖 ) 𝑛𝑖𝑗
h(𝑋𝑖 /Y=𝑌𝑗 ) = = 𝑛 ; y h(𝑌𝑗 /X =𝑋𝑖 ) = =𝑛
𝑛𝑦𝑗 𝑦𝑗 𝑛𝑥𝑖 𝑥𝑖

Como es fácil de comprobar, se cumplen las siguientes igualdades: ∑𝑘1 𝑛(𝑋𝑖 /𝑌 = 𝑌𝑗 ) = 𝑛𝑦𝑗 ;
∑ℎ1 𝑛(𝑌𝑗 /𝑋 = 𝑋𝑖 ) = 𝑛𝑥𝑖 ; ∑𝑘1 ℎ(𝑋𝑖 /𝑌 = 𝑌𝑗 ) = 1; y ∑ℎ1 ℎ(𝑌𝑗 /𝑋 = 𝑋𝑖 ) = 1

Ejemplo. Distribución de frecuencias del ingreso (X) con la condición de que el gasto (Y)
se encuentra comprendido entre 60 y 96 $

Ingreso Gasto Yj
TOTAL
Xi 60 - 78 78 - 96
70 - 100 10 2 12
100 – 130 2 2
130 – 160 0
160 – 190 0
190 – 220 0
TOTAL 10 4 ny = 69; 87= 14

En la tabla de distribución de frecuencias de la variable X, con la condición de que la otra


variable tome sus valores comprendidos entre 60 y 96, los tres últimos intervalos de X no
deben estar en la tabla anterior porque no tienen frecuencias absolutas conjuntas dentro
de la condición de Y.

Ejemplo. Distribución de frecuencias del gasto (Y) con la condición de que el ingreso (X)
se encuentra entre 160 y 220$

Gasto
Ingreso
60 – 78 78 - 96 96 - 114 114 - 132 132 - 150
160 - 190 2 3 2
190 - 220 2
TOTAL 0 0 2 3 4 nx = 175; 205= 9

Gasto semanal Frecuencias

96 - 114 2
114 - 132 3
132 - 150 4
Total 9
Representaciones graficas de las distribuciones de frecuencias bivariantes

Al igual que para las variables unidimensionales, existen diversas formas de representar
gráficamente los datos de una muestra bidimensional de forma que se pueda obtener una
idea rápida de cómo se distribuyen las frecuencias absolutas o relativas conjuntas de los
valores de las dos variables.

En el caso de variables discretas con repeticiones de valores y de datos agrupados en


intervalos, los diagramas más usuales son los diagramas de barras e histogramas
tridimensionales. Para ello se dibuja en perspectiva un plano XY donde se marcan los
valores de las variables y se levanta, en el caso del diagrama de barras (para variables
discretas), sobre cada par una barra de altura proporcional a la frecuencia absoluta o
relativa conjunta.

El histograma, para variables agrupadas en intervalos, se construye sustituyendo las


barras por paralelepípedos solapados. En general se hace que los volúmenes de los
paralelepípedos sean proporcionales a las frecuencias de cada intervalo o, para intervalos
de amplitud constante y de forma más sencilla, con alturas proporcionales a las
frecuencias absolutas o relativas conjuntas.

Cuando no existen valores repetidos y no se hace agrupamiento por intervalos, la


representación se realiza sobre un diagrama de dispersión. Este diagrama de dispersión
bidimensional se construye dibujando para cada par de (Xi,Yi) un punto sobre un plano
cartesiano. Como se muestra en el gráfico, este diagrama permite examinar de forma
rápida si puede haber alguna relación entre las dos variables.

Diagrama de Dispersión

La Covarianza

Es un estadígrafo de la forma como varían juntas las dos variables, cuya definición es la
media aritmética del producto de los desvíos de los valores de ambas variables respecto a
sus correspondientes medias aritméticas; o sea:
∑∑[(𝑋𝑖 −𝑋̅)(𝑌𝑗 −𝑌̅)]𝑛𝑖𝑗 ∑∑[(𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 −𝑌̅𝑋𝑖 𝑛𝑖𝑗 −𝑋̅ 𝑌𝑗 𝑛𝑖𝑗 +𝑋̅ 𝑌̅ 𝑛𝑖𝑗 )] ∑∑𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 𝑌̅ ∑∑𝑋𝑖 𝑛𝑖𝑗 𝑋̅ ∑∑𝑌𝑗 𝑛𝑖𝑗
𝑆𝑋𝑌 = = = - - +
𝑛 𝑛 𝑛 𝑛 𝑛
𝑋̅ 𝑌̅ ∑∑𝑛𝑖𝑗 ∑∑𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 ∑∑𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗
= - 𝑌̅ 𝑋̅ - 𝑋̅𝑌̅ + 𝑋̅𝑌̅ = - 𝑋̅𝑌̅ = M(XY) – M(X)M(Y)
𝑛 𝑛 𝑛

Por la última expresión del lado derecho, la covarianza podrá ser positiva, negativa o nula:

i) Si es positiva, esto significa que ambas variables varían en la misma dirección; es decir,
cuando una se incrementa la otra también se incrementa, un ejemplo de este tipo de
variación es cuando se relaciona el gasto en consumo con el ingreso disponible de un
conjunto de hogares; es decir, cuando se incrementa el ingreso disponible, se incrementa
el gasto o viceversa.

ii) Si la covarianza es negativa, esto indica que cuando una de las variables se incrementa,
la otra disminuye, o viceversa; un ejemplo típico es cuando se relaciona la cantidad de
demanda de un bien o servicio con su precio unitario; es decir, cuando sube su precio
unitario, disminuye la cantidad de demanda y cuando baja el precio unitario sube la
cantidad de demanda.

iii) La covarianza es nula cuando los dos términos de la segunda ecuación anterior son
iguales. En este caso, se dice que las variables son independientes.

∑∑𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 332.385


𝑆𝑋𝑌 = - 𝑋̅𝑌̅ = 25 - (127)(95,64) = 13.295,4 – 12.146,3 = 1.149,10 $𝑢𝑠 2
𝑛

La covarianza para el ejemplo de ingresos y gastos semanales de la muestra de 25


hogares, resulta 1.149.10 $2 ; cuyo resultado indica que ambas variables varían en la
misma dirección; es decir, cuando el ingreso se incrementa el gasto semanal del hogar se
incrementa y cuando el ingreso semanal de un hogar disminuye, el gasto de este hogar
también disminuye.
Gasto semanal (𝒀𝒋 )
TOTAL
Ingreso semanal (𝑿𝒊 ) 60 – 78 78 – 96 96 – 114 114 – 132 132 – 150
𝒏𝒙𝒊
Y1 = 69 Y2 = 87 Y3 = 105 Y4 = 123 Y5 = 141
70 - 100 X1 = 85 10 2 12
100 – 130 X2 = 115 2 2
130 – 160 X3 = 145 2 2
160 – 190 X4 = 175 2 3 2 7
190 – 220 X5 = 205 2 2
𝒏𝒚𝒋 10 4 4 3 4 25

𝑿𝒊 𝒀𝒋 𝒏𝒊𝒋 𝑿𝒊 𝒏𝒊𝒋 𝒀𝒋 𝒏𝒊𝒋 𝑿𝟐𝒊 𝒏𝒊𝒋 𝒀𝟐𝒋 𝒏𝒊𝒋 𝑿𝒊 𝒀𝒋 𝒏𝒊𝒋


85 69 10 850 690 72.250 47.610 58.650
85 87 2 170 174 14.450 15.138 14.790
115 87 2 230 174 26.450 15.138 20.010
145 105 2 290 210 42.050 22.050 30.450
175 105 2 350 210 61.250 22.050 36.750
175 123 3 525 369 91.875 45.387 64.575
175 141 2 350 282 61.250 39.762 49.350
205 141 2 410 282 84.050 39.762 57.810
TOTAL 25 3.175 2.391 453.625 246.897 332.385

El Coeficiente de Correlación

Un estadígrafo adimensional de la forma como varían juntas dos variables, se denomina


𝑆𝑋𝑌
Coeficiente de Correlación, que por definición está dado como sigue: 𝑟𝑥𝑦 =
𝑆𝑋 𝑆𝑌
El valor de este coeficiente es adimensional; ya que, la covarianza está dada en la unidad
de medida de la variable al cuadrado y en el denominador también; luego, el valor del
coeficiente de correlación se encuentra entre -1 y 1; por lo que, mide el grado de
correlación o el grado de dependencia existente entre las dos variables.

 Cuando el valor de r se encuentra cerca de +1, esto significa la existencia de alta


dependencia directa entre las dos variables; es decir, cuando X se incrementa en
una magnitud, la otra variable (Y) se incrementa de una forma importante.

 Cuando el valor de r se encuentra cerca de -1, esto significa la existencia de alta


dependencia inversa entre las dos variables; es decir, cuando X se incrementa en
una magnitud la otra variable (Y) disminuye de una forma importante, pero en forma
inversa.
 Cuando el valor de r se encuentra cerca de cero, se dice que la correlación o
dependencia de ambas variables es baja.

 Cuando el valor de r es igual a cero se dice que las dos variables son
independientes.

El Coeficiente de Correlación para el ejemplo de ingresos y gastos semanales de la


1.149,10 $2 1.149,1
muestra de 25 hogares resulta: 𝑟𝑥𝑦 = (44,9 $)(27 $)
= = 0,948. Debido a que este
1.212,3
resultado es próximo a la unidad, esto quiere decir que existe alta correlación o
dependencia positiva entre el ingreso y el gasto en consumo; es decir, cuando se
incrementa el ingreso disponible, se incrementa el gasto en consumo sustancialmente.

Otra forma alternativa de calcular el valor del coeficiente de correlación es utilizando una
ecuación equivalente a la expresada por definición; una de ellas es la siguiente:

̅ )(𝑌 −𝑌
∑[(𝑋𝑖 −𝑋 ̅ )] ̅ −𝑋
∑(𝑋𝑖 𝑌𝑖 −𝑋𝑖 𝑌 ̅ 𝑌 +𝑋
̅𝑌̅)
𝑖 𝑖
𝑆𝑋𝑌 𝑛 𝑛
𝑟𝑥𝑦 = = = =
𝑆𝑋 𝑆𝑌
̅ 2 ̅ )2 ∑(𝑋2 ̅ ̅2 2 ̅ ̅2
𝑖 −2𝑋𝑖 𝑋+𝑋 ) ∑(𝑌𝑖 −2𝑌𝑖 𝑌+𝑌 )
√∑(𝑋𝑖 −𝑋) ∗
∑(𝑌𝑖 −𝑌 √ ∗
𝑛 𝑛 𝑛 𝑛
∑ 𝑋𝑖 𝑌𝑖 −𝑌̅ ∑ 𝑋 −𝑋̅ ∑ 𝑌 +𝑛𝑋
̅𝑌̅
𝑖 𝑖
𝑛 ∑ 𝑋𝑖 𝑌𝑖 −𝑌̅ ∑ 𝑋𝑖 −𝑋̅ ∑ 𝑌𝑖 +𝑛𝑋̅𝑌̅
∑ 𝑋2 −2𝑋̅ ∑ 𝑋 +𝑛𝑋 ̅ 2 ∑ 𝑌2 −2𝑌 ̅2
̅ ∑ 𝑌 +𝑛𝑌
= ; multiplicando y
√ 𝑖 𝑖
∗ 𝑖 𝑖 √[∑ 𝑋𝑖2 −2𝑋̅ ∑ 𝑋𝑖 +𝑛𝑋̅ 2 ][∑ 𝑌𝑖2 −2𝑌̅ ∑ 𝑌𝑖 +𝑛𝑌̅ 2 ]
𝑛 𝑛

dividiendo por n tanto el numerador como dentro de la raíz cuadrada del denominador, se
∑ 𝑋𝑖 𝑌𝑖 −𝑛𝑋̅𝑌̅
obtiene el siguiente resultado: 𝑟𝑥𝑦 =
√[∑ 𝑋𝑖2 −𝑛𝑋̅ 2 ][∑ 𝑌𝑖2 −𝑛𝑌̅ 2 ]

332.385−(25)(127)(95,64) 332.385−303.657 28.728


𝑟𝑥𝑦 = = =30.304,731 = 0,948.
√[453.625−(25)1272 ][246.897−(25)95,64 2 ] √(50.400)(18.221,76)

Como se observa, los resultados obtenidos para el coeficiente de correlación con la


formula dada por definición y la formula equivalente obtenida de esta son iguales; es decir,
𝑟𝑥𝑦 = 0,948.

Problemas resueltos

1. Una compañía realiza un estudio de la relación entre el tiempo de servicio (X en años)


de un cierto tipo de máquinas y el gasto anual en mantenimiento y reparaciones (Y en
miles de Bs.) de esas máquinas. Los datos obtenidos se muestran en la siguiente tabla:
X
1–5 5–9 9 – 13
Y
10 – 30 30 9 12
30 – 50 0 24 21
50 – 70 0 0 15
70 – 90 0 0 39

a) Hallar el gasto medio para el conjunto de las máquinas, b) Hallar el tiempo medio de
servicio de las máquinas, c) Hallar las varianzas marginales, la covarianza y el coeficiente
de correlación.

Solucion.
𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖 𝑛𝑖𝑗 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖2 𝑛𝑖𝑗 𝑌𝑗2 𝑛𝑖𝑗 𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗
3 20 30 90 600 270 12.000 1.800
7 20 9 63 180 441 3.600 1.260
11 20 12 132 240 1.452 4.800 2.640
7 40 24 168 960 1.176 38.400 6.720
11 40 21 231 840 2.541 33.600 9.240
11 60 15 165 900 1.815 54.000 9.900
11 80 39 429 3.120 4.719 249.600 34.320
Totales 150 1.278 6.840 12.414 396.000 65.880

∑𝑘
1 𝑋𝑖 𝑛𝑖𝑗 ∑ℎ
1 𝑌𝑗 𝑛𝑖𝑗 ∑(𝑋𝑖 −𝑋̅)2𝑛𝑖𝑗 ∑ 𝑋𝑖2 𝑛𝑖𝑗
Las formulas a utilizar son las siguientes: 𝑋̅ = ; 𝑌̅ = ; 𝑆𝑋2 = = -
𝑛 𝑛 𝑛 𝑛
2 2
∑(𝑌𝑗 −𝑌̅) 𝑛𝑖𝑗 ∑ 𝑌𝑖 𝑛𝑖𝑗 ∑∑𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 𝑆𝑋𝑌
𝑋̅ 2 ; 𝑆𝑌2 = = - 𝑌̅ 2 ; 𝑆𝑋𝑌 = - 𝑋̅𝑌̅; 𝑟𝑥𝑦 =
𝑛 𝑛 𝑛 𝑆𝑋 𝑆𝑌

1.278 6.840
𝑋̅ = = 8,52 años es el tiempo medio de servicio; 𝑌̅= = 45,6 miles de bolivianos es el
150 150
12.440
gasto medio anual por mantenimiento y reparaciones; 𝑆𝑋2 = -(8,52)2 = 82,93- 72,59 = 10,34;
150
396.000
𝑆𝑋 = 3,22 𝑆𝑌2 = - (45,6)2 = 2.640 – 2.079,36 = 560,64; 𝑆𝑌 = 23,68
150
65.880 50,59 50,59
𝑆𝑋𝑌 = - (8,52)(45,6) = 439,2 – 388,61 = 50,59; 𝑟𝑥𝑦 = (3,22)(23,68)
= = 0,6635; 𝑅 2 = 0,44
150 76,25

(44%). Existe baja correlación o baja dependencia entre el gasto de mantenimiento y reparación
anual (Y en miles de Bs.), con el tiempo de servicio (X en años).
2. Una empresa realiza un estudio de la relación entre el número de accidentes por año
(X) de los trabajadores y la edad (Y en años) de los mismos. Los resultados se muestran
en la siguiente distribución de frecuencias bidimensional:

X
0 1 2 3
Y
17 – 21 20 15 25 30
21 – 41 5 20 0 0
41 – 61 5 0 0 0
Calcular los siguientes estadígrafos descriptivos: a) La edad media para el conjunto de los
trabajadores, b) El número medio de accidentes de los trabajadores, c) Las varianzas y las
desviaciones estándar marginales y el coeficiente de correlación, d) La edad media y la
desviación estándar para los trabajadores sin ningún accidente.

Solucion.
𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖 𝑛𝑖𝑗 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖2 𝑛𝑖𝑗 𝑌𝑗2 𝑛𝑖𝑗 𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗
0 19 20 0 380 0 7.220 0
0 31 5 0 155 0 4.805 0
0 51 5 0 255 0 13.005 0
1 19 15 15 285 15 5.415 285
1 31 20 20 620 20 19.220 620
2 19 25 50 475 100 9.025 950
3 19 30 90 570 270 10830 1.710
Totales 120 175 2.740 405 69.520 3.565

175 2.740
𝑋̅ = = 1,46 número de accidentes medio por año; 𝑌̅= = 22,83 años edad media de los
120 120
405 69.520
trabajadores; 𝑆𝑋2 = - (1,46)2 = 3,38 - 2,13 = 1,25; 𝑆𝑋 = 1,12 accidentes, 𝑆𝑌2 = - (22,83)2 =
120 120

579,33 – 521,21 = 58,12; 𝑆𝑌 = 7,62 años.


3.565 −3,62 −3,62
𝑆𝑋𝑌 = - (1,46)(22,83) = 29,71 – 33,33 = -3,62; 𝑟𝑥𝑦 = (1,12)(7,62)
= = - 0,424; 𝑅 2 = 0,18
120 8,53

(18%). Existe extremadamente baja correlación o extremadamente baja dependencia entre el


número de accidentes (X), con la edad de los trabajadores (Y en años).

3. Mediante una encuesta realizada en una determinada localidad se obtuvo los siguientes
datos correspondientes al ingreso semanal (X en dólares) y gasto en consumo también
semanal (Y en dólares) de una muestra de 36 hogares, a) Elaborar la distribución de
frecuencias bidimensional, b) Elaborar las distribuciones de frecuencias marginales, c)
Calcular las medias y las desviaciones estándar marginales, d) Calcular la covarianza e
interpretar su resultado, e) Calcular el coeficiente de correlación e interpretar su resultado.

X: 80 90 85 70 70 95 85 100 160 65 88 130


Y: 60 75 75 70 60 65 80 88 150 65 66 70
X: 165 168 170 165 110 160 180 200 220 150 120 110
Y: 120 125 130 100 90 110 150 140 150 110 95 110
X: 78 90 140 90 115 125 140 130 100 148 200 160
Y: 68 75 100 110 90 120 80 110 120 130 130 110

4.- En un centro médico de la ciudad de La Paz, el número de consultas médicas por


semana realizada en medicina general (Y) y la edad de los pacientes (X en años) se
relacionan según la información presentada en la siguiente distribución de frecuencias
bidimensional:
X
21 - 31 31 - 41 41 - 51 51 - 61 61 – 71
Y
1 12 - - - -
2 15 - - - -
3 - 9 12 - -
4 - 9 18 15 18
5 - - - 18 24

a) Elaborar las distribuciones de frecuencias marginales, b) Calcular las medias y las


desviaciones estándar marginales, c) Calcular la covarianza y el coeficiente de correlación
entre las dos variables, d) ¿La correlación entre las dos variables es directa o inversa?.

Solucion.
𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖 𝑛𝑖𝑗 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖2 𝑛𝑖𝑗 𝑌𝑗2 𝑛𝑖𝑗 𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗
26 1 12 312 12 8.112 12 312
26 2 15 390 30 10.140 60 780
36 3 9 324 27 11.664 81 972
36 4 9 324 36 11.664 144 1.296
46 3 12 552 36 25.392 108 1.656
46 4 18 828 72 38.088 288 3,312
56 4 15 840 60 47.040 240 3.360
56 5 18 1,008 90 56.448 450 5.040
66 4 18 1.188 72 78.408 288 4.752
66 5 24 1.584 120 104.544 600 7.920
Totales 150 7.350 555 391.500 2.271 29.400

7.350 555 391.500 2.271


𝑋̅ = = 49; 𝑌̅= = 3,7; 𝑆𝑋2 = - (49)2 = 2.610 – 2.401 = 209; 𝑆𝑋 = 14,46; 𝑆𝑌2 = –
150 150 150 150

29.400
(3,7)2 = 15,14 – 13,69 = 1,45; 𝑆𝑌 = 1,20; 𝑆𝑋𝑌 = - (49)(3,7) = 196 – 181,3 = 14,7; 𝑟𝑥𝑦 =
150
14,7 14,7
(14,46)(1,20)
= = 0,847; 𝑅 2 = 0,717 (71.7%).
17,35

Por el valor del coeficiente de correlación existe aceptable dependencia entre las dos variables y
por el valor del coeficiente de determinación (𝑅 2 ), se estima que el 71.7% de las variaciones de la
variable dependiente es explicada por las variaciones de la variable independiente.

5. Para la siguiente distribución de frecuencias absolutas, referida a la edad de la madre


(X en años) y el número de hijos (Y) de una muestra de 200 hogares:

Determinar: a) La proporción de hogares con hasta 3 hijos, b) El porcentaje de hogares


cuya edad de las madres es menor a 20 años, c) Qué porcentaje de hogares tienen
madres con edad mayor a 37 años, d) Calcular el coeficiente de correlación y el de
determinación y realizar un comentario sobre los resultados.
X
10 - 20 20 - 30 30 – 40 40 – 50
Y
0 8 24 - -
1 8 32 24 -
2 - 24 20 24
3 - - 20 8
4 - - 8 -

Solucion.

𝑌𝑗 𝑛𝑗 ℎ𝑗 𝑋𝑖−1 -𝑋𝑖′ 𝑛𝑖 ℎ𝑖 𝐻𝑖
0 32 0.16 10 a 20 16 0.08 0,08
1 64 0.32 20 a 30 80 0.40 0,48
2 68 0.34 30 a 40 72 0.36 0,84
3 28 0.14 40 a 50 32 0.16 1,00
4 8 0.04 Total 200 1.00
Total 200 1.00

a) Proporción de hogares con hasta 3 hijos: 𝐻4 = 0,16 + 0,32 + 0,34 + 0,14 = 0,96
b) Porcentaje de madres con edad menor a 20 años (de 10 a 19.9 años): 8%
c) Para realizar la respuesta se debe utilizar la ecuación de una centila, o sea:
𝑟 𝑟
− 𝐻𝑗−1 − 𝐻𝑗−1
′ ′
𝐶 𝑟 = 𝑌𝑗−1 + 𝑐𝑗 (100 ); intercambiando los lados se tiene: 𝑌𝑗−1 + 𝑐𝑗 (100 )=𝐶 𝑟 ;
100 ℎ𝑗 ℎ𝑗 100

37 años de edad se encuentra en el intervalo 30 a 40; el cual, es el j esimo intervalo;


𝑟−0,48
luego, sustituyendo los datos se tiene: 30 + 10( ) = 37. Realizando los cálculos
0,36

sencillos se obtiene:10,8 + 10r – 4,8 = 13,32; 10r = 7,32; r = 0,732; o sea, el 73,2% de las
madres de esa muestra tienen hasta 37 años de edad; por lo que, el 26,8% (100 – 73,2)
de las madres tienen más de 37 años de edad, en otras palabras el 26,8% de las madres
tienen más de 37 hasta 50 años de edad.
6.200 316 206.600
d) 𝑋̅ = = 31 años; 𝑌̅= = 1,58 ≅ 2 hijos; 𝑆𝑋2 = - (31)2 = 1.033 – 961 = 72; 𝑆𝑋 = 8,49
200 200 200
716 10.820
años; 𝑆𝑌2 = - (1,58)2 = 3,58 – 2,50 = 1,08; 𝑆𝑌 = 1,04 hijos; 𝑆𝑋𝑌 = - (31)(1,58) = 54,1 –
200 200
5,12 5,12
48,98 = 5,12; 𝑟𝑥𝑦 = (8,49)(1,04) = = 0,58; 𝑅 2 = 0,336 (33.6%).
8,83

Por el valor del coeficiente de correlación existe baja dependencia entre las dos variables y por el
valor del coeficiente de determinación (𝑅 2 ), se estima que solo el 33.6% de las variaciones de la
variable dependiente (número de hijos) es explicada por las variaciones de la variable
independiente (edad de la madre en años).
𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖 𝑛𝑖𝑗 𝑌𝑗 𝑛𝑖𝑗 𝑋𝑖2 𝑛𝑖𝑗 𝑌𝑗2 𝑛𝑖𝑗 𝑋𝑖 𝑌𝑗 𝑛𝑖𝑗
15 0 8 120 0 1.800 0 0
15 1 8 120 8 1.800 8 120
25 0 24 600 0 15.000 0 0
25 1 32 800 32 20.000 32 800
25 2 24 600 48 15.000 96 1.200
35 1 24 840 24 29.400 24 840
35 2 20 700 40 24.500 80 1.400
35 3 20 700 60 24.500 180 2.100
35 4 8 280 32 9.800 128 1.120
45 2 24 1.080 48 48.600 96 2.160
45 3 8 360 24 16.200 72 1.080
Totales 200 6.200 316 206.600 716 10.820

También podría gustarte