Documentos de Académico
Documentos de Profesional
Documentos de Cultura
“Solíamos pensar que si sabíamos lo que significaba uno, sabríamos lo que es dos,
porque uno y uno son dos. Ahora descubrimos que primero debemos aprender mucho
más sobre lo que significa Y.”
Sir Arthur Eddington (1882-1944)
Diremos que tenemos una muestra estadística bidimensional cuando sobre cada elemento
de la muestra se realiza la observación simultánea de dos caracteres. Por ejemplo, una
muestra bidimensional sería una serie de datos sobre altura y presión atmosférica, o la
edad y el peso de un grupo de individuos. Tendremos en este caso una variable
estadística bidimensional, representada por la pareja de símbolos (X, Y) y que en general,
para una muestra de elementos, podrá tomar los valores (𝑋1 ,𝑌1 ) (𝑋2 ,𝑌2 ) (𝑋3 ,𝑌3 ) . . . (𝑋𝑛 ,𝑌𝑛 )
Evidentemente, los caracteres representados por las variables X y Y no tienen por qué ser
del mismo tipo, pudiendo ser cada uno de ellos de tipo cuantitativo o cualitativo. Además
en el caso de ser ambas variables cuantitativas (caso en el que nos concentraremos en
nuestro análisis) cada una de ellas podrá ser continua o discreta. En este capıtulo se
describirá en primer lugar como se puede estudiar la distribución de frecuencias de una
variable bidimensional. Posteriormente se abordara el estudio de cómo se pueden analizar
las posibles relaciones entre los dos caracteres de una variable bidimensional. Hay que
indicar que el estudio de las variables bidimensionales es un caso particular del de las
variables n-dimensionales, el cual se puede abordar con facilidad generalizando el
primero.
𝑌𝑗
𝑋𝑖 Total
𝑌1 𝑌2 . . . 𝑌𝑗 . . . 𝑌ℎ
𝑋1 𝑛11 𝑛12 . . . 𝑛1𝑗 . . . 𝑛1ℎ ∑ℎ1 𝑛1𝑗
𝑋2 𝑛21 𝑛22 . . . 𝑛2𝑗 . . . 𝑛2ℎ ∑ℎ1 𝑛2𝑗
. . . . . .
. . . . . .
. . . . . .
𝑋𝑖 𝑛𝑖1 𝑛𝑖2 . . . 𝑛𝑖𝑗 . . . 𝑛𝑖ℎ ∑ℎ1 𝑛𝑖𝑗
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
𝑋𝑘 𝑛𝑘1 𝑛𝑘2 . . . 𝑛𝑘𝑗 . . . 𝑛𝑘ℎ ∑ℎ1 𝑛𝑘𝑗
Total ∑ℎ1 𝑛𝑖1 ∑ℎ1 𝑛𝑖2 . . . ∑ℎ1 𝑛𝑖𝑗 . . . ∑ℎ1 𝑛𝑖ℎ n
En esta tabla 𝑛𝑖𝑗 es la frecuencia absoluta conjunta, o número de veces que se repite el
par (𝑋𝑖 ,𝑌𝑗 ). De la misma forma se podría construir una tabla de frecuencias relativas
𝑛𝑖𝑗
escribiendo los valores ℎ𝑖𝑗 , definidos como ℎ𝑖𝑗 =
𝑛
En primer lugar se determina la amplitud de clase para cada una de las dos variables
como sigue:
𝑅 𝑋 −𝑋 220−70 𝑅 𝑌 −𝑌 150−60
𝐶𝑋 = 𝑋𝑛 = 𝑚𝑎𝑥 𝑚𝑖𝑛 = 5 = 30$; 𝐶𝑌 = 𝑌𝑛 = 𝑚𝑎𝑥 𝑚𝑖𝑛 = 5 = 18$.
√ √25 √ √25
A veces es interesante analizar cuantas veces se repite un cierto valor de X sin tener en
cuenta para nada a los posibles valores de Y, o viceversa. Para estudiar cada una de las
componentes de la variable bidimensional aisladamente de la otra se definen las
frecuencias marginales 𝑛𝑥𝑖 y 𝑛𝑦𝑗 como: 𝑛𝑥𝑖 = ∑ℎ𝑗=1 𝑛𝑖𝑗 , y 𝑛𝑦𝑗 = ∑𝑘𝑖=1 𝑛𝑖𝑗 . De esta forma, 𝑛𝑥𝑖
representa el número de veces que X toma el valor 𝑋𝑖 , independientemente de los
posibles valores de Y, y lo mismo para 𝑛𝑦𝑗 .
Algunas propiedades evidentes son: ∑𝑘1 𝑛𝑥𝑖 = n; ∑ℎ1 𝑛𝑦𝑗 = n; ∑𝑘1 ℎ𝑥𝑖 = 1 y ∑ℎ1 ℎ𝑦𝑗 = 1
Hay que indicar que al evaluar las frecuencias marginales se está perdiendo información,
ya que se obvian las distribuciones en la otra parte de la variable. Es más, el análisis de
ambas distribuciones marginales no proporciona tanta información como la tabla de
frecuencias conjunta.
3.175 50,400
Media aritmética: 𝑋̅ = = 127$; Varianza: 𝑆𝑋2 = = 2.016 $2 ; Desviación Estándar:
25 25
842.400
𝑆𝑋 = √2.016 = 44,90$; Tercer Momento Centrado respecto a la media: 𝑀3 = =
25
148.780.800
33.696; Cuarto Momento Centrado respecto a la media: 𝑀4 = = 5.951.232;
25
33.696 5.951.232
Coeficiente de Asimetría: 𝐶𝐴3 = (44,9)3
= 0,37; Coeficiente de Curtosis: 𝐶𝐶4 = (44,9)4
=
1,46.
Por la información anterior, se establece que la distribución marginal del ingreso semanal
de la muestra de 25 hogares, presenta leve sesgo positivo y es mucho más aplanada que
la distribución normal.
2.391 18.221,8
Media aritmética: 𝑌̅ = = 95,64$; Varianza: 𝑆𝑌2 = = 728,87$2 ; Desviación
25 25
Por la información anterior, se establece que la distribución marginal del gasto semanal de
la muestra de 25 hogares, como en el caso anterior presenta también leve sesgo positivo y
es mucho más aplanada que la distribución normal.
𝑋𝑖 n(X/Y=𝑌𝑗 ) h(X/Y=𝑌𝑗 )
𝑋1 𝑛1𝑗 ℎ1𝑗
𝑋2 𝑛2𝑗 ℎ2𝑗
. . .
. . .
. . .
𝑋𝑖 𝑛𝑖𝑗 ℎ𝑖𝑗
. . .
. . .
. . .
𝑋𝑘 𝑛𝑘𝑗 ℎ𝑘𝑗
Total n 1
Para calcular las frecuencias relativas de X condicionadas a Y = 𝑌𝑗 habrá que dividir por el
número de datos que tienen Y = 𝑌𝑗 , es decir por la frecuencia marginal de 𝑌𝑗 (𝑛𝑦𝑗 ), que son:
𝑛(𝑋𝑖 /𝑌=𝑌𝑗 ) 𝑛𝑖𝑗 𝑛(𝑌𝑗 /𝑋=𝑋𝑖 ) 𝑛𝑖𝑗
h(𝑋𝑖 /Y=𝑌𝑗 ) = = 𝑛 ; y h(𝑌𝑗 /X =𝑋𝑖 ) = =𝑛
𝑛𝑦𝑗 𝑦𝑗 𝑛𝑥𝑖 𝑥𝑖
Como es fácil de comprobar, se cumplen las siguientes igualdades: ∑𝑘1 𝑛(𝑋𝑖 /𝑌 = 𝑌𝑗 ) = 𝑛𝑦𝑗 ;
∑ℎ1 𝑛(𝑌𝑗 /𝑋 = 𝑋𝑖 ) = 𝑛𝑥𝑖 ; ∑𝑘1 ℎ(𝑋𝑖 /𝑌 = 𝑌𝑗 ) = 1; y ∑ℎ1 ℎ(𝑌𝑗 /𝑋 = 𝑋𝑖 ) = 1
Ejemplo.- Distribución de frecuencias del ingreso (X) con la condición de que el gasto (Y)
se encuentra comprendido entre 60 y 96$
Gasto
Ingreso TOTAL
60 - 78 78 - 96
70 - 100 10 2 12
100 – 130 2 2
130 – 160 0
160 – 190 0
190 – 220 0
TOTAL 10 4 14
Ejemplo.- Distribución de frecuencias del gasto (Y) con la condición de que el ingreso (X)
se encuentra entre 160 y 220$
Gasto
Ingreso TOTAL
60 - 78 78 - 96 96 - 114 114 - 132 132 - 150
160 - 190 2 3 2 7
190 - 220 2 2
TOTAL 0 0 2 3 4 9
Representaciones graficas
Al igual que para las variables unidimensionales, existen diversas formas de representar
gráficamente los datos de una muestra bidimensional de forma que se pueda obtener una
idea rápida de cómo se distribuyen los valores.
La Covarianza.- Es una medida de la forma como varían juntas las dos variables, cuya
definición es la media aritmética del producto de los desvíos de los valores de ambas
variables respecto a sus correspondientes medias aritméticas; o sea:
∑∑[(𝑋𝑖 −𝑋̅)(𝑌𝑗 −𝑌̅)]𝑛𝑖𝑗 ∑∑𝑋𝑖 𝑌𝑗𝑛𝑖𝑗
𝑆𝑋𝑌 = = - 𝑋̅ 𝑌̅
𝑛 𝑛
Por la segunda expresión, la covarianza podrá ser positiva, negativa o nula:
i) Si es positiva, esto significa que ambas varían en la misma dirección; es decir, cuando
una se incrementa la otra también se incrementa, un ejemplo de este tipo de variación es
cuando se relaciona el gasto en consumo con el ingreso disponible de un conjunto de
hogares; es decir, cuando se incrementa el ingreso disponible, se incrementa el gasto o
viceversa.
ii) Si la covarianza es negativa, esto indica que cuando una de las variables se incrementa,
la otra disminuye, o viceversa; un ejemplo típico es cuando se relaciona la cantidad de
demanda de un bien o servicio con su precio unitario; es decir, cuando sube su precio
unitario, disminuye la cantidad de demanda y cuando baja el precio unitario sube la
cantidad de demandada.
iii) La covarianza es nula cuando los dos términos de la segunda ecuación anterior son
iguales. En este caso, se dice que las variables son independientes.
El Coeficiente de Correlación
𝑆 𝑛 ∑ 𝑋𝑖 𝑌𝑖 −(∑ 𝑋𝑖 )(∑ 𝑌𝑖 )
r = 𝑆 𝑋𝑌 =
𝑆
𝑋 𝑌 2
√[𝑛 ∑ 𝑋𝑖2 −(∑ 𝑋𝑖 ) ][𝑛 ∑ 𝑌𝑖2 −(∑ 𝑌𝑖 )2 ]
Cuando el valor de r es igual a cero se dice que las dos variables son
independientes.
El Coeficiente de Correlación para el ejemplo de ingresos y gastos semanales de la
1.145,10$2 1.145,1
muestra de 25 hogares resulta: 𝑟𝑥𝑦 = (44,9$)(27$)
= = 0,955. Debido a que este
1.212,3
resultado es próximo a la unidad, esto quiere decir que existe alta correlación o
dependencia positiva entre el ingreso y el gasto en consumo; es decir, cuando se
incrementa el ingreso disponible, se incrementa el gasto en consumo.
X
1–5 5–9 9 – 13
Y
10 – 30 10 3 4
30 – 50 0 8 7
50 – 70 0 0 5
70 – 90 0 0 13
a) Hallar el gasto medio para el conjunto de las máquinas, b) Hallar el tiempo medio de
servicio de las máquinas, c) Hallar las varianzas marginales, la covarianza y el coeficiente
de correlación.
2. Una empresa realiza un estudio de la relación entre el número de accidentes por año
(X) de los trabajadores y la edad (Y en años) de los mismos. Los resultados se muestran
en la siguiente distribución de frecuencias bidimensional:
X
0 1 2 3
Y
17 – 21 20 15 25 30
21 – 41 5 20 0 0
41 - 61 5 0 0 0
Calcular los siguientes estadígrafos descriptivos: a) La edad media para el conjunto de los
trabajadores, b) El número medio de accidentes de los trabajadores, c) Las varianzas y las
desviaciones estándar marginales y el coeficiente de correlación, d) La edad media y la
desviación estándar para los trabajadores sin ningún accidente.
3. Mediante una encuesta realizada en una determinada localidad se obtuvo los siguientes
datos correspondientes al ingreso semanal (X en dólares) y gasto en consumo también
semanal (Y en dólares) de una muestra de 36 hogares, a) Elaborar la distribución de
frecuencias bidimensional, b) Elaborar las distribuciones de frecuencias marginales, c)
Elaborar las medias y las desviaciones estándar marginales, d) Calcular la covarianza e
interpretar su resultado, e) Calcular el coeficiente de correlación e interpretar su resultado.
X: 80 90 85 70 70 95 85 100 160 65 88 130
Y: 60 75 75 70 60 65 80 88 150 65 66 70
X: 165 168 170 165 110 160 180 200 220 150 120 110
Y: 120 125 130 100 90 110 150 140 150 110 95 110
X: 78 90 140 90 115 125 140 130 100 148 200 160
Y: 68 75 100 110 90 120 80 110 120 130 130 110
X
21 - 31 31 - 41 41 - 51 51 - 61 61 – 71
Y
1 4 - - - -
2 5 - - - -
3 - 3 4 - -
4 - 3 6 5 6
5 - - - 6 8
X
10 - 20 20 - 30 30 – 40 40 – 50
Y
0 2 6 - -
1 2 8 6 -
2 - 6 5 6
3 - - 5 2
4 - - 2 -