Está en la página 1de 52

Estadística I

Tema 4: Distribuciones bidimensionales.

4.1. Frecuencias absolutas y relativas conjuntas.


4.2. Distribuciones marginales.
4.3. Distribuciones condicionadas.
4.4. Independencia estadística.
4.5. Asociación entre variables: Gráficos de dispersión.
4.6. Medidas de asociación: Covarianza y Correlación.
4.7. Regresión: Coeficiente de determinación.

Carmen Muñoz Vaquer y Fco Javier Sierra Martínez


4. Distribuciones Bidimensionales
Las distribuciones bidimensionales son aquellas en las que se estudian dos características (variables) de forma simultánea
sobre los individuos de la muestra o de la población. Por tanto, en una distribución bidimensional a cada individuo le
corresponde un valor en cada una de las dos variables y lo denotaremos mediante el par (Xi, Yj).

4.1. Formas de presentar los datos. Frecuencias absolutas y relativas conjuntas.


Ejemplo 1: Sea la variable X= Salario anual en miles de € e Y= Años de experiencia laboral.
La variable X toma los siguientes valores diferentes: (0-10],(10-20] y (20-30] y la variable Y
a. Datos en columna: toma los valores 2,4,8. La primera fila de la tabla nos informa de que existen 14 individuos
X Y nij (nij) que tienen un ingreso de (0-10] con dos años de experiencia. Al valor nij ,que indica el
(0-10] 2 14 número de individuos o casos que tienen las dos características conjuntamente, se
denomina FRECUENCIA ABSOLUTA CONJUNTA. La segunda fila nos indica que existen 5
(0-10] 4 5
individuos con unos ingresos de (0-10] con cuatro años de experiencia laboral. El último
(0-10] 8 4 Interpretación valor de la tabla afirma que hay 29 casos con unos ingresos de (20-30] y ocho años de
(10-20] 2 5 experiencia laboral. Observar que:
(10-20] 4 6 𝐼 𝐽
(10-20] 8 10 𝑛𝑖𝑗 = 𝑛
(20-30] 2 2 𝑖=1 𝑗=1
(20-30] 4 25
(20-30] 8 29 Es decir, la suma de todas las frecuencias absolutas conjuntas es igual al tamaño de la
100 muestra. En este ejemplo 100.

Importante: Si las frecuencias absolutas conjuntas son iguales a la unidad, es decir, cada par de valores de las variables solamente se repiten
una vez, diremos que tenemos frecuencias absolutas conjuntas unitarias.
Si dividimos cada frecuencia absoluta conjunta (nij) por el tamaño de la muestra (n) obtenemos las FRECUENCIAS RELATIVAS
CONJUNTAS (fij). fij = nij/n
La primera fila de la tabla nos informa de que el 14% de los casos tienen un
X Y fij ingreso de (0-10] con dos años de experiencia. La segunda fila nos indica que el
(0-10] 2 0,14 5% de los individuos tiene unos ingresos de (0-10] con cuatro años de
(0-10] 4 0,05 experiencia laboral. El último valor de la tabla afirma que el 29% de los casos
(0-10] 8 0,04 Interpretación tienen uno ingreso de (20-30] y ocho años de experiencia laboral. Observar que:
(10-20] 2 0,05
(10-20] 4 0,06 𝐼 𝐽
(10-20] 8 0,1 𝑓𝑖𝑗 = 1
(20-30] 2 0,02 𝑖=1 𝑗=1
(20-30] 4 0,25
(20-30] 8 0,29 Es decir, la suma de todas las frecuencias relativas conjuntas es igual a uno. Los
1 valores de las frecuencias relativas conjuntas se suelen expresar en porcentajes.

b. Otra forma de presentar los datos es mediante una TABLA DE DOBLE ENTRADA, bien para frecuencias absolutas conjuntas
o frecuencias relativas conjuntas:
i) Tabla de doble entrada nij. ii) Tabla de doble entrada para fij.
X\Y 2 4 8 X\Y 2 4 8
(0-10] 14 5 4 (0-10] 0,14 0,05 0,04
(10-20] 5 6 10 (10-20] 0,05 0,06 0,1
(20-30] 2 25 29 (20-30] 0,02 0,25 0,29
Distribución de frecuencias absolutas conjuntas

Distribución de frecuencias relativas conjuntas


4.2. Distribuciones marginales: Las distribuciones marginales son las distribuciones de cada una de las variables, por tanto,
una distribución marginal es una distribución unidimensional.

X\Y 2 4 8 Intervalos xi ni fi
(0-10] 14 5 4 23 (0-10] 5 23 0,23
(10-20] 5 6 10 21 Distribución marginal de X (10-20] 15 21 0,21
(20-30] 2 25 29 56 (20-30] 25 56 0,56
21 36 43 100 100 1

Distribución marginal de Y
Las distribuciones marginales son distribuciones unidimensionales y por lo
tanto podemos calcular para cada una de las variables las medidas de síntesis
vista en el tema anterior, por ejemplo, la media de las variables sería:
Yi ni fi • Para los ingresos:
2 21 0,21 𝑛
1 5 · 23 + 15 · 21 + 25 · 56
4 36 0,36 𝑋= 𝑋𝑖 𝑛𝑖 = = 18,30€
𝑛 100
8 43 0,43 𝑖=1
100 1 • Para los años:
𝑛
1 2 · 21 + 4 · 36 + 8 · 43
𝑌= 𝑌𝑖 𝑛𝑖 = = 5,30𝐴ñ𝑜𝑠
𝑛 100
𝑖=1
Distribuciones Marginales
X\Y y1 y2 ... yj ... yJ n(xi) f(xi) n(xi): frecuencia marginal de X. La suma de las
x1 n11 (f11) n12 (f12) ... n1j (f1j) ... n1J (f1J) n(x1) f(x1) frecuencias absolutas (relativas) conjuntas de la
fila i-ésima es igual a la frecuencia absoluta
x2 n21 (f21) n22 (f22) ... n2j (f2j) ... n2J (f2J) n(x2) f(x2)
(relativa) correspondiente al valor xi:
... ... ... ... ... ... ... ... 𝐽 𝐽
xi ni1 (fi1) ni2 (fi2) ... nij (fij) ... niJ (fiJ) n(xi) f(xi) 𝑛𝑖𝑗 = 𝑛 𝑥𝑖 𝑓𝑖𝑗 = 𝑓(𝑥𝑖 )
... ... ... ... ... ... ... ... 𝑗=1 𝑗=1
xI nI1 (fI1) nI2 (fI2) ... ... ... nIJ (fIJ) n(xI) f(xI)
X n(X) f(X)
n(y) f(y) n(y1) f(y1) n(y2) f(y2) ... n(yj) f(yj) ... n(yJ) f(yJ) n 1 x1 n(x1) f(x1)
n(yi): frecuencia marginal de Y. La suma de las frecuencias absolutas x2 n(x2) f(x2)
(relativas) conjuntas de la columna j-ésima es igual a la frecuencia ... ... ...
absoluta (relativa) correspondiente al valor yj: xi n(xi) f(xi)
𝐼 𝐽 ... ... ...
𝑛𝑖𝑗 = 𝑛 𝑦𝑖 𝑓𝑖𝑗 = 𝑓(𝑦𝑖 ) XI n(xI) f(xI)
𝑖=1 𝑗=1 Total n 1
Y n(Y) f(Y)
y1 n(y1) f(y1) A partir de las frecuencias marginales (absolutas o
y2 n(y2) f(y2) relativas) de cada una de las variables, podemos
... ... ... establecer la distribución marginal de cada variable. Es
yj n(yj) f(yj) una distribución UNIDIMENSIONAL.
... ... ...
YJ n(yJ) f(yJ)
Total n 1
Ejemplo 2. Se ha observado el precio del alquiler (variable Y en miles de €) de 335 pisos y la localidad (Variable X) de
pertenencia. La siguiente tabla recoge la información obtenida de la observación conjunta de estas dos variables.
Obtenemos la tabla de doble entrada, tanto para las frecuencias absolutas conjuntas como relativas:
Localidad Precio nij fij
Barcelona (0,5-0,7] 35 0,1045 Tabla de doble entrada: Frecuencias Absolutas Conjuntas
Bilbao (0,5-0,7] 20 0,0597
Madrid (0,5-0,7] 40 0,1194 X\Y (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3]
Valencia (0,5-0,7] 15 0,0448 Barcelona 35 25 10 5
Barcelona (0,7-0,9] 25 0,0746 Bilbao 20 35 15 20
Bilbao (0,7-0,9] 35 0,1045
Madrid 40 25 20 15
Madrid (0,7-0,9] 25 0,0746
Valencia (0,7-0,9] 20 0,0597
Valencia 15 20 25 10
Barcelona (0,9-1,1] 10 0,0299 n=335
Bilbao (0,9-1,1] 15 0,0448
Madrid (0,9-1,1] 20 0,0597
Valencia (0,9-1,1] 25 0,0746 Tabla de doble entrada: Frecuencias Relativas Conjuntas
Barcelona (1,1-1,3] 5 0,0149
Bilbao (1,1-1,3] 20 0,0597
X\Y (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3]
Madrid (1,1-1,3] 15 0,0448 Barcelona 0,1045 0,0746 0,0299 0,0149
Valencia (1,1-1,3] 10 0,0299 Bilbao 0,0597 0,1045 0,0448 0,0597
335 1 Madrid 0,1194 0,0746 0,0597 0,0448
Valencia 0,0448 0,0597 0,0746 0,0299
Suma=1
Las distribuciones marginales

X\Y (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3] n(X)


Barcelona 35 25 10 5 75
Bilbao 20 35 15 20 90
Madrid 40 25 20 15 100
Valencia 15 20 25 10 70
n(Y) 110 105 70 50 n=335

Marginal de X Marginal de Y
X n(X) f(X) Y yi n(Y) f(Y)
Barcelona 75 0,2239 (0,5-0,7] 0,6 110 0,3284
Bilbao 90 0,2687 (0,7-0,9] 0,8 105 0,3134
Madrid 100 0,2985 (0,9-1,1] 1 70 0,2090
Valencia 70 0,2090 (1,1-1,3] 1,2 50 0,1493
335 1 335 1

Importante: Las tablas de doble entrada pueden contener tanto variables cuantitativas como cualitativas. Si las dos
variables son cuantitativas (discretas o continuas) se suelen denominar tabla de correlaciones y si las dos variables son
cualitativas se denominan tablas de contingencia. De forma genérica hablaremos de tablas de doble entrada.
4.3. Distribuciones condicionadas.
A partir de la distribución de frecuencias conjuntas puede establecerse el comportamiento de una de las variables, por
ejemplo X, cuando la otra, Y, cumple determinada condición. Dado el ejemplo 1 podemos encontrar la distribución de los
ingresos cuando se tienen unos determinados años de experiencia laboral. Este hecho lo expresaremos de la siguiente forma
X/Y y se lee “X condicionado a Y “, lógicamente también podemos condicionar los valores de Y a X, Y/X.
Ejemplo 1: Vamos a calcular las distribuciones condicionadas del primer ejemplo.
a. En primer lugar calculamos las distribuciones condicionadas de X/Y

X\Y 2 4 8
(0-10] 14 5 4 23
(10-20] 5 6 10 21
(20-30] 2 25 29 56
21 36 43 100

Distribución condicionada de Distribución condicionada de Distribución condicionada de


X cuando Y es igual a 2 X cuando Y es igual a 4 X cuando Y es igual a 8
X/Y=2 xi nX/Y=2 fX/Y=2 X/Y=4 xi nX/Y=4 fX/Y=4 X/Y=8 xi nX/Y=8 fX/Y=8
(0-10] 5 14 0,6667 (0-10] 5 5 0,1389 (0-10] 5 4 0,0930
(10-20] 15 5 0,2381 (10-20] 15 6 0,1667 (10-20] 15 10 0,2326
(20-30] 25 2 0,0952 (20-30] 25 25 0,6944 (20-30] 25 29 0,6744
21 1 36 1 43 1
b. Ahora calculamos las distribuciones condicionadas de Y/X
Distribución condicionada de Y Distribución condicionada de Y Distribución condicionada de Y
cuando X es igual a (0-10] cuando X es igual a (10-20] cuando X es igual a (20-30]
Y/X=(0-10] nY/X=(0-10] fY/X=(0-10] Y/X=(10-20] nY/X=(10-20] fY/X=(10-20] Y/X=(20-30] nY/X=(20-30] fY/X=(20-30]
2 14 0,6087 2 5 0,2381 2 2 0,0357
4 5 0,2174 4 6 0,2857 4 25 0,4464
8 4 0,1739 8 10 0,4762 8 29 0,5179
23 1 21 1 56 1

Importante: Las distribuciones condicionadas son distribuciones unidimensionales y, por lo tanto, podemos calcular las
medidas de síntesis vistas en el tema 3.
• Vamos a calcular las medias condicionadas de X/Y
X/Y=2 xi nX/Y=2 fX/Y=2 xinX/Y=2 X/Y=4 xi nX/Y=4 fX/Y=4 xinX/Y=4 X/Y=8 xi nX/Y=8 fX/Y=8 xinX/Y=8
(0-10] 5 14 0,6667 70 (0-10] 5 5 0,6667 25 (0-10] 5 4 0,6667 20
(10-20] 15 5 0,2381 75 (10-20] 15 6 0,2381 90 (10-20] 15 10 0,2381 150
(20-30] 25 2 0,0952 50 (20-30] 25 25 0,0952 625 (20-30] 25 29 0,0952 725
21 1 195 36 1 740 43 1 895
𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 nX/Y=2 195 𝑖=1 𝑥𝑖 nX/Y=4 740 𝑖=1 𝑥𝑖 nX/Y=8 895
𝑋/𝑌=2 = = = 9,29€ 𝑋/𝑌=4 = = = 20,56€ 𝑋/𝑌=8 = = = 20,81€
𝑛 21 𝑛 36 𝑛 43
Interpretación: Cuando tenemos Interpretación: Cuando tenemos 4 Interpretación: Cuando tenemos 8
dos años de experiencia laboral se años de experiencia laboral se tiene años de experiencia laboral se tiene un
tiene un salario medio de 9290€. un salario medio de 20560€. salario medio de 20810€.
• Calculamos las medias condicionadas de Y/X

Y/X=(0-10] nY/X=(0-10] fY/X=(0-10] YinY/X=(0-10] Y/X=(10-20] nY/X=(10-20] fY/X=(10-20] YinY/X=(10-20] Y/X=(20-30] nY/X=(20-30] fY/X=(20-30] YinY/X=(20-30]
2 14 0,6087 28 2 5 0,2381 10 2 2 0,0357 4
4 5 0,2174 20 4 6 0,2857 24 4 25 0,4464 100
8 4 0,1739 32 8 10 0,4762 80 8 29 0,5179 232
23 1 80 21 1 114 56 1 336
𝑛
𝑛
n n
𝑖=1 𝑦𝑖 Y/X=(10−20] 114 𝑛
n
𝑖=1 𝑦𝑖 Y/X=(20−30] 336
𝑖=1 𝑦𝑖 Y/X=(0−10] 80
𝑌/𝑋=(0−10] = = = 3,48 𝑌/𝑋=(10−20] = 𝑛
=
21
= 5,43 𝑌/𝑋=(20−30] =
𝑛
=
56
= 6,00
𝑛 23
años años años

Interpretación: Para unos ingresos Interpretación: Para unos ingresos Interpretación: Para unos ingresos
entre 0 y 10000€, por término medio entre 10000€ y 20000€, por término entre 20000€ y 30000€, por término
se tienen 3,48 años de experiencia medio se tienen 5,43 años de medio se tienen 6,00 años de
laboral. experiencia laboral. experiencia laboral.
Habitualmente los programas estadísticos permiten presentar en una única tabla las diferentes distribuciones de frecuencias
que hemos obtenido. Concretamente el SPSS presenta la siguiente tabla:
El programa R Commader presenta una tabla para cada distribución

 Frecuencias absolutas conjuntas y marginales:


Frequency table:
Y Y
X 2 4 8 X 2 4 8 Sum
(0-10] 14 5 4 (0-10] 14 5 4 23
(10-20] 5 6 10 (10-20] 5 6 10 21
(20-30] 2 25 29 (20-30] 2 25 29 56
Sum 21 36 43 100

 Frecuencias relativas conjuntas: Total percentages:


Y
X 2 4 8 Sum
(0-10] 0.14 0.05 0.04 0.23
(10-20] 0.05 0.06 0.10 0.21
(20-30] 0.02 0.25 0.29 0.56
Sum 0.21 0.36 0.43 1.00
Distribuciones condicionadas: Porcentajes fila y columna

Porcentaje Columna:Column percentages X/Y Porcentaje Fila:Row percentages:Y/X


Y
X 2 4 8 Y
(0-10] 0.6667 0.1389 0.0930 X 2 4 8 Sum
(10-20] 0.2381 0.1667 0.2326 (0-10] 0.6087 0.2174 0.1739 1.0000
(20-30] 0.0952 0.6944 0.6744 (10-20] 0.2381 0.2857 0.4762 1.0000
Sum 1.0000 1.0000 1.0000 (20-30] 0.0357 0.4464 0.5179 1.0000
Ejemplo 2: Precio viviendas en alquiler y localidad.

• Distribución conjunta. Frecuencias absolutas conjuntas • Distribución conjunta. Frecuencias relativas conjuntas

Precio Precio
(0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3] (0,5-0,7] (0,7-0,9] (0,9-1,1] (1,1-1,3]
Localidad Barcelona 35 25 10 5 75 Localidad Barcelona 0,1045 0,0746 0,0299 0,0149 0,2239
Bilbao 20 35 15 20 90 Bilbao 0,0597 0,1045 0,0448 0,0597 0,2687
Madrid 40 25 20 15 100 Madrid 0,1194 0,0746 0,0597 0,0448 0,2985
Valencia 15 20 25 10 70 Valencia 0,0448 0,0597 0,0746 0,0299 0,2090
110 105 70 50 335 0,3284 0,3134 0,2090 0,1493 1
• Distribuciones marginales
PRECIO 𝑛
1 280
Intervalos xi ni fi Ni Fi xini x2ni 𝑋= 𝑋𝑖 𝑛𝑖 = = 0,8358 𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 € = 835,8€
𝑛 335
𝑖=1
(0,5-0,7] 0,6 110 0,3284 110 0,3284 66 39,6
𝑛 𝑛 2
𝑖=1(𝑋𝑖 − 𝑋)2 𝑛𝑖 𝑖=1 𝑋𝑖 𝑛𝑖 − 𝑛𝑋
2
248,8 − 335(0,8358)2
(0,7-0,9] 0,8 105 0,3134 215 0,6418 84 67,2 2
𝑆 = = =
𝑛−1 𝑛−1 335 − 1
(0,9-1,1] 1 70 0,2090 285 0,8507 70 70 = 0,044𝑚𝑖𝑙𝑒𝑠€2
(1,1-1,3] 1,2 50 0,1493 335 1 60 72
𝑆= 𝑆2 = 0,044 = 0,2104 𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 € = 210,4€
335 1 280 248,8

Localidad
ni fi
Barcelona 75 0,2239
Bilbao 90 0,2687
Madrid 100 0,2985
Valencia
70 0,2090
335 1
• Frecuencias condicionadas: Precio/localidad

BARCELONA BILBAO
Intervalos xi ni xini fi Intervalos xi ni xini fi
(0,5-0,7] 0,6 35 21 0,4667 (0,5-0,7] 0,6 20 12 0,2222
(0,7-0,9] 0,8 25 20 0,3333 (0,7-0,9] 0,8 35 28 0,3889
(0,9-1,1] 1 10 10 0,1333 (0,9-1,1] 1 15 15 0,1667
(1,1-1,3] 1,2 5 6 0,0667 (1,1-1,3] 1,2 20 24 0,2222
75 57 1 90 79 1

Media= 0,7600 Media= 0,8778

MADRID VALENCIA
Intervalos xi ni xini fi Intervalos xi ni xini fi
(0,5-0,7] 0,6 40 24 0,4000 (0,5-0,7] 0,6 15 9 0,2143
(0,7-0,9] 0,8 25 20 0,2500 (0,7-0,9] 0,8 20 16 0,2857
(0,9-1,1] 1 20 20 0,2000 (0,9-1,1] 1 25 25 0,3571
(1,1-1,3] 1,2 15 18 0,1500 (1,1-1,3] 1,2 10 12 0,1429
100 82 1 70 62 1

Media= 0,8200 Media= 0,8857


4.4. Independencia estadística.
Existe independencia estadística entre dos variables cuando los valores que toma una de ellas no se ve afectado por
los valores que toma la otra variable, es decir, los valores de una de una variable no vienen condicionados por el
comportamiento o los valores de la otra variable.

a) Comprobación de independencia estadística: Si dos variables son estadísticamente independientes se cumple que:
𝑓𝑖𝑗 = 𝑓 𝑋𝑖 · 𝑓 𝑌𝑗 ∀i,j
Es decir, el producto de las frecuencias relativas marginales es igual a las frecuencias relativas conjuntas.

b) También lo podemos comprobar mediante las frecuencias absolutas conjuntas, concretamente para que dos variables
sean estadísticamente independientes se tiene que cumplir que:

𝑛 𝑋𝑖 · 𝑛 𝑌𝑗
𝑛𝑖𝑗 = ∀i,j
𝑛

Si dos variables son estadísticamente independientes ,entonces se cumple que:

 Todas las distribuciones de frecuencias relativas de X condicionada a cualquier valor de Y son iguales a la distribución de
frecuencias relativas marginal de X.

 Todas las distribuciones de frecuencias relativas de Y condicionada a cualquier valor de X son iguales a la distribución de
frecuencias relativas marginal de Y.
Ejemplo 1: Sean la Variable X=“nº de días que se va al cine al año y la variable” Y=“Nº de conciertos al año”. Vamos a
comprobar si estas dos variables son estadísticamente independientes:
Frecuencias absolutas conjuntas Frecuencias relativas conjuntas
X\Y 4 5 6 n(X) X\Y 4 5 6 f(X)
10 2 20 10 32 10 0,0089 0,0893 0,0446 0,1429
15 4 40 20 64 15 0,0179 0,1786 0,0893 0,2857
20 8 80 40 128 20 0,0357 0,3571 0,1786 0,5714
n(Y) 14 140 70 224 f(Y) 0,0625 0,625 0,3125 1
𝑛 𝑋𝑖 ·𝑛 𝑌𝑗
X,Y independientes ↔ 𝑛𝑖𝑗 = ∀i,j X,Y independientes ↔ 𝑓𝑖𝑗 = 𝑓 𝑋𝑖 · 𝑓 𝑌𝑗 ∀i,j
𝑛
𝑛 𝑋1 · 𝑛 𝑌1 32 · 14 𝑛 𝑋1 · 𝑛 𝑌2 32 · 140 𝑓11 = 𝑓 𝑋1 · 𝑓 𝑌1 = 0,1429 · 0,0625 = 0,0089
𝑛11 = = = 2; 𝑛12 = = = 20
𝑛 224 𝑛 224 𝑓12 = 𝑓 𝑋1 · 𝑓 𝑌2 = 0,1429 · 0,625 = 0,089
𝑛 𝑋1 · 𝑛 𝑌3 32 · 70 𝑛 𝑋2 · 𝑛 𝑌1 64 · 14
𝑛13 = = = 10; 𝑛21 = = =4 𝑓13 = 𝑓 𝑋1 · 𝑓 𝑌3 = 0,1429 · 0,3125 = 0,0446
𝑛 224 𝑛 224
𝑛 𝑋2 · 𝑛 𝑌2 64 · 140 𝑛 𝑋2 · 𝑛 𝑌3 64 · 70 𝑓21 = 𝑓 𝑋2 · 𝑓 𝑌1 = 0,2857 · 0,0625 = 0,0179
𝑛22 = = = 40; 𝑛23 = = = 20
𝑛 224 𝑛 224 𝑓22 = 𝑓 𝑋2 · 𝑓 𝑌2 = 0,2857 · 0,625 = 0,1786
𝑛 𝑋3 · 𝑛 𝑌1 128 · 14 𝑛 𝑋3 · 𝑛 𝑌2 128 · 140 𝑓23 = 𝑓 𝑋2 · 𝑓 𝑌3 = 0,2857 · 0,3125 = 0,0893
𝑛31 = = = 8; 𝑛32 = = = 80
𝑛 224 𝑛 224
𝑛 𝑋3 · 𝑛 𝑌3 128 · 70 𝑓31 = 𝑓 𝑋3 · 𝑓 𝑌1 = 0,5714 · 0,0625 =0,0357
𝑛33 = = = 40 𝑓32 = 𝑓 𝑋3 · 𝑓 𝑌2 = 0,5714 · 0,625 = 0,3571
𝑛 224
𝑓33 = 𝑓 𝑋3 · 𝑓 𝑌3 = 0,5714 · 0,3125 = 0,1786

Conclusión: Como el producto de las marginales es igual Conclusión: Como el producto de las marginales es igual
a la frecuencia absoluta conjunta, entonces X e Y son a la frecuencia relativa conjunta, entonces X e Y son
estadísticamente Independientes. estadísticamente Independientes.
Como son dos variables independientes, las distribuciones condicionadas relativas de X/Y son iguales a la marginal relativa de X.
Vamos a comprobar esta afirmación:
Marginal de X Condicionada de X/Y=4 Condicionada de X/Y=5 Condicionada de X/Y=6
X n(X) f(X)
X/Y=4 n(X/Y=4) f(X/Y=4) X/Y=5 n(X/Y=5) f(X/Y=5) X/Y=6 n(X/Y=6) f(X/Y=6)
10 32 0,1429
10 2 0,1429 10 20 0,1429 10 10 0,1429
15 64 0,2857
15 4 0,2857 15 40 0,2857 15 20 0,2857
20 128 0,5714
20 8 0,5714 20 80 0,5714 20 40 0,5714
224 1
14 1 140 1 70 1

Como se puede comprobar las diferentes distribuciones condicionadas relativas de X/Y son iguales a la marginal
relativa de X. Esto es una consecuencia de que las variables sean independientes.

La media de la variable X es igual a 17,14. Calcular las diferentes medias de X/Y ¿qué podemos observar?
Problema 1. La distribución de frecuencias conjuntas de las variables X = ‘Edad (en años)’ e Y =’ Número de horas
semanales dedicadas a ver la televisión’ es la siguiente:
Número de horas
Edad 0-20) [20-30) [30-40) Total
15-25) 2 10 19 31
[25-45) 28 12 4 44
[45-95 2 3 20 25
Total 32 25 43 100

Es CIERTO que:
a) La edad y el número de horas semanales que miran la televisión son variables independientes en este colectivo.
b) El 28% de los entrevistados tienen menos de 25 años y miran la televisión entre 0 y 20 horas semanales.
c) El 80% de los que tienen 45 o más años miran la televisión menos de 20 horas semanales.
d) El 40% de los que miran la televisión entre 20 y 30 horas semanales tienen menos de 25 años.

Problema 2. Si las variables fueran independientes, el porcentaje de individuos con [25-45) años que ven la televisión entre
[30-40) horas es igual a:

a) 18,92%
b) 44,00%
c) 43,00%
d) 28,00%
Problema 3. Sobre una muestra de 150 personas encuestadas aleatoriamente en el metro de Barcelona se han observado
las variables X=‘Nº de paradas recorridas’ e Y =‘Línes de metro utilizada’. La distribución de frecuencias conjuntas es:

1) Qué porcentaje del total de encuestados realizan trayectos de 4 paradas en la línea 2?


a) 8,7% b) 16% c) 28,2% d) 29,5%
2) Entre las personas que se han entrevistado en la línea 2, ¿cuál es el porcentaje que realiza trayectos de más de 4 paradas?
a) 43,4% b) 15,2% c) 29.3% d) 47,7%
3) Las variables X = ‘Nº de paradas recorridas’ e Y = ‘Línea de metro utilizada’ ¿son independientes?
a) Sí b) No se puede saber c) No
Problema 4. Dada la siguiente distribución bidimensional de las variables X=‘programa de gimnasia’ e Y= ‘edad’, es CIERTO que:
>.Table # Counts
20-30 30-40 40-50 50-60 Más
P.1 20 30 12 8 0
P.2 15 18 24 16 7
P.3 5 12 8 25 20

a) El porcentaje de individuos en estos tres programas es el mismo.


b) Del total de los individuos que participan en el programa 3, los que tienen entre 30 y 40 años representan un porcentaje del
17,14%.
c) El porcentaje de individuos que tienen edades entre 30 y 40 años es del 40,08%.
d) De los individuos que tienen como máximo 30 años, el 72,75% participa en el programa 1.

Problema 5. Las siguientes distribuciones se corresponden con la distribución de dos variables independientes.

X 1 2 3 4 Y 20 30 40
n(X) 5 20 15 10 n(Y) 20 20 10

Indicar cuál de las siguientes afirmaciones es CIERTA:


a) La frecuencia relativa conjunta de X=3 e Y=40 es 3.
b) La frecuencia absoluta conjunta de X=2 e Y=30 es 0,8.
c) La frecuencia absoluta conjunta de X=4 e Y=30 es 8.
d) La frecuencia relativa conjunta de X=1 e Y=40 es de 0,02.
Problema 6. La distribución conjunta de X Género e Y Nº de móviles es:

1) X e Y, ¿son estadísticamente independientes?


a) Sí b) No c) No se puede calcular
2) En el colectivo de los hombres, ¿cuántos tienen exactamente 5 móviles? ¿Qué porcentaje representa?
a) 9 y 33,3% b) 3 y 21,4% c) 3 y 7.1% d) 9 y 21,4%
3) ¿Es cierto que la media de móviles en el colectivo de los hombres es inferior a la de las mujeres?
a) No, es mayor b) Sí, es inferior c) No, es igual
4.5. Asociación entre variables: Gráficos de dispersión.
Un gráfico de dispersión es una representación gráfica para variables cuantitativas que nos ayudará a establecer la relación que
existe entre dos variables.

a. Asociación lineal positiva b. Asociación lineal negativa c. Asociación exponencial


entre dos variables entre dos variables entre dos variables

Gráfico de Dispersión Gráfico de Dispersión Gráfico de Dispersión


140 100 1400
90
120 1200
80
100 1000
70
80 60 800
60 50
40 600
40
30 400
20 20
200
0 10
0 10 20 30 40 50 60 0 0
0 10 20 30 40 50 60 0 10 20 30 40 50 60

Importante. En este curso solamente nos vamos a interesar por las relaciones de tipo lineal
entre variables (gráficos de la forma como a y b).
4.6.Medidas de asociación lineal: Covarianza y Correlación.
Las principales medidas de asociación lineal entre variables son la covarianza y la correlación. Estas medidas de asociación
solamente sirven para relaciones de tipo lineal, tal y como hemos visto en los anteriores gráficos de dispersión.
 La covarianza entre dos variables (SXY)nos indica si existe asociación lineal y el signo (dirección) de tal asociación. Para el
cálculo de la covarianza debemos de tener presente si tenemos frecuencias absolutas conjuntas distintas de la unidad o
no.
a. Datos con frecuencias absolutas conjuntas no unitarias
𝐼 𝐽 𝐼 𝐽
1 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥𝑦
𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑗 − 𝑦 𝑛𝑖𝑗 =
𝑛−1 𝑛−1
𝑖=1 𝑗=1
b. Datos con frecuencias absolutas conjuntas unitarias:
𝑛 𝑛
1 1
𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦
𝑛−1 𝑛−1
𝑖=1 𝑖=1

Propiedades:

• Puede tomar cualquier valor real (–∞≤SXY≤+∞).  <0 Asociación lineal negativa

• Indica la presencia de asociación lineal y su signo: SXY = =0 No existe asociación lineal
• La covarianza queda afectada por los cambios de escala, pero no  >0 Asociación lineal positiva

por los cambios de origen: En consecuencia le afectan los cambios
de unidades de medida.
Ejemplo 1. Sea la variable X= Salario anual en miles de € e Y= Años de experiencia laboral (Frecuencias conjuntas diferentes
de la unidad).
𝐼 𝐽 𝐼 𝐽
1 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥 𝑦
X Y nij 𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑗 − 𝑦 𝑛𝑖𝑗 =
𝑛−1 𝑛−1
(0-10] 2 14 𝑖=1 𝑗=1
(0-10] 4 5 Para calcular la covarianza necesitamos la media de X e Y. Tenemos que obtener las marginales de
(0-10] 8 4 cada variable y calcular las medias (y varianzas, aunque ahora no las necesitemos).
(10-20] 2 5 Marginal del Salario
(10-20] 4 6 Intervalos xi ni xni (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 x2ni
(10-20] 8 10 (0-10] 5 23 115 4068,47 575
(20-30] 2 2 (10-20] 15 21 315 228,69 4725
(20-30] 4 25 (20-30] 25 56 1400 2513,84 35000
(20-30] 8 29 100 1830 6811 40300
𝐼 𝐼
100 1 1830 1 6811
𝑋= 𝑥𝑖 𝑛𝑖 = = 18,3 ; 𝑆𝑥2 = (𝑥𝑖 − 𝑋 )2 𝑛𝑖 = = 68,80
𝑛 100 𝑛−1 100 − 1
𝑖=1 𝑖=1
Marginal de los años
Y ni yni (𝒀𝒊 − 𝒀)𝟐 𝒏𝒊 y2ni
2 21 42 228,69 84
4 36 144 60,84 576
8 43 344 313,47 2752
100 530 603 3412
𝐽 𝐽
1 530 1 603
𝑌= 𝑦𝑗 𝑛𝑗 = = 5,3 ; 𝑆𝑦2 = (𝑦𝑗 − 𝑦)2 𝑛𝑗 = = 6,09
𝑛 100 𝑛−1 100 − 1
𝑗=1 𝑗=1
Cálculo de la covarianza
Intervalos x Y nij 𝒙𝒊 − 𝒙 𝒚𝒋 − 𝒚 𝒏𝒊𝒋 xynij
𝐼 𝐽
(0-10] 5 2 14 614,46 140 1 811
(0-10] 5 4 5 86,45 100 𝑆𝑋𝑌 = 𝑥 𝑖 − 𝑥 𝑦 𝑗 − 𝑦 𝑛𝑖𝑗 = = 8,19
𝑛−1 100 − 1
(0-10] 5 8 4 -143,64 160 𝑖=1 𝑗=1
(10-20] 15 2 5 54,45 150
𝐼 𝐽
(10-20] 15 4 6 25,74 360 𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥 𝑦 10510 − 100 18,30 · (5,30)
(10-20] 15 8 10 -89,1 1200 𝑆𝑋𝑌 = =
𝑛−1 100 − 1
(20-30] 25 2 2 -44,22 100 811
(20-30] 25 4 25 -217,75 2500 = = 8,19
100 − 1
(20-30] 25 8 29 524,61 5800
100 811 10510

Conclusión: Como la covarianza es mayor que cero, existe una asociación lineal positiva entre los ingresos y los años de
experiencia.

Importante: Si dos variables son independientes, entonces la covarianza es igual a cero. Pero una covarianza cero no
implica que las variables sean independientes.
Ejemplo 2. Sea la variable X= Precio en € de un determinado producto e Y= Cantidad vendida (Frecuencias conjuntas
diferentes de la unidad). La siguiente tabla muestra los valores de las variables y la frecuencia absoluta conjunta. Vamos a
calcular la covarianza entre el precio y la cantidad vendida.

Precio (X) Cantidad (Y) nij De la tabla se obtienen los siguientes resultados
5 20 8
7 18 12 𝐼 𝐼 𝐽 𝑗 𝐼 𝐽
8 15 11 𝑥𝑖 𝑛𝑖 = 416 ; 𝑥𝑖2 𝑛𝑖 = 3696 ; 𝑦𝑗 𝑛𝑗 = 688 ; 𝑦𝑗2 𝑛𝑖 = 10864 ; 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 = 5164
10 10 10 𝑖=1 𝑖=1 𝑗=𝑖 𝑖=1 𝑖=1 𝑗=𝑖
11 8 4
12 3 5
50
𝐼 𝐼
1 416 1 3696 − 50(8,32)2
𝑋= 𝑥𝑖 𝑛𝑖 = = 8,32 ; 𝑆𝑥2 = ( 𝑥𝑖 2 𝑛𝑖 − 𝑛𝑋 2 ) = = 4,79
𝑛 50 𝑛−1 50 − 1
𝑖=1 𝑖=1
𝐽 𝑗
1 688 1 10864 − 50(13,76)2
𝑌= 𝑦𝑗 𝑛𝑗 = = 13,76 ; 𝑆𝑦2 = ( 𝑦𝑗 2 𝑛𝑗 − 𝑛𝑌 2 ) = = 28,51
𝑛 50 𝑛−1 50 − 1
𝑗=1 𝑗=1
𝐼 𝐽
𝑖=1 𝑗=1 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗 − 𝑛𝑥 𝑦 5164 − 50 8,32 · (13,76) −560,16
𝑆𝑋𝑌 = = = = −11,43
𝑛−1 50 − 1 49
Conclusión: Como la covarianza es menor que cero, existe una asociación lineal negativa (inversa) entre el precio y la
cantidad demandada.
Ejemplo 3. La siguiente tabla recoge el ingreso (en miles de €) y el consumo en cultura (cientos de €) de ocho individuos (en
este caso las frecuencias absolutas conjuntas son unitarias).

Ingresos (X) 8 9 11 14 16 18 22 25
Consumo (Y) 2 3 5 6 8 9 11 13

Tabla para el cálculo de la covarianza 𝑛


1 123
Ingresos (X) Consumo (Y) (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 (𝒀𝒊 − 𝒀)𝟐 𝒏𝒊 xy 𝑋= 𝑥𝑖 = = 15,375
𝑛 8
8 2 54,391 26,266 16 𝑖=1
𝑛
9 3 40,641 17,016 27 1 259,875
𝑆𝑥2 = (𝑥𝑖 − 𝑋 )2 = = 37,125
11 5 19,141 4,516 55 𝑛−1 8−1
𝑖=1
14 6 1,891 1,266 84 𝑛
16 8 0,391 0,766 128
1 57
𝑌= 𝑦𝑖 = = 7,125
18 9 6,891 3,516 162 𝑛 8
𝑖=1
22 11 43,891 15,016 242 𝑛
1 102,875
25 13 92,641 34,516 325 𝑆𝑦2 = (𝑦𝑖 − 𝑦)2 = = 14,696
𝑛−1 8−1
123 57 259,875 102,875 1039 𝑖=1
𝑛
1 1039 − 8 · 15,375 · (7,125)
𝑆𝑋𝑌 = 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦 = = 23,23
𝑛−1 8−1
𝑖=1
Conclusión: Como la covarianza es mayor que cero, existe una asociación lineal positiva entre los ingresos y el consumo
Ejemplo 4. La siguiente tabla recoge el número de errores (X) que se comenten al realizar un expediente administrativo y el
número de días que se tarda en confeccionarlo (en este caso las frecuencias absolutas conjuntas son unitarias).
Errores (X) 1 2 3 4 5 6 7
Días (Y) 15 12 11 9 7 5 4
De la tabla se obtienen los siguientes resultados:
𝑛 𝑛 𝑛 𝑛 𝑛

𝑥𝑖 = 28 ; 𝑦𝑖 = 63 ; 𝑥𝑖2 = 140 ; 𝑦𝑖2 = 661 ; 𝑥𝑖 − 𝑋 · 𝑦𝑖 − 𝑦 = −51


𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛
1 −51
Para calcular la covarianza utilizamos: 𝑆𝑋𝑌 = 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = = −8,5
𝑛−1 7−1
𝑛 𝑖=1
1 28
𝑋= 𝑥𝑖 = =4
𝑛 7
𝑖=1
𝑛 Conclusión: Como la covarianza es
1 140 − 7 · (42 ) negativa tenemos una asociación lineal
𝑆𝑥2 = ( 2
𝑥𝑖 − 𝑛𝑋 2 ) = = 4,67
𝑛−1 7−1 inversa entre el número de errores y el
𝑖=1
𝑛 tiempo en confeccionar el expediente.
1 63
𝑌= 𝑦𝑖 = =9
𝑛 7
𝑖=1
𝑛
1 661 − 7 · (92 )
𝑆𝑦2 = ( 2
𝑦𝑖 − 𝑛𝑋 2 ) = = 15,67
𝑛−1 7−1
𝑖=1
 El coeficiente de correlación.
La covarianza nos informa de la existencia o no de asociación lineal entre dos variables y la dirección de tal asociación
(positiva o negativa), pero en ningún caso mide la intensidad de la mencionada asociación. Para cuantificar la intensidad de
la asociación entre dos variables cuantitativas tenemos que calcular el coeficiente de correlación de Pearson (rXY):
𝑆𝑥𝑦
𝑟𝑥𝑦 =
𝑆𝑥 · 𝑆𝑦
Propiedades:
• Está acotado: siempre toma valores comprendidos entre -1 y +1 (–1≤rXY≤+1).
• Las transformaciones lineales sólo le afectan si hay cambio de signo en el cambio de escala.
• El coeficiente de correlación lineal coincide con la covarianza de las variables estandarizadas.

En las ciencias sociales es muy difícil obtener coeficientes de


correlación que sean exactamente -1, 0 , -1. Sin embargo podemos
encontrar correlaciones cercanas a estos valores.
Ejemplo 1. Sea la variable X= Salario anual en miles de € e Y= Años de experiencia laboral. Vamos a calcular la intensidad de
la asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 68,80 ; 𝑆𝑦2 = 6,09 ; 𝑆𝑥𝑦 = 8,19
𝑆𝑥𝑦 8,19
𝑟𝑥𝑦 = = = 0,40 Intensidad positiva y moderadamente baja
𝑆𝑥 · 𝑆𝑦 68,80 6,09

Ejemplo 2. Sea la variable X= Precio en € de un determinado producto e Y= Cantidad vendida . Vamos a calcular la intensidad
de la asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 4,79 ; 𝑆𝑦2 = 28,51 ; 𝑆𝑥𝑦 = −11,43

𝑆𝑥𝑦 −11,43
𝑟𝑥𝑦 = = = −0,98 Intensidad negativa (inversa) y muy intensa
𝑆𝑥 · 𝑆𝑦 4,79 28,51

Ejemplo 3. Sea X= el ingreso (en miles de €) e Y= el consumo en cultura (cientos de €). Vamos a calcular la intensidad de la
asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 37,125 ; 𝑆𝑦2 = 14,696 ; 𝑆𝑥𝑦 = 23,23

𝑆𝑥𝑦 23,23
𝑟𝑥𝑦 = = = 0,99 Intensidad positiva (directa) y muy intensa
𝑆𝑥 · 𝑆𝑦 37,125 14,696
Ejemplo 4. Sea la variable “X=número de errores” que se comenten al realizar un expediente administrativo y la variable
“Y= número de días que se tarda en confeccionarlo” . Vamos a calcular la intensidad de la asociación entre las variables:
Tenemos los siguientes resultados : 𝑆𝑥2 = 4,67 ; 𝑆𝑦2 = 15,67 ; 𝑆𝑥𝑦 = −8,5

𝑆𝑥𝑦 −8,5
𝑟𝑥𝑦 = = = −0,99 Intensidad negativa (indirecta) y muy intensa
𝑆𝑥 · 𝑆𝑦 4,67 15,67

 RESUMEN DEL ANÁLISIS DESCRIPTIVO BIDIMENSIONAL


1. Vector de medias (m): es un vector columna que recoge las medias de las variables. Es el centro de gravedad de la nube
de puntos.

𝑚= 𝑋
𝑌

2. Matriz de varianzas y covarianzas (S): es una matriz cuadrada que recoge, en la diagonal principal, las varianzas de las
variables y fuera de la diagonal principal las covarianzas entre las variables.

𝑆𝑥2 𝑆𝑥𝑦
𝑆=
𝑆𝑥𝑦 𝑆𝑦2

La matriz de varianzas y covarianzas es una matriz simétrica.


3. La matriz de correlaciones (r): La matriz de correlaciones recoge las correlaciones entre las variables.
1 𝑟𝑥𝑦
𝑟=
𝑟𝑥𝑦 1

La matriz de correlaciones es una matriz simétrica.

Del ejemplo 1 tenemos que:

18,3 𝑆𝑥2 𝑆𝑥𝑦 68,80 8,19 1 𝑟𝑥𝑦 1 0,40


𝑚= 𝑋 = ;𝑆 = = ;𝑟 = =
𝑌 5,3 𝑆𝑥𝑦 𝑆𝑦2 8,19 6,09 𝑟𝑥𝑦 1 0,40 1

Del ejemplo 2 tenemos que:

8,31 𝑆𝑥2 𝑆𝑥𝑦 4,79 −11,43 1 𝑟𝑥𝑦 1 −0,98


𝑚= 𝑋 = ;𝑆 = = ;𝑟 = =
𝑌 13,76 𝑆𝑥𝑦 𝑆𝑦2 −11,43 28,51 𝑟𝑥𝑦 1 −0,98 1

Del ejemplo 3 tenemos que:

15,375 𝑆𝑥2 𝑆𝑥𝑦 37,125 23,33 1 𝑟𝑥𝑦 1 0,99


𝑚= 𝑋 = ;𝑆 = = ;𝑟 = =
𝑌 7,125 𝑆𝑥𝑦 𝑆𝑦2 23,33 14,696 𝑟𝑥𝑦 1 0,99 1
La idea del vector de medias, la matriz de varianzas y covarianzas y la matriz de correlaciones de dos variables se puede
extender de forma inmediata a más de dos variables. Supongamos que tenemos tres variables:

X1 = Libros leídos anualmente.


X2= Asistencia anual al cine.
X3= Horas semanal TV.

Vector de medias Matriz de varianzas y covarianzas


𝑋1 14,60 2
𝑆𝑥1 𝑆𝑥1𝑥2 𝑆𝑥1𝑥3 29,378 21,489 −58,133
𝑚 = 𝑋2 = 35,10 𝑆 = 𝑆𝑥2𝑥1 2
𝑆𝑥2 𝑆𝑥2𝑥3 = 21,489 253,211 −97,411
𝑋3 22,70 2 −58,133 −97,411 141,222
𝑆𝑥3𝑥1 𝑆𝑥3𝑥2 𝑆𝑥3

Ejercicios:
1. ¿Qué variable presenta menor dispersión relativa?
2. Comentar la matriz de varianzas y covarianzas.
3. Construir la matriz de correlaciones y comentar los resultados.
4. Supongamos que por un cambio contable los libros leídos se multiplican por 2 y a la asistencia anual al cine hay que
sumar 3 días ¿cómo quedan modificadas las anteriores matrices?
4.7. Regresión: Coeficiente de determinación.

Dada un nube de puntos, la recta de regresión es la recta que mejor se ajusta a la nube de puntos. En el análisis de
regresión asumimos que existe una relación de dependencia entre dos variables, es decir, los valores que toma una
variable (normalmente Y) vienen condicionados por los valores que toma otra variable (habitualmente X). A La
variable Y se le denomina Dependiente o Endógena y la variable X Independiente o Exógena.

Asumiremos que la relación que existe entre la variable dependiente (Y) y la variable independiente (X) es de tipo
lineal, es decir:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖

El objetivo es estimar (encontrar) el valor de a y b que define la anterior recta, graficamente:

Siendo:
a: ordenada en el origen
b: pendiente de la recta
ei: error de predicción o residuo
Para estimar los valores de a y b se utiliza el criterio de Mínimos Cuadrados Ordinarios (MCO), que consiste en
minimizar la suma de los errores al cuadrado:
𝑛 𝑛 𝑛

𝑚𝑖𝑛 𝑒𝑖2 = (𝑦𝑖 − 𝑌𝑖 )2 = (𝑦𝑖 − 𝑎 − 𝑏𝑋𝑖 )2


𝑖=1 𝑖=1 𝑖=1

SXY
b = 2
La solución del anterior programa de minimización es: SX
a = Y- bX

• El valor b, pendiente de la recta, recoge una estimación de la variación de la variable Y por cada incremento unitario
de X.
• El valor a, ordenada en el origen, recoge el valor ajustado de Y (estimación) suponiendo nulo el valor de X.
• Los valores estimados 𝑌 son valores promedios de Y para valores concretos de X.
• La pendiente (b) presenta el mismo signo que la covarianza entre X e Y (SXY).
• La recta de regresión siempre pasa por el centro de gravedad.
Coeficiente de Determinación (R2): El coeficiente de determinación o coeficiente de bondad de ajuste es un coeficiente que
nos informa de lo bien o mal que se ajusta la recta estimada a la nube de puntos, es decir, es un indicador de la capacidad que
tiene la variable independiente X de explicar el comportamiento de la variable dependiente Y.
Toma valores acotados entre 0 y 1: 0 ≤ R2 ≤1.

• R2 = 1 significa que el ajuste es perfecto (la nube de puntos está sobre la recta),
• R2 = 0 entonces es que no existe relación lineal entre las dos variables. Es decir, X no explica de forma lineal el
comportamiento de Y, por lo tanto el modelo especificado no es el adecuado.

El coeficiente de Determinación se puede obtener elevando al cuadrado el coeficiente de correlación:

𝑅2 = 𝑟𝑥𝑦 2
Ejemplo: Se desea saber si existe relación (asociación) entre el gasto en Investigación y Desarrollo (variable X, en millones de
€) y los beneficios obtenidos (variable Y, en millones de €) por 10 empresas del sector de las telecomunicaciones. La siguiente
tabla muestra los datos obtenidos de las 10 empresas. De los datos muestrales obtenemos los siguientes resultados:
10 10 10 10 10
X 7 3 4 9 8 6 2 4 8 10 𝑥𝑖 = 61 ; 𝑦𝑖 = 104 ; 𝑥𝑖2 = 439 ; (𝑦𝑖 − 𝑌)2 = 372,4 ; 𝑥𝑖 𝑦𝑖 = 780
Y 15 6 8 17 16 5 1 3 15 18 𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1

Para observar si existe asociación entre las variables vamos a calcular la covarianza y la correlación. Posteriormente
estableceremos una relación de causalidad (de dependencia) entre las variables.

 Medias de las variables:

10 10
𝑖=1 𝑥𝑖 61 𝑖=1 𝑦𝑖 104
𝑋= = = 6,1 ; 𝑌 = = = 10,4
𝑛 10 𝑛 10

 Varianzas y desviaciones estándar de las variables:


𝑛
1 439 − 10(6,1)2
𝑆𝑥2 = ( 2
𝑥𝑖 − 𝑛𝑋 2 ) = = 7,43 ⇒ 𝑆𝑋 = 7,4333 = 2,726
𝑛−1 10 − 1
𝑖=1

𝑛
1 372,4
𝑆𝑦2 = (𝑦𝑖 − 𝑦)2 = = 41,377 ⇒ 𝑆𝑌 = 41,377 = 6,432
𝑛−1 10 − 1
𝑖=1
• Covarianza y Correlación
𝑛
1 780 − 10 · 6,1 · (10,4)
𝑆𝑋𝑌 = 𝑥𝑖 𝑦𝑖 − 𝑛𝑥 𝑦 = = 16,17
𝑛−1 10 − 1
𝑖=1

𝑆𝑥𝑦 16,17
𝑟𝑥𝑦 = = = 0,9226
𝑆𝑥 · 𝑆𝑦 2,726 · (6,432)

Existe una asociación lineal positiva y muy intensa entre los gastos en investigación y desarrollo y los beneficios obtenidos
por las empresas analizadas.

Regresión:
Ahora vamos a establecer una relación de dependencia entre las variables. La economía de la empresa nos señala que existe
una relación (supongamos líneal) entre estas dos variables suponiendo, además, que un mayor gasto en investigación y
desarrollo produce un incremento en los beneficios. La relación que postulamos es:

𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖

La estimación de los valores para a y b vienen dados por:

𝑆𝑋𝑌 16,17
𝑏= 2 = = 2,176 ; 𝑎 = 𝑌 − 𝑏𝑋 = 10,4 − 2,176 6,1 = −2,873
𝑆𝑋 7,43
La recta de regresión viene dada por:
𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 = −2,873 + 2,176𝑋𝑖
Comentarios: Como la pendiente es positiva se confirma la hipótesis de que los gastos en investigación y
desarrollo incrementan los beneficios de las empresas tecnológicas, concretamente en este ejemplo, si
incrementamos en una unidad los gastos en I+D, los beneficios se incrementan en 2,176 unidades.

Calculamos el coeficiente determinación para ver cómo ajusta la recta a la nube de puntos:
𝑅2 = 𝑟𝑥𝑦 2 = (0,9226)2 = 0,8511 ⇒ 85,11%
Es decir, el 85,11% de las variaciones de los beneficios vienen explicadas por las variaciones en los gastos en
I+D.
Si queremos saber cuál será el beneficio esperado para una empresa que invierta 1800000 millones en I+D, solamente
tenemos que hacer los siguiente:
𝑌 = 𝑎 + 𝑏𝑋𝑖 = −2,873 + 2,176 1,8 = 1,04

Y si deseamos tener unos beneficios de 3000000 ¿cuál será el nivel de gasto en I+D que nos proporcionará este nivel de
beneficios?

3 = 𝑎 + 𝑏𝑋𝑖 ⇒ 3 = −2,873 + 2,176𝑋 ⇒ 𝑋 = 2,698


Problema 1. Para modelizar la variable Y se tienen dos posibles variables explicativas, X1 y X2. El vector de medias y la matriz
de varianzas y covarianzas entre las variables dependiente e independientes son:
𝑌 𝑋1 𝑋2
𝑌 1,435 𝑌 0,360 2,272 0,171
𝑋1 17,939 𝑆2 = 𝑋1 19,318 1,184
𝑋2 1,047 𝑋2 0,132
La recta de regresión que proporciona una bondad de ajuste más elevada es:

a) Yi= 0,079+1,295X2i
b) Yi= -0,67+0,117X1i
c) Yi= -0,079+1,295X2i
d) Yi= 0,67-0,117X1i
Problema 2. El diagrama de dispersión correspondiente a una muestra de 30 observaciones de las variables X e Y es el
siguiente:

50
o
o o
o
o
o
o o
o

40
o

o
o

30
o
o
o o
o
o

20
o o
o
o o o
o o
o
o

10
o

5 10 15

¿Qué resultados son compatibles con el gráfico anterior?


a) El coeficiente de correlación lineal y el de determinación son, respectivamente, 0,94 y 0,8836
b) La media de X es 10,8, la de Y es 29,5 y la covarianza entre X e Y es 58
c) La varianza de X es 24, la varianza de Y es -255 y la covarianza entre X e Y es -58
d) La covarianza entre X e Y es -58, el coeficiente de correlación lineal es -0,94 y el coeficiente de determinación es 0,8836
Problema 3. Se quiere comprobar si existe relación entre las unidades producidas (X) y las interrupciones que se producen
en la cadena de producción (Y) de una empresa. Elegidos aleatoriamente 60 días se han obtenido los siguientes resultados
con el programa R Commander:

Indique cuál de las siguientes afirmaciones es CIERTA:

a) Por cada incremento de 100 unidades en la producción, se estima que las interrupciones del
proceso varían en promedio un 51,7%
b) El 80% de la variación observada en las unidades producidas queda explicado por la recta de
regresión ajustada.
c) El número de interrupciones que en promedio se observan cuando la producción es de 1000
unidades es 49,3
d) El coeficiente de correlación entre Unidades producidas (X) e Interrupciones (Y) es -0,80
Problema 4. ¿Qué gráfico de dispersión correspondería a una distribución conjunta de dos variable X e Y que presenta un
coeficiente de correlación igual a 0,81?

a) b) c) d)
Problema 5. Sobre una muestra de 150 usuarios del metro de cierta localidad se ha observado el número de paradas (X) y el
tiempo (Y: en mn) del recorrido y se han obtenido los siguientes resultados:

150 150 150 150 2 150 2


𝑖=1 𝑋𝑖 =600 𝑖=1 𝑌𝑖 =2100 𝑖=1 𝑋𝑖 𝑌𝑖 =9145 𝑖=1 𝑋𝑖 = 2698 𝑖=1 𝑌𝑖 =32231

En base a la recta de regresión ajustada por MCO se puede afirmar que un usuario que realiza diariamente un trayecto de
6 paradas en promedio su recorrido durará:

a) 19 mn
b) 34 mn
c) 29 mn
d) 24 mn
Problema 6. ¿Qué afirmación respecto al coeficiente de correlación lineal es FALSA?

a) Sólo puede tomar valores entre -1 y +1.


b) Si el coeficiente de correlación lineal entre X e Y es igual a 0, X e Y son estadísticamente independientes.
c) Si X e Y son estadísticamente independientes, el coeficiente de correlación lineal es igual a 0.
d) El coeficiente de correlación lineal mide el grado de asociación lineal entre variables cuantitativas.

Problema 7 . Si dos variables están estandarizadas, es cierto que:

a) Las medias de las variables son 1.


b) Las varianzas de las variables son 0.
c) La matriz de correlaciones y la matriz de varianzas y covarianzas son la matriz
identidad.
d) La matriz de correlaciones y la matriz de varianzas y covarianzas es la misma.
Problema 8. Se desea investigar la relación que existe entre el precio de los pisos (variable Y, en miles de €) y los metros
cuadrados de las viviendas (variable X). Para ello se tomó una muestra de 23 pisos, midiendo los metros cuadrados y el
precio de la vivienda. De la información de la muestra se obtienen los siguientes resultados:

23 23 23 23 23

𝑌𝑖 = 3499,56; 𝑋𝑖 = 2601; 𝑌𝑖2 = 674038,81; 𝑋𝑖2 = 338877; 𝑋𝑖 𝑌𝑖 = 474600,15


𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1

Calcular el vector de medias (centro de gravedad), la matriz de varianzas y covarianzas y la matriz de correlaciones.
Problema 9. Del ejemplo anterior, la recta de regresión de Y sobre X viene dada por:
a) Y=47,148+1,762X
b) Y=-47,148-1,762X
c) Y=-47,148+1,762X
d) Y=47,148+2,5X

Problema 10. El porcentaje de variación del precio de los pisos que viene explicado por los metros cuadrados es igual a:

a) -18,50%
b) 98,0%
c) 75,5%
d) 90,0%

Problema 11. Si nos deseamos comprar un piso de 110m2 ¿Cuál será su precio esperado de venta?

a) 150000,25€
b) 98000,55€
c) 146714,47€
d) No se puede calcular.

Problema 12, Si el banco nos concede como máximo un crédito hipotecario de 125000€ ¿Cuántos metros cuadrados
esperamos que tenga el piso que nos podemos comprar? ...............m2

También podría gustarte