Está en la página 1de 18

ESTADÍSTICA EDUCATIVA

IV DISTRIBUCIÓN BIDIMENSIONAL

4.1. Distribución bidimensional


4.2. Diagrama de dispersión
4.3. Covarianza. Varianza Residual
4.4. Correlación lineal
4.5. Regresión Lineal
4.6. Coeficiente de determinación

4.1. Distribución bidimensional


Si estamos interesados en investigar dos o más características de
un mismo individuo o elemento, así por ejemplo si queremos
estudiar la relación entre el la estatura de una persona y su peso,
asociamos a cada característica el elemento (x, y) donde x
representará la estatura i y el peso, donde el par (x, y) se
denomina variable estadística bidimensional.

Muchas veces las dos características están relacionadas entre sí


por lo que es muy importante su estudio en conjunto.

Estas variables estadísticas bidimensionales se pueden clasificar


según la naturaleza de cada una de sus variables, esto es:

1. Las dos variables cualitativas.

2. Uno cualitativo y otro cuantitativo.


a) Uno cualitativo y otro cuantitativo discreto
b) Uno cualitativo y otro cuantitativo continuo

3. Los dos cuantitativos.


a) Los dos cuantitativos discretos
b) Uno discreto y el otro continuo
c) Los dos continuos

Representación de tablas estadísticas Bidimensionales

Dado un conjunto de n observaciones bidimensionales de la forma


(x, y) donde:
x1, x2, x3, . . . , xk las k modalidades diferentes de la
variable X
y1, y2, y3, . . . , yl las l modalidades diferentes de la
variable Y
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Y sea fij el número de observaciones (frecuencias absolutas) que


representa a la vez la modalidad xi de la variable X con la
modalidad yj de la variable Y, donde la suma de todas las
frecuencias absolutas fij es igual al total de observaciones, esto
es:
n  f11  f12  f13  ...  f1l 
f 21  f 22  f 23  ...  f 2l 
................................. 
f k1  f k 2  f k3  ...  f kl

k
n   (fi1  fi2  fi3  ...  f il )
i 1
k l
n   fij
i 1 j1

Una tabla estadística que muestra las dos características a la vez


se denomina Tabla de distribución de frecuencias Bidimensional
donde en las filas estarán las k modalidades de la variable X y en
las columnas las l modalidades de la variable Y, esto es:

xk
yl
y1 y2 y3 … yl f
j1
ij  ni

x1 f11 f12 f13 … f1l n1


x2 f21 f22 f23 … f2l n2
x3 f31 f32 f33 … f3l n3
    …  
xk fk1 fk2 fk3 … fkl nk
k k l

 fij  n j n1 n2 n3 … nl n   fij  n
i 1 i 1 j1

Donde:
n i = es la suma total de todas las frecuencias absolutas
f ij según el índice j ( ) , esto es:
l
n i   fij
j1

n j = es la suma total de todas las frecuencias absolutas


f ij según el índice i (), esto es:

UNSAAC 2
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

k
n j   fij
i 1

n = es la suma total de todas las frecuencias absolutas


f ij según los índices i y j ( ), esto es:
k l
n   fij  n
i 1 j1

Nota: Si las dos variables son cualitativas, se denomina Tabla de


contingencia
Tabla de distribución de frecuencias relativas bidimensional

xk
yl
y1 y2 y3 … yl h
j1
ij  hi

x1 h11 h12 h13 … h1l h1


x2 h21 h22 h23 … h2l h2
x3 h31 h32 h33 … h3l h3
    …  
xk hk1 hk2 hk3 … hkl hk
k k l

 h ij  h j h1 h2 h3 … hl h   h ij  1
i 1 i 1 j1

f ij f fi
h ij  hj hi 
j
Donde: ; ;
n n n

Distribuciones Marginales

Distribución Marginal de X: Se considera los totales por filas (es


decir la columna de los totales horizontales) . Las frecuencias
absolutas n i definen la distribución marginal de X, es decir una
distribución de una sola característica, esto es:

xk ni

x1 n1
x2 n2
x3 n3
 
xk nk
n

UNSAAC 3
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Distribución Marginal de Y: Se considera los totales por columnas


(es decir la fila de los totales verticales). Las frecuencias absolutas
n j definen la distribución marginal de Y, es decir una distribución
de una sola característica, esto es:

yl n j

y1 n1
y2 n2
y3 n3
 
yl nl
n

Ejemplo: Se tiene un grupo de Turistas varones que llegaron a la


Ciudad del Cusco en el mes de Enero de 7 países y distribuidos en
casados y solteros, obteniendo la siguiente tabla:

Y
Italia China Brasil Corea Chile México Francia
X
Casados 150 65 255 106 151 40 13
Solteros 120 180 600 54 320 182 64

Elaborar las tablas de frecuencias bidimensionales absolutas y


relativas y además las tablas marginales.

Solución:

Tabla de frecuencias absolutas

X
Y
Italia China Brasil Corea Chile México Francia f j1
ij  ni

Casados
Solteros
k

f
i 1
ij n j

UNSAAC 4
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Tabla de frecuencias relativas

X
Y
Italia China Brasil Corea Chile México Francia h
j1
ij  hi

Casados
Solteros
k

h
i 1
ij h j

Tabla de frecuencias absolutas acumuladas bidimensionales:

yl
y1 y2 y3 … yl
xk
x1 F11 F12 F13 … F1l
x2 F21 F22 F23 … F2l
x3 F31 F32 F33 … F3l
    … 
Fkl =
xk Fk1 Fk2 Fk3 …
n

Así por ejemplo en el ejercicio anterior, la tabla de distribución


de frecuencias absolutas acumuladas será:

Y
Italia China Brasil Corea Chile México Francia
X
Casados
Solteros

Distribución acumulada: Fij


Y
Italia China Brasil Corea Chile México Francia
X
Casados
Solteros

Tabla de frecuencias relativas acumuladas bidimensionales:


Se construye en forma similar que la tabla de frecuencias
absolutas bidimensionales, esto es:

UNSAAC 5
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

yl
y1 y2 y3 … yl
xk
x1 H11 H12 H13 … H1l
x2 H21 H22 H23 … H2l
x3 H31 H32 H33 … H3l
    … 
Hkl =
xk Hk1 Hk2 Hk3 …
1

Así por ejemplo del ejercicio anterior se tiene:

X
Y
Italia China Brasil Corea Chile México Francia h
j1
ij  hi

Casados
Solteros
k

h i 1
ij h j

Luego:

Y
Italia China Brasil Corea Chile México Francia
X
Casados
Solteros

4.2. Diagramas de dispersión


El primer paso fundamental para un análisis de regresión, es
construir la gráfica de los datos muestrales en un plano
bidimensional XY, que se denomina diagrama de dispersión o
nube de puntos.

Mediante este diagrama es posible observar el tipo de tendencia


que hay entre la variable Y y la variable X, es así que si hay una
tendencia lineal, se puede ajustar una línea recta al diagrama de

UNSAAC 6
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

dispersión. A continuación veamos las posibles representaciones


de un conjunto de datos bidimensionales:

Y Y

X Tendencia
X
Tendencia
lineal positiva lineal negativa

Y Y

X Ninguna
X
Tendencia
Tendencia
no lineal

Ejemplo: se tiene la siguiente información del peso de un grupo de


10 turistas respecto a su estatura y peso, trazar el diagrama de
dispersión.

1 2 3 4 5 6 7 8 9 10
Peso (X) 87 94 102 80 84 65 74 86 88 94
Estatura 1.75 1.80 1.93 1.80 1.65 1.70 1.68 1.78 1.90 1.81
(Y)

(87, 1.75) = (x, y)


Y (Estatura)

1.95

1.90

1.85
1.80

1.75
1.70

1.65

64 68 72 76 80 84 88 92 96 100 X (Peso)

UNSAAC 7
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

4.3. Covarianza
Antes de determinar la recta de regresión, observaremos un
estadístico que permite medir el grado de variabilidad conjunta
de dos variables aleatorias X y Y con respecto a sus respectivas
medias.
La covarianza de un conjunto de n valores (x 1, y1), (x2, y2), (x3,
y3), . . . , (xn, yn) de una variable bidimensional (X, Y) es el
número denotado por Cov(X, Y) o SXY que está definido como la
media aritmética de los productos de las diferencias de cada uno
de los datos con respecto a sus correspondientes medias, esto es:
n
 ( xi  x )(yi  y )
i 1
Cov(X, Y)  S XY 
n

En forma equivalente, la covarianza se puede calcular también


como:
n
 xi yi
S XY  i1 xy
n

A diferencia de la varianza (medida de dispersión para una


variable), la covarianza si puede ser negativa.
Ejemplo:
Calcular la covarianza para los datos del ejemplo anterior
1 2 3 4 5 6 7 8 9 10
Peso (X) 87 94 102 80 84 65 74 86 88 94
Estatura 1.75 1.80 1.93 1.80 1.65 1.70 1.68 1.78 1.90 1.81
(Y)

Solución:

xi  x yi  y ( xi  x )( yi  y )
Peso (X) Estatura (Y)

87 1.75
94 1.80
102 1.93
80 1.80
84 1.65
65 1.70
74 1.68

UNSAAC 8
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

86 1.78
88 1.90
94 1.81
Total 854 17.8

Medias

n
 ( xi  x )(yi  y )
i 1
S XY 
n

4.4. Correlación lineal


Denominado también coeficiente o índice de correlación
El coeficiente de correlación de Pearson de un conjunto de n
valores (x1,y1), (x2,y2), (x3, y3), . . . , (xn, yn) de una variable
bidimensional (X, Y) es un número abstracto (adimensional)
denotado por r, que se calcula como:
S XY
r 
S XS Y

donde: SXY : es la covarianza de X y Y


SX : es la desviación típica de X
SY : es la desviación típica de Y

Podemos afirmar que el coeficiente de correlación será un


número real comprendido entre –1 y 1, esto es:

–1r1
La interpretación del coeficiente de correlación, es como
sigue:

Si r = 1, se dice que existe una correlación perfecta positiva


Si r = –1, se dice que existe una correlación perfecta negativa
Si r = 0, se dice que no existe una correlación entre las dos
variables

UNSAAC 9
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Ejemplo: Determinar el coeficiente de correlación del ejemplo


anterior

S XY
r 
S XS Y

4.5. Regresión lineal


Sea un conjunto de n valores (x1,y1), (x2,y2), (x3, y3), . . . , (xn, yn)
de una variable bidimensional (X, Y); la regresión lineal simple
entre las variables X y Y, consiste en determinar la ecuación de la
recta Y = a + bX que mejor se ajuste a los n valores de la
muestra, con el objetivo de predecir o estimar los valores de la
variable dependiente Y a partir de los valores de la variable
independiente X.
Determinar la función lineal Y = a + bX, consiste en hallar los
valores de a y b a partir de los datos de la muestra.
Cuando calculamos un valor de Y a partir de un valor x i de X en
la función lineal Y = a + bX lo denotaremos por ŷ i (yi estimado) ,

es decir:
ŷ i = a + bxi

Así por ejemplo, si la ecuación lineal es Y = 2 + 3X


El valor estimado para xi = 5, es:
ŷ i = a + bxi
ŷ i =
ŷ i =

Recta de Regresión de Mínimos Cuadrados

Si xi es un valor de la muestra, es decir (xi, yi) y el valor


estimado ŷ i para xi, es decir el punto (xi, ŷ i ) es un punto de la

recta de regresión Y = a + bX , entonces se genera la diferencia:


di = yi – ŷ i que se denomina error o residuo.

UNSAAC 10
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Y (Estatura)

(x2,y2)

(x1,y1) y 2  y1
m
yi x 2  x1
di
ŷ i
=
a

xi X (Peso)
64 68 72 76 84 88 92 96

Un método que mejor se ajuste a los n datos de la muestra (xi,


yi) es el método de mínimos cuadrados, que consiste en hacer
mínima la suma de los cuadrados de los errores (SCE), es decir:
n n
di  (y i  ˆy i )
2 2
SCE  
i1 i1

n
 (y i  a  bx i)
2
SCE 
i1

Por lo que determinar la recta de regresión de mínimos


cuadrados consiste en hallar los valores de a y b de manera que
la SCE sea mínima, esto se obtiene resolviendo el sistema de
ecuaciones:
n n
 yi  na  b  x i
i1 i1

n n n
 x iy i  a  x i  b  x i
2

i1 i1 i1

Resolviendo este sistema de ecuaciones se obtiene:


n  x iy i   x i  y i
b
n x i    x i 
2 2

En forma equivalente, también es posible hallar el valor de b


como:
S XY
b
S x2

Y de la primera ecuación, obtenemos:

UNSAAC 11
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

n n
 yi  na  b  x i (dividiendo entre n)
i1 i1

n n
 yi  xi
i1  a  b i1
n n

a= y  b x

Otra forma de expresar la recta de regresión, es:


Y = a + bX (sustituyendo el valor de a)
Y= y  bx + bX
Y – y = b(X – x )

denominada ecuación punto pendiente, donde el punto ( x , y )


pertenece a la recta de regresión.

Interpretación del coeficiente de regresión b


Al coeficiente b se le denomina pendiente o coeficiente de
regresión lineal, siendo la constante a la ordenada en el
origen, luego:
Si b > 0, entonces la tendencia es lineal creciente, es decir a
valores mayores de la variable X le corresponde valores
mayores de la variable Y.

Si b < 0, entonces la tendencia es lineal decreciente, es decir a


valores mayores de X le corresponde valores menores de Y o
viceversa.

Si b = 0, entonces Y permanece constante (estacionario)


cuando X varía. En este caso se dice que no hay regresión.

Otra interpretación del coeficiente de regresión, es que


representa el cambio promedio de Y cuando cambia X, es
decir que si xi se incrementa en 1, entonces ŷ i varía en

promedio b unidades.

UNSAAC 12
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Así por ejemplo, si Y = 3 + 2X entonces (a = 3, b = 2)


Si X = 5  Y = 3 + 2(5) = 13
Si X = 6  Y = 3 + 2(6) = 15 15 – 13 = 2 = b
Y = 3 + 2X (b = 2) Si X varía en una unidad entonces Y
varía en promedio 2 unidades
Y = 1.3 + 5X (b = 5)

Obtenemos una relación entre el coeficiente de regresión b y el


coeficiente de correlación r, comparando:
S XY S XY
r  y b
S XS Y S x2

S XY
Luego: b
S x2

S XY
b
S XS X

b
S XYS Y
 b r
SY
S XS XS Y SX

De donde podemos afirmar que el coeficiente de regresión y el


coeficiente de correlación tendrán el mismo signo.

Ejemplo 1: Se ha realizado el estudio de la relación entre la


publicidad por TV (en minutos) y las ventas de paquetes
turísticos, durante 10 semanas donde X representa la publicidad
por semana (en minutos) y Y el número de paquetes turísticos
vendidos en una semana (en unidades), resultando:

1 2 3 4 5 6 7 8 9 10
Publici 20 30 30 40 50 60 60 60 70 80
(X)
Ventas (Y) 50 73 69 87 108 128 135 132 148 170

a) Trazar el diagrama de dispersión e indicar la tendencia


b) Calcular la recta de regresión de mínimos cuadrados para
poder predecir la venta futura e interpretar el coeficiente de
regresión.

UNSAAC 13
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

c) Estimar las ventas de una semana si se realiza 90 minutos de


publicidad
d) Calcular el coeficiente de correlación

Solución:

Ejemplo 2: En una muestra de 5 trabajadores de un restaurante


turístico, se han observado sus años de experiencia (X) y el
tiempo (en minutos) que tardan en realizar una determinada
tarea (Y). Los datos se muestran en la siguiente tabla:

X 1 2 3 4 5
Y 8 9 4 3 3

a) Trazar el diagrama de dispersión e indicar la tendencia.


b) Determinar la recta de regresión de mínimos cuadrados
c) ¿En cuánto tiempo realizará la misma tarea un trabajador
que tiene 6 años de servicio?. ¿Es confiable este resultado?
d) ¿En cuánto tiempo realizará la misma tarea un trabajador
que tiene 20 años de servicio?. Interprete el resultado

UNSAAC 14
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Solución:

Partición de la varianza de Y
Sea (xi, yi) un valor observado de la variable (X, Y) i sea ŷi el

valor de la ecuación de regresión Y = a + bX cuando X = xi ,


luego la varianza de Y está dado por:

 (yi  y) 2
Var(Y) = S2Y 
n

Y (Estatura)

yi

ŷ i
=
y

x xi X (Peso)

Del gráfico, se observa que: yi  y  (yi  yˆ i )  (yˆ i  y)

Error total = Error no explicado + Error explicado por la regresión


Luego, tomando sumas de cuadrados:

 (yi  y)2   (yi  yˆ i )2   (yˆ i  y)2


SCT = SCE + SCR
Donde: SCT = Suma de Cuadrados Total
SCE = Suma de Cuadrados de los Errores
SCR = Suma de cuadrados debido a la regresión

UNSAAC 15
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

Por lo tanto la varianza de los yi es igual a la varianza no


explicada o varianza residual más la varianza explicada por la
recta de regresión.

Verificar que la variación total es igual a la variación no


explicada más la variación explicada por la regresión de Y en X
del ejemplo 2
SCT = SCE + SCR

4.6. Coeficiente de determinación:


El Coeficiente de determinación r2 se define como:
n
 (yˆ i  y)
2
2 SCR i1
r   n
SCT
 (y i  y)
2

i1

Y como la partición de la suma de cuadrados es:


SCT = SCE + SCR (dividiendo entre SCT)
obtenemos:
SCT SCE SCR
= 
SCT SCT SCT

SCE
1=  r2
SCT

1= (1  r 2 )  r 2

Luego, podemos concluir que del 100% de la varianza


total: será igual a (1 – r2) 100% de la varianza no explicada
más r2 100% de la variación explicada de la recta de regresión.

Hallar el coeficiente de determinación de los ejemplos 1 y 2


aplicando la fórmula

UNSAAC 16
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

EJERCICIOS
1. El ingreso anual disponible y los gastos de consumo (en soles)
de un grupo de 9 familias cusqueñas se presentan en el
siguiente cuadro:

Ingreso Consumo
20000 18000
14000 15000
35000 30000
23000 16000
12000 9000
5000 7000
14000 15000
30000 26000
25000 23000

a) Determinar la recta de regresión del consumo con respecto


al ingreso

b) Determinar la recta de regresión aplicando la


transformación X’ = X/1000 y Y’ = Y/1000, contrastar con
el resultado obtenido en la parte a)

2. Los ingresos (X) y los gastos (Y) semanales (en dólares) de un


grupo de 100 familias extranjeras, han dado los siguientes
resultados:
x  210 , y  200 , S2x  5.76 , S2y  2.56 , r = 0.95

Determinar la recta de regresión de mínimos cuadrados de Y


en X y estimar el gasto de una familia que tiene 300 dólares de
ingresos semanales. ¿Es confiable este resultado?
Solución:

UNSAAC 17
ESTADÍSTICA EDUCATIVA - EDUCACIÓN Mgt. Joel Olarte Estrada

3. Se realiza el estudio de la relación entre los costos (X) y las


ventas (Y) en soles de ciertos productos, a partir de una
muestra se obtuvo la siguiente información:
SX = 5, SY = 4, x  50 , y  100 , Y = 62 + 0.76X

Si los costos se incrementan en 3 soles y las ventas


correspondientes se incrementan en 6 soles:
a) ¿Cómo cambia la ecuación de regresión?

b) ¿Qué porcentaje de la varianza de las ventas es explicada


por la regresión?

4. Se tiene la siguiente información del número de pasajes


vendidos (en millones) por una compañía aérea durante los
años 2010 y 2019

Años 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Ventas 92.2 92.3 80.0 89.1 83.5 68.9 69.2 67.1 58.3 61.2

a) Trazar el diagrama de dispersión e indicar la tendencia


b) Determinar la recta de regresión de mínimos cuadrados de
las ventas en función a los años e indicar su confiabilidad.
c) En el 2010 debido a la pandemia se calcula que el número de
pasajes vendidos será de 12.6 millones, estimar la pérdida
que sufrirá esta empresa.

UNSAAC 18

También podría gustarte