Está en la página 1de 47

Estadística

Grado en Ingeniería Informática

Tema 2. Variables Estadísticas Bidimensionales


Introducción
 En muchas ocasiones estamos interesados en estudiar dos
características sobre los individuos de una población, porque
pensamos que puede existir cierta relación entre ellas
Ejemplo: Las variables peso y altura, podemos pensar que a mayor
altura mayor peso.
 Por ellos estudiamos de forma conjunta 2 variables estadísticas, que
puede ser cuantitativas, cualitativas o una de cada tipo.
 En este tema nos centramos en el estudio conjunto de 2 variables
cuantitativas, aunque veremos algo de variables cualitativas al final
del tema.
Introducción
 Consideremos el estudio de 2 variables estadísticas sobre los
individuos de una población. Las llamamos X e Y
 Extraemos una muestra y obtenemos los posibles valores que toma
cada variable. Supongamos que:
o La variable estadística X puede tomar k valores (modalidades) distintos.
o La variable estadística Y puede tomar p valores (modalidades) distintos

 A cada individuo de la población le van a corresponder un par de


valores (xi, yi) de esas variables
Ejemplo: Para el estudio de las variables X=peso e Y=altura, el par
de valores que le corresponden a un individuo es (60kg, 170cm).
Tablas estadísticas
Ejemplo: Estudiamos el peso (X) y la altura (Y) en una clase de 71
alumnos
X\Y (140-160] (160-180] (180-200] ≥200 Suma

(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma → 19=n.1 26=n.2 18=n.3 8=n.4 71=n..


Tabla de frecuencias absolutas de una
variable bidimensional
X\Y (I’0 – I’1] … (I’j-1 – I’j] … (I’q-1 – I’q] Suma
y1 yj yq 
(I0 – I1] n11 … n1j … n1q n1.
x1
… … … … … … …
(Ii-1 – Ii] ni1 … nij … niq ni.
xi
… … … … … … …
(Ip-1 – Ip] np1 … npj … npq np.
xp
Suma→ n.1 … n.j … n.q n..=n
Tablas estadísticas
 En este caso nij representa el número de individuos de la muestra
que presentan la modalidad xi de la variable X e yj de la variable Y.
(Frecuencia absoluta del par de valores (xi, yj) )

 Cada individuo de la muestra presenta una única modalidad de


cada una de las variables que se estudian, por esta razón se
cumple que: p q
n.. = n =  nij
i =1 j =1

 ni. representa el nº de veces que se ha observado el valor xi de X


independientemente del valor de Y (frecuencia absoluta marginal).
q
ni. =  nij
j =1
 n.j representa el nº de veces que se ha observado el valor yj de Y
independientemente del valor de X (frecuencia absoluta
marginal). p
n. j =  nij
i =1
Tablas estadísticas
 fij, es la proporción de individuos que presentan la modalidad, xi de
X e yj de Y, fij= nij/n. (Frecuencia relativa del par de valores (xi, yi) ).
Se cumple que
p q
f .. =  f ij = 1
i =1 j =1

 Además,
ni. n. j
f i . = , f. j =
n n
donde fi representa la proporción de veces que se ha observado el
valor xi de X independientemente del valor de Y, y fj representa la
proporción de veces que se ha observado el valor yj de Y
independientemente del valor de X
Tabla de frecuencias relativas de una
variable bidimensional
X\Y (I’0 – I’1] … (I’j-1 – I’j] … (I’q-1 – I’q] Suma
y1 yj yq 
(I0 – I1] f11 … f1j … f1q f1.
x1
… … … … … … …
(Ii-1 – Ii] fi1 … fij … fiq fi.
xi
… … … … … … …
(Ip-1 – Ip] fp1 … fpj … fpq fp.
xp
Suma→ f.1 … f.j … f.q f..=1
Distribución marginal - Distribución condicionada

 Distribución marginal: Es aquella distribución que se obtiene


cuando queremos estudiar solamente una de las dos variables que
hemos observado sobre los individuos de una población.
Tendremos, por tanto, dos distribuciones marginales:
o Distribución marginal de X
o Distribución marginal de Y
 Distribución condicionada: Es aquella distribución que se obtiene
manteniendo fijo uno o más valores en una de las variables y
considerando los valores que toma la otra con sus respectivas
frecuencias
Ejemplo: Queremos estudiar el peso de los individuos cuya altura
varía entre 160cm y 180cm, X/160<Y<180
Distribución marginal
Distribución marginal de X: Es la distribución que expresa los valores
que toman los individuos en la variable X independientemente de los
valores que toman en la variable Y.

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n..


Distribución marginal
Distribución marginal de la variable Peso (X):

Para estos datos podemos calcular:


Peso (X) xi ni.
• Media muestral
(40-60] 50 18
• Mediana muestral
(60-80] 70 28
• Moda muestral
(80-100] 90 25
• Varianza
71
• Coeficiente de variación
Distribución marginal
Distribución marginal de Y: Es la distribución que expresa los valores
que toman los individuos en la variable Y independientemente de los
valores que toman en la variable X.

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n..


Distribución marginal
Distribución marginal de la variable Altura (Y):

Altura yj n.j Para estos datos podemos calcular:

(140-160] 150 19 • Media muestral


(160-180] 170 26 • Mediana muestral
(180-200] 190 18 • Moda muestral
≥ 200 210 8 • Varianza
71
• Coeficiente de variación
Distribución condicionada
Distribuciones condicionadas de X a valores de Y
Ejemplo: Distribución de X condicionada a 160 < Y < 180

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n


Distribución condicionada
Distribuciones condicionadas de X a valores de Y
Ejemplo: Distribución de X condicionada a 140 < Y < 180

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n


Distribución condicionada
Ejemplo: Distribución de X condicionada a 140 < Y < 180

Para estos datos podemos calcular:


XY=yj XY=yj ni/j
• Media muestral
(40-60] 50 16
• Mediana muestral
(60-80] 70 20
• Moda muestral
(80-100] 90 9
• Varianza
45
• Coeficiente de variación
Distribución condicionada
Distribuciones condicionadas de Y a valores de X
Ejemplo: Distribución de Y condicionada a 60 < X < 80

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n


Distribución condicionada
Distribuciones condicionadas de Y a valores de X
Ejemplo: Distribución de Y condicionada a 60 < X < 100

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n


Distribución condicionada
Ejemplo: Distribución de Y condicionada a 60 < X < 100

YX=xi YX=xi nj/i Para estos datos podemos calcular:

(140-160] 150 9 • Media muestral


(160-180] 170 20 • Mediana muestral
(180-200] 190 16 • Moda muestral
≥ 200 210 8 • Varianza
53
• Coeficiente de variación
Covarianza
 La Covarianza es una medida de la variabilidad lineal conjunta de
las variables X e Y pues se utiliza para la medición de la relación
lineal entre las variables. Tiene el inconveniente de depender de las
unidades en que se han medido las variables. Por ello, más
adelante veremos un coeficiente que se construye con la
covarianza, que no depende de dichas unidades de medida
 La Covarianza de las variables X e Y se define como:

𝑞 𝑝
σ𝑞𝑗=1 σ𝑝𝑖=1 𝑥𝑖 − 𝑥lj 𝑦𝑗 − 𝑦lj 𝑛𝑖𝑗 𝑥𝑖 𝑦𝑗 𝑛𝑖𝑗
𝐶𝑜𝑣 𝑋, 𝑌 = 𝜎𝑋𝑌 = = ෍෍ − 𝑥lj 𝑦lj
𝑛 𝑛
𝑗=1 𝑖=1
Covarianza
 El signo de la Covarianza indica el sentido en el que varían
conjuntamente las dos variables:

o Si Cov(X,Y)>0, las variables varían en el mismo sentido (relación lineal


positiva). Cuando los valores de una de las variables aumentan, los de
la otra también aumentan. Ejemplo: A mayor altura mayor peso.
o Si Cov(X,Y)<0, las variables varían en sentido opuesto (relación lineal
negativa). Cuando los valores de una de las variables aumentan, los
de la otra disminuyen. Ejemplo: A mayor precio de cierto producto
menor consumo del mismo.
Covarianza
 El signo de la Covarianza indica el sentido en el que varían
conjuntamente las dos variables:
o Si Cov(X,Y)=0, en este caso podemos pensar que o bien no existe
relación entre las variables, o bien las dos variables varían de forma
parecida.
o Cuando las variables son independientes la Covarianza vale 0. Sin
embargo, el hecho de que la Covarianza sea 0, no implica que sean
independientes.
Covarianza
 El signo de la Covarianza indica el sentido en el que varían
conjuntamente las dos variables:
o La Covarianza nos permite saber si las variables tienen relación y si la
relación es positiva o negativa, pero no nos permite saber cómo de
fuerte es esta relación. El grado de relación entre las variables se mide
mediante un coeficiente de asociación, denominado ‘Coeficiente de
correlación’.
Covarianza
Ejemplo: Obtener la covarianza de las variables X e Y

X\Y (140-160] (160-180] (180-200] ≥200 Suma



(40-60] 10=n11 6=n12 2=n13 0=n14 18=n1.

(60-80] 8=n21 12=n22 6=n23 2=n24 28=n2.

(80-100] 1=n31 8=n32 10=n33 6=n34 25=n3.

Suma→ 19=n.1 26=n.2 18=n.3 8=n.4 71=n


Covarianza
Ejemplo: Obtener la covarianza de las variables X e Y

X\Y 150 170 190 210 Suma xi*ni. xi*yj*nij


50 10 6 2 0 18 900 145000
70 8 12 6 2 28 1960 336000
90 1 8 10 6 25 2250 420300
Suma 19 26 18 8 71 5110 901300
yj*n.j 2850 4420 3420 1680 12370

Cálculo por filas de xi*yj*nij 𝑥lj =


5110
= 71,9718
71
1. 50*(150*10+170*6+190*2+210*0)=145000 𝑦lj =
12370
= 174,2254
71
2. 70*(150*8+170*12+190*6+210*2)=336000 𝜎𝑋𝑌 =
901300
− 71,9718 ∗ 174,2256
71
3. 90*(150*1+170*8+190*10+210*6)=420300 = 155,0486
Relación
lineal
positiva
Dependencia e independencia de
dos variables
 Independencia estadística: Dos variables X e Y se dice que son
estadísticamente independientes si la variación de una de ellas no
influye en distribución de frecuencias de la otra. En este caso no
existe relación entre las variables.

 X e Y son estadísticamente independientes si las distribuciones


condicionadas a cualquier valor de la otra variable son iguales.
Además, X e Y son independientes si y sólo si,
ni.n. j
nij = ó f ij = f i. f. j i, j
n
 Cuando las variables son independientes la covarianza vale 0.

 Cuando la covarianza vale 0 las variables son incorreladas


Dependencia e independencia de
dos variables
Ejemplo (independencia estadística):
X\Y Y1 Y2 Y3 Y4 ni.
X1 n11= 2 n12= 6 n13= 4 n14= 8 n1.= 20

X2 n21= 3 n22= 9 n23= 6 n24= 12 n2.= 30

X3 n31= 1 n32= 3 n33= 2 n34= 4 n3.= 10

n.j n.1= 6 n.2= 18 n.3= 12 n.4= 24 n= 60

n1.n.1 20  6 nn 20 18
n11 = = = 2, n12 = 1. .2 = =6
n 60 n 60
n n 30  6 n n 30 12
n21 = 2. .1 = = 3, n23 = 2. .3 = =6
n 60 n 60
Dependencia e independencia de
dos variables
 Dependencia estadística: Dos variables son dependientes
estadísticamente cuando la variación de una influye en la
variación de la otra. Es decir, existe relación entre ellas.

 El grado de relación entre las variables se mide mediante un


coeficiente de asociación, denominado ‘Coeficiente de
correlación’.
Nube de puntos
 Cuando estudiamos dos variables de forma conjunta, la
representación gráfica más usual es el Diagrama de dispersión o
Nube de puntos. Consiste en representar en unos ejes cartesianos
los pares de valores (xi,yj) mediante puntos que tienen esas
coordenadas.

yj=170

xi=70
Nube de puntos
 La nube de puntos nos sirve para observar si existe una relación
entre las variables que estudiamos (por ejemplo, si crecen en el
mismo sentido).
 Cuando la frecuencia absoluta que aparece para el par de
valores (xi,yj) es mayor que 1, junto al punto correspondiente en el
gráfico se coloca el valor de la frecuencia o dicho punto se hace
proporcional a la frecuencia.

yj=170

xi=70
Nube de puntos
Ejemplos:
Regresión y correlación
 Dado el estudio conjunto de dos variables, uno de los objetivos que
nos planteamos es el de encontrar una función que se ajuste lo
mejor posible a la nube de puntos observados, es decir, intentamos
buscar una curva que aunque no pase por todos los puntos del
grafico, esté lo más próxima posible a dichos datos.
 Otro de los objetivos es, una vez encontrada la función que mejor
se ajusta a la nube de puntos, medir el grado de ajuste entre la
función que hemos ajustado y la nube de puntos.
 Distinguimos así dos teorías que se complementan:
o Teoría de la Regresión
o Teoría de la Correlación
Regresión y correlación
 Teoría de la Regresión: Consiste en la búsqueda de una función
que exprese lo mejor posible el tipo de relación entre 2 o más
variables (nos centraremos en 2 variables).

 Teoría de la Correlación: Su objetivo es medir el grado de ajuste


existente entre la función teórica, es decir, la que hemos ajustado,
y la nube de puntos.
 Cuando la función que mejor relaciona las dos variables X e Y es
una recta, entonces la Regresión y la Correlación reciben el
nombre de Regresión lineal y Correlación lineal.
Rectas de regresión
 Recta de Regresión de Y sobre X: Vamos a suponer que la función
que mejor expresa el comportamiento de la variable Y en relación
con la variable X, tiene la siguiente expresión:
Y = aX + b
donde a y b son valores desconocidos.

 Para determinar los valores de a y b utilizamos el procedimiento de


Mínimos Cuadrados. Veamos en qué consiste este procedimiento.
Rectas de regresión
 Recibe el nombre de Residuo, eij, a la diferencia entre el valor
observado yj (el valor real asociado al valor xi) y el valor yj* (valor
teórico asociado a xi).

(xi,yj*)
yj *
eij= yj- yj*
yj
(xi,yj)

xi
Rectas de regresión
 El procedimiento de Mínimos Cuadrados considera que la función
que mejor se ajusta a los datos es aquella que minimiza la media
de los cuadrados de los residuos, esto es, aquella que minimiza:

1  1  1 
( )
min  eij2 nij  = min  y j − y *j nij  = min  ( y j − (axi + b )) nij 
2 2

n i j  n i j  n i j 

 A partir de aquí obtenemos:


 XY
a=
 X2
 XY
b = y − ax = y − x
X 2
Rectas de regresión
 Recta de Regresión de X sobre Y: Ahora suponemos que la función
que mejor expresa el comportamiento de la variable X en relación
con la variable Y, tiene la siguiente expresión:

X = Y + 
donde  y β son valores desconocidos.

 Para determinar los valores de  y β , procedemos de forma


análoga a la de la recta de regresión de Y sobre X, repitiendo el
procedimiento de Mínimos Cuadrados, pero en este caso los
residuos que obtenemos tienen la siguiente expresión:
Rectas de regresión
 El residuo eij es la diferencia entre el valor observado xi (el valor real
asociado al valor yj) y el valor xi* (valor teórico asociado a yj).

eij= xi*- xi

(xi*,yj) (xi,yj)
yj

xi * xi
 Utilizando el procedimiento de Mínimos Cuadrados obtenemos
 XY
=
 Y2
 XY
 = x − y = x − y
Y 2
Rectas de regresión
Ejemplo: Estudiamos el peso (Y) y la altura (X) de 5 personas y
suponemos que existe una relación lineal entre estas variables.
Queremos encontrar como se relaciona de forma lineal el peso con la
altura. La tabla con los resultados obtenidos es:

xi yi x i yi x i2 y i2
160 52 8320 25600 2704
172 64 11008 29584 4096
174 65 11310 30276 4225
176 72 12672 30976 5184
180 78 14040 32400 6084
 = 862  = 331  = 57350  = 148836  = 22293
Rectas de regresión
Ejemplo: Queremos obtener la recta de regresión de Y (variable Peso)
sobre X (variable Altura), para ello tenemos que calcular:
862 331
x= = 172.4 ; y = = 66.2
5 5

x y =
 ni x i yi
− xy =
57350
− 172.4  66.2 = 57.12
n 5

x 2=  n i x i
2
2 148836
−x = − 172.42 = 45.44
n 5

 y2 =
 i i
n y 2
−y =
222293
− 66.22 = 76.16
n 5
Rectas de regresión
Ejemplo: Ahora ya podemos obtener la recta de regresión de Y sobre
X.

 XY 57.12
a= 2 = = 1.257, b = y − ax = 66.2 − 1.257 172.4 = −150.5068
 X 45.44
y = −150.5068 + 1.257 x

Con esta recta de regresión podemos predecir el peso de una


persona, conociendo su altura. Por ejemplo, si su altura es de 170cm,
el peso será:
y = −150.5068 + 1.257 x = −150.5068 + 1.257 170 = 63.1832kg
Coeficiente de correlación lineal
 Recordemos que el signo del valor de la covarianza indica el
sentido de la relación entre las variables, pero la covarianza
depende de las unidades en que vengan dadas las variables
(Ejemplo: El peso viene dado en Kg y la altura en cm).

 Coeficiente de Correlación lineal de Pearson: Es un coeficiente


(adimensional) que mide el grado de variación lineal conjunta de
las variables.
xy
r= ; −1  r  1
x y
Coeficiente de correlación lineal
 Tenemos varias posibilidades

o r=0 Las variables son independientes, la covarianza


sería cero.

o 0<r<1 Dependencia funcional lineal directa, cuanto


más se aproxime r a 1, más fuerte será la dependencia.

o -1 < r < 0 Dependencia funcional lineal inversa, cuanto


más se aproxime r a -1 más fuerte será esa dependencia.

o r = -1 ó r = 1 Dependencia funcional lineal recíproca.


Coeficiente de correlación lineal
Coeficiente de determinación
 El coeficiente de determinación lineal mide la proporción de la
varianza explicada por la regresión.

 En el caso lineal se obtiene como:


 XY
2
R = 2 2 , 0  R2  1
2

 XY

 Según los valores de R2 podemos decir,


o Si R2=1, ajuste perfecto

o Si R2>0.8, ajuste bueno

o Si R2=0, el modelo de regresión lineal no explica cómo se relacionan las


variables X e Y
Coeficiente de correlación lineal
Ejemplo: Consideramos de nuevo el ejemplo anterior dónde Y es la
variable peso y X la altura medidas en 5 personas, se pide obtener los
coeficientes de correlación y de determinación:

xi yi x i yi x i2 y i2
160 52 8320 25600 2704
172 64 11008 29584 4096
174 65 11310 30276 4225
176 72 12672 30976 5184
180 78 14040 32400 6084
 = 862  = 331  = 57350  = 148836  = 22293
Coeficiente de correlación
Ejemplo:

o Determinamos el coeficiente de correlación lineal:


x y 57.12
r= = = 0.9710
x y 45.44 76.16

Las variables están fuertemente relacionadas linealmente, en el


mismo sentido. Si una crece la otra también.
o Ahora obtenemos el coeficiente de determinación lineal:
R2 = r2 = (0.9710)2 = 0.9428
Se puede decir que el 94.28% de la varianza de Y es explicada por la
regresión.

También podría gustarte