Está en la página 1de 11

Estadstica

DISTRIBUCIONES BIDIMENSIONALES

1. INTRODUCCIN: Variables estadsticas bidimensionales.


En numerosas ocasiones interesa estudiar simultneamente dos (o ms) caracteres de una
poblacin. En el caso de dos (o ms) variables estudiadas conjuntamente se habla de variable bidimensional (multidimensional ); si se trata de dos caracteres cualitativos, de par de atributos.
Si de un cierta poblacin se estudian dos caracteres simultneamente se obtienen dos series
de datos.
Individuos
Carcter X
Carcter Y

A
x1
y1

B
x2
y2

C
x3
y3

.......
........
..........

La lista de pares de datos correspondientes a cada individuo de la poblacin (repetidos o


no), es lo que llamamos variable estadstica bidimensional.
Ejemplo 1. A cada uno de los reclutas de un reemplazo se les talla y pesa. Se trata de dos variables cuantitativas.
xi
( tallas en m )
yi
( peso en kg )

1,70

1,70

1,69

1,68

........

67

75

70

66

.......

Ejemplo 2. Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo del tabaco, que
ha arrojado los siguientes resultados:
Hbito
Sexo

Fumadores

Varones
Mujeres
Totales de columnas

No fumadores

49
43
92

64
37
101

Totales de filas
113
80
Total general 193

Nota. En este tema nos limitaremos al estudio de caracteres cuantitativos discretos, puesto que si el carcter
es continuo o discreto agrupado en intervalos, se trabajar con las marcas de clase.

2. Distribuciones de frecuencias.
Se disponen las frecuencias en una tabla de doble entrada donde las xi y la yj estn ordenadas en forma creciente. Recibe el nombre de tabla de frecuencias o tabla de correlacin.
Si hay pares que se repiten se agrupan siendo nij la frecuencia absoluta del par (xi, yj).
Las sumas:
nij = ni , frecuencia absoluta de xi.
j

nij = nj , frecuencia absoluta de yj


i

se llaman frecuencias absolutas marginales de las variables X e Y respectivamente.


nij = N = nmero total de pares.
j i

Estadstica

x1

x2

.......

xk

Y
y1

n11

n21

.....

nk1

y2

n12

n22

......

nk2

......

.....

....

....

Frec. absolutas
marginales de Y
n1
n2

...

....
.

yr
Frec. absolutas
marginales de
X

n1r

n2r

n1

n2

...

nkr
..

nr
nij = N
i j

nk

En la prctica algunas de las nij pueden ser cero. En tal caso la casilla correspondiente se dejar en blanco.
Ejemplo 3. Dada la distribucin bidimensional:

X
Y

1
3

2
5

1
2

2
3

3
5

2
4

2
3

2
5

3
5

1
3

la tabla correspondiente es:

X
Y
2
3
4
5
Frec. absolutas
marginales de
X

1
1
2

2
1
2
5

2
2

Frec. absolutas
marginales de y
1
4
1
4
N=10

Al estudiar una variable bidimensional se obtienen varias distribuciones unidimensionales, segn se consideren las filas o las columnas de la tabla en estudio.
Las distribuciones unidimensionales del total de los individuos de la poblacin, respecto a
cada una de las caractersticas reciben el nombre de distribuciones marginales.
Distribucin marginal de la Y:
Y
y1
y2
.
.

yr

Frec. absolutas marginales de Y


n1
n2
.
.
nr

Anlogamente la distribucin marginal de la X

Estadstica

Ejemplo 4.
Obtener la distribucin marginal de la variable X.
Frec. absolutas
X
marginal de X
1
3
2
5
3
2

Si en la tabla de correlacin consideramos la primera columna y una columna intermedia,


la correspondiente a yj, se obtiene una distribucin unidimensional que llamaremos distribucin
condicionada de la variable X por la modalidad yj de la variable Y.
X
x1
x2
.
.
xk

Frec. absolutas
condicionadas por
yj
n1j
n2j
.
.

nkj

Anlogamente se define la distribucin condicionada de la variable Y por la modalidad xi


de la variable X.
Ejemplo 5.
Obtener la tabla de la distribucin condicionada de la variable Y por la modalidad x2.

Y
2
3
4
5

Frec. absolutas
condicionadas por
x2
0
2
1
2

3. Representaciones grficas.
Consideremos la distribucin:
x1
x2
.....
y1
y2 .......

xN
yN

( Los pares pueden estar repetidos )


Los pares de valores observados (xi , yj) se pueden representar en unos ejes de coordenadas,.
y

( xi , yj )

El conjunto de puntos que resulta se llama diagrama de dispersin o nube de puntos de la


distribucin bidimensional.

Estadstica

Cuando el nmero de datos es grande (se usa una tabla de doble entrada) los datos se representan con un diagrama de dispersin reticulado de tal manera que la visin de la nube de puntos
indique realmente cmo es la distribucin.
En estos casos tambin se suele usar un diagrama de barras sobre un sistema cartesiano de
tres dimensiones (estereogramas).
Ejemplo 6.
Hacer el diagrama de dispersin de la distribucin del ejemplo 3.

. . . .
.
. . . .
.
1
2
3

Ejercicio 1. Dibuja el estereograma correspondiente .

4. Parmetros de la variable estadstica bidimensional.


Considerando las distribuciones marginales, como son unidimensionales es posible calcular
los siguiente parmetros:
a) Medias
x = xini
N

Donde N=ni=nj es el numero total de pares.

y= yjnj
N
Llamadas medias marginales.
Nota. En una distribucin bidimensional al punto (x, y ) se le llama centro de gravedad de la
distribucin.
b) Varianzas
Se define:
2
2
2
S2x= (xi - x) ni = xi ni - (x)
Varianza marginal de la variable X
N
N
(Es decir la media del cuadrado menos el cuadrado de la media)
Anlogamente la varianza marginal de la variable Y. De ellas (extrayendo la raz cuadrada )
se obtienen las correspondientes desviaciones tpicas.
Ejemplo 7. Calcula las medias marginales y las Varianzas de la v.e.del ejemplo 3.
Solucin x = 19/10=1,9 ; y =38/10= 3,8 ; Sx2= 4,1-(1,9)2= 0,49 ; Sy2= 15,6 - 14,44=1.16.

c) Covarianza
Para las variables estadsticas bidimensionales se define la covarianza como la media
aritmtica de los productos de las desviaciones respecto de la media de cada una de las variables
componentes. Es decir :
Sxy = (xi-x)(yj-y)nij
N

Estadstica

Se demuestra que

Sxy = xi yj nij - x.y = Mxy - x .y


N.
propiedad que facilita el clculo de la covarianza. (Ver problema resuelto 2)
Ejempl 8. Calcula la covarianza de la distribucin del ejemplo 3.
Solucin : Sxy = 2 + 6 + 12 + 8 + 20 + 30 - (1,9)(3,8) = 0,58.

10
4. Regresin lineal.
Al considerar los dos caracteres de una variable bidimensional puede ocurrir.

Que exista una dependencia funcional entre ellos, de tal manera que a cada valor le corresponda un nico valor del otro. Ejemplo: la temperatura a la que calentamos una barra de hierro
y la longitud alcanzada.
Que haya una dependencia estadstica o correlativa, de tal manera que los valores sigan
unas pautas similares. Por ejemplo el nmero de horas de estudio y las notas obtenidas.
Que se de una independencia entre los caracteres. Por ejemplo la estatura y las calificaciones en Matemticas.
El estudio de la relacin entre dos caracteres de una variable estadstica bidimensional es el
objeto de la regresin lineal.
La nube de puntos de una distribucin bidimensional nos da una primera idea de la relacin
existente entre los datos de la misma.
Cuando la nube de puntos del diagrama de dispersin permita deducir algn tipo de dependencia entre las dos variables X, Y, concentrndose los puntos alrededor de una cierta lnea (lnea
de regresin) se plantean dos cuestiones:
A) Definir la lnea.
B) Medir el nivel de aproximacin de dicha lnea.
S la lnea es una recta, el problema es un caso tpico de regresin lineal.
A) Rectas de regresin.
Se llama recta de regresin a aquella que mejor se ajusta a la nube de puntos.
El procedimiento ms usado, para hallar dicha recta, es el de los mnimos cuadrados.
Se calcula la recta:
y = ax + b,
de tal manera que:
S= [yi - (a xi + b )]2
sea mnima
. .
.. . .
. . .
. .

Estadstica

El clculo de a y b incluye conocimientos que no se dan en este nivel1 por lo que slo daremos el
resultado:
Se verifica:

b= y - Sxy x
Sx2

a= Sxy
Sx2

luego se puede escribir:


y= Sxy x + y - Sxy x o lo que es igual: y - y = Sxy ( x - x ) .
Sx2
Sx2
Sx2
Esta es la ecuacin de la recta de regresin de Y sobre X. Sirve para hacer estimaciones o
predicciones de los valores de Y conocidos los de X.
Anlogamente la recta de regresin de X sobre Y tiene por ecuacin:
x - x = Sxy (y - y )
Sy2
y m xy = Sxy
A myx = Sxy
2
Sx
Sy2

se les llama los coeficientes de regresin .

Ejemplo 10. Hallar las rectas de regresin para la distribucin del ejemplo 3.
Solucin : recta de regresin de Y sobre X
y - 3,8 = 1,18 (x- 1,9)
recta de regresin de X sobre Y x - 1,9 = 0,5 ( y - 3,8 ).

Nota. Daremos sin demostracin algunas propiedades del coeficiente de regresin que facilitan los clculos de estos, pues permiten hacer un cambio de variable.
Propiedades del coeficiente de regresin:
1) Si se suma o resta una constante a todos los valores de X o de Y el coeficiente de regre-

sin myx no vara.


2) Si se multiplican todos los valores de X por una constante, el coeficiente de regresin
queda dividido por esa constante.
Si se multiplican todos los valores de y por una constante, el coeficiente de regresin myx
queda multiplicado por es constante.
Ejemplo 11. Consideramos la tabla:
1980
1983
1986
1989

430000
450000
475000
500000

Si hacemos X= X 1980 , Y = Y 450000

1000

Se obtiene :
0
1

La derivacin parcial.

-20

Estadstica

1
2
3

0
25
50

Para la variable X ,Y es ms fcil el clculo del coeficiente de regresin y la relacin entre ste y el
de XY es:
myx = 3mxy

1000

B) Correlacin lineal.
Se entiende por correlacin la dependencia que existe entre las variables de una distribucin., cuando sta es, en cierta forma, lineal se habla de correlacin lineal. Cuando no existe tal
dependencia se dice que las variables estn incorreladas.
Para medir, de una forma cuantitativa, dicha dependencia se utiliza el llamado coeficiente
de correlacin lineal, o de Pearson, que se define as:
Sxy
= myx. mxy
Sx . Sy
El signo es + si la covarianza es positiva y - si es negativa..

r=

Propiedades de r
a) -1 r 1
b) Si r es positivo la correlacin es directa, es decir, al aumentar una variable tambin aumenta la otra (coeficiente de regresin positivo). En este caso las pendientes de las rectas de regresin son positivas.
. .
.. . .
. . .
. .

Si r es negativo la correlacin es inversa, es decir, al aumentar una variable disminuye la


otra. En este caso las pendientes de la rectas de regresin son negativas.
c) Si r2 = 1, es decir, r igual a 1 o a -1, las dos rectas de regresin coinciden y la nube de
puntos est contenida en la recta (correlacin perfecta). Hay dependencia funcional entre las variables.

. .

d) Si r = 0 las rectas de regresin son perpendiculares entre s y paralelas a los ejes. Las variables son incorreladas.

Estadstica

Para los dems valores de r la dependencia es tanto ms fuerte cuanto ms prximo est a 1
o a -1. Ser ms dbil cuando se aproxime a 0:
Para la correlacin directa:
Si 0,75 r 1 correlacin muy alta.
Si

0,40 r 0,75 correlacin baja

Si

r < 0,40

la correlacin es casi despreciable .

Ejemplo 12. Hallar el coeficiente de correlacin lineal para la distribucin del ejemplo 3.
Solucin : r =+ (118
, ).(0,5) = 0,76. Se trata de una correlacin directa alta.

Problemas resueltos
1. Una asociacin dedicada a la proteccin de la infancia decide estudiar la relacin entre la mortalidad infantil en cada pas y el nmero de camas de hospitales por cada mil habitantes.. Datos
50
100
70
60
120
180
200
250
30
90
x
5
2
2,5
3,75
4
1
1,25 0,75
7
3
y
Donde x es el n de camas por mil habitantes e y el tanto por ciento de mortalidad.
Se pide calcular las rectas de regresin y el coeficiente de correlacin lineal.
Si se dispusiese de 175 camas por mil habitantes que tanto por ciento de mortalidad cabria esperar?. La estimacin es fiable? Razona la respuesta.
Solucin :
Para facilitar los clculos de los parmetros se utiliza la siguiente tabla:

yi
xi2
xi
50
5
2500
100
2
10000
70
2,5
4900
60
3,75
3600
120
4
14400
180
1
32400
200 1,25 40000
250 0,75 62500
30
7
900
90
3
8100
1150 30,25 179300

yi2

x i yi
25
250
4
200
6,25
170
14,0625
225
16
480
1
180
1,5625
250
0,5625
187,5
49
210
9
270
126,4375 2422,5

x =115; y = 3,025%; Sx = 17930 13225 = 68,59; Sy = 12,64375 9,150625 = 1,87 ; Sxy


= 242,25 (115)(3,025) = -105,625
Las rectas de regresin sern por tanto:
y - 3,025 = -0,022449 (x - 115)
x - 115 = -30,2053 ( y - 3,025)
El coeficiente de correlacin lineal:
r=

105,625
= - 0,8235
(68,59)(1,87)

es una correlacin inversa alta .

Estadstica

Para la estimacin que nos piden utilizaremos la recta de regresin de Y sobre X.


y= 3,025 - 0,022449(175- 115) = 1,6783 que sera fiable por ser alto el coeficiente de correlacin.

2. Dada la distribucin bidimensional:


1
3

X
Y

2
5

1
2

2
3

3
5

2
4

2
3

2
5

3
5

1
3

Encuentra el valor del coeficiente de correlacin lineal usando una tabla de correlacin.
Solucin
Se usa la siguiente tabla de doble entrada que facilita los clculos:
X
1

nj

njyj

njyj2

nijxiyj

2
2
6
18
30

1
4
1
4
10
=19
=41
=78

2
12
4
20
=38

4
36
16
100
=15

2
18
8
50
=78

Y
2
3
4
5

1
2

ni
nixi
nixi2
nijxiyj

3
3
3
7

2
1
2
5
10
20
40

De aqu se tiene:
x = 19/10= 1,9; y = 38/10= 3,8; Sx2= 4,1 - (1,9)2= 0,49, Sx =0,7 ; Sy2=15,6 - (3,8)2= 1,16,
Sy = 1,077; Sxy = 7,8 - (1,9)(3,8)= 0,58.
Luego

r=

0,58
= 0,769
(0,7)(1,077)

32. En la tabla siguiente se dan los valores y algunas frecuencias absolutas de un par de variables tratadas conjuntamente. Los valores de la primera fila corresponden a la variable Y, y los de la primera columna a la variable X. La
ltima columna es la marginal de X y la ltima fila es la marginal de Y.
1

6
7

11

10

a) Completar la tabla.
b) Calcular el coeficiente de correlacin y las rectas de regresin.
c) Sirven las rectas de regresin para hacer predicciones de una variable en funcin de la otra? Por qu?
Solucin

Propuesto Selectividad (Sep. 98)

Estadstica

b) x =

Mxy 3 =

11

11

10

37

15
. + 3.4 + 4.8 + 511
. + 6.4 + 7.5
1.4 + 2.5 + 4.8 + 7.6 + 9.10 + 11.4
= 4,405 ; y =
=6
37
37
xi y j nij
ij

= 28,378, luego Sxy = Mxy - x.y = 1,948

N
15
. + 32 .4 + 4 2 .8 + 52 .11 + 6 2 .4 + 7 2 .5
(4,405) 2 = 3,11; Sx=1,764
Sx2 =
37
Sy2 = 47,027 - 36 = 11,027; Sy = 3,321
El coeficiente de correlacin lineal r =

1,948
= 0,3325 <0,40, correlacin baja.
(1,764)(3,321)

myx = 1,948/3,11=0,626 y mxy = 1,948/11,027=0,177

son los coeficientes de regresin.

Las rectas de regresin son:


y - 6 = 0,626 (x - 4,405) de Y sobre X, y x - 4,405 = 0,177(y - 6) de X sobre y
c) Las rectas de regresin no sirven para hacer predicciones, fiables, de una variable respecto de la otra ya que
la correlacin es baja. (El mdulo del coeficiente de correlacin lineal est muy alejado de la unidad)

Problemas propuestos
1. Las tallas y los pesos de 10 personas vienen recogidos en la siguiente tabla:
talla (cm)
pesos (kg)

160 165 170 180 185 190 192 175 182 172
58 61 65 73 80 85 83 68 74 67

Estimar el peso medio de una persona que mida 168 cm.


2. El nmero de licencias de caza, en miles, y el nmero de votantes a un determinado partido en 6
comunidades autnomas, en decenas de miles, est expresado en la siguiente tabla.:
N de licencias (X)
N de votantes (Y)

103
206

26
26

3
27

7
14

26
24

5
12

Determinar:
1) Media y varianza de las variables X e Y.
2) Coeficiente de correlacin, interpretando su valor.
3) En el caso de que exista correlacin: si en una determinada comunidad existen 50 decenas de millar de vo-

tantes, cuntas licencias de caza, en miles, se puede estimar que existen.


3. Las distancias medias de los 19 planetas al Sol son:
3

Mxy = 1+ 4 + 4 + 7 + 6+ 12 + 21+ 27 + 4 + 32 + 28+ 36+ 132 + 5+ 10 + 60+ 180+ 6+ 12 + 24 + 54 + 49 + 189 + 77


37

Estadstica

1.
Merc
0,39

2.
Ven.
0,72

3. Tie. 4. Ma. 5. Ast. 6. Jup. 7. Sat. 8. Ur.


1

1,52

2,65

5,2

9,54

19,19

9.
Nep.
30,07

10.
Plu
39,52

(Se ha tomado como unidad la distancia entre la Tierra y el Sol, a lo que se llama unidad astronmica
(u.a.). El quinto lugar est ocupado por los asteroides que, para estos efectos, son considerados como un planeta ms.)
Representa la nube de puntos correspondiente, traza la recta de regresin y calcula el coeficiente de
correlacin. Si hubiera un nuevo planeta ms all de Plutn, a qu distancia en u.a. estara del Sol?. Sera
fiable esta medida?
4. Observaciones realizadas con estudiantes de Matemticas, sobre el efecto del paso del tiempo en
los conocimientos adquiridos, arrojan los siguientes resultados:
1 da ..................... 90 % de permanencia de conocimientos.
2 das .................... 75 %

3 das .................... 42 %

4 das .................... 30 %

5 das .................... 21 %

Tomando los das transcurridos (X) y el tanto por ciento (Y) como variables de una distribucin dimensional, halla la recta de regresin de Y sobre X y estima, si existe una correlacin fuerte, el tanto por
ciento de conocimientos que permanecern a los ocho das. Organiza los clculos y explica el resultado.

-------------------------------------------------------

100
90
80
70
60
50
40
30
20
10
0
0

También podría gustarte