Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bi Dimensional Estadística
Bi Dimensional Estadística
DISTRIBUCIONES BIDIMENSIONALES
A
x1
y1
B
x2
y2
C
x3
y3
.......
........
..........
1,70
1,70
1,69
1,68
........
67
75
70
66
.......
Ejemplo 2. Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo del tabaco, que
ha arrojado los siguientes resultados:
Hbito
Sexo
Fumadores
Varones
Mujeres
Totales de columnas
No fumadores
49
43
92
64
37
101
Totales de filas
113
80
Total general 193
Nota. En este tema nos limitaremos al estudio de caracteres cuantitativos discretos, puesto que si el carcter
es continuo o discreto agrupado en intervalos, se trabajar con las marcas de clase.
2. Distribuciones de frecuencias.
Se disponen las frecuencias en una tabla de doble entrada donde las xi y la yj estn ordenadas en forma creciente. Recibe el nombre de tabla de frecuencias o tabla de correlacin.
Si hay pares que se repiten se agrupan siendo nij la frecuencia absoluta del par (xi, yj).
Las sumas:
nij = ni , frecuencia absoluta de xi.
j
Estadstica
x1
x2
.......
xk
Y
y1
n11
n21
.....
nk1
y2
n12
n22
......
nk2
......
.....
....
....
Frec. absolutas
marginales de Y
n1
n2
...
....
.
yr
Frec. absolutas
marginales de
X
n1r
n2r
n1
n2
...
nkr
..
nr
nij = N
i j
nk
En la prctica algunas de las nij pueden ser cero. En tal caso la casilla correspondiente se dejar en blanco.
Ejemplo 3. Dada la distribucin bidimensional:
X
Y
1
3
2
5
1
2
2
3
3
5
2
4
2
3
2
5
3
5
1
3
X
Y
2
3
4
5
Frec. absolutas
marginales de
X
1
1
2
2
1
2
5
2
2
Frec. absolutas
marginales de y
1
4
1
4
N=10
Al estudiar una variable bidimensional se obtienen varias distribuciones unidimensionales, segn se consideren las filas o las columnas de la tabla en estudio.
Las distribuciones unidimensionales del total de los individuos de la poblacin, respecto a
cada una de las caractersticas reciben el nombre de distribuciones marginales.
Distribucin marginal de la Y:
Y
y1
y2
.
.
yr
Estadstica
Ejemplo 4.
Obtener la distribucin marginal de la variable X.
Frec. absolutas
X
marginal de X
1
3
2
5
3
2
Frec. absolutas
condicionadas por
yj
n1j
n2j
.
.
nkj
Y
2
3
4
5
Frec. absolutas
condicionadas por
x2
0
2
1
2
3. Representaciones grficas.
Consideremos la distribucin:
x1
x2
.....
y1
y2 .......
xN
yN
( xi , yj )
Estadstica
Cuando el nmero de datos es grande (se usa una tabla de doble entrada) los datos se representan con un diagrama de dispersin reticulado de tal manera que la visin de la nube de puntos
indique realmente cmo es la distribucin.
En estos casos tambin se suele usar un diagrama de barras sobre un sistema cartesiano de
tres dimensiones (estereogramas).
Ejemplo 6.
Hacer el diagrama de dispersin de la distribucin del ejemplo 3.
. . . .
.
. . . .
.
1
2
3
y= yjnj
N
Llamadas medias marginales.
Nota. En una distribucin bidimensional al punto (x, y ) se le llama centro de gravedad de la
distribucin.
b) Varianzas
Se define:
2
2
2
S2x= (xi - x) ni = xi ni - (x)
Varianza marginal de la variable X
N
N
(Es decir la media del cuadrado menos el cuadrado de la media)
Anlogamente la varianza marginal de la variable Y. De ellas (extrayendo la raz cuadrada )
se obtienen las correspondientes desviaciones tpicas.
Ejemplo 7. Calcula las medias marginales y las Varianzas de la v.e.del ejemplo 3.
Solucin x = 19/10=1,9 ; y =38/10= 3,8 ; Sx2= 4,1-(1,9)2= 0,49 ; Sy2= 15,6 - 14,44=1.16.
c) Covarianza
Para las variables estadsticas bidimensionales se define la covarianza como la media
aritmtica de los productos de las desviaciones respecto de la media de cada una de las variables
componentes. Es decir :
Sxy = (xi-x)(yj-y)nij
N
Estadstica
Se demuestra que
10
4. Regresin lineal.
Al considerar los dos caracteres de una variable bidimensional puede ocurrir.
Que exista una dependencia funcional entre ellos, de tal manera que a cada valor le corresponda un nico valor del otro. Ejemplo: la temperatura a la que calentamos una barra de hierro
y la longitud alcanzada.
Que haya una dependencia estadstica o correlativa, de tal manera que los valores sigan
unas pautas similares. Por ejemplo el nmero de horas de estudio y las notas obtenidas.
Que se de una independencia entre los caracteres. Por ejemplo la estatura y las calificaciones en Matemticas.
El estudio de la relacin entre dos caracteres de una variable estadstica bidimensional es el
objeto de la regresin lineal.
La nube de puntos de una distribucin bidimensional nos da una primera idea de la relacin
existente entre los datos de la misma.
Cuando la nube de puntos del diagrama de dispersin permita deducir algn tipo de dependencia entre las dos variables X, Y, concentrndose los puntos alrededor de una cierta lnea (lnea
de regresin) se plantean dos cuestiones:
A) Definir la lnea.
B) Medir el nivel de aproximacin de dicha lnea.
S la lnea es una recta, el problema es un caso tpico de regresin lineal.
A) Rectas de regresin.
Se llama recta de regresin a aquella que mejor se ajusta a la nube de puntos.
El procedimiento ms usado, para hallar dicha recta, es el de los mnimos cuadrados.
Se calcula la recta:
y = ax + b,
de tal manera que:
S= [yi - (a xi + b )]2
sea mnima
. .
.. . .
. . .
. .
Estadstica
El clculo de a y b incluye conocimientos que no se dan en este nivel1 por lo que slo daremos el
resultado:
Se verifica:
b= y - Sxy x
Sx2
a= Sxy
Sx2
Ejemplo 10. Hallar las rectas de regresin para la distribucin del ejemplo 3.
Solucin : recta de regresin de Y sobre X
y - 3,8 = 1,18 (x- 1,9)
recta de regresin de X sobre Y x - 1,9 = 0,5 ( y - 3,8 ).
Nota. Daremos sin demostracin algunas propiedades del coeficiente de regresin que facilitan los clculos de estos, pues permiten hacer un cambio de variable.
Propiedades del coeficiente de regresin:
1) Si se suma o resta una constante a todos los valores de X o de Y el coeficiente de regre-
430000
450000
475000
500000
1000
Se obtiene :
0
1
La derivacin parcial.
-20
Estadstica
1
2
3
0
25
50
Para la variable X ,Y es ms fcil el clculo del coeficiente de regresin y la relacin entre ste y el
de XY es:
myx = 3mxy
1000
B) Correlacin lineal.
Se entiende por correlacin la dependencia que existe entre las variables de una distribucin., cuando sta es, en cierta forma, lineal se habla de correlacin lineal. Cuando no existe tal
dependencia se dice que las variables estn incorreladas.
Para medir, de una forma cuantitativa, dicha dependencia se utiliza el llamado coeficiente
de correlacin lineal, o de Pearson, que se define as:
Sxy
= myx. mxy
Sx . Sy
El signo es + si la covarianza es positiva y - si es negativa..
r=
Propiedades de r
a) -1 r 1
b) Si r es positivo la correlacin es directa, es decir, al aumentar una variable tambin aumenta la otra (coeficiente de regresin positivo). En este caso las pendientes de las rectas de regresin son positivas.
. .
.. . .
. . .
. .
. .
d) Si r = 0 las rectas de regresin son perpendiculares entre s y paralelas a los ejes. Las variables son incorreladas.
Estadstica
Para los dems valores de r la dependencia es tanto ms fuerte cuanto ms prximo est a 1
o a -1. Ser ms dbil cuando se aproxime a 0:
Para la correlacin directa:
Si 0,75 r 1 correlacin muy alta.
Si
Si
r < 0,40
Ejemplo 12. Hallar el coeficiente de correlacin lineal para la distribucin del ejemplo 3.
Solucin : r =+ (118
, ).(0,5) = 0,76. Se trata de una correlacin directa alta.
Problemas resueltos
1. Una asociacin dedicada a la proteccin de la infancia decide estudiar la relacin entre la mortalidad infantil en cada pas y el nmero de camas de hospitales por cada mil habitantes.. Datos
50
100
70
60
120
180
200
250
30
90
x
5
2
2,5
3,75
4
1
1,25 0,75
7
3
y
Donde x es el n de camas por mil habitantes e y el tanto por ciento de mortalidad.
Se pide calcular las rectas de regresin y el coeficiente de correlacin lineal.
Si se dispusiese de 175 camas por mil habitantes que tanto por ciento de mortalidad cabria esperar?. La estimacin es fiable? Razona la respuesta.
Solucin :
Para facilitar los clculos de los parmetros se utiliza la siguiente tabla:
yi
xi2
xi
50
5
2500
100
2
10000
70
2,5
4900
60
3,75
3600
120
4
14400
180
1
32400
200 1,25 40000
250 0,75 62500
30
7
900
90
3
8100
1150 30,25 179300
yi2
x i yi
25
250
4
200
6,25
170
14,0625
225
16
480
1
180
1,5625
250
0,5625
187,5
49
210
9
270
126,4375 2422,5
105,625
= - 0,8235
(68,59)(1,87)
Estadstica
X
Y
2
5
1
2
2
3
3
5
2
4
2
3
2
5
3
5
1
3
Encuentra el valor del coeficiente de correlacin lineal usando una tabla de correlacin.
Solucin
Se usa la siguiente tabla de doble entrada que facilita los clculos:
X
1
nj
njyj
njyj2
nijxiyj
2
2
6
18
30
1
4
1
4
10
=19
=41
=78
2
12
4
20
=38
4
36
16
100
=15
2
18
8
50
=78
Y
2
3
4
5
1
2
ni
nixi
nixi2
nijxiyj
3
3
3
7
2
1
2
5
10
20
40
De aqu se tiene:
x = 19/10= 1,9; y = 38/10= 3,8; Sx2= 4,1 - (1,9)2= 0,49, Sx =0,7 ; Sy2=15,6 - (3,8)2= 1,16,
Sy = 1,077; Sxy = 7,8 - (1,9)(3,8)= 0,58.
Luego
r=
0,58
= 0,769
(0,7)(1,077)
32. En la tabla siguiente se dan los valores y algunas frecuencias absolutas de un par de variables tratadas conjuntamente. Los valores de la primera fila corresponden a la variable Y, y los de la primera columna a la variable X. La
ltima columna es la marginal de X y la ltima fila es la marginal de Y.
1
6
7
11
10
a) Completar la tabla.
b) Calcular el coeficiente de correlacin y las rectas de regresin.
c) Sirven las rectas de regresin para hacer predicciones de una variable en funcin de la otra? Por qu?
Solucin
Estadstica
b) x =
Mxy 3 =
11
11
10
37
15
. + 3.4 + 4.8 + 511
. + 6.4 + 7.5
1.4 + 2.5 + 4.8 + 7.6 + 9.10 + 11.4
= 4,405 ; y =
=6
37
37
xi y j nij
ij
N
15
. + 32 .4 + 4 2 .8 + 52 .11 + 6 2 .4 + 7 2 .5
(4,405) 2 = 3,11; Sx=1,764
Sx2 =
37
Sy2 = 47,027 - 36 = 11,027; Sy = 3,321
El coeficiente de correlacin lineal r =
1,948
= 0,3325 <0,40, correlacin baja.
(1,764)(3,321)
Problemas propuestos
1. Las tallas y los pesos de 10 personas vienen recogidos en la siguiente tabla:
talla (cm)
pesos (kg)
160 165 170 180 185 190 192 175 182 172
58 61 65 73 80 85 83 68 74 67
103
206
26
26
3
27
7
14
26
24
5
12
Determinar:
1) Media y varianza de las variables X e Y.
2) Coeficiente de correlacin, interpretando su valor.
3) En el caso de que exista correlacin: si en una determinada comunidad existen 50 decenas de millar de vo-
Estadstica
1.
Merc
0,39
2.
Ven.
0,72
1,52
2,65
5,2
9,54
19,19
9.
Nep.
30,07
10.
Plu
39,52
(Se ha tomado como unidad la distancia entre la Tierra y el Sol, a lo que se llama unidad astronmica
(u.a.). El quinto lugar est ocupado por los asteroides que, para estos efectos, son considerados como un planeta ms.)
Representa la nube de puntos correspondiente, traza la recta de regresin y calcula el coeficiente de
correlacin. Si hubiera un nuevo planeta ms all de Plutn, a qu distancia en u.a. estara del Sol?. Sera
fiable esta medida?
4. Observaciones realizadas con estudiantes de Matemticas, sobre el efecto del paso del tiempo en
los conocimientos adquiridos, arrojan los siguientes resultados:
1 da ..................... 90 % de permanencia de conocimientos.
2 das .................... 75 %
3 das .................... 42 %
4 das .................... 30 %
5 das .................... 21 %
Tomando los das transcurridos (X) y el tanto por ciento (Y) como variables de una distribucin dimensional, halla la recta de regresin de Y sobre X y estima, si existe una correlacin fuerte, el tanto por
ciento de conocimientos que permanecern a los ocho das. Organiza los clculos y explica el resultado.
-------------------------------------------------------
100
90
80
70
60
50
40
30
20
10
0
0