Estadistica Tema 3

TEMA 3: ANÁLISIS ESTADÍSTICO EN
DISTRIBUCIONES BIDIMENSIONALES
1.- DISTRIBUCIÓN DE FRECUENCIAS. TABLAS DE CORRELACIÓN Y CONTINGENCIA
2.- DISTRIBUCIONES MARGINALES
3.- DISTRIBUCIONES CONDICIONADAS
4.- DEPENDENCIA E INDPENDENCIA ESTADÍSTICA
5.- REPRESENTACION GRÁFICA
6.- MOMENTOS BIDIMENSIONALES
7.- REGRESIÓN LINEAL. COEFICIENTE DE CORRELACION LINEAL Y COEFICIENTE

DE DETERMINACION
TEMA 3: ANÁLISIS ESTADÍSTICO EN
DISTRIBUCIONES BIDIMENSIONALES
1.- DISTRIBUCION DE FRECUENCIAS. TABLAS DE CORRELACION Y

CONTINGENCIA
Una variable estadística bidimensional estudia conjuntamente dos características

de una población (X,Y), proporcionando parejas de observaciones (x i,yj). Estas
características pueden ser tanto cuantitativas como cualitativas. Centraremos nuestro
estudio en las de tipo cuantitativo. Es muy importante en el estudio de estas variables
buscar las posibles relaciones existentes entre ellas.
En el estudio de estas, surgen nuevos conceptos: frecuencia conjunta tanto

absoluta (nij) como relativa (fij), distribuciones marginales y distribuciones condicionadas.
La forma de disponer los valores en este tipo de variables es, o bien en una tabla
con los valores de todas las observaciones y su respectiva frecuencia (tabla de datos
apareados):
xiyj nij
X1y1 n11
…… ……
x1yk n1k
….. ……
xhyk nhk
O bien, en una tabla de doble entrada que se denomina tabla de correlación,

cuando las variables son cuantitativas, o tabla de contingencia cuando las variables son
cualitativas.
X/ Y y1 y2 ... yj ... yk n i.
x1 n11 n12 ... n 1j ... n 1k n 1.
x2 n21 n22 ... n 2j ... n 2k n 2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... n ij ... n ik n i.
... ... ... ... ... ... ... ...
xh nh1 nh2 ... nhj ... n hk nh.
n .j n .1 n .2 ... n .j ... n .k N
…………………………………………………………………..….Cristóbal Rojas Montoya 2

La frecuencia absoluta conjunta (nij) representa el número de veces que se
presentan simultáneamente el valor i de la variable X y el j de la variable Y. (i=1,2,…,h y
j=1, 2,….,k)
Si sumamos todas las frecuencias conjuntas, el resultado sería N, o sea, el número

total de observaciones: 
i
nij  N
j
nij
La frecuencia relativa conjunta es: f ij 
N
y  fi j
ij 1
Si la variable se expresa con intervalos, se utiliza la marca de clase.
El estudio conjunto de tres o más variables da lugar a distribuciones

tridimensionales,.. y en general las distribuciones n-dimensionales (x1,x2,…,xn) se
presentan con una matriz de observaciones donde cada xij es el valor de la variable Xi en
la observación j.
X1 X2 ... Xn
1º observación x11 x21 ... x n1
2º observación x12 x22 ... x n2
... .... ... ... ...
Kº observación x1k x2k x nk
2.- DISTRIBUCION MARGINAL
Una distribución marginal es una distribución unidimensional que expresa los

valores de una variable acompañados de sus respectivas frecuencias independientes de
los valores que tome la otra variable. De una variable bidimensional, surgen dos
distribuciones marginales, la de X y la de Y.
La distribución marginal de X esta formada por la primera y última columna de la

tabla de correlación (xi ,ni.):
X n i.
x1 n 1.
x2 n 2. k
... ... Donde ni.  ni1  ni 2  ....  nik =  nij
xi n i. j 1
... ...
xh nh.
N

La de Y por la primera y última fila (yj,n.j) :
Y n. i
y1 n. 1
y2 n .2
h
... ... Donde n. j  nij  n2 j  ....  nhj   nij
yi n.j i 1
... ...
yk n.k.
N
Las ni. y las n.j, se denotan frecuencias absolutas marginales, siendo fi. y f.j las
frecuencias relativas marginales respectivamente.
Son por tanto distribuciones unidimensionales donde solamente se tiene en cuenta

una variable, sin considerar los valores que toma la otra. Por tanto puede calcularse en
estas distribuciones marginales todas las medidas estadísticas concernientes a una
variable: media, varianza, coeficiente de variación….
De una distribución conjunta se pueden obtener siempre las distribuciones

marginales, pero no al contrario.
Se cumple que:  n
i j
ij   ni   n j  n  N
i j
Si la distribución fuera n-dimensional, se obtendrían n distribuciones marginales.
3.- DISTRIBUCION CONDICIONADA
Una distribución condicionada es también una distribución unidimensional que

expresa los valores de una variable acompañada de sus respectivas frecuencias,
condicionadas a que la otra variable tome un determinado valor. Se expresa:
x ó x y
y ó y , aunque la condición no tiene porque ser un
y  yj yj x  xi xi
único valor de la variable. Por ejemplo podemos calcular la distribución
x xi
ó
y  yj y1  y 2
Concretamente la distribución x estaría formada por las dos columnas de

y  y2
borde rojo e
y estaría formada por las dos filas de borde azul:
x  xh

X/ Y y1 y2 ... yj ... yh n i.
x1 n11 n12 ... n 1j ... n 1k n 1.
x2 n21 n22 ... n 2j ... n 2k n 2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... n ij ... n ik n i.
... ... ... ... ... ... ... ...
xh nh1 nh2 ... nhj ... n hk nh.
n .j n .1 n .2 ... n .j ... n .k N
nij nij
La frecuencia relativa condicionada es fi  y fj  Hay que tener en
j n j i ni.
cuenta que, cuando usamos las frecuencias relativas, la suma ha de ser 1.
En estas distribuciones, al ser unidimensionales, pueden calcularse todas las

medidas propias de variables unidimensionales
4.- DEPENDENCIA E INDEPENDENCIA ESTADITICA
Dependencia funcional...........Dependencia estadistica............Independencia
Dos variables estadísticas son independientes si se cumple:
nij n i  n j
  i, j o f ij  f i. f . j i, j
N N N
Cuando existe independencia entre 2 variables:

ni. n. j
nij N  ni   f
f i       
bajo indpendencia
i
j n j n. j N
ni. n. j
nij N  n. j  f
fj       
bajo indpendencia
.j
i ni . ni . N
La frecuencia relativa condicionada es igual a la frecuencia relativa marginal, o
sea, sin existencia de condicionante alguno. Una forma sencilla de ver si dos variables son
independientes es comprobar que las filas y columnas de la tabla de frecuencias son
proporcionales. La independencia siempre es mutua, es decir, X e Y son independientes
entre si.
La DEPENDENCIA FUNCIONAL X=f(Y) aparece cuando cada modalidad o valor de Y

sólo está relacionado con una modalidad o valor de X.

Vamos a verlo con un ejemplo de tabla:
X \ Y 1 2 3
A 0 20 10 30
B 40 0 0 40
40 20 10 70
Como se ve, si un individuo tiene Y=2, la X es A, pero si un individuo es X=A, no

sabemos si la Y vale 2 ó 3, luego la 'X' depende de 'Y' pero la 'Y' no depende de 'X'
5.- REPRESENTACION GRAFICA
Cuando los datos son no agrupados, la más usual, es la nube de puntos o diagrama
de dispersión, que consiste en representar los valores de x en abscisas y los de y en
ordenadas. Cada punto es un par (xi,yj). Si la frecuencia fuera distinta de la unitaria, se
haría constar en el gráfico:
Aunque en ese caso es más normal representarlo en un eje tridimensional, donde

en el plano XY, se presentan los valores conjuntos de la variable, que sirven de base para
representar barras cuya altura sea igual o proporcional a la frecuencia conjunta:

Mediante la representación gráfica podemos saber si las variaciones son
dependientes o independientes.
Para valores agrupados la representación es similar al histograma, pero en tres

dimensiones, por lo que la frecuencia pasa de ser el área de un rectángulo a ser el
volumen de un prisma (V). Se cumple que V=nij=cicjhij.
6.- MOMENTOS BIDIMENSIONALES

Tenemos dos clases de momentos:
Momentos ordinarios con respecto al origen (ars):
nij
a rs    x ir y sj
i j N
De todos los momentos ordinarios los más utilizados son:
nij nij n i
a10    x i y 0j   xi    xi x
i j N i j N i N
a 01  y a 20 
x 2
i n i
a 02 
y 2
j j n
a11    x i y j
nij
N N i j N
Momentos centrales con respecto a la media (mrs): Son de la forma:
  y 
nij
mrs    x i  x
r s
j y
i j N
Los más usados son:
m10  0 m01  0 m20   xi  x  

2 ni 
N
 S x2 m02   y j  y  
2 n j
N
 S y2
m11   xi  x y j  y    nN ij
 S xy
i j
El momento m11 se denomina covarianza.

Los momentos centrales se pueden expresar en función de los momentos ordinarios.

7.- REGRESIÓN LINEAL. COEFICIENTE DE CORRELACION LINEAL Y
COEFICIENTE DE DETERMINACION
Cuando representamos una nube de puntos podemos obtener una de estas

posibilidades
(a) Relación matemática exacta
(b) Ninguna relación
(c) y (d) Hay una relación matemática aproximada
La idea de la regresión es encontrar una función matemática que se 'ajuste' lo

mejor posible a la nube de puntos, de forma que podamos aproximar una de las variables
conociendo el valor de la otra.
El ajuste de una recta es el más utilizado. Queremos minimizar la distancia de los

puntos a la recta. Bajo este criterio se calculan unos valores que permiten conocer la recta
de regresión de Y sobre X óptima:
Sin entrar en desarrollos matemáticos, los valores bo y b1 se calculan de la

siguiente manera y se denominan coeficientes de regresión:
De forma similar se podría calcular la recta de regresión de X sobre Y.
Covarianza: Es el momento central bidimensional m11, denominado Sxy:
 
S xy  m11   xi  x y j  y  nN
ij
i j
Es una medida de dispersión conjunta, que estudia la co-variación entre de ambas

variables.
La covarianza de una variable y ella misma es la varianza. Puede tener cualquier

valor: positivo, negativo y 0.

Cuando es igual a 0 indica que no existe relación o dependencia lineal entre las
variables, aunque podría existir otro tipo de relación. Cuando es positiva o negativa indica
que existe una relación lineal directa o inversa respectivamente entre las variables pero al
poder tomar cualquier valor no nos dice si el grado de dependencia es fuerte o débil.
Se puede expresar en función de los momentos ordinarios. Así
n
  N   x y
ij

nij nij nij nij
S xy  m11    x i  x y j  y  x  y j  y  xi  xy 
i j
i j
i j i j N i j N i j N N
 a11  xy  yx  xy  a11  xy  a11  a10 a 01
En caso de independencia su valor es 0:
nij ni n j n n j
a11   xi y j   xi y j
 indep
   xi i  y j  a10a01  m11  0
i j N i j N N i N j N
Pero el que su covarianza sea 0, no implica que las variables sean

independientes, solamente que no tienen dependencia lineal, pero pueden
tenerla de otra forma.
En cuanto a las transformaciones en las variables, es fácil deducir que los cambios
de origen –al igual que en la varianza- no la afectan, pero sí los de escala. Por lo cual ante
una transformación lineal en las variables, la covarianza queda afectada de la siguiente
forma:
x  a1  b1 x y  a2  b2 y

S x  y    xi  x y j  y   nN  b b  x  xy
ij
1 2 i j  y  nN  b b S
ij
1 2 xy
i j i j
En resumen, las propiedades de la covarianza son:
Puede tomar cualquier valor

S xy  S yx
S xx  S x2
Cov (b1 X , b2Y )  b1b 2 Cov ( X ,Y )
Cov ( a1  X , Y )  Cov ( X , Y )
Cov ( a1  b1 X , a2  b2Y )  b1b 2 Cov ( X , Y )
Se calcula : S xy 
x y ni j ij
 xy
N
La covarianza tiene como inconvenientes que depende de las unidades de medida,
y que puede tomar cualquier valor (no esta acotada).
Coeficiente de correlación lineal de Pearson (rxy):
Permite cuantificar qué grado de relación existe entre las variables X e Y.
S xy
rxy 
SxS y
Este coeficiente salva los inconvenientes de la covarianza, ya que se caracteriza

por:
 Es adimensional
 Tiene el mismo signo que la covarianza porque el denominador siempre es

positivo.
 No se ve afectado por las transformaciones de las variables:
x  a1  b1 x y  a2  b2 y
S x y b1 b2 S xy S xy
rx  y      rxy
S x S y b1 S x b2 S y Sx S y
 Está comprendido entre -1 y 1 porque Sxy SxSy. Cuanto más se acerca a 1 o

-1, mayor es el grado de dependencia lineal directa o inversa respectivamente,
siendo perfecta si es exactamente 1 ó -1. Si es próximo a 0 hay ausencia de
relación lineal o están incorreladas. Si las variables son independientes también
estarán incorreladas, pero si están incorreladas no siempre son
independientes.
r>0 r<0 r=0 indep. r=0 pero hay dependencia.
La representación gráfica mediante un diagrama de dispersión es una

buena herramienta para visualizar el tipo de relación existente entre las variables
En el caso de que alguna variable tenga algún valor muy dispar (outlier),
podría desvirtuar el valor de r, y puede ser más conveniente eliminarlo.

Se estudia correlación entre variables, cuando existe una relación de
causalidad entre ellas. A las posibles correlaciones que pueden existir entre
variables que no tienen relación de causalidad se las llama espúreas.
El cuadrado del coeficiente de correlación lineal se denomina coeficiente de

determinación.
R2 varía entre 0 y 1 y nos indica la proporción de la variabilidad de Y que queda

explicada por su relación lineal con X.

Estadistica Tema 3

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Tema 3

Cargado por

Copyright:

Formatos disponibles

TEMA 3: ANÁLISIS ESTADÍSTICO EN

1.- DISTRIBUCIÓN DE FRECUENCIAS. TABLAS DE CORRELACIÓN Y CONTINGENCIA

2.- DISTRIBUCIONES MARGINALES

3.- DISTRIBUCIONES CONDICIONADAS

4.- DEPENDENCIA E INDPENDENCIA ESTADÍSTICA

5.- REPRESENTACION GRÁFICA

6.- MOMENTOS BIDIMENSIONALES

7.- REGRESIÓN LINEAL. COEFICIENTE DE CORRELACION LINEAL Y COEFICIENTE

1.- DISTRIBUCION DE FRECUENCIAS. TABLAS DE CORRELACION Y

Una variable estadística bidimensional estudia conjuntamente dos características

En el estudio de estas, surgen nuevos conceptos: frecuencia conjunta tanto

O bien, en una tabla de doble entrada que se denomina tabla de correlación,

…………………………………………………………………..….Cristóbal Rojas Montoya 2

Si sumamos todas las frecuencias conjuntas, el resultado sería N, o sea, el número

Si la variable se expresa con intervalos, se utiliza la marca de clase.

El estudio conjunto de tres o más variables da lugar a distribuciones

2.- DISTRIBUCION MARGINAL

Una distribución marginal es una distribución unidimensional que expresa los

La distribución marginal de X esta formada por la primera y última columna de la

…………………………………………………………………..….Cristóbal Rojas Montoya 3

Son por tanto distribuciones unidimensionales donde solamente se tiene en cuenta

De una distribución conjunta se pueden obtener siempre las distribuciones

Si la distribución fuera n-dimensional, se obtendrían n distribuciones marginales.

3.- DISTRIBUCION CONDICIONADA

Una distribución condicionada es también una distribución unidimensional que

Concretamente la distribución x estaría formada por las dos columnas de

…………………………………………………………………..….Cristóbal Rojas Montoya 4

En estas distribuciones, al ser unidimensionales, pueden calcularse todas las

4.- DEPENDENCIA E INDEPENDENCIA ESTADITICA

Dependencia funcional...........Dependencia estadistica............Independencia

Dos variables estadísticas son independientes si se cumple:

Cuando existe independencia entre 2 variables:

La DEPENDENCIA FUNCIONAL X=f(Y) aparece cuando cada modalidad o valor de Y

…………………………………………………………………..….Cristóbal Rojas Montoya 5

Como se ve, si un individuo tiene Y=2, la X es A, pero si un individuo es X=A, no

5.- REPRESENTACION GRAFICA

Aunque en ese caso es más normal representarlo en un eje tridimensional, donde

…………………………………………………………………..….Cristóbal Rojas Montoya 6

Para valores agrupados la representación es similar al histograma, pero en tres

6.- MOMENTOS BIDIMENSIONALES

m10  0 m01  0 m20   xi  x  

El momento m11 se denomina covarianza.

…………………………………………………………………..….Cristóbal Rojas Montoya 7

Cuando representamos una nube de puntos podemos obtener una de estas

(a) Relación matemática exacta

(b) Ninguna relación

(c) y (d) Hay una relación matemática aproximada

La idea de la regresión es encontrar una función matemática que se 'ajuste' lo

El ajuste de una recta es el más utilizado. Queremos minimizar la distancia de los

Sin entrar en desarrollos matemáticos, los valores bo y b1 se calculan de la

De forma similar se podría calcular la recta de regresión de X sobre Y.

Covarianza: Es el momento central bidimensional m11, denominado Sxy:

Es una medida de dispersión conjunta, que estudia la co-variación entre de ambas

La covarianza de una variable y ella misma es la varianza. Puede tener cualquier

…………………………………………………………………..….Cristóbal Rojas Montoya 8

Se puede expresar en función de los momentos ordinarios. Así

En caso de independencia su valor es 0:

Pero el que su covarianza sea 0, no implica que las variables sean

En resumen, las propiedades de la covarianza son:

Puede tomar cualquier valor

Coeficiente de correlación lineal de Pearson (rxy):

Permite cuantificar qué grado de relación existe entre las variables X e Y.