Está en la página 1de 13

TEMA 3: ESTADSTICA DESCRIPTIVA

BIVARIADA
La estadstica descriptiva bivariada aborda el estudio de los sucesos en los que
intervienen dos variables simultneamente.

1. DISTRIBUCIONES BIDIMENSIONALES
Cuando queremos describir conjuntamente dos variables estadsticas, el primer
paso ser (al igual que en el caso de la estadstica univariada), representar los
datos en una tabla de frecuencias. Ahora, a cada caso le corresponde no un valor
sino dos (uno para cada una de las variables). As, en el caso de que intentemos
relacionar el peso y la altura de las personas, a cada persona le asociamos un par
de valores (peso, altura).
Los pares de valores as formados constituyen la distribucin bidimensional. La
tabla de frecuencias consiste en una tabla de doble entrada en la que se recogen
tanto las frecuencias de cada una de las variables por separado como los pares de
puntuaciones que cada caso obtiene en ambas variables (frecuencia conjunta).
Las puntuaciones pueden aparecer sin agrupar o agrupadas en intervalos, no
teniendo por qu ser el nmero de intervalos de las dos variables iguales entre s,
as como la amplitud de los mismos.
Organizacin y representacin de los datos con ms de una variable
Los datos se organizan en tablas de contingencia
Para representar ,por ejemplo, dos variables cualitativas la variable Xi (con I
categoras) y la variable Yj (con J categoras) se construir una tabla de doble
entrada con I filas y J columnas. Dentro cada casilla de la tabla se encontrarn las
frecuencias conjuntas de las dos variables (n ij).
i =1
i =2
i =3
..
I
nj

j=1
n11
n21
n31
..
nI1
n1

j=2
n12
n22
n33
..
nI2
n2

..
..
..
..
..
..

J
n1J
n2J
n3J
..
nIJ
nJ

ni
n1
n2
n3
nI
N

Ejemplo
Gnero
Xi

Varn
Mujer
nj

Fumador
30
30
60

Tabaquismo Yj
No fumador
50
10
60

Exfumador
20
10
30

ni
100
50
150

Tenemos dos variables:


La variable Xi : Gnero con I=2 categoras
La variable Yj : Tabaqusmo con J=3 categoras
Dnde
N=150 sujetos ( 100 varones y 50 mujeres) ;
60 fumadores, 60 no fumadores y 30 exfumadores
con 50 varones no fumadores n12,
frente a 10 mujeres no fumadoras n22
Donde:
N es el total de sujetos de la muestra
Las casillas de la tabla contienen la distribucin de frecuencias conjuntas ( n ij)
Los laterales derecho e inferior de la tabla contienen la distribucin de frecuencias
marginales ( ni y nj).
Las distribuciones de frecuencias conjuntas tambin pueden expresarse en trminos
relativos
pij= nij/n
Gnero
Xi

Varn
Mujer
pj

Fumador
0,20
0,20
0,40

Tabaquismo Yj
No fumador
0,33
0,07
0,40

Exfumador
0,13
0,07
0,20

pi
0,66
0,34
1

Adems de las frecuencias absolutas y relativas tambin aparece el concepto de


distribucin condicionada.
Distribucin de tabaquismo dado que se es varn n j/i=1
Distribucin de gnero dado que se es fumador ni/j=1
Las frecuencias relativas tambin pueden estar condicionadas por ejemplo:
Gnero
Xi

Varn
Mujer

Tabaquismo Yj
Fumador
No fumador Exfumador
0,30=30/100 0,50=50/100 0,20=20/100
0,60=0,30/50 0,20=10/50 0,20=10/50

pi
1
1

De los varones un 30% fuma, un 50% no fuma y un 20% es exfumador


Gnero
Xi

Varn
Mujer
pj

Tabaquismo Yj
Fumador
No fumador
0,50=30/60 0,83=50/60
0,50=30/60 0,17=10/60
1
1

Exfumador
0,67=20/30
0,33=10/30
1

De los fumadores un 50% son hombres y un 50% son mujeres; de los no fumadores
el 83% son varones, y el 17% son mujeres; de los exfumadores el 67% son varones
y el 33% son mujeres.

2. REPRESENTACIN GRFICA
La representacin grfica conjunta de dos variables cualitativas puede verse en las
siguientes grficas.
Para dos variables cualitativas la representacin grfica podra ser un diagrama de
barras.

En el caso de de una variable cualitativa y otra cuantitativa


Se describe la variable cuantitativa condicionada a las categoras de la cualitativa.
Relacionamos la nota media de un grupo de alumnos en una asignatura con su
nivel de ansiedad ante los exmenes

Nivel de
ansiedad
Bajo
Medio
Alto

Nota media
8
7
4

En el caso de la representacin de dos variables cuantitativas las categoras de las


variables suelen ofrecerse agrupadas en intervalos.

Nivel de
ansiedad

1-5
6-10
nj

1-3
1
7
8

Calificacin Final
4-6
7-9
4
2
0
0
4
2

ni
7
7
14

Grficamente la representacin que se realiza con este tipo de datos es un


diagrama de dispersin

3. MEDIDAS DE RELACIN ENTRE VARIABLES


CUANTITATIVAS
3.1. Covarianza (Sxy)
Mide la relacin lineal entre dos variables y se expresa mediante la siguiente
frmula:

Propiedades:
Sxy es un valor que vara entre - y +
Si Sxy es positivo, entonces la correlacin es directa (a mayor valor de X, mayor
valor de Y) y, por tanto, la recta de regresin es ascendente.
Si Sxy es negativo, entonces la correlacin es inversa (a mayor valor de X, menor
valor de Y) y, por tanto, la recta de regresin es descendente.
Si Sxy es cero, entonces no hay correlacin entre X e Y.

3.2. Coeficiente de correlacin de Pearson (rxy)


La covarianza depende de los valores de las variables y por tanto de sus unidades.
Para tener una medida adimensional se utiliza el coeficiente de correlacin de
Pearson (r xy) que nos indica qu tipo de relacin existe entre dos variables, as
como la magnitud de dicha correlacin, siendo invariante frente a transformaciones
lineales (cambio de origen y escala) de las variables.
El coeficiente de correlacin de Pearson fue construido bajo el supuesto de que los
datos siguen una distribucin normal bivariada y la escala de medicin es al menos
de intervalo.

El Coeficiente de Correlacin de Pearson mide la relacin lineal entre dos variables


y se define como el cociente entre la covarianza y el producto de las desviaciones
tpicas de ambas variables. Toma la siguiente expresin para el clculo:

Propiedades:

Es un coeficiente adimensional. Es decir, que es independiente de las


unidades en que estn expresadas las variables. Por ello sirve de valor de
comparacin aunque la variables vengan expresadas en unidades diferentes.

-1 rxy 1

Si rxy =1 rxy = -1, la relacin es funcional. Una variable depende


matemticamente de la otra ( puede expresarse mediante una frmula en la
que intervenga la otra, por ejemplo la longitud de una circunferencia depende
del radio mediante la frmula L=2r).

Interpretacin:

Si rxy est prximo a 1 -1 la correlacin es fuerte (por encima de 0.8).


Si rxy est prximo a 0, la correlacin es dbil.
Si rxy >0 la correlacin es directa. Hay relacin lineal positiva.
Si rxy <0 la correlacin es inversa. Hay relacin lineal negativa.
Si Sxy = 0 y por tanto rxy = 0 la correlacin es nula. La relacin lineal es
nula.

Interpretacin grfica:
Si rxy = 1 los puntos (x,y) forman una lnea ascendente.
Si rxy = -1 los puntos (x,y) forman una lnea descendente.
Si rxy > 0 los puntos (x,y) forman una nube ascendente ms cercana a una
recta cuanto ms cercano sea este valor a 1.
Si rxy < 0 los puntos (x,y) forman una nube descendente ms cercana a una
recta cuanto ms cercano sea este valor a -1.
Si rxy = 0 la nube de puntos sigue una distribucin totalmente aleatoria
(circular).

4. MEDIDAS DE RELACIN ENTRE VARIABLES


ORDINALES
4.1. Coeficiente de correlacin de Spearman
Cuando los datos no se distribuyen segn una normal bivariada o bien estn
medidos con una escala ordinal, una de las posibles medidas de asociacin lineal es
el coeficiente de correlacin de Spearman (1904). Este coeficiente se define de
igual manera que el de Pearson, slo que en lugar de utilizar los valores de las
variables, utiliza los rangos asociados a estos valores.
En el caso de que una variable sea ordinal y la otra cuantitativa, se analizarn los
datos como si las dos fuesen ordinales.

donde di es la diferencia entre el rango del caso i en la variable X, y en la variable Y.


Propiedades:

- 1 rs +1
Si rs = +1, hay correlacin directa mxima.
Si rs = -1, hay correlacin inversa mxima.
Si rs = +1, la correlacin es nula.

5. MEDIDAS DE RELACIN ENTRE VARIABLES


NOMINALES
En muchos casos la relacin entre determinadas variables no pueden medirse con
una escala cuantitativa. Por ejemplo: la relacin entre el gnero y la ideologa
poltica.
Al no cuantificarse numricamente las variables no se puede hablar de una
correlacin directa o inversa.
Por ejemplo: decir que a mayor gnero, mayor ideologa poltica no tiene sentido.

Por lo tanto, cuando decimos que dos variables nominales X e Y estn relacionadas,
queremos decir que las proporciones de X (gnero: hombre, mujer) son diferentes
en cada categora de Y (ideologa poltica: izquierda, derecha). Si X e Y no estn
7

relacionadas, entonces las proporciones de X sern iguales en las distintas


categoras de Y.
A las frecuencias que esperaramos obtener si X e Y estuvieran relacionadas se les
denomina frecuencias observadas.
A las frecuencias que esperaramos obtener si X e Y no estuvieran relacionadas se
les denomina frecuencias esperadas.

5.1. Ji- Cuadrado (

Calcula la diferencia entre las frecuencias observadas y las frecuencias esperadas


si las variables fuesen independientes entre s. Para calcular ji-cuadrado se emplea
la siguiente frmula:

donde:

Oij es la frecuencia conjunta observada en la fila i y columna j de la tabla (son


las frecuencias que aparecen en los datos de nuestra investigacin).
Eij es la frecuencia conjunta esperada en la fila i y columna j de la tabla,
suponiendo independencia entre las variables.

Eij se calcula como sigue:


Eij = ( frecuencia marginal de la fila i) x (frecuencia marginal de la columna j) / n
Interpretacin:
Si ji-cuadrado vale cero, las variables son independientes.
Si ji-cuadrado es mayor que cero, las variables estn relacionadas entre s.

TEMA 4: REGRESIN LINEAL SIMPLE


1. INTRODUCCIN
Como comprobamos en el grfico anterior cuando representamos un grfico de
nube de puntos, podemos observar de manera intuitiva cierto grado de asociacin
o correlacin lineal entre las dos variables. Incluso se podra trazar una recta,
llamada recta de regresin, que se ajustase a la nube de puntos.
No obstante, tambin la apreciacin visual de la existencia de correlacin no es
suficiente. Vamos a proceder ahora a estudiar el procedimiento de seleccin de
esta recta y los parmetros de medida que debemos usar.
Una vez encontrada la funcin que representa esta dependencia de las variables,
podremos predecir los valores de una variable (variable dependiente o explicada) a
partir de los valores de las otras (variables independientes o explicativas). Adems,
podremos calcular la fiabilidad de esta prediccin.
Antes de continuar debemos advertir que la regresin puede o no representarse por
una recta. En el caso de que elijamos un recta para ajustarla a la nube de puntos,
estaremos hablando de regresin lineal. En otro caso, diremos que la regresin es
no lineal.
Asimismo, diremos que una regresin lineal es simple cuando solamente exista una
variable independiente. Cuando sean ms de una las variables independientes
diremos que la regresin lineal es mltiple .
Teora de la Regresin
A partir de la observacin de la nube de puntos se elige el tipo de funcin o curva
que mejor relaciona las dos variables. Se obtiene as la ecuacin de la recta o de la
curva que mejor se adapta al conjunto de puntos y que sirve para predecir el valor
de una de las variables.
Obtener la ecuacin de la recta que mejor se adapte al conjunto de puntos, de entre
las infinitas de dicho tipo que hay en el plano es lo que se conoce como el problema
del ajuste y se pueden emplear diferente mtodos matemticos para ello:
Mtodo de los mnimos cuadrados
Mtodo de los polinomios ortogonales
Mtodo de los momentos
Mtodo de la curva logstica

1.1. Estimacin de la ecuacin de regresin por el


mtodo de mnimos cuadrados
Con este mtodo se trata de seleccionar aquella recta que hace mnimo el resultado
de sumar el cuadrado de cada una de las distancias de los puntos de la nube a la
recta. Es el mtodo ms frecuente, aunque como hemos visto en el apartado
anterior no es el nico.
La ecuacin de la recta de regresin lineal simple responde a la frmula:

donde:

es la puntuacin pronosticada en la variable Y para el caso i-simo.


es la ordenada en el origen. Es el valor de Y cuando X = 0 (grficamente el
punto donde la recta cruza el eje de ordenadas).
es el Coeficiente de regresin o pendiente de la recta y representa su
inclinacin.
es la variable predictora. Conociendo la puntuacin en X del caso i-simo
podremos pronosticar la puntuacin en Y.
Yi es el criterio (puntuacin real obtenida en la variable Y por el caso i-simo de
nuestra investigacin.
En el mtodo de mnimos cuadrados, los valores de bo y b1 son los siguientes:

Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad de
sus predicciones:
10

2. MEDIDAS DE BONDAD DE AJUSTE:


CORRELACIN
2.1. Error de prediccin
Para cada valor xi de X, se obtiene una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor terico obtenido en
la funcin.

2.2. Varianza residual y error tpico de estimacin


Es la media de todos los residuos elevada al cuadrado

El error tpico de estimacin es la raz cuadrada de la varianza residual

Interpretacin de la varianza residual

Si la varianza residual es pequea (cerca de cero), la dependencia ser


grande, el ajuste entre la recta y la nube de puntos ser bueno.
Si la varianza residual es grande los residuos sern grandes y la
dependencia ser pequea, el ajuste entre la recta y la nube de puntos ser
malo.

Por esto se llama ajuste por mnimos cuadrados, porque se considera que se
aproxima lo ms posible cuando la suma de los cuadrados de las diferencias entre
cada valor yi de la variable y el valor y que predice la recta buscada sea lo menor
posible.

2.3. Varianza debida a la regresin


Nos sirve para ver en qu medida mejora la descripcin de una variable a travs de
la otra. Se demuestra que S2y = S2 y* + S2e
11

Es decir, la varianza total de la variable Y es la suma de dos varianzas:

la varianza de Y*, que representara la parte de la dispersin o variabilidad de


la variable Y explicada por la regresin, o sea, por la relacin lineal con la
variable X
la varianza de Y*, que representara la parte de la dispersin o variabilidad de
la variable Y explicada por la regresin, o sea, por la relacin lineal con la
variable X

As pues, cuando aumenta la varianza debida a la regresin, disminuye la varianza


residual y el ajuste es bueno y al contrario.

2.4. Coeficiente de determinacin


Un inconveniente de la varianza residual es que vienen afectada por las unidades
de medida como ocurra con la covarianza y esto imposibilita la comparacin de la
dependencia entre grupos de variable.
l

Dividiendo la varianza debida a la regresin entre la varianza total de Y se obtiene


una medida relativa de la bondad de ajuste que se encuentra entre cero y uno,
denominado COEFICIENTE DE DETERMINACIN, R2:

Interpretacin
El coeficiente de determinacin multiplicado por cien representa el porcentaje
de la variabilidad de Y explicada por la recta de regresin, es decir por su
relacin con la variable X.

0 R2 1
Si R2 = 1 todos los residuos valen cero y el ajuste es perfecto
Si R2 = 0 el ajuste es inadecuado.

El coeficiente de determinacin de la recta de regresin de Y sobre X es el


mismo que el de la recta de regresin de X sobre Y.
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin
lineal: R2 = r2xy

El objetivo ltimo de la regresin es la prediccin de una variable a partir de un valor


determinado de la otra. La prediccin de Y para X = xi ser el valor obtenido en la
recta de regresin de Y sobre X al sustituir el valor de x por x i.
12

La fiabilidad de la prediccin ser mayor cuanto mayor sea la correlacin entre las
variables, R2 o rxy.

13

También podría gustarte