Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Descriptiva Tema3 4 0
Apuntes Descriptiva Tema3 4 0
BIVARIADA
La estadística descriptiva bivariada aborda el estudio de los sucesos en los que
intervienen dos variables simultáneamente.
1. DISTRIBUCIONES BIDIMENSIONALES
Cuando queremos describir conjuntamente dos variables estadísticas, el primer
paso será (al igual que en el caso de la estadística univariada), representar los
datos en una tabla de frecuencias. Ahora, a cada caso le corresponde no un valor
sino dos (uno para cada una de las variables). Así, en el caso de que intentemos
relacionar el peso y la altura de las personas, a cada persona le asociamos un par
de valores (peso, altura).
1
Ejemplo
Tabaquismo Yj
Género Fumador No fumador Exfumador ni
Xi Varón 30 50 20 100
Mujer 30 10 10 50
nj 60 60 30 150
Dónde
N=150 sujetos ( 100 varones y 50 mujeres) ;
60 fumadores, 60 no fumadores y 30 exfumadores
con 50 varones no fumadores n12,
frente a 10 mujeres no fumadoras n22
Donde:
N es el total de sujetos de la muestra
Las casillas de la tabla contienen la distribución de frecuencias conjuntas ( n ij)
Los laterales derecho e inferior de la tabla contienen la distribución de frecuencias
marginales ( ni y nj).
Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,20 0,33 0,13 0,66
Mujer 0,20 0,07 0,07 0,34
pj 0,40 0,40 0,20 1
Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,30=30/100 0,50=50/100 0,20=20/100 1
Mujer 0,60=0,30/50 0,20=10/50 0,20=10/50 1
2
De los varones un 30% fuma, un 50% no fuma y un 20% es exfumador
Tabaquismo Yj
Género Fumador No fumador Exfumador
Xi Varón 0,50=30/60 0,83=50/60 0,67=20/30
Mujer 0,50=30/60 0,17=10/60 0,33=10/30
pj 1 1 1
De los fumadores un 50% son hombres y un 50% son mujeres; de los no fumadores
el 83% son varones, y el 17% son mujeres; de los exfumadores el 67% son varones
y el 33% son mujeres.
2. REPRESENTACIÓN GRÁFICA
60 60
50 50
40 40
Fumador
Varón
30 No fumador 30
Mujer
Exfumador
20 20
10 10
0 0
Varón Mujer Fumador No fumador Exfumador
3
Relación Nota media-Nivel de Ansiedad
9
8 Nivel de Nota media
7
6 ansiedad
5
4 Bajo 8
Medio 7
3
2
1
0 Alto 4
Bajo Medio Alto
Calificación Final
1-3 4-6 7-9 ni
Nivel de 1-5 1 4 2 7
ansiedad 6-10 7 0 0 7
nj 8 4 2 14
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
4
3. MEDIDAS DE RELACIÓN ENTRE VARIABLES
CUANTITATIVAS
3.1. Covarianza (Sxy)
Mide la relación lineal entre dos variables y se expresa mediante la siguiente
fórmula:
Propiedades:
5
El Coeficiente de Correlación de Pearson mide la relación lineal entre dos variables
y se define como el cociente entre la covarianza y el producto de las desviaciones
típicas de ambas variables. Toma la siguiente expresión para el cálculo:
Propiedades:
-1 ≤ rxy ≥ 1
Interpretación:
Si rxy está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8).
Si rxy está próximo a 0, la correlación es débil.
Si rxy >0 la correlación es directa. Hay relación lineal positiva.
Si rxy <0 la correlación es inversa. Hay relación lineal negativa.
Si Sxy = 0 y por tanto rxy = 0 la correlación es nula. La relación lineal es
nula.
Interpretación gráfica:
Si rxy = 1 los puntos (x,y) forman una línea ascendente.
Si rxy = -1 los puntos (x,y) forman una línea descendente.
Si rxy > 0 los puntos (x,y) forman una nube ascendente más cercana a una
recta cuanto más cercano sea este valor a 1.
Si rxy < 0 los puntos (x,y) forman una nube descendente más cercana a una
recta cuanto más cercano sea este valor a -1.
Si rxy = 0 la nube de puntos sigue una distribución totalmente aleatoria
(circular).
6
4. MEDIDAS DE RELACIÓN ENTRE VARIABLES
ORDINALES
4.1. Coeficiente de correlación de Spearman
Cuando los datos no se distribuyen según una normal bivariada o bien están
medidos con una escala ordinal, una de las posibles medidas de asociación lineal es
el coeficiente de correlación de Spearman (1904). Este coeficiente se define de
igual manera que el de Pearson, sólo que en lugar de utilizar los valores de las
variables, utiliza los rangos asociados a estos valores.
En el caso de que una variable sea ordinal y la otra cuantitativa, se analizarán los
datos como si las dos fuesen ordinales.
Propiedades:
- 1 ≤ rs ≥ +1
Si rs = +1, hay correlación directa máxima.
Si rs = -1, hay correlación inversa máxima.
Si rs = +1, la correlación es nula.
Por lo tanto, cuando decimos que dos variables nominales X e Y están relacionadas,
queremos decir que las proporciones de X (género: hombre, mujer) son diferentes
en cada categoría de Y (ideología política: izquierda, derecha). Si X e Y no están
7
relacionadas, entonces las proporciones de X serán iguales en las distintas
categorías de Y.
donde:
Interpretación:
Si ji-cuadrado es mayor que cero, las variables están relacionadas entre sí.
8
TEMA 4: REGRESIÓN LINEAL SIMPLE
1. INTRODUCCIÓN
Como comprobamos en el gráfico anterior cuando representamos un gráfico de
nube de puntos, podemos observar de manera intuitiva cierto grado de asociación
o correlación lineal entre las dos variables. Incluso se podría trazar una recta,
llamada recta de regresión, que se ajustase a la nube de puntos.
Una vez encontrada la función que representa esta dependencia de las variables,
podremos predecir los valores de una variable (variable dependiente o explicada) a
partir de los valores de las otras (variables independientes o explicativas). Además,
podremos calcular la fiabilidad de esta predicción.
Asimismo, diremos que una regresión lineal es simple cuando solamente exista una
variable independiente. Cuando sean más de una las variables independientes
diremos que la regresión lineal es múltiple .
Teoría de la Regresión
9
donde:
Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad de
sus predicciones:
10
Por esto se llama ajuste por mínimos cuadrados, porque se considera que se
aproxima lo más posible cuando la suma de los cuadrados de las diferencias entre
cada valor yi de la variable y el valor y que predice la recta buscada sea lo menor
posible.
11
Es decir, la varianza total de la variable Y es la suma de dos varianzas:
Interpretación
El coeficiente de determinación multiplicado por cien representa el porcentaje
de la variabilidad de Y explicada por la recta de regresión, es decir por su
relación con la variable X.
0 ≤ R2 ≤ 1
Si R2 = 1 todos los residuos valen cero y el ajuste es perfecto
Si R2 = 0 el ajuste es inadecuado.
12
La fiabilidad de la predicción será mayor cuanto mayor sea la correlación entre las
variables, R2 o rxy.
13