Está en la página 1de 13

TEMA 3: ESTADÍSTICA DESCRIPTIVA

BIVARIADA
 La estadística descriptiva bivariada aborda el estudio de los sucesos en los que
intervienen dos variables simultáneamente.

1. DISTRIBUCIONES BIDIMENSIONALES
Cuando queremos describir conjuntamente dos variables estadísticas, el primer
paso será (al igual que en el caso de la estadística univariada), representar los
datos en una tabla de frecuencias.  Ahora, a cada caso le corresponde no un valor
sino dos (uno para cada una de las variables).  Así, en el caso de que intentemos
relacionar el peso y la altura de las personas, a cada persona le asociamos un par
de valores (peso, altura).

Los pares de valores así formados constituyen la distribución bidimensional.  La


tabla de frecuencias consiste en una tabla de doble entrada en la que se recogen
tanto las frecuencias de cada una de las variables por separado como los pares de
puntuaciones que cada caso obtiene en ambas variables (frecuencia conjunta).

Las puntuaciones pueden aparecer sin agrupar o agrupadas en intervalos, no


teniendo por qué ser el número de intervalos de las dos variables iguales entre sí,
así como la amplitud de los mismos.

Organización y representación de los datos con más de una variable

Los datos se organizan en tablas de contingencia

Para representar ,por ejemplo, dos variables cualitativas la variable Xi (con I


categorías) y la variable Yj (con J categorías) se construirá una tabla de doble
entrada con I filas y J columnas. Dentro cada casilla de la tabla se encontrarán las
frecuencias conjuntas de las dos variables (n ij).

j=1 j=2 …….. J ni


i =1 n11 n12 …….. n1J n1
i =2 n21 n22 …….. n2J n2
i =3 n31 n33 …….. n3J n3
…….. …….. …….. …….. ……..
I nI1 nI2 …….. nIJ nI
nj n1 n2 nJ N

1
Ejemplo

Tabaquismo Yj
Género Fumador No fumador Exfumador ni
Xi Varón 30 50 20 100
Mujer 30 10 10 50
nj 60 60 30 150

Tenemos dos variables:


La variable Xi : Género con I=2 categorías
La variable Yj : Tabaquísmo con J=3 categorías

Dónde
N=150 sujetos ( 100 varones y 50 mujeres) ;
60 fumadores, 60 no fumadores y 30 exfumadores
con 50 varones no fumadores n12,
frente a 10 mujeres no fumadoras n22

Donde:
N es el total de sujetos de la muestra
Las casillas de la tabla contienen la distribución de frecuencias conjuntas ( n ij)
Los laterales derecho e inferior de la tabla contienen la distribución de frecuencias
marginales ( ni y nj).

Las distribuciones de frecuencias conjuntas también pueden expresarse en términos


relativos
pij= nij/n

Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,20 0,33 0,13 0,66
Mujer 0,20 0,07 0,07 0,34
pj 0,40 0,40 0,20 1

Además de las frecuencias absolutas y relativas también aparece el concepto de


distribución condicionada.

Distribución de tabaquismo dado que se es varón n j/i=1


Distribución de género dado que se es fumador ni/j=1

Las frecuencias relativas también pueden estar condicionadas por ejemplo:

Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,30=30/100 0,50=50/100 0,20=20/100 1
Mujer 0,60=0,30/50 0,20=10/50 0,20=10/50 1

2
De los varones un 30% fuma, un 50% no fuma y un 20% es exfumador

Tabaquismo Yj
Género Fumador No fumador Exfumador
Xi Varón 0,50=30/60 0,83=50/60 0,67=20/30
Mujer 0,50=30/60 0,17=10/60 0,33=10/30
pj 1 1 1

De los fumadores un 50% son hombres y un 50% son mujeres; de los no fumadores
el 83% son varones, y el 17% son mujeres; de los exfumadores el 67% son varones
y el 33% son mujeres.

2. REPRESENTACIÓN GRÁFICA

La representación gráfica conjunta de dos variables cualitativas puede verse en las


siguientes gráficas.

Para dos variables cualitativas la representación gráfica podría ser un diagrama de


barras.

60 60

50 50

40 40
Fumador
Varón
30 No fumador 30
Mujer
Exfumador
20 20

10 10

0 0
Varón Mujer Fumador No fumador Exfumador

En el caso de de una variable cualitativa y otra cuantitativa

Se describe la variable cuantitativa condicionada a las categorías de la cualitativa.


Relacionamos la nota media de un grupo de alumnos en una asignatura con su
nivel de ansiedad ante los exámenes

3
Relación Nota media-Nivel de Ansiedad

9
8 Nivel de Nota media
7
6 ansiedad
5
4 Bajo 8
Medio 7
3
2
1
0 Alto 4
Bajo Medio Alto

En el caso de la representación de dos variables cuantitativas las categorías de las


variables suelen ofrecerse agrupadas en intervalos.

Calificación Final
1-3 4-6 7-9 ni
Nivel de 1-5 1 4 2 7
ansiedad 6-10 7 0 0 7
nj 8 4 2 14

Gráficamente la representación que se realiza con este tipo de datos es un


diagrama de dispersión

Relación ansiedad-nota exámenes

7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9

4
3. MEDIDAS DE RELACIÓN ENTRE VARIABLES
CUANTITATIVAS
3.1. Covarianza (Sxy)
Mide la relación lineal entre dos variables y se expresa mediante la siguiente
fórmula:

Propiedades:

Sxy es un valor que varía entre -∞ y + ∞

Si Sxy es positivo, entonces la correlación es directa (a mayor valor de X, mayor


valor de Y) y, por tanto, la recta de regresión es ascendente.

Si Sxy es negativo, entonces la correlación es inversa (a mayor valor de X, menor


valor de Y) y, por tanto, la recta de regresión es descendente.

Si Sxy es cero, entonces no hay correlación entre X e Y.

3.2. Coeficiente de correlación de Pearson (rxy)


La covarianza depende de los valores de las variables y por tanto de sus unidades. 
Para tener una medida adimensional se utiliza el coeficiente de correlación de
Pearson (r xy) que nos indica qué tipo de relación existe entre dos variables, así
como la magnitud de dicha correlación, siendo invariante frente a transformaciones
lineales (cambio de origen y escala) de las variables.
 

El coeficiente de correlación de Pearson fue construido bajo el supuesto de que los


datos siguen una distribución normal bivariada y la escala de medición es al menos
de intervalo.

5
El Coeficiente de Correlación de Pearson mide la relación lineal entre dos variables
y se define como el cociente entre la covarianza y el producto de las desviaciones
típicas de ambas variables. Toma la siguiente expresión para el cálculo:

Propiedades:

 Es un coeficiente adimensional.  Es decir, que es independiente de las


unidades en que están expresadas las variables. Por ello sirve de valor de
comparación aunque la variables vengan expresadas en unidades diferentes.

 -1 ≤ rxy ≥ 1

 Si rxy =1 ó rxy = -1, la relación es funcional.  Una variable depende


matemáticamente de la otra ( puede expresarse mediante una fórmula en la
que intervenga la otra, por ejemplo la longitud de una circunferencia depende
del radio mediante la fórmula L=2πr).

 
Interpretación:
 
 Si rxy está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8).
 Si rxy está próximo a 0, la correlación es débil.
 Si rxy >0 la correlación es directa.  Hay relación lineal positiva.
 Si rxy <0 la correlación es inversa.  Hay relación lineal negativa.
 Si Sxy = 0  y  por tanto rxy = 0 la correlación es nula.  La relación lineal es
nula.

Interpretación gráfica:
 Si rxy = 1 los puntos (x,y) forman una línea ascendente.
 Si rxy = -1 los puntos (x,y) forman una línea descendente.
 Si rxy > 0 los puntos (x,y) forman una nube ascendente más cercana a una
recta cuanto más cercano sea este valor a 1.
 Si rxy < 0 los puntos (x,y) forman una nube descendente más cercana a una
recta cuanto más cercano sea este valor a -1.
 Si rxy = 0 la nube de puntos sigue una distribución totalmente aleatoria
(circular).

6
4. MEDIDAS DE RELACIÓN ENTRE VARIABLES
ORDINALES
4.1. Coeficiente de correlación de Spearman
Cuando los datos no se distribuyen según una normal bivariada o bien están
medidos con una escala ordinal, una de las posibles medidas de asociación lineal es
el coeficiente de correlación de Spearman (1904).  Este coeficiente se define de
igual manera que el de Pearson, sólo que en lugar de utilizar los valores de las
variables, utiliza los rangos asociados a estos valores.
 

En el caso de que una variable sea ordinal y la otra cuantitativa, se analizarán los
datos como si las dos fuesen ordinales.

donde di es la diferencia entre el rango del caso i en la variable X, y en la variable Y.

Propiedades:

 - 1 ≤ rs ≥ +1
 Si  rs = +1, hay correlación directa máxima.
 Si  rs = -1, hay correlación inversa máxima.
 Si  rs = +1, la correlación es nula.

5. MEDIDAS DE RELACIÓN ENTRE VARIABLES


NOMINALES
En muchos casos la relación entre determinadas variables no pueden medirse con
una escala cuantitativa. Por ejemplo:  la relación entre el género y la ideología
política. 
 
Al no cuantificarse numéricamente las variables no se puede hablar de una
correlación directa o inversa.
Por ejemplo:  decir que a mayor género, mayor ideología política no tiene sentido. 

Por lo tanto, cuando decimos que dos variables nominales X e Y están relacionadas,
queremos decir que las proporciones de X (género:  hombre, mujer) son diferentes
en cada categoría de Y (ideología política:  izquierda, derecha).  Si X e Y no están

7
relacionadas, entonces las proporciones de X serán iguales en las distintas
categorías de Y.

A las frecuencias que esperaríamos obtener si X e Y estuvieran relacionadas se les


denomina frecuencias observadas.

A las frecuencias que esperaríamos obtener si X e Y no estuvieran relacionadas se


les denomina frecuencias esperadas.

5.1. Ji- Cuadrado ( )


Calcula la diferencia entre las frecuencias observadas y las frecuencias esperadas
si las variables fuesen independientes entre sí.  Para calcular ji-cuadrado se emplea
la siguiente fórmula:

donde:

 Oij es la frecuencia conjunta observada en la fila i y columna j de la tabla (son


las frecuencias que aparecen en los datos de nuestra investigación).
 Eij es la frecuencia conjunta esperada en la fila i y columna j de la tabla,
suponiendo independencia entre las variables.

Eij se calcula como sigue:

Eij = ( frecuencia marginal de la fila i) x (frecuencia marginal de la columna j)  /  n

Interpretación:

Si ji-cuadrado vale cero, las variables son independientes.

Si ji-cuadrado es mayor que cero, las variables están relacionadas entre sí.

8
TEMA 4: REGRESIÓN LINEAL SIMPLE
 

1. INTRODUCCIÓN
Como comprobamos en el gráfico anterior cuando representamos un gráfico de
nube de puntos, podemos observar de manera intuitiva cierto grado de asociación
o correlación lineal entre las dos variables. Incluso se podría trazar una recta,
llamada recta de regresión, que se ajustase a la nube de puntos.

No obstante, también la apreciación visual de la existencia de correlación no es


suficiente.  Vamos a proceder ahora a estudiar el procedimiento de selección de
esta recta y los parámetros de medida que debemos usar.

Una vez encontrada la función que representa esta dependencia de las variables,
podremos predecir los valores de una variable (variable dependiente o explicada) a
partir de los valores de las otras (variables independientes o explicativas).  Además,
podremos calcular la fiabilidad de esta predicción.

Antes de continuar debemos advertir que la regresión puede o no representarse por


una recta.  En el caso de que elijamos un recta para ajustarla a la nube de puntos,
estaremos hablando de regresión lineal.  En otro caso, diremos que la regresión es
no lineal.

Asimismo, diremos que una regresión lineal es simple cuando solamente exista una
variable independiente.  Cuando sean más de una las variables independientes
diremos que la regresión lineal es múltiple .

Teoría de la Regresión

A partir de la observación de la nube de puntos se elige el tipo de función o curva


que mejor relaciona las dos variables.  Se obtiene así la ecuación de la recta o de la
curva que mejor se adapta al conjunto de puntos y que sirve para predecir el valor
de una de las variables.

Obtener la ecuación de la recta que mejor se adapte al conjunto de puntos, de entre


las infinitas de dicho tipo que hay en el plano es lo que se conoce como el problema
del ajuste y se pueden emplear diferente métodos matemáticos para ello:
 Método de los mínimos cuadrados
 Método de los polinomios ortogonales
 Método de los momentos
 Método de la curva logística

9
 

1.1. Estimación de la ecuación de regresión por el


método de mínimos cuadrados
Con este método se trata de seleccionar aquella recta que hace mínimo el resultado
de sumar el cuadrado de cada una de las distancias de los puntos de la nube a la
recta.  Es el método más frecuente, aunque como hemos visto en el apartado
anterior no es el único.

La ecuación de la recta de regresión lineal simple responde a la fórmula:

donde:

  es la puntuación pronosticada en la variable Y para el caso i-ésimo.

  es la ordenada en el origen. Es el valor de Y cuando X = 0 (gráficamente el


punto donde la recta cruza el eje de ordenadas).

es el Coeficiente de regresión o pendiente de la recta y representa su


inclinación.

es la variable predictora.  Conociendo la puntuación en X del caso i-ésimo


podremos pronosticar la puntuación en Y.

Yi es el criterio (puntuación real obtenida en la variable Y por el caso i-ésimo de


nuestra investigación.

En el método de mínimos cuadrados, los valores de  bo y b1 son los siguientes:

Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad de
sus predicciones:

10
 

2. MEDIDAS DE BONDAD DE AJUSTE: 


CORRELACIÓN
2.1. Error de predicción
Para cada valor xi de X, se obtiene una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor teórico obtenido en
la función.

2.2. Varianza residual y error típico de estimación


Es la media de todos los residuos elevada al cuadrado

El error típico de estimación es la raíz cuadrada de la varianza residual

Interpretación de la varianza residual

 Si  la varianza residual es pequeña (cerca de cero), la dependencia será


grande, el ajuste entre la recta y la nube de puntos será bueno.
 Si la varianza residual es grande los residuos serán grandes y la
dependencia será pequeña, el ajuste entre la recta y la nube de puntos será
malo.

 
Por esto se llama ajuste por mínimos cuadrados, porque se considera que se
aproxima lo más posible cuando la suma de los cuadrados de las diferencias entre
cada valor yi de la variable y el valor y que predice la recta buscada sea lo menor
posible.

2.3. Varianza debida a la regresión


Nos sirve para ver en qué medida mejora la descripción de una variable a través de
la otra.  Se demuestra que S2y = S2 y* + S2e
 

11
Es decir, la varianza total de la variable Y es la suma de dos varianzas:

 la varianza de Y*, que representaría la parte de la dispersión o variabilidad de


la variable Y explicada por la regresión, o sea, por la relación lineal con la
variable X
 la varianza de Y*, que representaría la parte de la dispersión o variabilidad de
la variable Y explicada por la regresión, o sea, por la relación lineal con la
variable X

Así pues, cuando aumenta la varianza debida a la regresión, disminuye la varianza


residual y el ajuste es bueno y al contrario.

2.4. Coeficiente de determinación


Un inconveniente de la varianza residual es que vienen afectada por las unidades
de medida como ocurría con la covarianza y esto imposibilita la comparación de la
dependencia entre grupos de variable.
l

Dividiendo la varianza debida a la regresión entre la varianza total de Y se obtiene


una medida relativa de la bondad de ajuste que se encuentra entre cero y uno,
denominado COEFICIENTE DE DETERMINACIÓN, R2:

Interpretación
 El coeficiente de determinación multiplicado por cien representa el porcentaje
de la variabilidad de Y explicada por la recta de regresión, es decir por su
relación con la variable X.

 0 ≤ R2 ≤  1
 Si R2 = 1 todos los residuos valen cero y el ajuste es perfecto
 Si R2 = 0 el ajuste es inadecuado.

 El coeficiente de determinación de la recta de regresión de Y sobre X es el


mismo que el de la recta de regresión de X sobre Y.
 El coeficiente de determinación es el cuadrado del coeficiente de correlación
lineal:  R2 = r2xy

El objetivo último de la regresión es la predicción de una variable a partir de un valor


determinado de la otra. La predicción de Y para X = xi será el valor obtenido en la
recta de regresión de Y sobre X al sustituir el valor de x por x i.

12
La fiabilidad de la predicción será mayor cuanto mayor sea la correlación entre las
variables, R2 o rxy.
 

13

También podría gustarte