Está en la página 1de 13

ESTADÍSTICA DESCRIPTIVA BIVARIADA

 La estadística descriptiva bivariada aborda el estudio de los sucesos en los que
intervienen dos variables simultáneamente.

1. DISTRIBUCIONES BIDIMENSIONALES

Cuando queramos describir conjuntamente dos variables estadísticas, podemos (al


igual que en el caso de la estadística univariada), representar los datos como datos
sueltos o en una tabla de frecuencia.  Ahora, a cada objeto le corresponden dos
valores (uno para cada una de las variables).  Así, si queremos estudiar el peso y la
altura de las personas, a cada persona le asociamos un par de valores (peso,
altura).

Los pares de valores así formados constituyen la distribución bidimensional.  La


tabla de frecuencias consiste en una tabla de doble entrada en la que se recogen
los pares de puntuaciones que cada objeto obtiene en ambas variables (frecuencia
conjunta).

Las puntuaciones pueden aparecer sin agrupar o agrupadas en intervalos, no


teniendo por qué ser el número de intervalos de las dos variables iguales entre sí,
así como la amplitud de los mismos.

Así si queremos representar dos variables: variable Xi (con I categorías) y la


variable Yj (con J categorías) se construirá una tabla de doble entrada con I filas y J
columnas. Dentro cada casilla de la tabla se encontrarán las frecuencias conjuntas
de las dos variables (nij).

j=1 j=2 …….. J ni


i =1 n11 n12 …….. n1J n1
i =2 n21 n22 …….. n2J n2
i =3 n31 n33 …….. n3J n3
…….. …….. …….. …….. ……..
I nI1 nI2 …….. nIJ nI
nj n1 n2 nJ N

Ejemplo 1:

Tabaquismo Yj
Género Fumador No fumador Exfumador ni
Xi Varón 30 50 20 100
Mujer 30 10 10 50
nj 60 60 30 150

1
Las distribuciones de frecuencias conjuntas también pueden expresarse en términos
relativos
fij= nij/n

Tabaquismo Yj
Género Fumador No fumador Exfumador
Xi Varón 0,20 0,33 0,13 0,66
Mujer 0,20 0,07 0,07 0,34
0,40 0,40 0,20 1

Además de las frecuencias absolutas y relativas también aparece el concepto de


distribución condicionada.

Distribución de tabaquismo dado que se es varón n j/i=1


Distribución de tabaquismo dado que se es mujer n j/i=1

Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,30=30/100 0,50=50/100 0,20=20/100 1
Mujer 0,60=0,30/50 0,20=10/50 0,20=10/50 1

2
Ejemplo 2:
En el caso de la representación de dos variables cuantitativas las categorías de las
variables suelen ofrecerse agrupadas en intervalos.

Calificación Final
1-3 4-6 7-9 ni
Nivel de 1-5 1 4 2 7
ansiedad 6-10 7 0 0 7
nj 8 4 2 14

A partir, entonces, de esta tabla podemos calcular alguna Medidas Marginales y


algunas Medidas Condicionadas:

Medidas marginales
Calcular cual de las dos variables anteriores es más homogénea
Medidas condicionadas
Calcular el promedio registrado en el nivel de ansiedad para aquellos
alumnos que han obtenido calificación de hasta 6 puntos.

3
2. MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS

2.1. Covarianza (Sxy)

Mide la relación lineal entre dos variables y se expresa mediante la siguiente


fórmula:

 es un valor que varía entre -∞ y + ∞


 Si es positivo, entonces la correlación es directa (a mayor
valor de X, mayor valor de Y) y, por tanto, la recta de regresión es
ascendente.

 Si es negativo, entonces la correlación es inversa (a mayor


valor de X, menor valor de Y) y, por tanto, la recta de regresión es
descendente.

 Si es cero, entonces no hay correlación entre X e Y

EJEMPLO:

Se han registrado los datos de 2 variables para un grupo de 7 familias de la Región


Metropolitana:
Monto de sueldo (en millones de pesos)
Monto destinado a ahorro (en miles de pesos)
La información obtenida se muestra en la siguiente tabla:
0.57 0.93 0.85 0.42 0.31 0.60 0.33

50 38 70 40 35 60 40

4
2.2. Coeficiente de correlación de Pearson

La covarianza depende de los valores de las variables y por tanto de sus unidades. 
Para tener una medida adimensional se utiliza el coeficiente de correlación de
Pearson
que nos indica qué tipo de relación existe entre dos variables (durecta o inversa),
así como calificar la magnitud de dicha correlación, siendo invariante frente a
transformaciones lineales (cambio de origen y escala) de las variables.
 
  El Coeficiente de Correlación de Pearson mide la relación lineal entre dos variables
y se define como el cociente entre la covarianza y el producto de las desviaciones
típicas de ambas variables:

Propiedades:
 Es un coeficiente adimensional.  Es decir, que es independiente de las
unidades en que están expresadas las variables. Por ello sirve de valor de
comparación aunque la variables vengan expresadas en unidades diferentes.
 -1 ≤ ≥1

 Si =1 ó = -1, la relación es perfecta .   

 Si está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8).

 Si está próximo a 0, la correlación es débil.

 Si >0 la correlación es directa.  Hay relación lineal positiva (línea


ascendente)

 Si <0 la correlación es inversa.  Hay relación lineal negativa. (línea


descendente)

 Si Sxy = 0  y  por tanto = 0 la correlación es nula.  La relación lineal es


nula. (nube de puntos: sigue una distribución totalmente aleatoria) 

5
EJEMPLO:
0.57 0.93 0.85 0.42 0.31 0.60 0.33

50 38 70 40 35 60 40

6
3.- REGRESIÓN LINEAL SIMPLE

A partir de la observación de la tendencia que toman los pares de datos recogidos al


estudiar dos variables, se elige el tipo de función o curva que mejor relaciona estas
dos variables.  Se obtiene así la ecuación de la recta o de la curva que mejor se
adapta al conjunto de puntos y que sirve para predecir el valor de una de las
variables.

Obtener la ecuación de la recta que mejor se adapte al conjunto de puntos, de entre


las infinitas de dicho tipo que hay en el plano es lo que se conoce como el problema
del ajuste y se pueden emplear diferente métodos matemáticos para ello, de los
cuales nosotros estudiaremos el llamado Método de los mínimos cuadrados

3.1. Estimación de la ecuación de regresión por el método de mínimos


cuadrados

Con este método se trata de seleccionar aquella recta que hace mínimo el resultado
de sumar el cuadrado de cada una de las distancias de los puntos de la nube a la
recta. 

La ecuación de la recta de regresión lineal simple responde a la fórmula:

donde:

  es la puntuación pronosticada en la variable Y para el caso i-ésimo.

es la ordenada en el origen. Es el valor de Y cuando X = 0 (gráficamente el


punto donde la recta cruza el eje de ordenadas).

es el Coeficiente de regresión o pendiente de la recta y representa su inclinación.

es la variable predictora.  Conociendo la puntuación en X del caso i-ésimo


podremos pronosticar la puntuación en Y.

es el criterio (puntuación real obtenida en la variable Y por el caso i-ésimo de


nuestra investigación.

En el método de mínimos cuadrados, los valores de  y son los siguientes:

7
Calculando los valores de y podemos obtener el modelo

EJEMPLO:

0.57 0.93 0.85 0.42 0.31 0.60 0.33

50 38 70 40 35 60 40

8
3.2. Coeficiente de determinación

El coeficiente de determinación multiplicado por cien representa el porcentaje de la


variabilidad de Y explicada por la recta de regresión, es decir por su relación con la
variable X.

Para calcular este coeficiente, simplemente debemos elevar al cuadrado el


coeficiente de correlación ( r ) obtenido anteriormente.

R2 = r2xy

Interpretación

 0 ≤ R2 ≤  1
 Si R2 = 1 el ajuste es perfecto
 Si R2 = 0 el ajuste es inadecuado.

 El coeficiente de determinación de la recta de regresión de Y sobre X es el


mismo que el de la recta de regresión de X sobre Y.

 El objetivo último de la regresión es la predicción de una variable a partir de un


valor determinado de la otra. La predicción de Y para X = xi será el valor obtenido
en la recta de regresión de Y sobre X al sustituir el valor de x por x i.

La fiabilidad de la predicción será mayor cuanto mayor sea la correlación entre las
variables, R2 o rxy.

EJEMPLO:

0.57 0.93 0.85 0.42 0.31 0.60 0.33

50 38 70 40 35 60 40

9
EJERCICIOS DE ESTADÍSTICA BIDIMENSIONAL

1.- Los datos correspondientes al número de incendios forestales registrados en Chile (X) y
el número de hectáreas afectadas (Y) durante 15 años se recogen en la siguiente tabla:

X(miles)
[0,5) [5,10) [10,15) [15,20)
Y (miles)
[0,100) 0 0 2 0
[100,200) 1 4 1 1
[200,300) 0 2 1 0
[300,400) 0 0 0 1
[400,500) 0 0 1 1

a) Haga la distribución marginal de ambas variables ¿Cuál de ellas presenta mayor


dispersión?
b) Determine el número promedio de hectáreas afectadas en aquellos años donde
ocurrieron a lo menos 10 incendios.

10
2.- En seis modelos de zapatillas deportivas se ha estudiado el peso, en gramos, que tiene
(para el número 42) y su precio, en euros. La información obtenida se recoge en esta tabla:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos


variables?

11
3.- Se ha analizado en distintos modelos de impresoras cuál es el coste por página (en
céntimos de euro) en blanco y negro y cuál es el coste por página si esta es en color. La
siguiente tabla nos da los seis primeros pares de datos obtenidos:

a) Halla la recta de regresión de Y sobre X.


b) ¿Cuánto nos costaría imprimir una página en color en una impresora en la que el coste por
página en blanco y negro fuera de 12 céntimos de euro? ¿Es fiable la estimación?

12
4.- En una academia para aprender a conducir se han estudiado las semanas de asistencia a
clase de sus alumnos y las semanas que tardan en aprobar el examen teórico (desde que se
apuntaron a la autoescuela). Los datos correspondientes a seis alumnos son:

a) Halla las dos rectas de regresión y represéntalas.


b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la
correlación entre las dos variables?

13

También podría gustarte