Apuntes Descriptiva Tema3 4 0

TEMA 3: ESTADÍSTICA DESCRIPTIVA
BIVARIADA
La estadística descriptiva bivariada aborda el estudio de los sucesos en los que
intervienen dos variables simultáneamente.
1. DISTRIBUCIONES BIDIMENSIONALES
Cuando queremos describir conjuntamente dos variables estadísticas, el primer
paso será (al igual que en el caso de la estadística univariada), representar los
datos en una tabla de frecuencias. Ahora, a cada caso le corresponde no un valor
sino dos (uno para cada una de las variables). Así, en el caso de que intentemos
relacionar el peso y la altura de las personas, a cada persona le asociamos un par
de valores (peso, altura).
Los pares de valores así formados constituyen la distribución bidimensional. La

tabla de frecuencias consiste en una tabla de doble entrada en la que se recogen
tanto las frecuencias de cada una de las variables por separado como los pares de
puntuaciones que cada caso obtiene en ambas variables (frecuencia conjunta).
Las puntuaciones pueden aparecer sin agrupar o agrupadas en intervalos, no

teniendo por qué ser el número de intervalos de las dos variables iguales entre sí,
así como la amplitud de los mismos.
Organización y representación de los datos con más de una variable
Los datos se organizan en tablas de contingencia
Para representar ,por ejemplo, dos variables cualitativas la variable Xi (con I

categorías) y la variable Yj (con J categorías) se construirá una tabla de doble
entrada con I filas y J columnas. Dentro cada casilla de la tabla se encontrarán las
frecuencias conjuntas de las dos variables (n ij).
j=1 j=2 …….. J ni

i =1 n11 n12 …….. n1J n1
i =2 n21 n22 …….. n2J n2
i =3 n31 n33 …….. n3J n3
…….. …….. …….. …….. ……..
I nI1 nI2 …….. nIJ nI
nj n1 n2 nJ N
1
Ejemplo
Tabaquismo Yj
Género Fumador No fumador Exfumador ni
Xi Varón 30 50 20 100
Mujer 30 10 10 50
nj 60 60 30 150
Tenemos dos variables:

La variable Xi : Género con I=2 categorías
La variable Yj : Tabaquísmo con J=3 categorías
Dónde
N=150 sujetos ( 100 varones y 50 mujeres) ;
60 fumadores, 60 no fumadores y 30 exfumadores
con 50 varones no fumadores n12,
frente a 10 mujeres no fumadoras n22
Donde:
N es el total de sujetos de la muestra
Las casillas de la tabla contienen la distribución de frecuencias conjuntas ( n ij)
Los laterales derecho e inferior de la tabla contienen la distribución de frecuencias
marginales ( ni y nj).
Las distribuciones de frecuencias conjuntas también pueden expresarse en términos

relativos
pij= nij/n
Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,20 0,33 0,13 0,66
Mujer 0,20 0,07 0,07 0,34
pj 0,40 0,40 0,20 1
Además de las frecuencias absolutas y relativas también aparece el concepto de

distribución condicionada.
Distribución de tabaquismo dado que se es varón n j/i=1

Distribución de género dado que se es fumador ni/j=1
Las frecuencias relativas también pueden estar condicionadas por ejemplo:
Tabaquismo Yj
Género Fumador No fumador Exfumador pi
Xi Varón 0,30=30/100 0,50=50/100 0,20=20/100 1
Mujer 0,60=0,30/50 0,20=10/50 0,20=10/50 1
2
De los varones un 30% fuma, un 50% no fuma y un 20% es exfumador
Tabaquismo Yj
Género Fumador No fumador Exfumador
Xi Varón 0,50=30/60 0,83=50/60 0,67=20/30
Mujer 0,50=30/60 0,17=10/60 0,33=10/30
pj 1 1 1
De los fumadores un 50% son hombres y un 50% son mujeres; de los no fumadores
el 83% son varones, y el 17% son mujeres; de los exfumadores el 67% son varones
y el 33% son mujeres.
2. REPRESENTACIÓN GRÁFICA
La representación gráfica conjunta de dos variables cualitativas puede verse en las

siguientes gráficas.
Para dos variables cualitativas la representación gráfica podría ser un diagrama de

barras.
60 60
50 50
40 40
Fumador
Varón
30 No fumador 30
Mujer
Exfumador
20 20
10 10
0 0
Varón Mujer Fumador No fumador Exfumador
En el caso de de una variable cualitativa y otra cuantitativa
Se describe la variable cuantitativa condicionada a las categorías de la cualitativa.

Relacionamos la nota media de un grupo de alumnos en una asignatura con su
nivel de ansiedad ante los exámenes
3
Relación Nota media-Nivel de Ansiedad
9
8 Nivel de Nota media
7
6 ansiedad
5
4 Bajo 8
Medio 7
3
2
1
0 Alto 4
Bajo Medio Alto
En el caso de la representación de dos variables cuantitativas las categorías de las

variables suelen ofrecerse agrupadas en intervalos.
Calificación Final
1-3 4-6 7-9 ni
Nivel de 1-5 1 4 2 7
ansiedad 6-10 7 0 0 7
nj 8 4 2 14
Gráficamente la representación que se realiza con este tipo de datos es un

diagrama de dispersión
Relación ansiedad-nota exámenes
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
4
3. MEDIDAS DE RELACIÓN ENTRE VARIABLES
CUANTITATIVAS
3.1. Covarianza (Sxy)
Mide la relación lineal entre dos variables y se expresa mediante la siguiente
fórmula:
Propiedades:
Sxy es un valor que varía entre -∞ y + ∞
Si Sxy es positivo, entonces la correlación es directa (a mayor valor de X, mayor

valor de Y) y, por tanto, la recta de regresión es ascendente.
Si Sxy es negativo, entonces la correlación es inversa (a mayor valor de X, menor

valor de Y) y, por tanto, la recta de regresión es descendente.
Si Sxy es cero, entonces no hay correlación entre X e Y.
3.2. Coeficiente de correlación de Pearson (rxy)

La covarianza depende de los valores de las variables y por tanto de sus unidades.
Para tener una medida adimensional se utiliza el coeficiente de correlación de
Pearson (r xy) que nos indica qué tipo de relación existe entre dos variables, así
como la magnitud de dicha correlación, siendo invariante frente a transformaciones
lineales (cambio de origen y escala) de las variables.

El coeficiente de correlación de Pearson fue construido bajo el supuesto de que los

datos siguen una distribución normal bivariada y la escala de medición es al menos
de intervalo.
5
El Coeficiente de Correlación de Pearson mide la relación lineal entre dos variables
y se define como el cociente entre la covarianza y el producto de las desviaciones
típicas de ambas variables. Toma la siguiente expresión para el cálculo:
Propiedades:
 Es un coeficiente adimensional. Es decir, que es independiente de las

unidades en que están expresadas las variables. Por ello sirve de valor de
comparación aunque la variables vengan expresadas en unidades diferentes.
 -1 ≤ rxy ≥ 1
 Si rxy =1 ó rxy = -1, la relación es funcional. Una variable depende

matemáticamente de la otra ( puede expresarse mediante una fórmula en la
que intervenga la otra, por ejemplo la longitud de una circunferencia depende
del radio mediante la fórmula L=2πr).

Interpretación:

 Si rxy está próximo a 1 ó -1 la correlación es fuerte (por encima de ±0.8).
 Si rxy está próximo a 0, la correlación es débil.
 Si rxy >0 la correlación es directa. Hay relación lineal positiva.
 Si rxy <0 la correlación es inversa. Hay relación lineal negativa.
 Si Sxy = 0 y por tanto rxy = 0 la correlación es nula. La relación lineal es
nula.
Interpretación gráfica:
 Si rxy = 1 los puntos (x,y) forman una línea ascendente.
 Si rxy = -1 los puntos (x,y) forman una línea descendente.
 Si rxy > 0 los puntos (x,y) forman una nube ascendente más cercana a una
recta cuanto más cercano sea este valor a 1.
 Si rxy < 0 los puntos (x,y) forman una nube descendente más cercana a una
recta cuanto más cercano sea este valor a -1.
 Si rxy = 0 la nube de puntos sigue una distribución totalmente aleatoria
(circular).
6
ORDINALES
4.1. Coeficiente de correlación de Spearman
Cuando los datos no se distribuyen según una normal bivariada o bien están
medidos con una escala ordinal, una de las posibles medidas de asociación lineal es
el coeficiente de correlación de Spearman (1904). Este coeficiente se define de
igual manera que el de Pearson, sólo que en lugar de utilizar los valores de las
variables, utiliza los rangos asociados a estos valores.

En el caso de que una variable sea ordinal y la otra cuantitativa, se analizarán los
datos como si las dos fuesen ordinales.
donde di es la diferencia entre el rango del caso i en la variable X, y en la variable Y.
Propiedades:
 - 1 ≤ rs ≥ +1
 Si rs = +1, hay correlación directa máxima.
 Si rs = -1, hay correlación inversa máxima.
 Si rs = +1, la correlación es nula.

NOMINALES
En muchos casos la relación entre determinadas variables no pueden medirse con
una escala cuantitativa. Por ejemplo: la relación entre el género y la ideología
política.

Al no cuantificarse numéricamente las variables no se puede hablar de una
correlación directa o inversa.
Por ejemplo: decir que a mayor género, mayor ideología política no tiene sentido.
Por lo tanto, cuando decimos que dos variables nominales X e Y están relacionadas,
queremos decir que las proporciones de X (género: hombre, mujer) son diferentes
en cada categoría de Y (ideología política: izquierda, derecha). Si X e Y no están
7
relacionadas, entonces las proporciones de X serán iguales en las distintas
categorías de Y.
A las frecuencias que esperaríamos obtener si X e Y estuvieran relacionadas se les

denomina frecuencias observadas.
A las frecuencias que esperaríamos obtener si X e Y no estuvieran relacionadas se

les denomina frecuencias esperadas.
5.1. Ji- Cuadrado ( )

Calcula la diferencia entre las frecuencias observadas y las frecuencias esperadas
si las variables fuesen independientes entre sí. Para calcular ji-cuadrado se emplea
la siguiente fórmula:
donde:
 Oij es la frecuencia conjunta observada en la fila i y columna j de la tabla (son

las frecuencias que aparecen en los datos de nuestra investigación).
 Eij es la frecuencia conjunta esperada en la fila i y columna j de la tabla,
suponiendo independencia entre las variables.
Eij se calcula como sigue:
Eij = ( frecuencia marginal de la fila i) x (frecuencia marginal de la columna j) / n
Interpretación:
Si ji-cuadrado vale cero, las variables son independientes.
Si ji-cuadrado es mayor que cero, las variables están relacionadas entre sí.
8
TEMA 4: REGRESIÓN LINEAL SIMPLE

1. INTRODUCCIÓN
Como comprobamos en el gráfico anterior cuando representamos un gráfico de
nube de puntos, podemos observar de manera intuitiva cierto grado de asociación
o correlación lineal entre las dos variables. Incluso se podría trazar una recta,
llamada recta de regresión, que se ajustase a la nube de puntos.
No obstante, también la apreciación visual de la existencia de correlación no es

suficiente. Vamos a proceder ahora a estudiar el procedimiento de selección de
esta recta y los parámetros de medida que debemos usar.
Una vez encontrada la función que representa esta dependencia de las variables,
podremos predecir los valores de una variable (variable dependiente o explicada) a
partir de los valores de las otras (variables independientes o explicativas). Además,
podremos calcular la fiabilidad de esta predicción.
Antes de continuar debemos advertir que la regresión puede o no representarse por

una recta. En el caso de que elijamos un recta para ajustarla a la nube de puntos,
estaremos hablando de regresión lineal. En otro caso, diremos que la regresión es
no lineal.
Asimismo, diremos que una regresión lineal es simple cuando solamente exista una
variable independiente. Cuando sean más de una las variables independientes
diremos que la regresión lineal es múltiple .
Teoría de la Regresión
A partir de la observación de la nube de puntos se elige el tipo de función o curva

que mejor relaciona las dos variables. Se obtiene así la ecuación de la recta o de la
curva que mejor se adapta al conjunto de puntos y que sirve para predecir el valor
de una de las variables.
Obtener la ecuación de la recta que mejor se adapte al conjunto de puntos, de entre

las infinitas de dicho tipo que hay en el plano es lo que se conoce como el problema
del ajuste y se pueden emplear diferente métodos matemáticos para ello:
 Método de los mínimos cuadrados
 Método de los polinomios ortogonales
 Método de los momentos
 Método de la curva logística
9

1.1. Estimación de la ecuación de regresión por el

método de mínimos cuadrados
Con este método se trata de seleccionar aquella recta que hace mínimo el resultado
de sumar el cuadrado de cada una de las distancias de los puntos de la nube a la
recta. Es el método más frecuente, aunque como hemos visto en el apartado
anterior no es el único.
La ecuación de la recta de regresión lineal simple responde a la fórmula:
donde:
es la puntuación pronosticada en la variable Y para el caso i-ésimo.
es la ordenada en el origen. Es el valor de Y cuando X = 0 (gráficamente el

punto donde la recta cruza el eje de ordenadas).
es el Coeficiente de regresión o pendiente de la recta y representa su

inclinación.
es la variable predictora. Conociendo la puntuación en X del caso i-ésimo

podremos pronosticar la puntuación en Y.
Yi es el criterio (puntuación real obtenida en la variable Y por el caso i-ésimo de

nuestra investigación.
En el método de mínimos cuadrados, los valores de bo y b1 son los siguientes:
Una vez obtenida la recta, debemos medir la exactitud de ese ajuste o fiabilidad de
sus predicciones:
10

2. MEDIDAS DE BONDAD DE AJUSTE:

CORRELACIÓN
2.1. Error de predicción
Para cada valor xi de X, se obtiene una diferencia (el residuo) entre el valor
observado de Y en la nube de puntos y el correspondiente valor teórico obtenido en
la función.
2.2. Varianza residual y error típico de estimación

Es la media de todos los residuos elevada al cuadrado
El error típico de estimación es la raíz cuadrada de la varianza residual
Interpretación de la varianza residual
 Si la varianza residual es pequeña (cerca de cero), la dependencia será

grande, el ajuste entre la recta y la nube de puntos será bueno.
 Si la varianza residual es grande los residuos serán grandes y la
dependencia será pequeña, el ajuste entre la recta y la nube de puntos será
malo.

Por esto se llama ajuste por mínimos cuadrados, porque se considera que se
aproxima lo más posible cuando la suma de los cuadrados de las diferencias entre
cada valor yi de la variable y el valor y que predice la recta buscada sea lo menor
posible.
2.3. Varianza debida a la regresión

Nos sirve para ver en qué medida mejora la descripción de una variable a través de
la otra. Se demuestra que S2y = S2 y* + S2e

11
Es decir, la varianza total de la variable Y es la suma de dos varianzas:
 la varianza de Y*, que representaría la parte de la dispersión o variabilidad de

la variable Y explicada por la regresión, o sea, por la relación lineal con la
variable X
 la varianza de Y*, que representaría la parte de la dispersión o variabilidad de
la variable Y explicada por la regresión, o sea, por la relación lineal con la
variable X
Así pues, cuando aumenta la varianza debida a la regresión, disminuye la varianza

residual y el ajuste es bueno y al contrario.
2.4. Coeficiente de determinación

Un inconveniente de la varianza residual es que vienen afectada por las unidades
de medida como ocurría con la covarianza y esto imposibilita la comparación de la
dependencia entre grupos de variable.
l
Dividiendo la varianza debida a la regresión entre la varianza total de Y se obtiene

una medida relativa de la bondad de ajuste que se encuentra entre cero y uno,
denominado COEFICIENTE DE DETERMINACIÓN, R2:
Interpretación
 El coeficiente de determinación multiplicado por cien representa el porcentaje
de la variabilidad de Y explicada por la recta de regresión, es decir por su
relación con la variable X.
 0 ≤ R2 ≤ 1
 Si R2 = 1 todos los residuos valen cero y el ajuste es perfecto
 Si R2 = 0 el ajuste es inadecuado.
 El coeficiente de determinación de la recta de regresión de Y sobre X es el

mismo que el de la recta de regresión de X sobre Y.
 El coeficiente de determinación es el cuadrado del coeficiente de correlación
lineal: R2 = r2xy
El objetivo último de la regresión es la predicción de una variable a partir de un valor

determinado de la otra. La predicción de Y para X = xi será el valor obtenido en la
recta de regresión de Y sobre X al sustituir el valor de x por x i.
12
La fiabilidad de la predicción será mayor cuanto mayor sea la correlación entre las
variables, R2 o rxy.

13

Apuntes Descriptiva Tema3 4 0

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Descriptiva Tema3 4 0

Cargado por

Copyright:

Formatos disponibles

TEMA 3: ESTADÍSTICA DESCRIPTIVA

Los pares de valores así formados constituyen la distribución bidimensional. La

Las puntuaciones pueden aparecer sin agrupar o agrupadas en intervalos, no

Organización y representación de los datos con más de una variable

Los datos se organizan en tablas de contingencia

Para representar ,por ejemplo, dos variables cualitativas la variable Xi (con I

j=1 j=2 …….. J ni

Tenemos dos variables:

Las distribuciones de frecuencias conjuntas también pueden expresarse en términos

Además de las frecuencias absolutas y relativas también aparece el concepto de

Distribución de tabaquismo dado que se es varón n j/i=1

Las frecuencias relativas también pueden estar condicionadas por ejemplo:

La representación gráfica conjunta de dos variables cualitativas puede verse en las

Para dos variables cualitativas la representación gráfica podría ser un diagrama de

En el caso de de una variable cualitativa y otra cuantitativa

Se describe la variable cuantitativa condicionada a las categorías de la cualitativa.

En el caso de la representación de dos variables cuantitativas las categorías de las

Gráficamente la representación que se realiza con este tipo de datos es un

Relación ansiedad-nota exámenes

Sxy es un valor que varía entre -∞ y + ∞

Si Sxy es positivo, entonces la correlación es directa (a mayor valor de X, mayor

Si Sxy es negativo, entonces la correlación es inversa (a mayor valor de X, menor

Si Sxy es cero, entonces no hay correlación entre X e Y.

3.2. Coeficiente de correlación de Pearson (rxy)

El coeficiente de correlación de Pearson fue construido bajo el supuesto de que los

 Es un coeficiente adimensional. Es decir, que es independiente de las

 Si rxy =1 ó rxy = -1, la relación es funcional. Una variable depende

donde di es la diferencia entre el rango del caso i en la variable X, y en la variable Y.

5. MEDIDAS DE RELACIÓN ENTRE VARIABLES

A las frecuencias que esperaríamos obtener si X e Y estuvieran relacionadas se les

A las frecuencias que esperaríamos obtener si X e Y no estuvieran relacionadas se

5.1. Ji- Cuadrado ( )

 Oij es la frecuencia conjunta observada en la fila i y columna j de la tabla (son

Eij se calcula como sigue:

Eij = ( frecuencia marginal de la fila i) x (frecuencia marginal de la columna j) / n

Si ji-cuadrado vale cero, las variables son independientes.

No obstante, también la apreciación visual de la existencia de correlación no es

Antes de continuar debemos advertir que la regresión puede o no representarse por

A partir de la observación de la nube de puntos se elige el tipo de función o curva

Obtener la ecuación de la recta que mejor se adapte al conjunto de puntos, de entre

1.1. Estimación de la ecuación de regresión por el

La ecuación de la recta de regresión lineal simple responde a la fórmula:

es la puntuación pronosticada en la variable Y para el caso i-ésimo.

es la ordenada en el origen. Es el valor de Y cuando X = 0 (gráficamente el

es el Coeficiente de regresión o pendiente de la recta y representa su

es la variable predictora. Conociendo la puntuación en X del caso i-ésimo

Yi es el criterio (puntuación real obtenida en la variable Y por el caso i-ésimo de

En el método de mínimos cuadrados, los valores de bo y b1 son los siguientes:

2. MEDIDAS DE BONDAD DE AJUSTE:

2.2. Varianza residual y error típico de estimación

El error típico de estimación es la raíz cuadrada de la varianza residual

Interpretación de la varianza residual

 Si la varianza residual es pequeña (cerca de cero), la dependencia será

2.3. Varianza debida a la regresión

 la varianza de Y*, que representaría la parte de la dispersión o variabilidad de

Así pues, cuando aumenta la varianza debida a la regresión, disminuye la varianza

2.4. Coeficiente de determinación

Dividiendo la varianza debida a la regresión entre la varianza total de Y se obtiene

 El coeficiente de determinación de la recta de regresión de Y sobre X es el

El objetivo último de la regresión es la predicción de una variable a partir de un valor

También podría gustarte