Está en la página 1de 7

Estadística y Probabilidad I

Profesor: Aquilino Zecua Fernández

Clase 7. Correlación Lineal.

Nombre del Alumno: _______________________________________________________


Grupo: _____________ Fecha: ___________________

RELACIÓN DE DOS VARIABLAES


En la vida cotidiana hay infinidad de situaciones donde lo que se desea es medir el grado
de asociación entre dos variables, éstas pueden ser cualitativas o cuantitativas. Cuando
dos variables están relacionadas, nos interesa medir la intensidad o grado de asociación
entre las variables, en describir la forma de la relación de las variables y contar con un
modelo que nos permita predecir qué valores toma una de las variables cuando se conocen
los valores de la otra. En el ámbito del estudio de la Estadística, las relaciones entre las
variables no son de causa y efecto sino de tipo matemático.

Ejemplos de relación entre dos variables:

• La relación existente entre el peso de un bebe con respecto a su estatura.


• La relación de la temperatura máxima diaria por zona geográfica con respecto a la
estación de año.
• La relación de la calificación de un examen con respecto a las horas de estudio para
preparar un examen.

Hasta ahora en tu curso de estadística se habían realizado análisis de poblaciones a partir


de una sola variable. Es decir, que para cada valor de una muestra se hacía una
observación que producía un dato de una sola variable, y con los métodos estadísticos se
elaboraron predicciones o se tomaron decisiones acerca de la población.

A continuación, se estudiarán poblaciones con dos variables, o bivariadas, es decir,


poblaciones en donde cada elemento de la población tiene dos medidas. Por ejemplo, a
cada alumno de un grupo de secundaria se le mide el diámetro de la cintura y su altura. De
este modo, los diámetros de las cinturas constituirían los datos de una variable X, y las
alturas serían los valores de otra variable Y.

De esta forma, es posible considerar a los datos bivariados como pares ordenados (x, y),
en donde a cada valor de x le corresponde un valor de y. Se denomina variable
independiente a “X” y como variable dependiente a “Y”.

1
Estadística y Probabilidad I

Cuando se grafican todos los pares ordenados (x, y), dan lugar a una gráfica conocido como
Diagrama de Dispersión.

Diagrama de dispersión

Algunas de las preguntas que surgen cuando se analizan dos (o más variables) son: ¿las
variables están relacionadas entre sí?, si es el caso, ¿cómo es esa relación?, o, ¿hay
correlación entre las variables?

Con ayuda de la estadística podemos conocer dos aspectos muy importantes: a) uno de
ellos es el grado de relación entre las variables, lo cual permite saber si existe una relación
que sea útil, esto se logra a través del llamado análisis de correlación; b) otro es el de
establecer la naturaleza de la relación funcional entre las variables, lo cual proporciona un
mecanismo de predicción o pronóstico, esto lo permite el análisis de regresión.

DIAGRAMA DE DISPERSIÓN
El diagrama de dispersión, también conocido como gráfico de dispersión, gráfico de puntos
o diagrama de XY.

Los diagramas de dispersión usan una colección de puntos colocados usando coordenadas
cartesianas para mostrar valores de dos variables. Al mostrar una variable en cada eje, se
puede detectar si existe una relación o correlación entre las dos variables, por ejemplo:

2
Estadística y Probabilidad I

Se pueden interpretar varios tipos de correlación a través de los patrones mostrados en los
diagramas de dispersión. Estos son: positivo (los valores aumentan juntos), negativo (un
valor disminuye a medida que el otro aumenta), nulo (sin correlación), lineal, exponencial
y en forma de U. La fuerza de la correlación puede determinarse por la proximidad de los
puntos entre sí en el gráfico. Los puntos que terminan muy lejos del conjunto general de
puntos se conocen como varios atípicos.

Las líneas o curvas se ajustan dentro del gráfico para ayudar en el análisis y se dibujan tan
cerca de todos los puntos como sea posible para mostrar cómo se condensaron todos los
puntos en una sola línea. Esto se conoce normalmente como “línea de mejor ajuste” o
“línea de tendencia” y se puede utilizar para hacer estimaciones mediante interpolación.

Los diagramas de dispersión son ideales cuando se tienen datos numéricos emparejados
y se desea ver si una variable afecta a la otra. Sin embargo, recuerde que la correlación no
es causal y otra variable inadvertida puede estar influyendo en los resultados.

CORRELACIÓN LINEAL
Un análisis de correlación lineal tiene por objetivo medir la intensidad de una relación lineal
entre dos variables. Cuando se trata de dos variables solamente, se dice que es correlación
simple, y cuando se trata de más de dos variables, se habla de correlación múltiple.

Sí " x" y " y" denotan las dos variables, estas se pueden considerar en un “Diagrama de

Dispersión” donde se muestra la localización de los puntos ( x, y ) en un sistema de


coordenadas rectangulares. Sí todos los puntos en este diagrama de dispersión parecen
encontrarse cerca de una recta, la correlación es Lineal.

Cuando todos los puntos se encuentran sobre una recta, se dice que la correlación
lineal es perfecta, esta puede ser positiva o negativa, dependiendo si “ y ” crece o
decrece a medida que “ x ” se incrementa.

10 10
8 8
6 6
4 4
2 2
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Correlación positiva perfecta Correlación negativa perfecta


3
Estadística y Probabilidad I

Sí los datos analizados se encuentran sobre una recta horizontal o vertical, no hay
correlación, ya que una variable no afecta a la otra.

Horizontal no hay correlación Vertical no hay correlación

Sí “ y ” tiende a incrementarse cuando se incrementa “ x ” la correlación es positiva o


directa. Sí “ y ” tiende a disminuir cuando se incrementa “ x ” la correlación es negativa o

inversa. Sí no existe ninguna relación entre las variables " x" y " y" , se dice que no hay
correlación entre ellas.

5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10

No hay Correlación

COEFICIENTE DE CORRELACIÓN
Se llama coeficiente de correlación lineal o coeficiente de Pearson, y se representa por
r. Este coeficiente se calcula de la siguiente manera:
n n n
n( xy ) − ( x)( y )
r= i =1 i =1 i =1

 n
2
n n n

  −    − 
2 2
n ( x ) ( x ) n ( y ) ( y)2 
 i =1 i =1   i =1 i =1 

El coeficiente de correlación de Pearson r mide la intensidad con la que se relacionan en


forma lineal dos variables entre sí.

El valor de r siempre se encuentra entre –1 y +1. Si r es cercano a 0, se puede concluir que


no existe una correlación lineal significativa entre X y Y, pero si r está cerca de –1 o +1,
deducimos que existe una correlación lineal significativa entre X y Y.
4
Estadística y Probabilidad I

En la correlación de dos variables se distinguen dos casos básicos: los casos de


correlación positiva, que ocurre cuando al aumentar o disminuir el valor de una de las
variables, el valor de la otra aumenta o disminuye respectivamente. (Es decir, ambas
variables se comportan similarmente). Por otra parte, existen también los casos de
correlación negativa que ocurre cuando al aumentar el valor de una de las variables, el
valor de la otra disminuye y viceversa.

De acuerdo con el valor del coeficiente de correlación, podemos describir el tipo de relación
existente entre dos variables de acuerdo con la siguiente tabla:

CORRELACION
Tipo de Negativa o inversa Positiva o directa
correlación Fuerte Moderada Débil Débil Moderada Fuerte
Valor de R -1 a -0.81 -0.8 a -0.5 -0.49 a 0 0 a 0.49 0.5 a 0.8 0.81 a 1

5
Estadística y Probabilidad I

Problema de ejemplo
La siguiente tabla muestra las estaturas de siete alumnos en metros y se desea saber la
relación que existe entre la estatura de los estudiantes y el número de calzado que utilizan.

Estatura (x) 1.66 1.80 1.72 1.90 1.70 1.57 1.75


Número de calzado (y) 4.5 9.0 6.0 9.5 7.0 5.0 8.0

Determinar:
a) El Diagrama de dispersión de datos
b) El coeficiente de correlación de Pearson

Diagrama de Dispersión

Diagrama de Dispersión
10

9
No. de Calzado (Y)

4
1.55 1.60 1.65 1.70 1.75 1.80 1.85 1.90
Estatura (X)

Coeficiente de Correlación

Para el cálculo del coeficiente de correlación se elabora una tabla de datos

x y xy x2 y2
1.66 4.5 7.47 2.7556 20.25
1.80 9.0 16.20 3.2400 81.00
1.72 6.0 10.32 2.9584 36.00
1.90 9.5 18.05 3.6100 90.25
1.70 7.0 11.90 2.8900 49.00
1.57 5.0 7.85 2.4649 25.00
1.75 8.0 14.00 3.0625 64.00
∑=12.10 ∑=49.0 ∑=85.79 ∑=20.9814 ∑=365.5
6
Estadística y Probabilidad I

Sustituyendo en la ecuación de correlación


n n n
n( xy ) − ( x)( y )
r= i =1 i =1 i =1

 n n
2
n n

  −    − 
2 2
n ( x ) ( x ) n ( y ) ( y)2 
 i =1 i =1   i =1 i =1 
7(85.79) − (12.10)(49.0)
r=
7(20.9814) − (12.10) 2  7(365.5) − (49.0) 2 

600.53 − 592.9
r=
146.8698 − 146.41 2558.5 − 2401
7.63 7.63
r= =
0.4598157.5 72.4185

7.63
r= = 0.8966  0.90
8.5099
r = 0.90 Correlación positiva fuerte

También podría gustarte