Está en la página 1de 14

3.

Asociación, Correlación y Regresión Lineal

32
3.1. Asociación y Causalidad

Algunos sucesos o circunstancias tienden a seguir a otros cuando ocurren en el tiempo. Si


varios de estos sucesos que ocurren repetidamente en el tiempo tienen ciertas cualidades,
los observadores podrían llegar a pensar que están asociados de alguna manera. En ciertos
casos se puede ir más lejos y pensar que un tipo de suceso es causa para otro, hablando de
relaciones causales o de causa y efecto.

Podemos decir , por ejemplo, que los gatos por consumo de una familia están asociados a
su ingreso. Si el consumo aumenta (o disminuye) en la proporción que el ingreso, podemos
pensar en una relación causal. Sin embargo, las observaciones muestran que esto no es así
cuando los ingresos regulares aumentan en grandes cantidades: parte se ahorra o invierte.
Entonces, existe algún tipo de asociación que no es causal.

En otros casos existen asociaciones de otro tipo, causadas indirectamente por terceras
variables. Por ejemplo, podemos observar que, a medida que aumenta el número de
televisores por familia, disminuye el número de hijos. Esto no quiere decir que la TV sea el
mejor anticonceptivo. Más bien hay que pensar en que la cantidad de aparatos receptores
de televisión está ligada al ingreso y que, por otras razones, las familias de altos ingresos
tienen menos hijos.

Una asociación o relación estadística, por fuerte y sugerente que sea, jamás puede
establecer una asociación causal. Las ideas de causa y efecto deben salir de otros ámbitos
y no de la estadística. Por ejemplo, la relación entre la lluvia y el rendimiento de las
cosechas es un caso en el que consideraciones no estadísticas precisan una asimetría de la
situación: se dice que la lluvia ocasiona una variación en las cosechas, pero jamás se podría
pensar esto al revés, es decir, que un aumento de cosecha implique un aumento de lluvia.

Aun cuando, en el caso anterior, no existan razones estadísticas para descartar la idea de un
efecto en las lluvias causado por las cosechas, el descarte de esta alternativa se basa en otro
tipo de consideraciones.

Como contrapartida de estas asociaciones estadísticas, existe el concepto de


independencia. Así, el color café del cabello de una persona esté relacionado al tipo de
instrumento que use para escribir, por ejemplo, una lapicera.

El tema de este capítulo se encuentra ampliamente tratado en la literatura científica y


técnica, y es sumamente extenso. Nos centraremos en revisar los tipos de asociaciones y a
estudiar uno de ellos, el referente a la correlación entre variables (cualitativas), que fue
desarrollado a comienzos del siglo pasado por Karl Pearson y George Udny Yule, entre
otros.

3.2. ¿Qué asociar?

32
Recién se apuntó a una asociación entre variables. En estos casos se determinan dos a más
variables en una población o muestra de individuos.

Puede ser interesante, por ejemplo, saber si el contorno del busto entre las mujeres está
asociado a su estatura, si la temperatura influye en el tamaño de los objetos o si el tipo de
corteza de cierta especie de árboles está relacionada con la presencia de cierto compuesto
químico en la madera.

En la teoría estadística encontramos estadígrafos, usualmente llamados coeficientes de


correlación, que nos permiten detectar si existe o no asociación entre variables, y si existe,
qué tan fuerte es.

También podemos asociar objetos o individuos. Así, por ejemplo, podemos determinar
características en los seres humanos y agruparlos según que tan parecidos sean, originando
la clasificación en razas humanas. En otro caso, puede interesar la distancia que hay entre
islas para saber si están asociadas, dando origen o no a archipiélagos. Al asociar individuos,
el interés se centra en clasificarlos o agruparlos, lo que se hace a través de estadígrafos
conocidos como coeficientes de similitud o medidas de distancia, tema que no tratará en
estos apuntes.

3.3. Tipos de asociación

Al considerar los tipos de asociación que pueden existir entre variables, tenemos una
primera clasificación global en las siguientes tres categorías:

A) Independencia: En este caso, las variables no están estadísticamente asociadas. Las


probabilidades de sucesos compuestos de casos correspondientes a variables
independientes se obtienen multiplicando las probabilidades individuales. Por ejemplo,
en una fiesta grande puede ocurrir que el 5% de las jóvenes sean rubias y el 2% se
movilice en moto. La proporción de jóvenes que cumplan ambas condiciones será el
producto 0.05 × 0.02 = 0.001 .

Al revés, las características de color, peso y tamaño no son independientes de las razas
caninas, esto es lo que nos permite distinguir un chihuahua de un gran danés.

B) Dependencia funcional: La dependencia funcional se encuentra al relacionar variables a


través de fórmulas matemáticas en las que no hay posibilidad de error. Son casos típicos
de la física clásica. Así, por ejemplo, la ley de Boyle establece que, si la temperatura es
constante, la presión P y el volumen V de cierta cantidad de gas están relacionados por
la ecuación P ×V = constante . Si queremos tomar en cuenta la temperatura T,
modificamos la ecuación anterior obteniendo una relación para las tres variables por la
P ×V
ecuación = constante .
T

Esta materia es de interés estadístico debido a que las variables asociadas


funcionalmente están, sin embargo, sujetas a errores y/o precisiones en instrumentos u

33
observadores que las miden. Cuando esto se toma en cuenta, la relación funcional pasa
a ser una relación estadística.

C) Asociación Estadística: La mayor parte de asociación estadística nacen al interesarnos


por la distribución conjunta de dos variables.

Si una categoría de sucesos (por ejemplo, peso de las personas entre 70 y 80 kg) ocurre
con cierta proporción p de los casos, y otra categoría (por ejemplo, estatura entre 160 y
170 cm) ocurre con una proporción q, los dos tipos de evento ocurrirán a la vez en
algunos miembros del grupo de estudio. De hecho, en una proporción p × q , si fueran
independientes.

En un sentido que no es técnico, la existencia de personas con peso entre los 70 y 80 kg


y estaturas entre 160 y 170 cm, indica que ambos tipos de suceso estás asociados en
estos individuos. Pero esto no es evidencia que la asociación sea estadística.

Por asociación estadística queremos expresar que la proporción de personas que


presentan ambos tipos de sucesos es, o bien, significativamente más alta, o bien,
significativamente más baja que la proporción esperada sobre la base de una
consideración simultánea de las frecuencias, calculadas por separado, de ambas
categorías de sucesos.

Consideremos otro ejemplo donde tenemos 200 personas idénticas. A 100 de ellas se
les vacuna contra la influenza (grupo experimental) y a las otras 100 se les administra
un placebo. En una epidemia posterior, ambos grupos quedan igualmente expuestos a la
enfermedad y 20 de los vacunados se contagian, mientras que lo mismo ocurre con 50
de los no vacunados. Siendo imposible atribuir estos resultados al azar, debemos
concluir que el hecho de estar vacunado está asociado a no contraer la enfermedad. Más
aún, se puede pensar que esta asociación es de tipo casual.

Sin embargo, si miramos un individuo en particular, no es posible afirmar que la vacuna


sea la causa por la que no se contagió, pues hay ejemplos de personas vacunadas que sí
se contagiaron y de individuos sin influenza que no estaban vacunados. ¡Incluso se
podría decir que esas personas se contagiaron debido a que sí estaban vacunadas!,
aunque la tendencia general haya sido en dirección opuesta.

Dentro de las asociaciones estadísticas podemos distinguir relaciones de


interdependencia y relaciones de dependencia:

a) Interdependencia: al estudiar una relación de interdependencia, nos interesa


considerar varias variables simultáneamente, a fin de establecer la estructura de
asociaciones entre ellas. Por ejemplo, puede ser de interés saber si existe relación
entre el largo del brazo y el largo de la pierna en los seres humanos. Quizás se
quiera saber que tan relacionadas están las distintas pruebas a que se somete una
persona para determinar su coeficiente intelectual . Un químico querrá saber la

34
relación existente entre las decenas de productos químicos obtenidos al destilar
hojas de eucaliptus. Y así, se podría nombrar muchos otros ejemplos.

Generalmente, el interés se centra es estas variables con el fin de establecer


relaciones numéricas entre ellas, afín de disminuir su cantidad o de construir
indicadores (como el índice de precios al consumidor).

b) Dependencia: Volviendo al ejemplo del largo de la pierna y el brazo, se puede


desear usar sus mediciones del largo del brazo para obtener información sobre el
largo de la pierna (una cosa útil para los fabricantes de overoles). De esta forma,
estamos considerando la dependencia del largo de la pierna respecto el largo del
brazo.

La idea se puede extender al caso en que deseamos saber si ciertas variables


dependen de ciertas otras. Un caso internacionalmente conocido de esta situación,
en el que se determinó que tres o cuatro medidas en el ser humano podían predecir
las 15 ó 20 necesarias para confeccionar un traje, casi eliminó las confecciones “a
medida”, creándose la moda “pret a porter” y la producción en serie.

Aunque no existe una distinción clara y precisa, en la terminología estadística, para


referirse a las técnicas que tienen que ver con estos tipos de problemas, la
interdependencia conduce a la teoría de la correlación y la dependencia a la teoría
de regresión.

3.4. Detectando Asociación

El problema consiste en establecer si existe o no asociación entre dos variables y , si existe,


determinar qué tan fuerte es esta asociación.

Dos variables pueden tener relaciones del tipo funcional como las que se muestran en la
siguiente figura:

35
En el caso (a) el dibujo representa una curva, mientras que en (b) se observa una línea
recta.

Cuando la relación funcional es una línea recta, el uso hace que se hable de una relación
lineal. En los demás casos la relación puede ser cuadrática o de otra forma, “no lineal”.

El coeficiente de correlación lineal de Pearson, que será definido más adelante, se puede
aplicar únicamente cuando la relación funcional, o la asociación estadística
correspondiente, se basa en una recta. Este es un concepto que debe ser recordado siempre.

La investigación de la relación entre dos variables X e Y , basada en un conjunto de


n pares de observaciones, empieza con un intento por descubrir la forma aproximada de la
asociación. Esto se realiza mediante un gráfico X vs Y en el que se ubican los n puntos
pareados, y que se conoce como diagrama o gráfico de dispersión.

Para aclara ideas, considere el número de empleados y los gastos fijos que se generan en
cuatro empresas muy similares. La información obtenida es:

X: Nro de Y: Gastos Fijos en miles


Empleados de pesos
20 380
25 430
30 500
35 580

Como se aprecia, ahora la información es entregada en pares ordenados. Por ejemplo el


dato (25,430) indica que esta empresa tiene 25 empleados y tiene un gasto fijo de $430000.
El diagrama o gráfico de dispersión es:

Los puntos, así graficados, constituyen lo que se llama nube de puntos.

36
A simple vista se puede apreciar en este diagrama que hay una tendencia entre la cantidad
de empleados y los gastos fijos. Las empresas que tienen un bajo número de empleados
tienden a tener un bajo gasto fijo. Asimismo, empresas con una gran cantidad de empleados
tienen un gasto fijo alto. Además, la tendencia general de la nube es la de una línea recta.

3.5. Correlación lineal de Pearson.

Para calcular el coeficiente de correlación lineal de Pearson se debe considerar, todo, el


conjunto de n pares de observaciones, es decir, ( x1, y1),( x2 , y2 ),K, ( xn , yn ) .
n
S XY
Este coeficiente se define como r = , donde: S XY = ∑ xi × yi − n × X × Y ,
S XX × SYY i =1

S XX = ∑ xi2 − n × (X ) y SYY = ∑ yi2 − n × (Y ) .


n n
2 2

i =1 i i =1 i

El coeficiente de correlación lineal tiene algunas propiedades muy interesantes. En primer


lugar, la nube de puntos en el gráfico de dispersión debe representar, al menos
aproximadamente, una línea recta. Si esto no se cumple, no es bueno calcularla en
propiedad.

La correlación lineal (r ) toma el valor 0 cuando la nube de puntos es circular, como se


muestra en la siguiente figura.

En general, r varía entre –1 y 1, es decir − 1 ≤ r ≤ 1 .

El signo indica que tipo de asociación existe entre las variables X e Y. Si el signo es
positivo la asociación es directa, esto quiere decir, que si X aumenta, también aumenta Y ,o
a la inversa si X disminuye, también disminuye Y. Si el signo es negativo la relación es
inversa, es decir, si X aumenta Y disminuye, o a la inversa si X disminuye, Y aumenta.

37
Si la correlación, en valor absoluto, es cercana a 1 indica que la relación funcional entre X e
Y es lineal (Y = a + bX ) . Por otra parte, si es cercana a 0 indica que las variables no están
correlacionadas.

El párrafo anterior permite definir | r | ×100% como el porcentaje de linealidad, existente,


entre las dos variables en estudio.

En el problema anterior, el coeficiente de correlación lineal entre la cantidad de empleados


1675
y los gastos fijos es r = = 0.995 . El análisis de esta cantidad es como sigue:
125 × 22675
Como el signo es positivo, indica que mientras mayor sea la cantidad de empleados, mayor
son los gastos fijos. Por otro lado, existe un 99.5% de linealidad indicando que la relación
funcional entre el número de empleados y los gastos fijos es lineal.

Hay casos en que las variables en estudio están extremadamente asociadas, pero como no
es lineal, el coeficiente de correlación lineal es cercano a 0. Esto se debe a que el
coeficiente de correlación lineal sólo detecta linealidad o relación lineal entre las variables
en estudio. Por eso es importante realizar en forma previa el diagrama de dispersión y
verificar visualmente la tendencia de los datos.

Es importante notar, que la interpretación de un coeficiente de correlación, como medida de


la intensidad de la relación lineal entre dos variables, es puramente matemática y libre de
cualquier implicación de causa o efecto. El hecho de que las dos variables tiendan a crecer
o decrecer juntas, no indica que la una tenga un efecto directo o indirecto sobre la otra.
Ambas pueden estar influidas por otras variables de modo que se origine una fuerte relación
matemática.

Suponga que, a lo largo de un cierto período de años, el coeficiente de correlación entre los
sueldos de los profesores y el consumo de bebidas alcohólicas resultó ser 0.98. Durante ese
período de tiempo hubo una firme subida de los salarios de todo tipoy una tendencia
general ascendente propia de las buenas épocas. En tales condiciones, los sueldos de los
profesores aumentaron también. Además la tendencia ascendente general de los salarios y
del poder adquisitivo se reflejó en la compra de bebidas alcohólicas. Por lo tanto, esta
elevada correlación muestra simplemente el efecto común a la tendencia ascendente sobre
las dos variables.

38
Los coeficientes de correlación deben manejarse con cuidado si se quiere que den
información sensata en lo que concierne a las relaciones entre pares de variables. El éxito
de los coeficientes de correlación requiere estar familiarizados con el campo de aplicación,
así como también, con sus propiedades matemáticas.

Respecto al valor mismo de la correlación, la siguiente tabla da algunos criterios o guías


que pueden ayudar a interpretar el tamaño del coeficiente de correlación.
Valor de | r | Interpretación
| r | = 0 .0 No hay correlación
0 .0 < | r | ≤ 0 .5 Correlación débil
0 .5 < | r | ≤ 0 .8 Correlación media
0 .8 < | r | < 1 .0 Fuerte correlación
| r | = 1 .0 Correlación perfecta

3.6. El problema de Regresión

En el ejemplo que relaciona los gastos fijos de la empresa (Y) con la cantidad de empleados
(X), el gráfico de dispersión muestra una tendencia lineal casi perfecta. Lo que hace
suponer que el gasto fijo de la empresa i se comporta de la siguiente manera, según la
cantidad que empleados que posee, yi = β 0 + β1 xi + ε i , para i = 1,2,3 y 4. La
siguiente gráfica explica mejor lo dicho anteriormente:

donde la línea recta es β 0 + β 1 x i , pero como los puntos en la nube de puntos no están,
generalmente, sobre la línea recta se introduce el término ε i , que representa todo aquello
que no podemos medir y hace que el valor de yi (en el ejemplo el gasto fijo de la i-ésima
empresa) no caiga exactamente sobre la línea recta.

39
Cuando existe relación funcional lineal entre las dos variables, en estudio, el modelo
matemático yi = β 0 + β1 xi + ε i , con i = 1,2, K, n , recibe el nombre de regresión
lineal simple.

Esta es una técnica estadística que permite el modelamiento e investigación de la relación


entre dos, la que permite predecir el valor de una de las variables (Y) dado un valor de la
otra (X).

La variable Y recibe el nombre de variable dependiente ó endógena ó variable explicada,


mientras que la variable X recibe el nombre de variable independiente ó variable exógena ó
variable explicatoria ó regresor. El término ε recibe el nombre de error aleatorio ó
perturbación aleatoria ó shock aleatorio ó ruido blanco.

Lo que se quiere es encontrar el valor de β 0 y de β 1 de manera que pase “lo más cerca”
de los puntos en el diagrama de dispersión, es decir, la distancia entre estos puntos a la
recta ( ε i ) sean lo más pequeño posible.

Los valores que β0 y de β1 que cumplen con minimizar las distancias de la nube de
puntos a la recta β 0 + β 1 x i , son βˆ 0 y β̂ 1 (que reciben el nombre de estimaciones de β0
y de β 1 ). Los valores de estas cantidades son βˆ 0 = Y − βˆ1 X

S xy
y βˆ1 = .
S xx

Una de las dificultades del modelo de regresión lineal, es reconocer cual variable es la
explicatoria y cual la variable dependiente. En el problema de los gastos de fijos y el
número de empleados, visto con anterioridad, es claro que el número de empleados no
puede ser explicado por los gastos fijos. Esto indica que la variable dependiente es los
gastos fijos, mientras que la variable explicatoria es la cantidad de empleados (ya que a
mayor cantidad de empleados mayor es el gasto fijo). Así se obtiene que:

X: Nro de Y: Gastos Fijos


Empresa X*X Y*Y X*Y
Empleados en miles de pesos
1 20 380 400 144400 7600
2 25 430 625 184900 10750
3 30 500 900 250000 15000
4 35 580 1225 336400 20300
Total 110 1890 3150 915700 53650

110 1890
Así X = = 27.5 y Y = = 472.5 , por lo tanto, los estimadores de los parámetros
4 4
del modelo de regresión lineal simple son:

40
S xy 53650 − 4 × 27.5 × 472.5
βˆ1 = = = 13.4 βˆ0 = Y − βˆ1 X = 472.5 − 13.4 × 27.5 = 104
S xx 3150 − 4 * 25.52

entonces el modelo estimado es : yˆi = 104 + 13.4 xi , i = 1,2,3,4 .

La interpretación de los parámetros estimados βˆ 0 y β̂ 1 es: βˆ 0 es el valor de la variable


dependiente cuando la variables dependiente toma el valor 0, y β̂ 1 es el aumento que se
produce en la variable dependiente cuando la variable independiente aumenta en una
unidad.

En el ejemplo β̂ 0 representa el gasto fijo de una empresa si se tienen cero empleados


($104000) y β̂1 representa el incremento en los gastos fijos por cada empleado, adicional,
que se contrata ($13400).

Para determinar si el modelo de regresión lineal es adecuado, existe una medida llamada el
2
coeficiente de determinación o simplemente el R , que se calcula como
R = r (correlación al cuadrado). Este coeficiente, nos indica cuanto explica el modelo
2 2

de regresión lineal al la variabilidad de la variable dependiente.

En el ejemplo de los gastos fijos se obtiene que el coeficiente de determinación es


R 2 = 0.99 , indicando que el modelo explica a la variabilidad de los gastos fijos en un
99%.

3.7. Ejercicio Resuelto.

Imagine que una compañía de seguros desea determinar el grado de relación que existe
entre el ingreso semanal familiar (X) y el monto del seguro de vida (Y) del jefe de familia.
Con base en una muestra de 18 familias, se obtuvo la siguiente información (en miles de
pesos).

Observación Ingreso Seguro Observación Ingreso Seguro


1 45 70 10 35 65
2 20 50 11 40 75
3 40 60 12 55 105
4 40 50 13 50 110
5 47 90 14 60 120
6 30 55 15 15 30
7 25 55 16 30 40
8 20 35 17 35 65
9 15 40 18 45 80

41
Al realizar el diagrama de dispersión se puede concluir que existe una asociación funcional
lineal entre el monto del seguro y el ingreso semanal familiar.

Seguro de Vida

140
Monto del Seguro (en miles de $)
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Ingreso Familiar (en miles de $)

Para calcular el coeficiente de correlación lineal de Pearson necesitamos las siguientes


cantidades:
n
S xx = ∑ xi2 − n X 2 = 26309 - 18 × 35.9 2 = 3052.9
i =1
n
S yy = ∑ yi2 − n Y 2 = 90975 - 18 × 66.42 = 11640.3
i =1
n
S xy = ∑ xi yi − nX Y = 48380 - 18 × 35.9 × 66.4 = 5426.4
i =1
así:
S XY 5426.4
= r=
= 0.9103 .
S XX × SYY 3052.9 × 11640.3
Esto nos indica que existe una fuerte relación (directa) entre el monto del seguro y el
ingreso semanal familiar, más aún esta relación es lineal en un 91.03%. Lo que nos hace
pensar que es adecuado pensar en un modelo de regresión lineal simple. Es fácil darse
cuenta que la variable dependiente es el monto del seguro y que la variable explicatoria es
el ingreso semanal familiar.

Los coeficientes estimados del modelo de regresión son:


S xy 5426.4
βˆ1 = = = 1.78 βˆ 0 = Y - βˆ1 X = 66.4 - 35.9 × 1.78 = 2.50
S xx 3052.9

Por lo que la ecuación estimada de regresión quedaría: yˆi = 2.5 + 1.78 xi .

La interpretación de los coeficientes de regresión estimados son Por cada mil pesos que
aumenta el ingreso familiar, el seguro de vida aumenta en 1.78 pesos aproximadamente, y
que aún cuando no exista un ingreso familiar, el monto del seguro de vida es de 2.500
pesos.

42
Imagine que la compañía de seguros está interesada en estimar montos individuales del
seguro de vida para los ingresos semanal de 18, 28, 38, 48 y 58 . Los montos individuales
estimados se muestran en la siguiente tabla:

Ingreso Seguro
18 34,49
28 52,27
38 70,04
48 87,82
58 105,59

El coeficiente de determinación para este modelo es R = 0.8286 , indicando que el


2

modelo explica a la variabilidad del monto del seguro de vida en un 82.86%.

3.8. Ejercicios propuestos.

1. El gerente de una industria desea determinar si existe una relación lineal entre el
número de unidades Y, armadas por los operadores de una línea de ensamble, y el lapso
X que transcurre antes de que se presente una falla. Con base en una muestra aleatoria de
operadores de la línea de ensamble, se observa la siguiente información:

Tiempo en Unidades Tiempo en Unidades


Observación Observación
Horas ensambladas Horas ensambladas
1 25 9 73
2 29 10 75
1 3
3 23 11 74
4 31 12 71
5 55 13 90
6 65 14 88
2 4
7 63 15 91
8 59 16 87

a) Trace un diagrama de dispersión de los datos. ¿Parece razonable modelar una


ecuación lineal que relacione a Y con X?

b) Calcule la ecuación de regresión.e interprete los coeficientes

2. Un corredor de bienes raíces estudió la relación entre X= ingreso anual (en millones de
pesos) de los compradores de residencias e Y= precio de venta de la residencia (en
millones de pesos). Se obtuvieron datos de las solicitudes hipotecarias correspondientes
a 24 profesionales de distintas empresas. El resumen de algunos resultados son:

43
24 24 24
n = 24 ∑x i = 942.5 ∑x 2
i = 39915.5 ∑y i = 2830.6
i =1 i =1 i =1
24 24

∑y 2
i = 347868.9 ∑x y i i = 116392.8
i =1 i =1

a) Para un modelo lineal simple, obténgase la ecuación estimada de regresión

b) Interprétense los coeficientes de regresión estimados.

3. Como parte de un estudio de sucursales de un banco mercantil, se han obtenido datos


acerca del número del número de negocios independientes (X) localizados en una
muestra de áreas seleccionadas por medio del código postal y del número de
sucursales del banco (Y) ubicadas en dichas áreas. Se excluyeron los centro
comerciales de las ciudades

N° de Número de N° de Número de
Observación Observación
negocios sucursales negocios sucursales
1 92 3 7 306 5
2 116 2 8 378 6
3 124 3 9 415 7
4 210 5 10 502 7
5 216 4 11 615 9
6 267 5 12 703 9

a) Trace un diagrama de dispersión de los datos. ¿Parece razonable modelar una


ecuación lineal que relacione a y con X?
b) Calcule la ecuación de regresión e interprete los coeficientes.

44

También podría gustarte