Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Asociación, Correlación y Regresión Lineal PDF
Asociación, Correlación y Regresión Lineal PDF
32
3.1. Asociación y Causalidad
Podemos decir , por ejemplo, que los gatos por consumo de una familia están asociados a
su ingreso. Si el consumo aumenta (o disminuye) en la proporción que el ingreso, podemos
pensar en una relación causal. Sin embargo, las observaciones muestran que esto no es así
cuando los ingresos regulares aumentan en grandes cantidades: parte se ahorra o invierte.
Entonces, existe algún tipo de asociación que no es causal.
En otros casos existen asociaciones de otro tipo, causadas indirectamente por terceras
variables. Por ejemplo, podemos observar que, a medida que aumenta el número de
televisores por familia, disminuye el número de hijos. Esto no quiere decir que la TV sea el
mejor anticonceptivo. Más bien hay que pensar en que la cantidad de aparatos receptores
de televisión está ligada al ingreso y que, por otras razones, las familias de altos ingresos
tienen menos hijos.
Una asociación o relación estadística, por fuerte y sugerente que sea, jamás puede
establecer una asociación causal. Las ideas de causa y efecto deben salir de otros ámbitos
y no de la estadística. Por ejemplo, la relación entre la lluvia y el rendimiento de las
cosechas es un caso en el que consideraciones no estadísticas precisan una asimetría de la
situación: se dice que la lluvia ocasiona una variación en las cosechas, pero jamás se podría
pensar esto al revés, es decir, que un aumento de cosecha implique un aumento de lluvia.
Aun cuando, en el caso anterior, no existan razones estadísticas para descartar la idea de un
efecto en las lluvias causado por las cosechas, el descarte de esta alternativa se basa en otro
tipo de consideraciones.
32
Recién se apuntó a una asociación entre variables. En estos casos se determinan dos a más
variables en una población o muestra de individuos.
Puede ser interesante, por ejemplo, saber si el contorno del busto entre las mujeres está
asociado a su estatura, si la temperatura influye en el tamaño de los objetos o si el tipo de
corteza de cierta especie de árboles está relacionada con la presencia de cierto compuesto
químico en la madera.
También podemos asociar objetos o individuos. Así, por ejemplo, podemos determinar
características en los seres humanos y agruparlos según que tan parecidos sean, originando
la clasificación en razas humanas. En otro caso, puede interesar la distancia que hay entre
islas para saber si están asociadas, dando origen o no a archipiélagos. Al asociar individuos,
el interés se centra en clasificarlos o agruparlos, lo que se hace a través de estadígrafos
conocidos como coeficientes de similitud o medidas de distancia, tema que no tratará en
estos apuntes.
Al considerar los tipos de asociación que pueden existir entre variables, tenemos una
primera clasificación global en las siguientes tres categorías:
Al revés, las características de color, peso y tamaño no son independientes de las razas
caninas, esto es lo que nos permite distinguir un chihuahua de un gran danés.
33
observadores que las miden. Cuando esto se toma en cuenta, la relación funcional pasa
a ser una relación estadística.
Si una categoría de sucesos (por ejemplo, peso de las personas entre 70 y 80 kg) ocurre
con cierta proporción p de los casos, y otra categoría (por ejemplo, estatura entre 160 y
170 cm) ocurre con una proporción q, los dos tipos de evento ocurrirán a la vez en
algunos miembros del grupo de estudio. De hecho, en una proporción p × q , si fueran
independientes.
Consideremos otro ejemplo donde tenemos 200 personas idénticas. A 100 de ellas se
les vacuna contra la influenza (grupo experimental) y a las otras 100 se les administra
un placebo. En una epidemia posterior, ambos grupos quedan igualmente expuestos a la
enfermedad y 20 de los vacunados se contagian, mientras que lo mismo ocurre con 50
de los no vacunados. Siendo imposible atribuir estos resultados al azar, debemos
concluir que el hecho de estar vacunado está asociado a no contraer la enfermedad. Más
aún, se puede pensar que esta asociación es de tipo casual.
34
relación existente entre las decenas de productos químicos obtenidos al destilar
hojas de eucaliptus. Y así, se podría nombrar muchos otros ejemplos.
Dos variables pueden tener relaciones del tipo funcional como las que se muestran en la
siguiente figura:
35
En el caso (a) el dibujo representa una curva, mientras que en (b) se observa una línea
recta.
Cuando la relación funcional es una línea recta, el uso hace que se hable de una relación
lineal. En los demás casos la relación puede ser cuadrática o de otra forma, “no lineal”.
El coeficiente de correlación lineal de Pearson, que será definido más adelante, se puede
aplicar únicamente cuando la relación funcional, o la asociación estadística
correspondiente, se basa en una recta. Este es un concepto que debe ser recordado siempre.
Para aclara ideas, considere el número de empleados y los gastos fijos que se generan en
cuatro empresas muy similares. La información obtenida es:
36
A simple vista se puede apreciar en este diagrama que hay una tendencia entre la cantidad
de empleados y los gastos fijos. Las empresas que tienen un bajo número de empleados
tienden a tener un bajo gasto fijo. Asimismo, empresas con una gran cantidad de empleados
tienen un gasto fijo alto. Además, la tendencia general de la nube es la de una línea recta.
i =1 i i =1 i
El signo indica que tipo de asociación existe entre las variables X e Y. Si el signo es
positivo la asociación es directa, esto quiere decir, que si X aumenta, también aumenta Y ,o
a la inversa si X disminuye, también disminuye Y. Si el signo es negativo la relación es
inversa, es decir, si X aumenta Y disminuye, o a la inversa si X disminuye, Y aumenta.
37
Si la correlación, en valor absoluto, es cercana a 1 indica que la relación funcional entre X e
Y es lineal (Y = a + bX ) . Por otra parte, si es cercana a 0 indica que las variables no están
correlacionadas.
Hay casos en que las variables en estudio están extremadamente asociadas, pero como no
es lineal, el coeficiente de correlación lineal es cercano a 0. Esto se debe a que el
coeficiente de correlación lineal sólo detecta linealidad o relación lineal entre las variables
en estudio. Por eso es importante realizar en forma previa el diagrama de dispersión y
verificar visualmente la tendencia de los datos.
Suponga que, a lo largo de un cierto período de años, el coeficiente de correlación entre los
sueldos de los profesores y el consumo de bebidas alcohólicas resultó ser 0.98. Durante ese
período de tiempo hubo una firme subida de los salarios de todo tipoy una tendencia
general ascendente propia de las buenas épocas. En tales condiciones, los sueldos de los
profesores aumentaron también. Además la tendencia ascendente general de los salarios y
del poder adquisitivo se reflejó en la compra de bebidas alcohólicas. Por lo tanto, esta
elevada correlación muestra simplemente el efecto común a la tendencia ascendente sobre
las dos variables.
38
Los coeficientes de correlación deben manejarse con cuidado si se quiere que den
información sensata en lo que concierne a las relaciones entre pares de variables. El éxito
de los coeficientes de correlación requiere estar familiarizados con el campo de aplicación,
así como también, con sus propiedades matemáticas.
En el ejemplo que relaciona los gastos fijos de la empresa (Y) con la cantidad de empleados
(X), el gráfico de dispersión muestra una tendencia lineal casi perfecta. Lo que hace
suponer que el gasto fijo de la empresa i se comporta de la siguiente manera, según la
cantidad que empleados que posee, yi = β 0 + β1 xi + ε i , para i = 1,2,3 y 4. La
siguiente gráfica explica mejor lo dicho anteriormente:
donde la línea recta es β 0 + β 1 x i , pero como los puntos en la nube de puntos no están,
generalmente, sobre la línea recta se introduce el término ε i , que representa todo aquello
que no podemos medir y hace que el valor de yi (en el ejemplo el gasto fijo de la i-ésima
empresa) no caiga exactamente sobre la línea recta.
39
Cuando existe relación funcional lineal entre las dos variables, en estudio, el modelo
matemático yi = β 0 + β1 xi + ε i , con i = 1,2, K, n , recibe el nombre de regresión
lineal simple.
Lo que se quiere es encontrar el valor de β 0 y de β 1 de manera que pase “lo más cerca”
de los puntos en el diagrama de dispersión, es decir, la distancia entre estos puntos a la
recta ( ε i ) sean lo más pequeño posible.
Los valores que β0 y de β1 que cumplen con minimizar las distancias de la nube de
puntos a la recta β 0 + β 1 x i , son βˆ 0 y β̂ 1 (que reciben el nombre de estimaciones de β0
y de β 1 ). Los valores de estas cantidades son βˆ 0 = Y − βˆ1 X
S xy
y βˆ1 = .
S xx
Una de las dificultades del modelo de regresión lineal, es reconocer cual variable es la
explicatoria y cual la variable dependiente. En el problema de los gastos de fijos y el
número de empleados, visto con anterioridad, es claro que el número de empleados no
puede ser explicado por los gastos fijos. Esto indica que la variable dependiente es los
gastos fijos, mientras que la variable explicatoria es la cantidad de empleados (ya que a
mayor cantidad de empleados mayor es el gasto fijo). Así se obtiene que:
110 1890
Así X = = 27.5 y Y = = 472.5 , por lo tanto, los estimadores de los parámetros
4 4
del modelo de regresión lineal simple son:
40
S xy 53650 − 4 × 27.5 × 472.5
βˆ1 = = = 13.4 βˆ0 = Y − βˆ1 X = 472.5 − 13.4 × 27.5 = 104
S xx 3150 − 4 * 25.52
Para determinar si el modelo de regresión lineal es adecuado, existe una medida llamada el
2
coeficiente de determinación o simplemente el R , que se calcula como
R = r (correlación al cuadrado). Este coeficiente, nos indica cuanto explica el modelo
2 2
Imagine que una compañía de seguros desea determinar el grado de relación que existe
entre el ingreso semanal familiar (X) y el monto del seguro de vida (Y) del jefe de familia.
Con base en una muestra de 18 familias, se obtuvo la siguiente información (en miles de
pesos).
41
Al realizar el diagrama de dispersión se puede concluir que existe una asociación funcional
lineal entre el monto del seguro y el ingreso semanal familiar.
Seguro de Vida
140
Monto del Seguro (en miles de $)
120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Ingreso Familiar (en miles de $)
La interpretación de los coeficientes de regresión estimados son Por cada mil pesos que
aumenta el ingreso familiar, el seguro de vida aumenta en 1.78 pesos aproximadamente, y
que aún cuando no exista un ingreso familiar, el monto del seguro de vida es de 2.500
pesos.
42
Imagine que la compañía de seguros está interesada en estimar montos individuales del
seguro de vida para los ingresos semanal de 18, 28, 38, 48 y 58 . Los montos individuales
estimados se muestran en la siguiente tabla:
Ingreso Seguro
18 34,49
28 52,27
38 70,04
48 87,82
58 105,59
1. El gerente de una industria desea determinar si existe una relación lineal entre el
número de unidades Y, armadas por los operadores de una línea de ensamble, y el lapso
X que transcurre antes de que se presente una falla. Con base en una muestra aleatoria de
operadores de la línea de ensamble, se observa la siguiente información:
2. Un corredor de bienes raíces estudió la relación entre X= ingreso anual (en millones de
pesos) de los compradores de residencias e Y= precio de venta de la residencia (en
millones de pesos). Se obtuvieron datos de las solicitudes hipotecarias correspondientes
a 24 profesionales de distintas empresas. El resumen de algunos resultados son:
43
24 24 24
n = 24 ∑x i = 942.5 ∑x 2
i = 39915.5 ∑y i = 2830.6
i =1 i =1 i =1
24 24
∑y 2
i = 347868.9 ∑x y i i = 116392.8
i =1 i =1
N° de Número de N° de Número de
Observación Observación
negocios sucursales negocios sucursales
1 92 3 7 306 5
2 116 2 8 378 6
3 124 3 9 415 7
4 210 5 10 502 7
5 216 4 11 615 9
6 267 5 12 703 9
44