Está en la página 1de 13

Anlisis de Regresin y Correlacin Lineal

Introduccin
El objetivo de este captulo es introducir el anlisis simultneo de dos variables y
adquirir criterios para el uso de las tcnicas de regresin y correlacin.
Hasta el captulo anterior se han introducido mtodos estadsticos que se pueden utilizar
cuando el inters es analizar el comportamiento de una sola variable, eventualmente,
bajo distintas condiciones. or ejemplo, el rendimiento o la altura de las plantas de un
cultivo con o sin riego. ero !recuentemente se presentan situaciones donde se observan
dos o ms variables sobre cada unidad e"perimental y el inters se centra en la !orma en
que estas variables se relacionan.
#lgunos ejemplos de relaciones !uncionales que pueden ser de inters en agronoma
son$ la relacin entre el rendimiento de un cultivo y la densidad de siembra, la relacin
entre la cantidad de suplemento dado y el aumento de peso que ste produce en un lote
de animales, las dosis de un insecticida y la mortalidad de los insectos tratados, etc. En
cada uno de estos casos se pueden plantear los siguientes interrogantes$
%E"iste alguna relacin entre las variables&
'i se conoce el comportamiento de una de ellas, %se puede predecir el comportamiento
de la otra&
(a estadstica aplicada o!rece dos herramientas que permiten dar respuesta a dichas
cuestiones$ el Anlisis de Regresin y el Anlisis de Correlacin.
El Anlisis de Regresin estudia la relacin !uncional que e"iste entre dos o ms
variables. )denti!ica el modelo o funcin que liga a las variables, estima sus parmetros
y, eventualmente, prueba hiptesis acerca de ellos. *na vez estimado el modelo es
posible predecir el valor de la variable denominada variable dependiente en !uncin de
la o las otras variable/s independiente/s y dar una medida de la precisin con que esa
estimacin se ha hecho.
+ependiendo del objetivo del estudio, los valores o niveles de la,s variable,s
independiente,s pueden ser arbitrariamente modi!icados por el e"perimentador, es decir
el investigador puede !ijar los niveles de la variable independiente para los cuales desea
estudiar la respuesta de la variable dependiente. El modelo hallado puede ser usado para
predecir el comportamiento de la variable dependiente para otros niveles de la variable
independiente, que pertenezcan al dominio del estudio.
El Anlisis de Correlacin lineal estudia el grado y sentido de la asociacin lineal que
hay entre un conjunto de variables y, a di!erencia del anlisis de regresin, no se
identi!ica ni se estima e"plcitamente un modelo !uncional para las variables, este
siempre se supone lineal. El inters principal es medir la asociacin entre dos variables
aleatorias cualesquiera, sin necesidad de distinguir variables dependientes e
independientes. or ejemplo, puede quererse evaluar la intensidad de la asociacin entre
la cantidad de espiguillas por espiga de trigo y la longitud de las espigas. 'e ha
establecido que cuanto mayor es la longitud de las espigas mayor es el n-mero de
espiguillas por espiga. .bsrvese que, en el ejemplo, no se habla de relacin !uncional,
ni tampoco se insin-a que la longitud de la espiga aumenta porque aumenta el n-mero
de espiguillas o viceversa, slo se en!atiza la !orma en que se comporta una variable en
relacin a la otra y el inters est centrado en medir la intensidad de esta asociacin.
En el anlisis de correlacin, ninguna de las variables puede ser !ijada por el
e"perimentador, ya que ste podra seleccionar niveles de las variables que no son
!recuentes y esto podra conducir a una estimacin errada del grado de correlacin.
(os grficos de dispersin son -tiles en la etapa e"ploratoria, tanto en el anlisis de
regresin como en el de correlacin. (a representacin gr!ica de los datos es
!recuentemente el punto de partida de cualquier anlisis que involucra ms de una
variable. En los gr!icos de dispersin lo que se ve es una nube de puntos, donde cada
punto representa una observacin. (a /iguras siguientes muestran los gr!icos de
dispersin usados en estudios de asociacin entre dos variables donde adems se ha
dibujado sobre la nube de puntos, la posible !uncin de ajuste de esos datos, es decir, se
ha identificado el modelo !uncional de la relacin.
Anlisis de regresin lineal
#l estudiar la relacin entre dos o ms variables surge la idea de encontrar una
e"presin matemtica que la describa. ara el caso de dos variables, si se denota como
0 a la variable que se supone dependiente y como 1 a la variable que se postula como
independiente, resulta !amiliar utilizar el concepto de !uncin y decir 2Y es funcin de
X3, para indicar que de acuerdo a los valores asignados a 1 se pueden predecir los
valores que tomar 0. +icho de otra manera, se puede conocer el comportamiento de 0
a travs de un modelo que relaciona la variacin en 0 con la variacin de 1.
El anlisis de regresin tiene por objetivo identificar un modelo !uncional que describa
cmo vara la esperanza de la variable dependiente, E405, !rente a cambios en 1. #l
igual que en el anlisis de varianza el modelo para 0 tambin presenta constantes
desconocidas que se llaman parmetros, por lo que otro objetivo del anlisis es la
estimacin de los parmetros a partir de una muestra aleatoria de observaciones en 0 y
en 1. El anlisis de regresin se ocupa tambin de la validacin del modelo propuesto y
de las pruebas de hiptesis sobre los parmetros del modelo6 por -ltimo, la modelacin
por regresin tambin tiene como objetivo la prediccin, es decir el uso del modelo
para dar el valor esperado de 0 cuando 1 toma un valor particular.
(a complejidad matemtica del modelo de regresin y la adecuacin de ste depender
de cunto se conoce acerca del proceso o !enmeno que se est estudiando.
En la prctica es posible adoptar modelos de regresin que se pueden agrupar o
clasi!icar en lineales y no lineales. (os primeros hacen re!erencia a aquellos modelos
en que la !uncin adopta la !orma de una suma de trminos, cada uno con!ormado por
el producto de un parmetro y una variable independiente. (os modelos no lineales son
aquellos donde los parmetros no se encuentran multiplicando a las variables
independientes como en el modelo lineal de tal !orma que no pueden ser estimados
resolviendo un sistema de ecuaciones lineales. or ejemplo, los parmetros pueden
encontrarse como eponentes de las variables independientes. El modelo de regresin
lineal ms sencillo es el que se presenta en la siguiente de!inicin$
'e llama modelo de regresin lineal simple a$
ij i ij
Y X + +
+onde$
ij
Y
$ .bservacin de la variable dependiente bajo el i7simo nivel de 1, i 8 9,..., K en la
j7sima unidad e"perimental, j 8 9,..., m
i
X
$ i7simo valor de la variable independiente, i 8 9,..., K

$ armetro que representa la ordenada al origen de la recta 4indica valor esperado de


0 cuando 18:5

$ armetro que representa la pendiente de la recta 4tasa de cambio en 0 !rente al


cambio unitario en 15.
ij

$ ;ariacin aleatoria 4o no e"plicada por el modelo5 asociada a la j7sima observacin


de 0 bajo el nivel
i
X
.
(os
ij

se suponen normales e independientemente distribuidos con esperanza : y


varianza constante
<
para todo 1 en un intervalo donde el modelo se supone
verdadero. Esto es
ij

= > ) + 4 :,
<
5.
%?u se puede decir de la esperanza de 0&, es decir %cul es el valor esperado de 0 para
un determinado valor de 1& @omando esperanza de
ij
Y
se tiene, por propiedades de la
!uncin esperanza que$
E 4
ij
Y
,1 8
i
x
5 8
, y x

A
i
x
+onde$
, y X x


representa la E 4
ij
Y
5 dado un valor de
i
X
, es decir la esperanza de la
distribucin de 0 correspondiente a un valor particular de 1.

representan los parmetros del modelo y debe observarse que, dados

la esperanza de 0 depende solo de 1.


Buando el investigador trata con problemas de dos variables que estn ligadas por una
relacin !uncional lineal, di!cilmente los pares de observaciones 41,05 coincidan
e"actamente con una recta. (a presencia de errores aleatorios en las observaciones hace
imposible que en la prctica se encuentre una relacin !uncional per!ecta entre las
variables.
Ejemplo 9.1
'uponga que se quiere estudiar la distribucin de los pesos de una poblacin de plantas
en relacin a sus alturas. ara cualquier altura elegida, por ejemplo 18C: cm., e"iste
una distribucin de pesos, es decir, la distribucin de los pesos de todas las plantas de la
especie que poseen esa altura. Esa distribucin, llamada distribucin condicional de 0
dada 1 40D18C:5, tiene como esperanza a
, y X x


8 peso medio de todas las plantas
que tienen altura C: cm. y una varianza
<
, Y X x


8 varianza de los pesos de todas las
plantas que tienen dicha altura.
#s, se dice que la 2regresin del peso sobre la altura3 representa la esperanza de la
distribucin de los pesos seg-n la altura. .bsrvese la siguiente !igura.
!Cmo se interpretan los parmetros del modelo de regresin lineal simple"
(a ecuacin de cualquier recta puede ser escrita como Y 8

A
x
donde

es la
ordenada al origen e indica el valor de y para 8 : y E es la pendiente e indica cunto
cambia y por cada incremento unitario en . Buando E es un n-mero positivo signi!ica
que hay un crecimiento de E unidades en y por cada incremento de una unidad en 6 si E
es un n-mero negativo, y disminuir E unidades con cada incremento unitario de .
(uego, la pendiente y la ordenada al origen determinan la posicin de la recta. #
continuacin se observa en la !igura una recta con E F:.
;olviendo al modelo estadstico de regresin lineal simple$
a5 el parmetro

, u ordenada al origen de la recta de regresin de 0 sobre 1, es la


esperanza de 0 para 1 8 :6 y
b5 el parmetro

, o pendiente de la regresin de 0 sobre 1, es la di!erencia entre


9
, Y X x


y
<
, Y X x


cuando
< 9
x x
8 9.
Coeficientes de regresin muestral
'e llaman coeficientes de regresin muestral a las estimaciones de

, las que se
denotan como a y b respectivamente.
#stimacin de la recta de regresin$ %todo de los m&nimos Cuadrados
(a presencia de los errores aleatorios muestra la necesidad de disponer de un mtodo
que combine toda la in!ormacin disponible en la muestra para dar una solucin
razonable al problema de estimacin. *no de estos mtodos es el conocido como
Mtodo de M!nimos Cuadrados.
El mtodo de Gnimos Buadrados de!ine la recta de 2mejor ajuste3 como aquella que
hace que la suma de los cuadrados de las distancias de los valores observados o errores
respecto a la recta, medidas sobre el eje de las ordenadas, sea lo ms pequeHa posible.
Esto es$
$
( )
( )
< <
<
9 9 9
min
n n n
i i i i
i i i
y y y a "x e



Donde:
$
y 8 a A "x, es el valor #redic$o por el modelo lineal y
i
e
es el residuo de!inido como$
$
4 5
i i
e y y .
(a condicin de primer orden de un mnimo e"ige que se anulen las primeras derivadas
parciales de %, con respecto a cada uno de los parmetros, es decir$
( )
9 9 9
< <
n n n
i i i i
i i i
%
y a "x y na " x
a

_

,

( )
<
9 9 9 9
< <
i
n n n n
i i i i i i
i i i i
%
x y a "x x y a x " x
"

_

,

(uego, igualamos a cero y escribimos en trminos de
a
y " y se tiene$
9 9
n n
i i
i i
y na " x

+

IIIIIII. 495
<
9 9 9
i
n n n
i i i
i i i
x y a x " x

+

IIII 4<5
+enominadas ecuaciones normales de m&nimos cuadrados
(uego$ resolviendo 495 y 4<5 simultneamente, obtenemos la solucin para
a
y " que son
estimadores de

y respectivamente$
9 9 9
< <
9 9
n n n
i i i i
i i i
n n
i i
i i
n x y x y
"
n x x


_ _


, ,


,


a y "x
#stimaciones y predicciones
(a ecuacin de regresin puede ser usada para obtener estimaciones de la esperanza de
0 o predicciones de 0 para valores elegidos de 1. +ebe tenerse en cuenta, sin embargo,
que los valores de 1 propuestos deben pertenecer al dominio de las 1 utilizado para la
estimacin de la recta. >o es conveniente usar la ecuacin de la recta para e"trapolar, es
decir para estimar la esperanza de 0 para valores de 1 !uera del rango estudiado ya que
no se conoce nada sobre el comportamiento de la relacin de 1 e 0 !uera del dominio
en la que se estudi esta relacin. or supuesto, a-n dentro del dominio estudiado de 1,
la validez de las estimaciones depende de la "ondad de ajuste del modelo, es decir su
grado de apro"imacin respecto de la verdadera relacin !uncional entre las variables.
Bada valor calculado a partir de la recta de regresin, es la estimacin de la esperanza
de la distribucin de 0 condicionada a un valor de 1 o una prediccin del valor de 0
para una observacin !utura de 1.
'arian(a del #rror del %odelo$

( )
<

(a varianza del error del modelo re!leja la variacin aleatoria o la variacin del error
e"perimental alrededor de la suma de regresin.
<
, y x
&
8

<
<
&C'
CM'
n

Inferencias en Regresin Lineal )imple


ara evaluar la adecuacin del modelo de Jegresin (ineal 'imple es necesario realizar
la prueba de hiptesis estadstica alrededor de los parmetros del modelo y elaborar
ciertos intervalos de con!ianza. ara ello utilizaremos las siguientes e"presiones$
( )
<
<
9 <
9 9
n
i
n n
i
i i
i i
X
&xx X X X
n


_

,


( )
<
<
9 <
9 9
n
i
n n
i
i i
i i
Y
&yy Y Y Y
n


_

,


( ) ( )
9 9
9 9
n n
i i
n n
i i
i i i i
i i
X Y
&xy X X Y Y X Y
n


_ _

, ,



Intervalo de confian(a para la esperan(a condicional de *
El intervalo de con!ianza al 497

5 K, de
Y

para 18
:
x
est dado por$
$
( )
$
( )

( )
<
:
:
: : <6 < <6 <
9
y
n n
x x
( y t y t
n &xx



1

1
1
t t +
1
]
1
]
+onde
( ) <6 < n
t

es un valor de la distribucin t con < n grados de libertad
'i
<
no se conoce y se estima, entonces, el intervalo anterior se modi!ica
reemplazando el valor de
9 , <
)

por el cuantil correspondiente de una @ con n7< grados
de libertad y sustituyendo
<
por su estimador 4
<
s 5.
Buando los intervalos de con!ianza se gra!ican para todos los valores de " en un
recorrido dado se obtienen "andas de confian*a.
Intervalo de prediccin de * dado +
El intervalo de prediccin de 0 dado 18
:
x
tiene la siguiente e"presin$
$
( )

( )
<
<
:
: <6 <
9
9
n
x x
( y t
n &xx

1
1

1
1
t + +
1
1
1
1
]
]
Intervalo de Confian(a para

,
*n intervalo de con!ianza del ( ) 9
K para

en la lnea de regresin$
y x X + , esta dado por$
( )
<
<6 <
9
n
x
( a t CM'
n &xx

1
_
1
t +
1
,
]
( ) <6 < n
CM'
( " t
&xx

1
_
t
1

,
1
]
-rueba de .iptesis en Regresin Lineal )imple,
'e relaciona con la signi!icancia de la regresin, es decir analizar la validez de la lnea
de regresin estimada.
-asos$
9L /ormular
:
+
y
a
+
: 9
9
$ :
$ :
a
+
+

<L /ijar$

ML Estadstico de rueba
/A0LA 1$ A2'A -ARA -R30AR LA )I42I5ICACI32 6# LA R#4R#)I32
5uente de variacin )uma de
cuadrados
4rados de
libertad
Cuadrados
%edios
:
,
Jegresin &CR 9 CMR &CR
:
CMR
,
CM'

Error o Jesidual &C' < n


<
&CR
CM'
n

@otal &YY 9 n
7 &CR "&xy
7 &C' &yy &CR
NL
:
+ se rechaza si
( )
: 96 <6 t n
, , ,

>
o si p O :,:C
CL Blculos
PL +ecisin
Intervalo de Confian(a para la 'arian(a de la Regresin
.tra estimacin que es conveniente realizar es la estimacin de la varianza de la
regresin y est dada por$

( )
( )

( )
( )
< <
<
< <
<6 < 9 <6 <
< <
9
n n
y x n y x n
- y x
x x




1

1

1
]
'alor predictivo del modelo de regresin
'e ha indicado que la variacin total en 0 puede ser vista como la variacin e"plicada
por la regresin ms la variacin no e"plicada o residual. 'i la variacin no e"plicada es
substancialmente mayor que la variacin e"plicada, se tendr un indicio de que el
modelo no es bueno para !ines predictivos, es decir, el modelo est e"plicando poco de
la variacin en 0. >o se debe, sin embargo, con!undir la medida de cuanto e"plica un
modelo con su pertinencia, ya que se recordar una vez ms, que el modelo es para las
esperanzas de 0. *na medida muestral de la capacidad predictiva del modelo es el
coe!iciente de determinacin, denotado por
<
R
.
Coeficiente de determinacin muestral
Este coe!iciente se interpreta como la proporcin de la varia"ilidad total en 0
e"plicable por la variacin de la variable independiente o como tambin es usual decir$
la proporcin de la variabilidad total ex#licada #or el modelo. or ser una proporcin, el
coe!iciente de determinacin vara entre : y 9. Buanto ms pr"imo est a 9, mayor
valor predictivo tendr el modelo en el sentido que los valores observables estarn muy
pr"imos a la esperanza estimada por la regresin. 'e obtiene mediante la e"presin$
<
9
&CR &C'
R
&yy &yy

Anlisis de Correlacin Lineal
En el anlisis de regresin, la variable 1 es usualmente !ija, mientras que la variable
dependiente 0 es aleatoria. 'i 1 e 0 son ambas variables aleatorias observables sobre
una misma unidad o elemento de la poblacin, podra ser de inters medir el grado en
que estas variables covarian ya sea positiva o negativamente.
(a simple observacin de que dos variables parecen estar relacionadas, no revela gran
cosa. +os importantes preguntas se pueden !ormular al respecto$
a5 %?u tan estrechamente relacionadas se encuentran las variables& o %cul es el grado
de asociacin que e"iste entre ambas&
b5 %Es real la asociacin observada o podra haber ocurrido solo por azar&
ara responder la primera pregunta se necesita una medida del grado de asociacin
entre las dos variables. Esta medida es el coeficiente de correlacin, que se denota
con la letra griega Q 4rho5.
ara la segunda, se precisa una prueba estadstica de hiptesis para Q.
El anlisis de correlacin clsico supone que los pares 41i, 0i5 son pares de variables
aleatorias idnticamente distribuidos con distribucin normal bidimensional, o
normal bivariada. 'e obtiene por la !ormula siguiente$
( ) ( )
( ) ( )
< < < <
n XY X Y
r
n X X n X Y

1 1

1 1
] ]


-roblema, 'e desea probar la e!ectividad de un nuevo !ungicida 4sustancias t"icas que
se emplean para impedir el crecimiento o para matar los hongos y mohos perjudiciales
para las plantas5 para el control de roya 4hongo5 en trigo. 'e probaron distintas dosis en
gramos de principio activo por ha 4gr,ha5 en 9: parcelas de 9:: plantas cada una. # los
9C das de la aplicacin se realiz una evaluacin del daHo, como el tamaHo promedio
de las manchas en hoja bandera. (os datos son los siguientes$
+osis 4"5 9:: 9<C <:: <C: <RC M:: M<C MC: MRC N::
+aHo 4y5 C: NS MT MC M: <C <: 9< 9: C
a5 %Bul es la unidad de anlisis&
b5 Balcule e interprete lo siguiente
Estadstico ;alor )nterpretacin.

a
68.49
" -0,1522
r -0,98

<
R
0,965
c5 Encuentre la ecuacin de regresin y pronostique el daHo, cuando la dosis es de T:
4gr,ha5.
d5 ruebe la hiptesis
9
$ : +
$ *se el criterio del valor7p.
5uente de variacin )uma de
cuadrados
4rados de
libertad
Cuadrados
%edios
:
,
Jegresin <9PC,S9 9 <9PC,S9 R,TTT
Error o Jesidual R:,CT S <R:,RM
@otal <<MP,N: 9 n

También podría gustarte