Documentos de Académico
Documentos de Profesional
Documentos de Cultura
jos a. maas
22.1.2015
1 Introduccin
El objetivo de las tcnicas de regresin es identificar una funcin que permita estimar una
variable Y en funcin de la otra X. Es decir, averiguar una funcin
= ()
que represente lo mejor posible la relacin entre valores X e Y permitindonos inferir un valor
a partir del otro.
2 Definiciones
Dado un conjunto de pares de datos experimentales <x, y>, se definen varios estadsticos:
Definiciones
valor medio de X
valor medio de Y
desviacin tpica de X
( )2
=
1
desviacin tpica de Y
( )2
=
1
covarianza XY
ndice de correlacin
(Pearson)
( )( )
1
Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total
entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la
otra tambin lo hace en proporcin constante.
Si 0 < r < 1, existe una correlacin positiva.
Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables
son independientes: pueden existir todava relaciones no lineales entre las dos
variables.
Si -1 < r < 0, existe una correlacin negativa.
Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia
total entre las dos variables llamada relacin inversa: cuando una de ellas aumenta, la
otra disminuye en proporcin constante.
3 Mnimos cuadrados
Mnimos cuadrados es una tcnica de anlisis numrico enmarcada dentro de la optimizacin
matemtica, en la que, dados un conjunto de pares ordenados: variable independiente,
variable dependiente, y una familia de funciones, se intenta encontrar la funcin continua,
dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con
el criterio de mnimo error cuadrtico.
En su forma ms simple, intenta minimizar la suma de cuadrados de las diferencias en las
ordenadas entre los puntos generados por la funcin elegida y los correspondientes valores en
los datos.
Desde un punto de vista estadstico, un requisito implcito para que funcione el mtodo de
mnimos cuadrados es que los errores de cada medida estn distribuidos de forma aleatoria.
Tambin es importante que los datos a procesar estn bien escogidos, para que permitan
visibilidad en las variables que han de ser resueltas.
Formalmente, dado un conjunto de puntos experimentales <x, y> se trata de encontrar una
funcin y= f(x) tal que minimice la suma de los cuadrados de las diferencias entre los valores
medidos y los calculados usando la frmula; es decir, minimizar
2
( ())
4 Regresin lineal
Buscamos una relacin lineal entre x e y; es decir
y = ax + b
a y b se calculan como
=
=
Para estimar cmo de buena es nuestra estimacin, se usa el coeficiente de determinacin r 2,
que es el cuadrado del coeficiente de correlacin de Pearson.
r2 es til porque nos da la proporcin en que la varianza de la variable Y es predecible en
funcin de la variable X. En otras palabras, es la proporcin de la variabilidad de Y que se
puede explicar como consecuencia de la variacin de X.
Una regresin lineal perfecta es la que permite predecir Y al 100% conocido X; es decir, la que
tiene r2 = 1.
Ejemplo. Si r2 = 0,85, diremos que el 85% de la varianza de Y es explicable. Y viceversa, el 15%
es inexplicable (es decir, ser consecuencia de otros factores aparte de X).
Grficamente, r2 = 1 significa que, grficamente, la lnea de regresin pasa exactamente por
todos los puntos, mientras que un r2 muy bajo indica que los puntos no se ajustan muy bien a
la lnea.
5 Regresin no lineal
Dada una serie de puntos <x, y> que no se ajustan a una relacin lineal, una forma sencilla de
tratar el problema es transformar las variables para que se ajusten a una relacin lineal.
5.1 Logartmica
Si sospechamos que los puntos estn relacionados por una funcin del tipo
= log() +
podemos hacer la transformacin
=
= log()
y resolver el problema de una regresin lineal
= +
5.2 n log(n)
Si sospechamos que los puntos estn relacionados por una funcin del tipo
= log() +
podemos hacer una transformacin
=
= x log()
y resolver el problema de una regresin lineal
= +
5.4 Exponencial
Si sospechamos que los puntos estn relacionados por una funcin del tipo
=
podemos hacer la transformacin
= log()
=
= log
= log
y resolver el problema de una regresin lineal
= +
6 Ejemplos
6.1 Regresin lineal
Sean los datos experimentales
X
30
50
50
60
Y
200
400
800
1.200
60
900
28,33
-716,67
0,75
Y
32.1
113.2
69.2
71.0
37.5
71.2
Recta de regresin
a
b
1,92
13,24
residuos
r2
0,92
Grficas
ajuste
Y
10,69
120,63
537,39
1.451,52
3.187,97
5.997,66
572,16
-2.120,79
0,84
residuos
Grficas
ajuste
residuos
Y
10,69
120,63
537,39
1.451,52
3.187,97
5.997,66
X = log(X)
0,69
1,39
1,79
2,08
2,30
2,48
3,54
-0,0899
1.00
a
b
3,54
0,91
Y = log(Y)
2,37
4,79
6,29
7,28
8,07
8,70
Grficas
ajuste
residuos
7 Referencias
http://www.shodor.org/interactivate/activities/Regression/
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html