Está en la página 1de 30

Ajuste de curvas

Introduccin
Diagramas de dispersin
Regresin lineal
Correlacin

Introduccin
Frecuentemente en la investigacin estamos interesados en estudiar la
relacin entre dos variables como:
Concentracin de un frmaco inyectado a un animal y latidos del corazn
Cantidad de fertilizantes y produccin agrcola
Dureza de los plsticos tratados con calor durante diferentes periodos de tiempo

La naturaleza y grado de relacin pueden ser analizadas por dos tcnicas:


Regresin y Correlacin

Diagramas de dispersin

El primer paso a realizar en el estudio de la relacin entre dos variables es el


diagrama de dispersin
La representacin grfica de este tipo de variables es en realidad semejante a
la representacin de puntos en el plano, usando unos ejes de coordenadas.
Cada pareja de valores da lugar a un punto en el plano y el conjunto de
puntos que se obtiene se denomina "diagrama de dispersin o nube de
puntos".

Diagramas de dispersin
Dadas dos variables X y Y tomadas sobre el mismo elemento de la
poblacin, el diagrama de dispersin es simplemente un grfico de dos
dimensiones, donde en un eje (la abscisa) se grafica una variable
(independiente), y en el otro eje (la ordenada) se grafica la otra variable
(dependiente).
Si las variables estn correlacionadas, el grfico mostrara algn nivel de
correlacin (tendencia) entre las dos variables. Si no hay ninguna
correlacin, el grfico presentara una figura sin forma, una nube de
puntos dispersos en el grfico.

Diagramas de dispersin
Si las variables estn correlacionadas, el grfico mostrara algn nivel de
tendencia entre las dos variables. Si los puntos muestran una tendencia
lineal positiva o negativa se le puede ajustar una lnea recta que servir
entre otras cosas para predecir valores de Y correspondientes a valores
de X.

Relacin lineal positiva

Relacin lineal negativa

Relacin parablica

Relacin exponencial

No-relacin

Diagramas de dispersin
Ejemplo , estudiamos la talla, medida en cm y el peso, medido en kg de
un grupo de 10 personas, podemos obtener los siguientes valores
Talla (cm)

160

165

168

170

171

175

175

180

180

182

Peso (kg)

55

58

58

61

67

62

66

74

79

83

90

80
70

Peso (Kg)

60
50
40

Talla y Peso de 10
personas

30
20
10
0
150

160

170
Talla (cm)

180

190

Regresin Lineal
Es til para determinar la forma probable de la relacin entre las variables
cuando hay un fenmeno de causa o efecto. El objetivo principal es el de
poder predecir o estimar el valor de una variable dependiente Y
correspondiente al valor dado de la otra variable dependiente X
El investigador decide cuales valores tomara la variable independiente,
mientras que los valores de la variable dependiente estn determinados
por la relacin que existe

Regresin lineal

Estima la fuerza o bondad explicativa del modelo terico


independientemente de las caractersticas de las variables introducidas

Predice el valor medio que puede asumir la variable Y dado un valor de X


(regresin a la media) bajo un intervalo de confianza

Estima el efecto neto de cada una de las variables intervinientes sobre la


variable dependiente (control sobre los dems efectos suponiendo
independencia entre las variables predictivas).
Y/X = a + bX

Esto significa que el valor medio de Y para un valor fijo de X es igual a a +


bX. Las constantes a y b son la ordenada al origen y la pendiente
respectivamente

Regresin lineal::Suposiciones
1.
2.
3.
4.
5.

Los valores de la variable independiente X son fijos, a X se le llama


variable no aleatoria
Por cada valor de X hay una subpoblacin de valores de Y y cada
subpoblacin de valores de Y debe estar normalmente distribuida.
Las varianzas de las subpoblaciones de Y deben de ser iguales.
Las medias de las subpoblaciones de Y estn sobre una recta. (suposicin
de linealidad)
Los valores de Y son estadsticamente independientes; es decir, los
valores de Y correspondientes a un valor de X no dependen de los
valores de Y para otro de X.

Bajo estas suposiciones la relacin que queremos estimar es: Y/X = a + bX

Regresin lineal
En el caso de asumir una recta, se admite que existe una proporcin entre
la diferencia de dos valores X y la diferencia entre dos valores de Y. A ese
factor de ajuste entre ambas series se le llama pendiente de la recta, y se
asume que es constante a lo largo de toda la recta.

Regresin lineal::Mnimos cuadrados

Para el clculo de la recta de regresin se aplica el mtodo de mnimos


cuadrados entre dos variables.
Esta lnea es la que hace mnima la suma de los cuadrados de las desviaciones
de cada valor observado Y, es decir, es aquella recta en la que las diferencias
elevadas al cuadrado entre los valores calculados por la ecuacin de la recta y
los valores reales de la serie, son las menores posibles.

Regresin lineal::Mnimos Cuadrados


La ecuacin de regresin de la poblacin se estima con la ecuacin
Y=a+bX
donde: Y, a y b son estimadores de Y/X , A y B respectivamente. Para
obtener los estimadores a y b utilizamos el mtodo de Mnimos
Cuadrados.

Ecuaciones para la recta de mnimos cuadrados

Regresin lineal::Mnimos Cuadrados


Utilidad de la recta de regresin
Mediante la recta de regresin podramos obtener de manera aproximada
el valor de la variable dependiente (y) de la que conociramos la variable
independiente (x), en una poblacin semejante a aquella de la que se ha
obtenido la muestra

De manera ms precisa, si conocemos la expresin de la recta de


regresin, se pueden calcular valores para la variable y, conocidos los de x,
como si se tratara de una funcin

Ejercicio

Se lleva a cabo un experimento para


estudiar el efecto de cierto frmaco
en la disminucin del ritmo cardiaco
en adultos. La variable independiente
es la dosis del frmaco en mg, y la
variable dependiente es la diferencia
entre el ritmo ms bajo registrado
despus de la administracin de la
droga y el ritmo antes de la
administracin del frmaco (control).
Los datos se muestran a continuacin:

Dosis (mg)

Reduccin del ritmo cardiaco


(Latidos/min)

0.50

10

0.75

1.00

12

1.25

12

1.50

14

1.75

12

2.00

16

2.25

18

2.50

17

2.75

20

3.00

18

3.25

20

3.50

21

Ejercicio
Como podemos observar los puntos siguen una relacin lineal positiva,
por lo tanto, se procede a determinar la recta de ajuste

25

Latidos/min

20

15

10

0
0

0.5

1.5

2
Dosis

2.5

3.5

Ejercicio
X

X2

XY

0.50

10

0.2500

5.0

0.75

0.5625

6.0

1.00

12

1.0000

12.0

1.25

12

1.5625

15.0

1.50

14

2.2500

21.0

1.75

12

3.0625

21.0

2.00

16

4.0000

32.0

2.25

18

5.0625

40.5

2.50

17

6.2500

42.5

2.75

20

7.5625

55.0

3.00

18

9.0000

54.0

3.25

20

10.5625

65.0

3.50

21

12.2500

73.5

=63.375

= 442.5

Covarianza
La covarianza SXY, es una medida que nos habla de la variabilidad conjunta
de dos variables numricas (cuantitativas).
Aunque la recta de mnimos cuadrados es la recta que mejor se ajusta a
los puntos, todava muchos de stos se desvan de ella. La medida
numrica de tales desviaciones es el estimador isesgado de la varianza de
la regresin de la poblacin, se define como la covarianza.
Sean (xi, yi ) pares de observaciones de dos caractersticas X y Y, y sean XY
sus respectivas medias. La covarianza entre las dos variables se define por
:

Covarianza
Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que SXY
0, lo que se puede interpretar como que la variable Y tiende a aumentar
cuando lo hace X; casi todos los puntos pertenecen a los cuadrantes
primero y tercero
Si la mayora de puntos estn repartidos entre el segundo y cuarto
cuadrante entonces SXY0, es decir, las observaciones Y tienen tendencia a
disminuir cuando las de X aumentan

Covarianza
Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces
se tendr que SXY = 0. Por lo tanto no hay relacin lineal

Covarianza
Pasos para calcular la covarianza de una serie de eventos
1. Se calcula xiyi , esto es la sumatoria de los productos de las
variables x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn )
2.

Se define n, que el numero de eventos o el numero de pares de variables

3.

Se calcula

4.

Obtenidos todos los datos se sustituyen en la formula y se obtiene el


resultado

, que es el producto de las medias de ambas variables

Correlacin lineal
La covarianza es una medida de la variabilidad comn de dos variables
(crecimiento de ambas al tiempo o crecimiento de una y decrecimiento de
la otra), pero esta afectada por las unidades en las que cada variable se
mide.
As pues, es necesario definir una medida de la relacin entre dos
variables, y que no est afectada por los cambios de unidad de medida.
Una forma de conseguir este objetivo es dividir la covarianza por el
producto de las desviaciones tpicas de cada variable, ya que as se
obtiene un coeficiente adimensional, r, que se denomina coeficiente de
correlacin lineal de Pearson

Correlacin lineal
La medida del grado de relacin entre dos variables se llama coeficiente
de correlacin, representado universalmente por r
El Coeficiente de Correlacin Lineal de Pearson es un ndice estadstico
que permite medir la fuerza de la relacin lineal entre dos variables. Su
resultado es un valor que flucta entre 1 (correlacin perfecta de sentido
negativo) y +1 (correlacin perfecta de sentido positivo). Cuanto ms
cercanos al 0 sean los valores, indican una mayor debilidad de la relacin o
incluso ausencia de correlacin entre las dos variables.

Correlacin lineal
Si el coeficiente de correlacin de Pearson (r) es cercano a 0, las dos
variables no tienen mucho que ver entre s (no tienen casi ninguna
covariacin lineal). Si su valor es cercano a +/-1, esto significa que la
relacin entre las dos variables es lineal y est bien representada por una
lnea.

Correlacin lineal
Una vez observado que en una variable bidimensional existe una cierta
dependencia entre las dos caractersticas o variables que la forman (nube
de puntos y covarianza), podemos precisar el grado de dicha dependencia.
Si los puntos de la nube estuvieran todos sobre la recta de regresin se
dira que existe una dependencia funcional. De su estudio se encargan las
funciones.
Si los puntos no estn todos sobre la recta de regresin se dice que entre
las variables hay una cierta correlacin lineal. Este es el caso que nos
ocupa. Para cuantificar el grado de dicha correlacin se usa el

Coeficiente de determinacin
Una nube de puntos que se agrupa en torno a una recta imaginaria nos
justifica el estudio de la regresin lineal entre las variables. Normalmente,
la variable explicativa no explica al 100% los resultados que se observan en
la variable explicada.
El nico caso en el que una variable explica al 100% a la otra variable es
aquel donde los puntos de la nube formen una recta. En ese caso, cada
valor de X nos da el valor exacto de Y. Pero ese no es el caso general.
Vamos a cuantificar la calidad de la explicacin de Y por X mediante el
COEFICIENTE DE DETERMINACIN.

Coeficiente de determinacin lineal


Los datos de ambas variables tienen una varianza. No nos vamos a
interesar por la varianza de la X (independiente), pero s por la de Y, por
estar influenciada por la otra variable. La varianza de Y est generada, de
una parte, por los datos de X (es decir, por la varianza), y de otra parte por
causas desconocidas (a no ser que los datos formen una lnea recta).

El coeficiente de determinacin va a ser el % de varianza de Y que se


puede explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porque
valora lo cerca que est la nube de puntos de la recta de regresin (o
dicho de otro modo, lo ajustada que est la nube de puntos a la recta de
regresin).
2

s y2

s xy

2
s
x

var . exp l .porX

se2

var .no exp lic .

Coeficiente de determinacin lineal

Coeficiente de determinacin lineal

El % de varianza de Y explicada por X es:

2
s xy

s x2
s y2

que resulta ser


100

2
s xy

s x2

s y2

100

es decir, el coeficiente de correlacin lineal r, elevado al cuadrado y multiplicado


por 100. Es por ello que al coeficiente de determinacin se le llama R2, es decir
2

2
s xy

s x2

s y2

100

Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del
ajuste es bastante alta, aunque no sabemos si la recta de regresin es creciente o
decreciente. Otro ejemplo: si conocemos el coeficiente de correlacin lineal, r = 0.77, entre dos variables X e Y, ya sabemos que la recta de regresin es
decreciente (por el signo negativo de r), y calculando R2 = r2 100 = 59.29%
tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede
calificar de buena).

Coeficiente de determinacin lineal


Predicciones. Usos y abusos

El primer objetivo de la regresin es poner de manifiesto una relacin


existente entre dos variables estadsticas. Una vez se constata, por ejemplo,
que hay una relacin lineal entre dos variables y se calcula la recta de
regresin apropiada, sta se puede usar para obtener valores de la variable
explicada, a partir de valores de la variable explicativa.

Por ejemplo, si se comprueba una buena correlacin lineal entre las variables
X = horas de estudio semanal e Y = nota del examen, con una recta de
regresin (de Y sobre X) igual a
y = 0.9 + 0.6 x
se puede plantear la siguiente pregunta: Qu nota puede obtener (segn los
datos) un alumno que estudia 10 horas semanales?

Coeficiente de determinacin lineal

Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuacin de la


recta x = 10, resultando y = 6.9. El coeficiente de correlacin (o el de
determinacin) lineal es el dato que, si es grande (prximo a 1 1 si es la r, o
prximo a 100% si es R2), nos indicar que la prediccin obtenida es FIABLE, lo
cual es lgico pues R2 indicaba la calidad del ajuste de la nube de puntos a la
recta.

As pues, la FIABILIDAD de una prediccin obtenida mediante la recta de


regresin se puede medir con el coeficiente de determinacin R2.

En el momento de hacer predicciones hay que tener ciertas precauciones,


pues es posible que se obtengan resultados absurdos. Segn la recta de
regresin anterior, un alumno que estudie 20 horas por semana (x = 20)
tendra un resultado de 12.9 puntos en su examen, lo cual no tiene sentido si
se evala sobre 10. La limitacin de la prediccin estriba en que slo se puede
realizar para valores de X que estn situados entre los valores de X de la tabla
de datos inicial.

También podría gustarte