Está en la página 1de 30

Ajuste de curvas

Introduccin Diagramas de dispersin Regresin lineal Correlacin

Introduccin
Frecuentemente en la investigacin estamos interesados en estudiar la relacin entre dos variables como:
Concentracin de un frmaco inyectado a un animal y latidos del corazn Cantidad de fertilizantes y produccin agrcola Dureza de los plsticos tratados con calor durante diferentes periodos de tiempo

La naturaleza y grado de relacin pueden ser analizadas por dos tcnicas: Regresin y Correlacin

Diagramas de dispersin
El primer paso a realizar en el estudio de la relacin entre dos variables es el diagrama de dispersin La representacin grfica de este tipo de variables es en realidad semejante a la representacin de puntos en el plano, usando unos ejes de coordenadas. Cada pareja de valores da lugar a un punto en el plano y el conjunto de puntos que se obtiene se denomina "diagrama de dispersin o nube de puntos".

Diagramas de dispersin
Dadas dos variables X y Y tomadas sobre el mismo elemento de la poblacin, el diagrama de dispersin es simplemente un grfico de dos dimensiones, donde en un eje (la abscisa) se grafica una variable (independiente), y en el otro eje (la ordenada) se grafica la otra variable (dependiente). Si las variables estn correlacionadas, el grfico mostrara algn nivel de correlacin (tendencia) entre las dos variables. Si no hay ninguna correlacin, el grfico presentara una figura sin forma, una nube de puntos dispersos en el grfico.

Diagramas de dispersin
Si las variables estn correlacionadas, el grfico mostrara algn nivel de tendencia entre las dos variables. Si los puntos muestran una tendencia lineal positiva o negativa se le puede ajustar una lnea recta que servir entre otras cosas para predecir valores de Y correspondientes a valores de X.

Relacin lineal positiva

Relacin lineal negativa

Relacin exponencial

Relacin parablica

No-relacin

Diagramas de dispersin
Ejemplo , estudiamos la talla, medida en cm y el peso, medido en kg de un grupo de 10 personas, podemos obtener los siguientes valores
Talla (cm) Peso (kg) 160 55 165 58
90

168 58

170 61

171 67

175 62

175 66

180 74

180 79

182 83

80
70 60 Peso (Kg) 50 40 30 20 10 0 150 160 170 Talla (cm) 180 190 Talla y Peso de 10 personas

Regresin Lineal
Es til para determinar la forma probable de la relacin entre las variables cuando hay un fenmeno de causa o efecto. El objetivo principal es el de poder predecir o estimar el valor de una variable dependiente Y correspondiente al valor dado de la otra variable dependiente X El investigador decide cuales valores tomara la variable independiente, mientras que los valores de la variable dependiente estn determinados por la relacin que existe

Regresin lineal
Estima la fuerza o bondad explicativa del modelo terico independientemente de las caractersticas de las variables introducidas Predice el valor medio que puede asumir la variable Y dado un valor de X (regresin a la media) bajo un intervalo de confianza Estima el efecto neto de cada una de las variables intervinientes sobre la variable dependiente (control sobre los dems efectos suponiendo independencia entre las variables predictivas). Y/X = a + bX Esto significa que el valor medio de Y para un valor fijo de X es igual a a + bX. Las constantes a y b son la ordenada al origen y la pendiente respectivamente

Regresin lineal::Suposiciones
1. 2. 3. 4. 5. Los valores de la variable independiente X son fijos, a X se le llama variable no aleatoria Por cada valor de X hay una subpoblacin de valores de Y y cada subpoblacin de valores de Y debe estar normalmente distribuida. Las varianzas de las subpoblaciones de Y deben de ser iguales. Las medias de las subpoblaciones de Y estn sobre una recta. (suposicin de linealidad) Los valores de Y son estadsticamente independientes; es decir, los valores de Y correspondientes a un valor de X no dependen de los valores de Y para otro de X.

Bajo estas suposiciones la relacin que queremos estimar es: Y/X = a + bX

Regresin lineal
En el caso de asumir una recta, se admite que existe una proporcin entre la diferencia de dos valores X y la diferencia entre dos valores de Y. A ese factor de ajuste entre ambas series se le llama pendiente de la recta, y se asume que es constante a lo largo de toda la recta.

Regresin lineal::Mnimos cuadrados


Para el clculo de la recta de regresin se aplica el mtodo de mnimos cuadrados entre dos variables. Esta lnea es la que hace mnima la suma de los cuadrados de las desviaciones de cada valor observado Y, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuacin de la recta y los valores reales de la serie, son las menores posibles.

Regresin lineal::Mnimos Cuadrados


La ecuacin de regresin de la poblacin se estima con la ecuacin Y=a+bX donde: Y, a y b son estimadores de Y/X , A y B respectivamente. Para obtener los estimadores a y b utilizamos el mtodo de Mnimos Cuadrados.

Ecuaciones para la recta de mnimos cuadrados

Regresin lineal::Mnimos Cuadrados


Utilidad de la recta de regresin Mediante la recta de regresin podramos obtener de manera aproximada el valor de la variable dependiente (y) de la que conociramos la variable independiente (x), en una poblacin semejante a aquella de la que se ha obtenido la muestra

De manera ms precisa, si conocemos la expresin de la recta de regresin, se pueden calcular valores para la variable y, conocidos los de x, como si se tratara de una funcin

Ejercicio

Dosis (mg)

Se lleva a cabo un experimento para estudiar el efecto de cierto frmaco en la disminucin del ritmo cardiaco en adultos. La variable independiente es la dosis del frmaco en mg, y la variable dependiente es la diferencia entre el ritmo ms bajo registrado despus de la administracin de la droga y el ritmo antes de la administracin del frmaco (control). Los datos se muestran a continuacin:

Reduccin del ritmo cardiaco (Latidos/min)


Y 10 8 12 12 14 12 16 18 17 20 18 20 21

X 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 3.25 3.50

Ejercicio
Como podemos observar los puntos siguen una relacin lineal positiva, por lo tanto, se procede a determinar la recta de ajuste

25

20

Latidos/min

15

10

0 0 0.5 1 1.5 2 Dosis 2.5 3 3.5 4

Ejercicio
X
0.50 0.75 1.00 1.25 1.50 1.75

Y
10 8 12 12 14 12

X2 0.2500 0.5625 1.0000 1.5625 2.2500 3.0625

XY 5.0 6.0 12.0 15.0 21.0 21.0

2.00
2.25 2.50 2.75 3.00 3.25 3.50

16
18 17 20 18 20 21

4.0000
5.0625 6.2500 7.5625 9.0000 10.5625 12.2500 =63.375

32.0
40.5 42.5 55.0 54.0 65.0 73.5 = 442.5

Covarianza
La covarianza SXY, es una medida que nos habla de la variabilidad conjunta de dos variables numricas (cuantitativas). Aunque la recta de mnimos cuadrados es la recta que mejor se ajusta a los puntos, todava muchos de stos se desvan de ella. La medida numrica de tales desviaciones es el estimador isesgado de la varianza de la regresin de la poblacin, se define como la covarianza. Sean (xi, yi ) pares de observaciones de dos caractersticas X y Y, y sean XY sus respectivas medias. La covarianza entre las dos variables se define por :

Covarianza
Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que SXY 0, lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X; casi todos los puntos pertenecen a los cuadrantes primero y tercero Si la mayora de puntos estn repartidos entre el segundo y cuarto cuadrante entonces SXY0, es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan

Covarianza
Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces se tendr que SXY = 0. Por lo tanto no hay relacin lineal

Covarianza
Pasos para calcular la covarianza de una serie de eventos 1. Se calcula xiyi , esto es la sumatoria de los productos de las variables x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn ) 2. 3. 4. Se define n, que el numero de eventos o el numero de pares de variables Se calcula , que es el producto de las medias de ambas variables

Obtenidos todos los datos se sustituyen en la formula y se obtiene el resultado

Correlacin lineal
La covarianza es una medida de la variabilidad comn de dos variables (crecimiento de ambas al tiempo o crecimiento de una y decrecimiento de la otra), pero esta afectada por las unidades en las que cada variable se mide. As pues, es necesario definir una medida de la relacin entre dos variables, y que no est afectada por los cambios de unidad de medida. Una forma de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones tpicas de cada variable, ya que as se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlacin lineal de Pearson

Correlacin lineal
La medida del grado de relacin entre dos variables se llama coeficiente de correlacin, representado universalmente por r El Coeficiente de Correlacin Lineal de Pearson es un ndice estadstico que permite medir la fuerza de la relacin lineal entre dos variables. Su resultado es un valor que flucta entre 1 (correlacin perfecta de sentido negativo) y +1 (correlacin perfecta de sentido positivo). Cuanto ms cercanos al 0 sean los valores, indican una mayor debilidad de la relacin o incluso ausencia de correlacin entre las dos variables.

Correlacin lineal
Si el coeficiente de correlacin de Pearson (r) es cercano a 0, las dos variables no tienen mucho que ver entre s (no tienen casi ninguna covariacin lineal). Si su valor es cercano a +/-1, esto significa que la relacin entre las dos variables es lineal y est bien representada por una lnea.

Correlacin lineal
Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos caractersticas o variables que la forman (nube de puntos y covarianza), podemos precisar el grado de dicha dependencia. Si los puntos de la nube estuvieran todos sobre la recta de regresin se dira que existe una dependencia funcional. De su estudio se encargan las funciones. Si los puntos no estn todos sobre la recta de regresin se dice que entre las variables hay una cierta correlacin lineal. Este es el caso que nos ocupa. Para cuantificar el grado de dicha correlacin se usa el

Coeficiente de determinacin
Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el estudio de la regresin lineal entre las variables. Normalmente, la variable explicativa no explica al 100% los resultados que se observan en la variable explicada. El nico caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso general. Vamos a cuantificar la calidad de la explicacin de Y por X mediante el COEFICIENTE DE DETERMINACIN.

Coeficiente de determinacin lineal


Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de la X (independiente), pero s por la de Y, por estar influenciada por la otra variable. La varianza de Y est generada, de una parte, por los datos de X (es decir, por la varianza), y de otra parte por causas desconocidas (a no ser que los datos formen una lnea recta).

El coeficiente de determinacin va a ser el % de varianza de Y que se puede explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porque valora lo cerca que est la nube de puntos de la recta de regresin (o dicho de otro modo, lo ajustada que est la nube de puntos a la recta de regresin). 2
2 sy

s xy

var . exp l .porX

2 s x

var .no exp lic .

2 se

Coeficiente de determinacin lineal

Coeficiente de determinacin lineal


El % de varianza de Y explicada por X es:
2 s xy 2 sx 2 sy

que resulta ser 100

2 s xy 2 sx 2 sy

100

es decir, el coeficiente de correlacin lineal r, elevado al cuadrado y multiplicado por 100. Es por ello que al coeficiente de determinacin se le llama R2, es decir

2 s xy 2 sx 2 sy

100

Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del ajuste es bastante alta, aunque no sabemos si la recta de regresin es creciente o decreciente. Otro ejemplo: si conocemos el coeficiente de correlacin lineal, r = 0.77, entre dos variables X e Y, ya sabemos que la recta de regresin es decreciente (por el signo negativo de r), y calculando R2 = r2 100 = 59.29% tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede calificar de buena).

Coeficiente de determinacin lineal


Predicciones. Usos y abusos El primer objetivo de la regresin es poner de manifiesto una relacin existente entre dos variables estadsticas. Una vez se constata, por ejemplo, que hay una relacin lineal entre dos variables y se calcula la recta de regresin apropiada, sta se puede usar para obtener valores de la variable explicada, a partir de valores de la variable explicativa. Por ejemplo, si se comprueba una buena correlacin lineal entre las variables X = horas de estudio semanal e Y = nota del examen, con una recta de regresin (de Y sobre X) igual a y = 0.9 + 0.6 x se puede plantear la siguiente pregunta: Qu nota puede obtener (segn los datos) un alumno que estudia 10 horas semanales?

Coeficiente de determinacin lineal


Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuacin de la recta x = 10, resultando y = 6.9. El coeficiente de correlacin (o el de determinacin) lineal es el dato que, si es grande (prximo a 1 1 si es la r, o prximo a 100% si es R2), nos indicar que la prediccin obtenida es FIABLE, lo cual es lgico pues R2 indicaba la calidad del ajuste de la nube de puntos a la recta. As pues, la FIABILIDAD de una prediccin obtenida mediante la recta de regresin se puede medir con el coeficiente de determinacin R2. En el momento de hacer predicciones hay que tener ciertas precauciones, pues es posible que se obtengan resultados absurdos. Segn la recta de regresin anterior, un alumno que estudie 20 horas por semana (x = 20) tendra un resultado de 12.9 puntos en su examen, lo cual no tiene sentido si se evala sobre 10. La limitacin de la prediccin estriba en que slo se puede realizar para valores de X que estn situados entre los valores de X de la tabla de datos inicial.

También podría gustarte