Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ajuste de Curvas
Ajuste de Curvas
Introduccin
Diagramas de dispersin
Regresin lineal
Correlacin
Introduccin
Frecuentemente en la investigacin estamos interesados en estudiar la
relacin entre dos variables como:
Concentracin de un frmaco inyectado a un animal y latidos del corazn
Cantidad de fertilizantes y produccin agrcola
Dureza de los plsticos tratados con calor durante diferentes periodos de tiempo
Diagramas de dispersin
Diagramas de dispersin
Dadas dos variables X y Y tomadas sobre el mismo elemento de la
poblacin, el diagrama de dispersin es simplemente un grfico de dos
dimensiones, donde en un eje (la abscisa) se grafica una variable
(independiente), y en el otro eje (la ordenada) se grafica la otra variable
(dependiente).
Si las variables estn correlacionadas, el grfico mostrara algn nivel de
correlacin (tendencia) entre las dos variables. Si no hay ninguna
correlacin, el grfico presentara una figura sin forma, una nube de
puntos dispersos en el grfico.
Diagramas de dispersin
Si las variables estn correlacionadas, el grfico mostrara algn nivel de
tendencia entre las dos variables. Si los puntos muestran una tendencia
lineal positiva o negativa se le puede ajustar una lnea recta que servir
entre otras cosas para predecir valores de Y correspondientes a valores
de X.
Relacin parablica
Relacin exponencial
No-relacin
Diagramas de dispersin
Ejemplo , estudiamos la talla, medida en cm y el peso, medido en kg de
un grupo de 10 personas, podemos obtener los siguientes valores
Talla (cm)
160
165
168
170
171
175
175
180
180
182
Peso (kg)
55
58
58
61
67
62
66
74
79
83
90
80
70
Peso (Kg)
60
50
40
Talla y Peso de 10
personas
30
20
10
0
150
160
170
Talla (cm)
180
190
Regresin Lineal
Es til para determinar la forma probable de la relacin entre las variables
cuando hay un fenmeno de causa o efecto. El objetivo principal es el de
poder predecir o estimar el valor de una variable dependiente Y
correspondiente al valor dado de la otra variable dependiente X
El investigador decide cuales valores tomara la variable independiente,
mientras que los valores de la variable dependiente estn determinados
por la relacin que existe
Regresin lineal
Regresin lineal::Suposiciones
1.
2.
3.
4.
5.
Regresin lineal
En el caso de asumir una recta, se admite que existe una proporcin entre
la diferencia de dos valores X y la diferencia entre dos valores de Y. A ese
factor de ajuste entre ambas series se le llama pendiente de la recta, y se
asume que es constante a lo largo de toda la recta.
Ejercicio
Dosis (mg)
0.50
10
0.75
1.00
12
1.25
12
1.50
14
1.75
12
2.00
16
2.25
18
2.50
17
2.75
20
3.00
18
3.25
20
3.50
21
Ejercicio
Como podemos observar los puntos siguen una relacin lineal positiva,
por lo tanto, se procede a determinar la recta de ajuste
25
Latidos/min
20
15
10
0
0
0.5
1.5
2
Dosis
2.5
3.5
Ejercicio
X
X2
XY
0.50
10
0.2500
5.0
0.75
0.5625
6.0
1.00
12
1.0000
12.0
1.25
12
1.5625
15.0
1.50
14
2.2500
21.0
1.75
12
3.0625
21.0
2.00
16
4.0000
32.0
2.25
18
5.0625
40.5
2.50
17
6.2500
42.5
2.75
20
7.5625
55.0
3.00
18
9.0000
54.0
3.25
20
10.5625
65.0
3.50
21
12.2500
73.5
=63.375
= 442.5
Covarianza
La covarianza SXY, es una medida que nos habla de la variabilidad conjunta
de dos variables numricas (cuantitativas).
Aunque la recta de mnimos cuadrados es la recta que mejor se ajusta a
los puntos, todava muchos de stos se desvan de ella. La medida
numrica de tales desviaciones es el estimador isesgado de la varianza de
la regresin de la poblacin, se define como la covarianza.
Sean (xi, yi ) pares de observaciones de dos caractersticas X y Y, y sean XY
sus respectivas medias. La covarianza entre las dos variables se define por
:
Covarianza
Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que SXY
0, lo que se puede interpretar como que la variable Y tiende a aumentar
cuando lo hace X; casi todos los puntos pertenecen a los cuadrantes
primero y tercero
Si la mayora de puntos estn repartidos entre el segundo y cuarto
cuadrante entonces SXY0, es decir, las observaciones Y tienen tendencia a
disminuir cuando las de X aumentan
Covarianza
Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces
se tendr que SXY = 0. Por lo tanto no hay relacin lineal
Covarianza
Pasos para calcular la covarianza de una serie de eventos
1. Se calcula xiyi , esto es la sumatoria de los productos de las
variables x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn )
2.
3.
Se calcula
4.
Correlacin lineal
La covarianza es una medida de la variabilidad comn de dos variables
(crecimiento de ambas al tiempo o crecimiento de una y decrecimiento de
la otra), pero esta afectada por las unidades en las que cada variable se
mide.
As pues, es necesario definir una medida de la relacin entre dos
variables, y que no est afectada por los cambios de unidad de medida.
Una forma de conseguir este objetivo es dividir la covarianza por el
producto de las desviaciones tpicas de cada variable, ya que as se
obtiene un coeficiente adimensional, r, que se denomina coeficiente de
correlacin lineal de Pearson
Correlacin lineal
La medida del grado de relacin entre dos variables se llama coeficiente
de correlacin, representado universalmente por r
El Coeficiente de Correlacin Lineal de Pearson es un ndice estadstico
que permite medir la fuerza de la relacin lineal entre dos variables. Su
resultado es un valor que flucta entre 1 (correlacin perfecta de sentido
negativo) y +1 (correlacin perfecta de sentido positivo). Cuanto ms
cercanos al 0 sean los valores, indican una mayor debilidad de la relacin o
incluso ausencia de correlacin entre las dos variables.
Correlacin lineal
Si el coeficiente de correlacin de Pearson (r) es cercano a 0, las dos
variables no tienen mucho que ver entre s (no tienen casi ninguna
covariacin lineal). Si su valor es cercano a +/-1, esto significa que la
relacin entre las dos variables es lineal y est bien representada por una
lnea.
Correlacin lineal
Una vez observado que en una variable bidimensional existe una cierta
dependencia entre las dos caractersticas o variables que la forman (nube
de puntos y covarianza), podemos precisar el grado de dicha dependencia.
Si los puntos de la nube estuvieran todos sobre la recta de regresin se
dira que existe una dependencia funcional. De su estudio se encargan las
funciones.
Si los puntos no estn todos sobre la recta de regresin se dice que entre
las variables hay una cierta correlacin lineal. Este es el caso que nos
ocupa. Para cuantificar el grado de dicha correlacin se usa el
Coeficiente de determinacin
Una nube de puntos que se agrupa en torno a una recta imaginaria nos
justifica el estudio de la regresin lineal entre las variables. Normalmente,
la variable explicativa no explica al 100% los resultados que se observan en
la variable explicada.
El nico caso en el que una variable explica al 100% a la otra variable es
aquel donde los puntos de la nube formen una recta. En ese caso, cada
valor de X nos da el valor exacto de Y. Pero ese no es el caso general.
Vamos a cuantificar la calidad de la explicacin de Y por X mediante el
COEFICIENTE DE DETERMINACIN.
s y2
s xy
2
s
x
se2
2
s xy
s x2
s y2
2
s xy
s x2
s y2
100
2
s xy
s x2
s y2
100
Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del
ajuste es bastante alta, aunque no sabemos si la recta de regresin es creciente o
decreciente. Otro ejemplo: si conocemos el coeficiente de correlacin lineal, r = 0.77, entre dos variables X e Y, ya sabemos que la recta de regresin es
decreciente (por el signo negativo de r), y calculando R2 = r2 100 = 59.29%
tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede
calificar de buena).
Por ejemplo, si se comprueba una buena correlacin lineal entre las variables
X = horas de estudio semanal e Y = nota del examen, con una recta de
regresin (de Y sobre X) igual a
y = 0.9 + 0.6 x
se puede plantear la siguiente pregunta: Qu nota puede obtener (segn los
datos) un alumno que estudia 10 horas semanales?