Está en la página 1de 28

REGRESIN LINEAL SIMPLE Y CORRELACIN

Trminos y conceptos

Suposiciones
Anlisis de correlacin

Anlisis de regresin de mnimos cuadrados

Diagrama de dispersin
Diagrama de dispersin Coeficiente de correlacin r Lnea de regresin de muestra Prueba de Ho: P=0

Utilice alternativa a la regresin de mnimos cuadrados

Datos recolectados en orden secuencial

Diagnstico de regresin

REGRESIN LINEAL SIMPLE: Estudia cmo los cambios de una variable no aleatoria,
ECUACIN DE REGRESIN: Relacin que se ajusta a un conjunto de datos
experimentales. muestrales.

afectan a una aleatoria, y si existe una relacin se establece en una expresin lineal.

COEFICIENTES DE REGRESIN: Son parmetros a estimar a partir de los datos

VALOR MEDIO O ESPERADO: Constante de gravedad que nos seala los valores

donde se sita los valores de mxima probabilidad de la variable aleatoria. Ei = Error del modelo ei= Se denomina residuo y describe el error en el ajuste del modelo en el isimo punto de los datos.

CONCEPTOS
CORRELACION:se basa en el grado de relacin que poseen dos variables numricas entre si. COEFICIENTE DE CORRELACIN :permite predecir si entre dos variables existe o no una relacin o dependencia matemtica.

DIAGRAMA DE DISPERSION: es una representacin en un sistema de coordenadas cartesianas de los datos numricos observados.
HIPOTESIS NULA: se utiliza para designar cualquier hiptesis formulada para ver si puede ser rechazada

Se predice una variable dependiente en funcin de una variable independiente simple. Y|x es la variable aleatoria Y que corresponde a un valor fijo x. Su media se relaciona linealmente con x mediante:

n parejas de (xi,yi) donde deseamos determinar la lnea que mejor se ajuste con:

y = a + Bx

Todas las medias caen en una lnea recta, y cada Yi se describe con el modelo de regresin lineal simple:

Hay tres tipos de errores:


Ei: error del modelo i = Valor de una variable aleatoria y tal que = 0. ei= Es el residuo, describe el error en el ajuste:

ei= yi - y

Lmites de confianza para los coeficientes de regresin: a +- t /2 Se (Sxx + (nx)2) / nSxx b +- t /2 Se n / Sxx

Pendiente de la lnea de regresin es es el cambio promedio de las y correspondiente a un incremento unitario en x.


Lmites de confianza para + xo: (a+bxo) +- t /2 Se ( 1/n + (n(xo-x)2)/ Sxx

Es la lnea que se utiliza para distinguir entre le valor estimado o predicho, es la lnea que se ajusta mejor a los datos que obtenidos de la muestra tomada, entre ms datos, ms exactas sern las suposiciones.

Mtodo de calcular la ecuacin de la lnea que mejor ajusta un conjuntos dado de datos apareados, que da valores de a y b ( estimaciones).
Debemos determinar a y b de forma que los errores sean lo ms pequeo posible, (ei), se hace la suma: ei Si ei=0 , minimizamos la suma de los cuadrados de los ei, elegiremos a y b tales que: [yi (a + bxi)]2

La ecuaciones lineales con las incgnitas a y b se denominan ecuaciones normales.

Se emplea cuando la relacin entre x y la media de y es lineal o bastante cercana a una lnea recta. Expresiones relacionadas con los valores muestrales (xi,yi): Sxx= nxi2 (xi)2 Syy= n yi2 (yi)2

Sxy= n xiyi ( xi)( yi)


Estimacion de 2 Se2= Sxx Syy (Sxx)2 / n(n-2) Sxx Estadsticos para inferencias acerca de y : t= [(a-) / se] (nSxx / Sxx + (nx)2

Entre todos los estimados insesgados de y que son lineales en las yi, los estimadores de mnimos cuadrados tienen la variancia ms pequea. Los estimadores de mnimos cuadrados son los ms confiables por hallarse sujetos a variaciones aleatorias ms pequeas.

CORRELACION

CORRELACION
El concepto de relacin o correlacin se refiere al grado de variacin conjunta existente entre dos o mas variables. Nos vamos a centrar en el estudio de un particular de relacin llamada lineal y nos vamos a limitar a considerar dos variables nicamente (simple X y Y) .

Anlisis de correlacin
Si consideramos la relacin entre las precipitaciones pluviales y la produccin de cierta cosecha, la relacin entre la resistencia a la tensin y la dureza del aluminio o la conexin entre las impurezas del aire y la incidencia de cierta enfermedad. A esta clase de problemas se les llama problemas de anlisis de correlacin donde se supone que los datos puntuales (Xi, Yi) para i= 1,2,...,n son valores de un par de variables aleatorias cuya densidad conjunta esta dada por f(X,Y)

Coeficiente de correlacin lineal


El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las varables es lineal El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula: r = Sxy / (Sxx *Syy) Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.

PROPIEDADES DEL COEFICIENTE DE CORRELACION

El coeficiente de correlacin, r, tiene las siguientes propiedades: No tiene dimensiones: Es decir, no depende de las unidades en las que se expresan los valores de las dos variables. Por tanto, si se realiza un cambio de unidades, el valor de r no vara. El valor de r est comprendido entre -1 y 1. Si la correlacin es perfecta (puntos de la nube alineados), entonces | r | = 1, es decir, r = 1 r = -1. Si la correlacin es fuerte, | r | es prximo a 1. Si la correlacin es dbil, | r | es prximo a 0.

Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1. Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin. Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente positiva, ser creciente. Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente negativa: es decreciente.

No hay correlacin

r 0

Hay correlacin no lineal

Correlacin lineal Correlacin lineal positiva negativa

r 0

r 1

(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)

r 1

DIAGRAMA DE DISPERSIN
La forma mas directa e intuitiva de formarnos una primera impresin sobre el tipo de relacin existente entre dos variables esa travs de un diagrama de dispersin. Este es un grafico en el que una de las variables (Xi) se coloca en el eje de la abscisa, la otra (Yi) en la ordenada y los pares (Xi, Yi) se representan como una nube de puntos. La forma de la nube de puntos nos informa sobre el tipo de relacin existente entre las variables

Ejemplo.- Suponga que al administrador de una cadena de almacenes departamentales le gustara desarrollar un modelo para predecir las ventas semanales ( en miles de dlares) de cada tienda. se seleccion una muestra de 20 almacenes de entre todos los que conforman la cadena.

DIAGRAMA DE DISPERSIN
ventas semanales (mles de dolares)

15 10
Serie1

5 0 0 500 1000 1500 nmero de clientes

Muestra una situacin de que entre mayores son las puntuaciones en una variable, mayores son tambin , las puntuaciones en la otra, cuando ocurre esto, los puntos se sitan en una lnea recta ascendente y hablamos de una relacin lineal positiva.

Correlacin lineal positiva

r 1

Representa una situacin de que entre mayores sean las puntuaciones de una variable, menores son las puntuaciones en la otra, en este caso los puntos se sitan en una lnea recta descendente y hablamos de una relacin lineal negativa.

Correlacin lineal negativa

r 1

Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin.

Hay correlacin no lineal


r 0

No hay correlacin

r 0

La importancia del clculo de regresiones lineales es importante porque nos permite predecir valores de respuesta a uno o ms valores de la variable independiente.
El intervalo de prediccin calculado, representa un intervalo que tiene una probabilidad igual a 1- de contener no un parmetro sino un valor futuro yo de la variable aleatoria Yo.

Una hiptesis estadstica es cualquier conjetura sobre una o varias caractersticas de inters de un modelo de probabilidad. Puede ser: paramtrica (simple o compuesta) y no paramtrica. La hiptesis que se contrasta se denomina hiptesis nula (H0). Si se rechaza la hiptesis nula es porque se asume como correcta una hiptesis complementaria que se denomina hiptesis alternativa (H1). Ho p= 0 H1 p> 0 En el clculo de la hiptesis se pueden cometer 2 tipos de errores: El rechazo de la hiptesis nula cuando es verdadera se llama error tipo I. La aceptacin de la hiptesis nula cuando es falsa se llama error tipo II.

HIPOTESIS NULA Ho; p=0 A menudo se requiere que formulemos la hiptesis opuesta a la que deseamos probar. Por ejemplo, si queremos demostrar que un mtodo de irrigacin es ms costoso que otro, formulamos la hiptesis de que los dos son igualmente costosos. En vista de que formulamos la hiptesis de que no hay diferencia en los costos de los dos mtodos de irrigacin, a esta hiptesis la llamaremos hiptesis nula y la denotaremos por Ho .

En particular podemos probar la hiptesis nula de que no hay correlacin, es decir, la hiptesis nula p=0, con el estadstico
z= (n-3) * Z = (n-3)/2 * ln (1+r ) / (1-r)

Donde: n= tamao de la muestra Z= transformacin Z de Fisher *ln (1+r ) / (1-r) r= coeficiente de correlacin