Está en la página 1de 5

REGRESION LINEAL DEFINICIONES: REGRESION: Consiste en la bsqueda de una funcin que exprese lo mejor posible la relacin existente entre

dos (o ms) variables. VARIABLE ESTADSTICA BIDIMENSIONAL: Es la variable en la que cada individuo est definido por un par de caracteres (X, Y), variables estadsticas en las que si existe relacin entre ellas una es dependiente y la otra independiente. DISTRIBUCIONES BIDIMENSIONALES: Son aquellas en las que a cada individuo le corresponden los valores de dos variables (Xi, Yi) NUBE DE PUNTOS O DIAGRAMA DE DISPERSION: Es el conjunto de todos los puntos representado cada uno por un par de valores llamados coordenadas CORRELACION: Establece la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. TIPOS DE CORRELACION: Correlacin directa: La recta es creciente. Si aumenta una variable la otra tambin aumenta. Correlacin inversa: La recta es decreciente. Si aumenta una variable la otra disminuye. Correlacin nula: Cuando no hay ninguna dependencia. GRADO DE CORRELACION: Indica la proximidad que hay entre los puntos de la nube de puntos. Puede ser fuerte, dbil, o nula; dependiendo lo cerca que estn los puntos de la recta de regresin. Correlacin negativa perfecta

Correlacin cero

Correlacin positiva fuerte

Coeficiente de correlacin, r El coeficiente de correlacin (r) es una medida de la intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de razn (variables). Puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00 indican correlacin fuerte y perfecta. Valores cercanos a 0.0 indican correlacin dbil. Valores negativos indican una relacin inversa y valores positivos indican una relacin directa. Frmula para r:

(1) Clasificacin del grado de correlacin: Cuando: r= 1 La correlacin es Perfecta 0.9r<1 La correlacin es Excelente 0.8r<0.9 La correlacin es Buena 0.5r<0.8 La correlacin es Regular r<0.5 La correlacin es Mala r=0 Las rectas son perpendiculares COEFICIENTE DE DETERMINACIN (r). Indica la proporcin o porcentaje, en que la variable "Y"(variable dependiente) debe su variacin a la variable "X"(variable independiente). El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma valores de 0 a 1

COVARIANZA (XY): es la variacin conjunta de las dos variables estudiadas, la "X" y la "Y".

(10) En trminos de covarianza:

(12) (11) Interpretacin de la covarianza


Si XY >0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes valores de y. Si XY=0 Una covarianza 0 se interpreta como la no existencia de una relacin lineal entre las dos variables estudiadas. Si XY <0 hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeos valores de y. RECTA DE REGRESION: Recta que se traza sobre la nube de puntos ajustada a ella lo mejor posible. La ecuacin de regresin: Y= a + bX (4) Donde: Y es el valor promedio pronosticado de Y para cualquier valor de X. a es la intercepcin en Y, o el valor estimado de Y cuando X = 0 b es la pendiente de la recta, o cambio promedio en Y por cada cambio de una unidad en X Variable dependiente (Y): la variable que se pronostica o estima. Variable independiente(X): la variable que proporciona la base para la estimacin. Es la variable predictora. Se usa el principio de mnimos cuadrados para obtener a y b:

(3) Centro de gravedad: es el punto con coordenadas ( X . Y ) Recta de regresin de Y sobre X: Se utiliza para estimar los valores de Y a partir de X

(6)

Recta de regresin de X sobre Y: Se utiliza para estimar los valores a partir de Y

(7)

Inferencia en el modelo de regresin Una vez que hemos calculado la recta de regresin y el ajuste que hemos conseguido con el modelo de regresin lineal, el siguiente paso consiste en analizar si la regresin en efecto es vlida y la podemos utilizar para predecir. Para ello debemos contrastar la hiptesis si la correlacin entre ambas variables es distinta de cero o si el modelo de regresin es vlido en el sentido de contrastar si el anlisis de nuestra variable (Y). es vlido a travs de la influencia de la variable predictora (X).

El estadstico (t-Student) que se utiliza para realizar la prueba de hiptesis es el siguiente:

(2) Error estandard de la estimacin (SXY) El error estndar de la estimacin mide la dispersin de los valores observados alrededor de la recta de regresin.

(5) El intervalo de confianza El intervalo de confianza para el valor medio de Y para un valor dado de X est definido por:

(8) El Intervalo de prediccin El intervalo de prediccin para un valor individual de Y para un valor dado de X se define por:

(9) ANLISIS DE REGRESIN LINEAL El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la relacin entre variables cuantitativas. Tanto en el caso de dos variables (regresin simple) como en el de ms de dos variables (regresin mltiple), el anlisis regresin lineal puede utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente o criterio(Y) y una o ms variables llamadas independientes o predictoras (X1, X2, , Xp), as como para desarrollar una ecuacin lineal con fines predictivos. Anlisis de correlacin: El anlisis de correlacin, se utiliza para visualizar la asociacin entre las variables cuantitativas. Se puede visualizar mediante un grfico o mediante un nmero. Mediante un grfico, es cuando se traza el Diagrama de Dispersin, que puede tomar diferentes formas. Se grafican, los valores observados de la variable "X y de la variable "Y", en un par de ejes, y nos queda lo que se llama "nube de puntos". Siempre se debe decidir, cual es la variable independiente "X, y la variable dependiente Y". El investigador es quien decide Cul ser la variable de causa, Y Cul ser la variable de efecto. Mediante un nmero, es cuando se calcula el Coeficiente de Correlacin (r) Es un nmero que solo vara entre -1 y +1. Cuanto ms cerca de cero, ms independientes son las variables, y cuando se acerca a +1 o -1, la asociacin entre las variables se torna ms fuerte. El propsito es determinar la ecuacin de regresin; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por pares para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin; determinar la ecuacin de regresin. Los objetivos al hacer un anlisis de regresin son: . Aprender a calcular la correlacion entre dos variables

. Saber dibujar un diagrama de dispersin . Realizar una prueba de hiptesis para determinar si el coeficiente de correlacion es distinto de cero . Representar la recta que define la relacin lineal entre dos variables . Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e interpretar su ajuste (coeficiente de determinacin) . Calcular el error tpico o estndar de estimacin . Construir e interpretar intervalos de confianza e intervalos de prediccin para la variable dependiente Ejercicio: El presidente de la sociedad de alumnos de la Universidad de Toledo, est preocupado por el costo de los libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librera. Le pide al Departamento de Estadstica hacer un anlisis de regresin para estudiar la relacin entre el nmero de pginas del libro y el costo. Libro 1 2 3 4 5 6 7 8 Paginas 500 700 800 600 400 500 600 800 Precio ($) 28 25 33 24 23 27 21 31 XY X Y

Los pasos son los siguientes: a. Elaborar tabla de datos para X, Y, XY, X, Y. Determinar cul es X , y cual es Y, completar tabla b. Hacer diagrama de dispersin y trazar recta aproximada c. Hallar el coeficiente de correlacin con la formula (1) r =0.614 (verifique) d. Hallar la covarianza y las varianzas de X y de Y Formula (10), y (11). Halle r con la formula (12). XY= 318.75, 2X= 18593.75, 2Y= 14.5 Verifique e. Pruebe la hiptesis de que no existe relacin entre las variables, con el 1% de nivel de significancia. Seguir los pasos para prueba de hiptesis. Formula (2) Verifique: Paso 1: H0: r= 0 H1: r0 Paso 2: H0 se rechaza si t>3.707 o si t<-3.707, gl = 6, = .01 El estadstico de prueba es t = 1.9055, con (n - 2) grados de libertad Paso 4: Como 1.9055 est entre -3.707 y 3.707 se acepta H0, y se concluye que no existe relacin entre las variables nmero de pginas del libro contra costo f. Desarrollar una ecuacin de regresin. Formulas (3), (4) Verifique Por el principio de mnimos cuadrados, b = .01714 y a = 16.00175 Y = 16.00175 + .01714X g. Calcule el error estndar de la estimacin. Formula (5) Verifique SXY= 3.471 h. Si un libro es de 650 pginas, Qu costo podemos suponer para este libro? Formula (6); 27.1428 g. Si un libro tiene un costo de 30. Cual es el nmero estimado de pginas? (7) 816.7007

h. h. Desarrolle un intervalo de confianza de 95% para los libros de 560 pginas. Verifique [22.38, 25.65]. i. Desarrolle un intervalo de prediccin de 95% para los libros de 560 pginas. Verifique [24.44, 34.68]