Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Regresion Lineal 2012 2 Taller 1
Analisis de Regresion Lineal 2012 2 Taller 1
DEFINICIONES:
REGRESION: Consiste en la búsqueda de una función que exprese lo mejor posible la relación existente
entre dos (o más) variables.
VARIABLE ESTADÍSTICA BIDIMENSIONAL: Es la variable en la que cada individuo está definido por un
par de caracteres (X, Y), variables estadísticas en las que si existe relación entre ellas una es
dependiente y la otra independiente.
DISTRIBUCIONES BIDIMENSIONALES: Son aquellas en las que a cada individuo le corresponden los
valores de dos variables (Xi, Yi)
CORRELACION: Establece la relación o dependencia que existe entre las dos variables que intervienen
en una distribución bidimensional.
TIPOS DE CORRELACION:
Correlación directa: La recta es creciente. Si aumenta una variable la otra también aumenta.
Correlación inversa: La recta es decreciente. Si aumenta una variable la otra disminuye.
Correlación nula: Cuando no hay ninguna dependencia.
GRADO DE CORRELACION: Indica la proximidad que hay entre los puntos de la nube de puntos. Puede
ser fuerte, débil, o nula; dependiendo lo cerca que estén los puntos de la recta de regresión.
Correlación cero
Coeficiente de correlación, r
El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables.
Requiere datos con escala de intervalo o de razón (variables).
Puede tomar valores entre -1.00 y 1.00.
Valores de -1.00 o 1.00 indican correlación fuerte y perfecta.
Valores cercanos a 0.0 indican correlación débil.
Valores negativos indican una relación inversa y valores positivos indican una relación directa.
Fórmula para r:
(1)
COVARIANZA (σXY): es la variación conjunta de las dos variables estudiadas, la "X" y la "Y".
(10)
En términos de covarianza:
(12) (11)
Interpretación de la covarianza
Si σXY >0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes
valores de y.
Si σXY=0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos
variables estudiadas.
Si σXY <0 hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños
valores de y.
RECTA DE REGRESION: Recta que se traza sobre la nube de puntos ajustada a ella lo mejor posible.
(3)
(6)
Recta de regresión de X sobre Y: Se utiliza para estimar los valores a partir de Y
(7)
Inferencia en el modelo de regresión
Una vez que hemos calculado la recta de regresión y el ajuste que hemos conseguido con el modelo de
regresión lineal, el siguiente paso consiste en analizar si la regresión en efecto es válida y la podemos
utilizar para predecir. Para ello debemos contrastar la hipótesis si la correlación entre ambas variables es
distinta de cero o si el modelo de regresión es válido en el sentido de contrastar si el análisis de nuestra
variable (Y). es válido a través de la influencia de la variable predictora (X).
(2)
(5)
El intervalo de confianza
El intervalo de confianza para el valor medio de Y para un valor dado de X está definido por:
(8)
El Intervalo de predicción
El intervalo de predicción para un valor individual de Y para un valor dado de X se define por:
(9)
Análisis de correlación: El análisis de correlación, se utiliza para visualizar la asociación entre las
variables cuantitativas. Se puede visualizar mediante un gráfico o mediante un número.
Mediante un gráfico, es cuando se traza el Diagrama de Dispersión, que puede tomar diferentes formas.
Se grafican, los valores observados de la variable "X” y de la variable "Y", en un par de ejes, y nos queda
lo que se llama "nube de puntos".
Siempre se debe decidir, cual es la variable independiente "X”, y la variable dependiente “Y". El
investigador es quien decide Cuál será la variable de causa, Y Cuál será la variable de efecto.
Mediante un número, es cuando se calcula el Coeficiente de Correlación (r)
Es un número que solo varía entre -1 y +1.
Cuanto más cerca de cero, más independientes son las variables, y cuando se acerca a +1 o -1, la
asociación entre las variables se torna más fuerte.
Ejercicio:
El presidente de la sociedad de alumnos de la Universidad de Toledo, está preocupado por el costo de los
libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librería. Le pide
al Departamento de Estadística hacer un análisis de regresión para estudiar la relación entre el número de
páginas del libro y el costo.
a. Elaborar tabla de datos para X, Y, XY, X², Y². Determinar cuál es X , y cual es Y, completar tabla
d. Hallar la covarianza y las varianzas de X y de Y Formula (10), y (11). Halle r con la formula (12).
σXY= 318.75, σ2X= 18593.75, σ2Y= 14.5 Verifique
e. Pruebe la hipótesis de que no existe relación entre las variables, con el 1% de nivel de significancia.
Seguir los pasos para prueba de hipótesis. Formula (2)
Verifique:
Paso 1:
H0: r= 0
H1: r≠0
Paso 2: H0 se rechaza si t>3.707 o si t<-3.707, gl = 6, α = .01
El estadístico de prueba es t = 1.9055, con (n - 2) grados de libertad
Paso 4: Como 1.9055 está entre -3.707 y 3.707 se acepta H0, y se concluye que no existe relación entre
las variables número de páginas del libro contra costo
h. Si un libro es de 650 páginas, ¿Qué costo podemos suponer para este libro? Formula (6); 27.1428
g. Si un libro tiene un costo de 30. ¿Cual es el número estimado de páginas? (7) 816.7007
h. h. Desarrolle un intervalo de confianza de 95% para los libros de 560 páginas. Verifique [22.38, 25.65].
i. Desarrolle un intervalo de predicción de 95% para los libros de 560 páginas. Verifique [24.44, 34.68]