Está en la página 1de 5

REGRESION LINEAL

DEFINICIONES:

REGRESION: Consiste en la búsqueda de una función que exprese lo mejor posible la relación existente
entre dos (o más) variables.

VARIABLE ESTADÍSTICA BIDIMENSIONAL: Es la variable en la que cada individuo está definido por un
par de caracteres (X, Y), variables estadísticas en las que si existe relación entre ellas una es
dependiente y la otra independiente.

DISTRIBUCIONES BIDIMENSIONALES: Son aquellas en las que a cada individuo le corresponden los
valores de dos variables (Xi, Yi)

NUBE DE PUNTOS O DIAGRAMA DE DISPERSION: Es el conjunto de todos los puntos representado


cada uno por un par de valores llamados coordenadas

CORRELACION: Establece la relación o dependencia que existe entre las dos variables que intervienen
en una distribución bidimensional.

TIPOS DE CORRELACION:
Correlación directa: La recta es creciente. Si aumenta una variable la otra también aumenta.
Correlación inversa: La recta es decreciente. Si aumenta una variable la otra disminuye.
Correlación nula: Cuando no hay ninguna dependencia.

GRADO DE CORRELACION: Indica la proximidad que hay entre los puntos de la nube de puntos. Puede
ser fuerte, débil, o nula; dependiendo lo cerca que estén los puntos de la recta de regresión.

Correlación negativa perfecta

Correlación cero

Correlación positiva fuerte

Coeficiente de correlación, r
El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables.
Requiere datos con escala de intervalo o de razón (variables).
Puede tomar valores entre -1.00 y 1.00.
Valores de -1.00 o 1.00 indican correlación fuerte y perfecta.
Valores cercanos a 0.0 indican correlación débil.
Valores negativos indican una relación inversa y valores positivos indican una relación directa.
Fórmula para r:
(1)

Clasificación del grado de correlación:


Cuando:
r= 1 La correlación es Perfecta
0.9≤r<1 La correlación es Excelente
0.8≤r<0.9 La correlación es Buena
0.5≤r<0.8 La correlación es Regular
r<0.5 La correlación es Mala
r=0 Las rectas son perpendiculares

COEFICIENTE DE DETERMINACIÓN (r²). Indica la proporción o porcentaje, en que la variable


"Y"(variable dependiente) debe su variación a la variable "X"(variable independiente).
El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1

COVARIANZA (σXY): es la variación conjunta de las dos variables estudiadas, la "X" y la "Y".

(10)
En términos de covarianza:

(12) (11)
Interpretación de la covarianza
Si σXY >0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden grandes
valores de y.
Si σXY=0 Una covarianza 0 se interpreta como la no existencia de una relación lineal entre las dos
variables estudiadas.
Si σXY <0 hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden pequeños
valores de y.

RECTA DE REGRESION: Recta que se traza sobre la nube de puntos ajustada a ella lo mejor posible.

La ecuación de regresión: Y’= a + bX (4)


Donde:
Y’ es el valor promedio pronosticado de Y para cualquier valor de X.
a es la intercepción en Y, o el valor estimado de Y cuando X = 0
b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X
Variable dependiente (Y): la variable que se pronostica o estima.
Variable independiente(X): la variable que proporciona la base para la estimación. Es la variable
predictora.
Se usa el principio de mínimos cuadrados para obtener a y b:

(3)

Centro de gravedad: es el punto con coordenadas ( X . Y )


Recta de regresión de Y sobre X: Se utiliza para estimar los valores de Y a partir de X

(6)
Recta de regresión de X sobre Y: Se utiliza para estimar los valores a partir de Y

(7)
Inferencia en el modelo de regresión
Una vez que hemos calculado la recta de regresión y el ajuste que hemos conseguido con el modelo de
regresión lineal, el siguiente paso consiste en analizar si la regresión en efecto es válida y la podemos
utilizar para predecir. Para ello debemos contrastar la hipótesis si la correlación entre ambas variables es
distinta de cero o si el modelo de regresión es válido en el sentido de contrastar si el análisis de nuestra
variable (Y). es válido a través de la influencia de la variable predictora (X).

El estadístico (t-Student) que se utiliza para realizar la prueba de hipótesis es el siguiente:

(2)

Error estandard de la estimación (SXY)


El error estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de
regresión.

(5)

El intervalo de confianza
El intervalo de confianza para el valor medio de Y para un valor dado de X está definido por:

(8)

El Intervalo de predicción
El intervalo de predicción para un valor individual de Y para un valor dado de X se define por:

(9)

ANÁLISIS DE REGRESIÓN LINEAL


El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables
cuantitativas. Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables
(regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y cuantificar la relación entre
una variable llamada dependiente o criterio(Y) y una o más variables llamadas independientes o
predictoras (X1, X2, …, Xp), así como para desarrollar una ecuación lineal con fines predictivos.

Análisis de correlación: El análisis de correlación, se utiliza para visualizar la asociación entre las
variables cuantitativas. Se puede visualizar mediante un gráfico o mediante un número.

Mediante un gráfico, es cuando se traza el Diagrama de Dispersión, que puede tomar diferentes formas.
Se grafican, los valores observados de la variable "X” y de la variable "Y", en un par de ejes, y nos queda
lo que se llama "nube de puntos".
Siempre se debe decidir, cual es la variable independiente "X”, y la variable dependiente “Y". El
investigador es quien decide Cuál será la variable de causa, Y Cuál será la variable de efecto.
Mediante un número, es cuando se calcula el Coeficiente de Correlación (r)
Es un número que solo varía entre -1 y +1.
Cuanto más cerca de cero, más independientes son las variables, y cuando se acerca a +1 o -1, la
asociación entre las variables se torna más fuerte.

El propósito es determinar la ecuación de regresión; se usa para predecir el valor de la variable


dependiente (Y) basado en la variable independiente (X).
Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada
observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de
regresión.

Los objetivos al hacer un análisis de regresión son:


. Aprender a calcular la correlacion entre dos variables
. Saber dibujar un diagrama de dispersión
. Realizar una prueba de hipótesis para determinar si el coeficiente de correlacion es distinto de cero
. Representar la recta que define la relación lineal entre dos variables
. Saber estimar la recta de regresión por el método de mínimos cuadrados e interpretar su ajuste
(coeficiente de determinación)
. Calcular el error típico o estándar de estimación
. Construir e interpretar intervalos de confianza e intervalos de predicción para la variable dependiente

Ejercicio:

El presidente de la sociedad de alumnos de la Universidad de Toledo, está preocupado por el costo de los
libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librería. Le pide
al Departamento de Estadística hacer un análisis de regresión para estudiar la relación entre el número de
páginas del libro y el costo.

Libro Paginas Precio ($) XY X² Y²


1 500 28
2 700 25
3 800 33
4 600 24
5 400 23
6 500 27
7 600 21
8 800 31

Los pasos son los siguientes:

a. Elaborar tabla de datos para X, Y, XY, X², Y². Determinar cuál es X , y cual es Y, completar tabla

b. Hacer diagrama de dispersión y trazar recta aproximada

c. Hallar el coeficiente de correlación con la formula (1) r =0.614 (verifique)

d. Hallar la covarianza y las varianzas de X y de Y Formula (10), y (11). Halle r con la formula (12).
σXY= 318.75, σ2X= 18593.75, σ2Y= 14.5 Verifique

e. Pruebe la hipótesis de que no existe relación entre las variables, con el 1% de nivel de significancia.
Seguir los pasos para prueba de hipótesis. Formula (2)
Verifique:
Paso 1:
H0: r= 0
H1: r≠0
Paso 2: H0 se rechaza si t>3.707 o si t<-3.707, gl = 6, α = .01
El estadístico de prueba es t = 1.9055, con (n - 2) grados de libertad
Paso 4: Como 1.9055 está entre -3.707 y 3.707 se acepta H0, y se concluye que no existe relación entre
las variables número de páginas del libro contra costo

f. Desarrollar una ecuación de regresión. Formulas (3), (4)


Verifique Por el principio de mínimos cuadrados,
b = .01714 y a = 16.00175
Y’ = 16.00175 + .01714X

g. Calcule el error estándar de la estimación. Formula (5) Verifique SXY= 3.471

h. Si un libro es de 650 páginas, ¿Qué costo podemos suponer para este libro? Formula (6); 27.1428

g. Si un libro tiene un costo de 30. ¿Cual es el número estimado de páginas? (7) 816.7007
h. h. Desarrolle un intervalo de confianza de 95% para los libros de 560 páginas. Verifique [22.38, 25.65].

i. Desarrolle un intervalo de predicción de 95% para los libros de 560 páginas. Verifique [24.44, 34.68]

También podría gustarte