Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La finalidad de una ecuacin de regresin seria estimar los valores de una variable con
base en los valores conocidos de la otra.
Otra forma de emplear una ecuacin de regresin es para explicar los valores de una
variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto
entre dos variables. El anlisis de regresin nicamente indica qu relacin matemtica
podra haber, de existir una. Ni con regresin ni con la correlacin se pude establecer si
una variable tiene causa ciertos valores de otra variable.
Ecuacin Lineal
Dos caractersticas importantes de una ecuacin lineal
La independencia de la recta
La localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a
indica la altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se
habr de predecir, y x es la variable predictora.
Determinacin de la ecuacin matemtica.
En la regresin, los valores de y son predichos a partir de valores de x dados o
conocidos. La variable y recibe el nombre variable dependiente y la variable x, el de
variable independiente.
El mtodo de los mnimos cuadrados
EL procedimiento ms utilizado por adaptar una recta aun conjunto de punto se le que
conoce como mtodo de mnimos cuadrados. La recta resultante presenta 2
caracterstica importantes.
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mnima la suma de los cuadrados de dicha desviaciones.
5
una ecuacin que se puede utilizar para predecir valore de y, respecto a valores dados
de la diferencia variables independientes adicionales es incrementar la capacidad
predicativa sobre la de la regresin lineal simple.
Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de
regresin.
Yc= a +b1x1+b2x2+bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes.
Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un
problema de tres variables produce un plano, y un problema de k variables implica un
hiperplano de a (k +1) dimensiones.
Anlisis de Correlacin.
EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin
entre observaciones por partes. EL trmino correlacin significa relacin mutua, ye
que indica el grado en el que los valores de una variable se relacionan con los valores
de otra. Se considera tres tcnicas de correlacin uno para datos de medicin, otro para
datos jerarquizados y el ltimo para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relacin entre dos variables continuas se resume mediante un coeficiente
de correlacin que se conoce como r de Pearson en honor del gran matemtico Kart
Pearson, quien ideo este mtodo. Esta tcnica es vlida mientras si es posible
establecer ciertos supuestos bastante estrictos.
Puntaje
al
finalizar
65
78
52
82
25
89
73
98
56
75
puntos denominado diagrama de
Este diagrama da apoyo intuitivo a la idea de que existe una relacin lineal entre X y Y.
Cul es un modelo razonable para los datos anteriores?
Supondremos que Y es una variable aleatoria, cuyo valor depende, entre otras
consideraciones, del valor de X, especficamente, esto es
Y X
En donde y son constantes (desconocidas), X es el puntaje matemtico en el
examen de admisin (conocido) que permitira hacer un pronstico para el valor de Y, el
puntaje en matemticas, y es una variable aleatoria, acerca de la cual haremos la
hiptesis siguiente:
E 0, V 2
COV I, J 0
V Y 2
10
variable aleatoria Y, por tanto (x 1, y1),, (xn, yn) puede considerarse como una muestra
aleatoria de la variable aleatoria T para los valores (x 1, x2,, xn) dados.
Definicin: Supngase que tenemos E(Y)=X+ con el significado previo. Sea (x 1, y1),
,(xn, yn) una muestra aleatoria de Y. Los estimadores de mnimos cuadrados de Y
son los valores de y que minimizan a
n
Y - X
i 1
Este criterio se puede interpretar intuitivamente en la figura siguiente. Para cada par (x i,
yi) calculamos la diferencia entre y i, el valor observado, y X i+, el valor esperado.
Puesto que slo nos interesa la magnitud de esta diferencia, se eleva al cuadrado y
sumamos todas las diferencias, la lnea buscada es aquella para la cual esta suma es
ms pequea.
SCE , Y - X
SCE SCE
ecuaciones
que conducen a un sistema de dos ecuaciones lineales
con incgnitas y de fcil solucin por determinantes, por ejemplo, denotando por a y
b las soluciones ptimas se encuentra que:
11
y x
n
i 1
n
x
i 1
a y bx
S2
1 n
Y - X 2 SCE
n 2 i1
n-2
E(A)
E B
y
n
V A
x
n
i1
2
i
n x i x
i1
VB
2
2
2
n
x
i 1
Observaciones adicionales
En el ejercicio 2 se prueba que A y B son estimadores in-sesgados de y , pero hay
ms an, son tambin los ms eficientes. La prueba de esto es un caso particular del
12
Teorema general de Gauss-Markov, que establece que bajo ciertas condiciones los
estimadores de mnimos cuadrados y los estimadores ms eficientes son siempre los
mismos.
El mtodo de los mnimos cuadrados puede aplicarse a modelos no lineales por
2
ejemplo si E Y X X , podemos estimar , y de manera que:
y X
n
Sea minimizada.
Si se impone la hiptesis adicional de que la variable aleatoria sea normal n(, 0, 2)
se podra utilizar una estimacin por mxima verosimilitud.
Ejercicio 3. Probar que si:
S XX x i x
i 1
xi
2
S YY y i y
i 1
xi
1
S XY
n
x
1 i 1 yi
n
n
x i x y i y x i y i
n
i1
1
b S XY S XX
Y la estimacin puntual de 2 as:
s2
S YY bS XY
n2
Y temperatura en C
18
12
19
21
18
16
0
14
10
16
15
20
15
18
23
19
19
23
18
21
12
11
14
1410
1777
910
Grafique el diagrama de dispersin.
14
6
19
p xy
E X E X Y E Y
V X V Y
S xy
S xxS y y
S xx
Sy y
Observaciones
El signo de es igual al de b as:
Si >0 la relacin ser lineal creciente.
Si >0 la relacin ser lineal decreciente.
Si =0 no hay relacin lineal.
Si
La ausencia de relacin lineal entre dos variables no implica que sean independientes,
a lo mejor existe otra relacin no lineal.
variable chi-cuadrado con (n-2) grados de libertad, concluimos por un teorema anterior
que el estadgrafo
S xx
B
S
S S xx
Tiene una distribucin t con (n-2) grados de libertad lo que nos permite establecer el
siguiente intervalo de confianza para la pendiente .
Un intervalo de confianza al (1-)% para la pendiente de la lnea de regresin
E Y 1 X es:
b
t 2s
S xx
f t dt 2
t 2
16
Ejercicio 6
a) Calcule el coeficiente de Pearson para los datos de los puntajes y halle un
intervalo de confianza al 95% para en la lnea de regresin asociada. Comente.
b) Igual que en a), pero con los datos del ejercicio 5.
Asociado al intervalo de confianza previo se puede disear una dcima para la
pendiente con la siguiente metodologa:
1) HO: = O
2) Ha: < O > O O (una o dos colas).
3) Seleccionar el nivel de significacin y determinar la regin crtica o regin de
rechazo para:
Ho; RC
v n- 2
: T -t T t
T -t 2 T t 2
4) Calcular
b - 0
s S xx
5) Si t cae en RC concluir que se rechaza HO; si t no cae en RC, no se puede
rechazar HO, o sea que no difiere significativamente de O.
Ejemplo: Usando los datos de los puntajes determinar si existe una relacin lineal entre
los puntajes en la admisin y en matemticas sabiendo que b 0.77.
1) HO: = 0 (no hay relacin lineal)
2) Ha: O (existe alguna relacin lineal)
3) = 5%
T : T t 0.025 T t 0.025
v 8 grados de libertad
RC
17
b - 0
0.77
t
4)
b S xx S y y
V A
2 xi
ns xx
A - 1
T
s
ns xx
2
i
ns xx
Donde
t /2
v n 2
18
b)
HO: 1 = 5
Ha: 1 > 5
Ejercicio 9. Usando los datos de la pgina 1:
a) Hallar un intervalo de confianza al 95% para el intercepto 1.
b) Contraste con el nivel de significacin del 10% las hiptesis:
HO: 1 = 40
Ha: 1 40
Intervalo de confianza para la respuesta media a un nivel fijo de entrada X 0
Sabemos que E(Y) = +X y que si X=X 0 entonces E Y Xo Xo es estimada
mediante el estadgrafo Y A BXo as
E Yo E A BXo Xo E Y Xo
Con el estadgrafo
o E Y Yo
Y
s 1 n x 0 x sxx
2
t /2
n2
E Y Xo 1 x o Y
79.28 6.55
1 50 46
10
2.474
o sea
72.73 E Y 50 85.83
En el 95% de las veces cuando los estudiantes obtienen un puntaje 50 en la admisin
se espera obtendrn un puntaje entre 72.73 y 85.83 en matemticas.
PROBLEMAS SELECCIONADOS
En los siguientes problemas:
a)
Dibuje el diagrama de dispersin y observe si existe una relacin lineal entre las
variables.
b)
2
c) Calcule a s , e intrprete el significado de s de acuerdo al contexto del problema.
d) Determine el intervalo de confianza del 96% para . Interprete.
e)
f)
g)
i)
Pruebe una hiptesis con respecto a una respuesta media y con respecto a una
sola respuesta. Interprete en el contexto del problema.
c) Ajuste una recta de mnimos cuadrados a los datos. Represente la recta y los
2
puntos. Compare la grfica con la recta y los valores de r y r calculados.
Tasa de aplicacin, x
Porcentaje eliminado, y
a)
2
50, 56, 48
3
63, 69, 71
4
86, 82, 76
5
94, 99, 97
2
b) Calcule el coeficiente de determinacin r e interprtelo.
c)
d)
21
a)
b)
c)
22
COCLUSIONES
RECOMENDACIONES
REFERENCIAS BIBLIOGRFICAS
D.A. Lind, R.D. Mason, W.G. Marchal (2001): Estadstica para Administracin y
Economa.
Ed. Irwin McGraw-Hill.F.
Kvanli, A. Introduction to Business Statistics South-Western
23
CUESTIONARIO
1. Qu es regresin y correlacin Lineal? Son dos tcnicas estrechamente
relacionadas y comprenden una forma de estimacin, comprende el anlisis de
los datos mustrales para saber que es y como se relacionan entre s dos o ms
variables en una poblacin.
2. Qu comprende la regresin lineal simple? Comprende el intento de
desarrollar una lnea recta o ecuacin matemtica lineal que describe la reaccin
entre dos variables.
24
5. Que es la regresin mltiple? Existe solo una variable dependiente, pero hay
dos o ms tipo independiente esta operacin al desarrollo de una ecuacin que
se puede utilizar para predecir valore de y, respecto a valores dados de la
diferencia variables independientes adicionales es incrementar la capacidad
predicativa sobre la de la regresin lineal simple.
6. Que significa el trmino correlacin? Significa relacin mutua, ye que indica
el grado en el que los valores de una variable se relacionan con los valores de
otra.
7. Se considera tres tcnicas de correlacin las cuales son: 1. uno para datos
de medicin, 2. otro para datos jerarquizados y 3. el ltimo para clasificaciones
nominales.
8. Cules son las dos variables en un coeficiente de correlacin? 2 variables
Y e X que sea independiente de sus respectivas escalas de medicin.
9. Cul es el valor de inicio de una variable? Valor de X
10. Cul es el valor final de una variable? Valor de Y
25