Está en la página 1de 62

Regresin Lineal y Correlacin 1

MEN
Ejemplo 1: Caso de Ambas variables Aleatorias.
La Lnea de Regresin Estimada
Las Hiptesis y la Prueba.
La Correlacin.: Ejemplo 2.
Ejemplo 3: Caso en que X es un Factor.
Anlisis de la Varianza Completo.
Ejemplo 4. Caso en que X se determina (Anualidades)
Regresin con variables Indexadas.

Abrir la HER con los ejemplos y ejercicios.

Manuel Pontigo Alvarado


ISBN 978-9968-9634-3-5.
Objetivos
2

La concomitancia de variables siempre ha intrigado al


investigador, llevndolo a buscar una explicacin lgica a esta
asociacin entre variables, que muchas veces es fortuita.
Siempre ha sido la emulacin matemtica de fenmenos
una manera lgica y muy aceptada para explicar la
naturaleza de las relaciones.

Para estudiar un fenmeno de concomitancia, interesa


conocer la funcin matemtica que explique la relacin.

Y tambin, saber con qu precisin y confiabilidad se puede


predecir el valor de una variable.

Los Mtodos de Regresin y Los Mtodos de Correlacin son las


Tcnicas Estadsticas para lograr los dos objetivos anteriores.
2
El Mtodo de la Regresin 3

Es la Tcnica Estadstica desarrollada para estudiar


la mejor relacin funcional.
Suele aplicarse en:
Tcnicas de Muestreo;
Anlisis de Experimentos;
O simples exploraciones estadsticas.
Slo es indispensable que la variable de Inters sea
de naturaleza aleatoria.
4

El Mtodo de la Correlacin
Es la Tcnica Estadstica para medir el grado y la naturaleza de la
asociacin de las distintas variables.
Suele aplicarse en:
Tcnicas de Muestreo;
Anlisis de Experimentos;
O simples exploraciones estadsticas.
Para esto, es insoslayable que todas las variables sean de naturaleza
aleatoria.
Usualmente, en los estudios por muestreo tanto la variable Dependiente Y
como (rango de la funcin) la variable Independiente X (dominio de la
funcin) son de naturaleza aleatoria. Es estos casos, Los Mtodos de
Regresin y de Correlacin son alternativas de anlisis vlidas.
5

Problema de Regresin Segn Galton.

Galton bautiz la tcnica de prediccin mediante el modelo


lineal simple haciendo una anlisis de algo ms de mil
observaciones de las estaturas de los padres variable X, y de
los hijos, variable Y. En teora la relacin debera ser muy
prxima a 1; en el anlisis, obtuvo una pendiente de 0,516,
concluyendo. La estatura de los hijos sufre una Regresin
a la Mediocridad con respecto a la estatura de los hijos. De
este resultado se adopt el nombre.

Con este nombre se ha desarrollado toda una tcnica


estadstica que se utiliza en exploraciones mediante el
muestreo, en la deduccin del efecto de factores en la
experimentacin planificada y el proyeccin de futuros con
gran xito.
6

El Modelo de Regresin
La relacin funcional lineal ms simple se puede aproximar
mediante el modelo:

yi b0 b1 xi
En este:
yi es la el valor de variable de inters en la -sima observacin,
obligadamente de naturaleza aleatoria. En matemtica El Rango de la
funcin.
bo Interceptada y b1 o Pendiente, son los parmetros que definen la
funcin lineal;
xi es el valor de la variable concomitante de la -sima observacin. No
necesariamente ser de naturaleza aleatoria. En matemtica El
dominio de la funcin.
7

Caso de Ambas Variables Aleatorias.

Usualmente, en los estudios por muestreo tanto la variable Dependiente Y


como la variable Independiente X son de naturaleza aleatoria. Es estos
casos, Los Mtodos de Regresin y de Correlacin son alternativas de
anlisis vlidas.
Problema:
Galton bautiz la tcnica de prediccin mediante el modelo lineal simple
haciendo una anlisis de algo ms de mil observaciones de las estaturas
de los padres variable X, y de los hijos, variable Y. En teora la relacin
debera ser muy prxima a 1; en el anlisis, obtuvo una pendiente de
0,516, concluyendo. La estatura de los hijos sufre una Regresin a la
Mediocridad con respecto a la estatura de los hijos. De este resultado se
adopt el nombre.
Un profesor pidi a sus estudiantes recopilaran muestras de estaturas de
padres e hijos varones para emular el estudio de regresin de Galton.
8

El Diagrama de Dispersin

Diagrama de Dispersin El punteo de datos en un plano


cartesiano se conoce como
1,90
Diagrama de Dispersin.
Estatura de los hijos m

1,85
1,80

1,75
Pendiente = 0,55 m
Ordenando los datos
1,70 ascendentemente y tomando
1,65
como base la estatura de los
1,60
1,55 padres. Usando el Grfico X, Y
1,50 de la HE y acomode a mano
1,40 1,50 1,60 1,70 1,80 1,90

Estatura de los padres m


alzada una lnea que ajuste de
manera aproximada los datos.
Obtendr un diagrama
parecido al siguiente.
La pendiente se puede calcular a
partir del grfico usando la yi 1 yi 1,670 1,615
b1 0,55
frmula: xi 1 xi 1,60 1,50
9

La Pendiente
La Pendiente, es sin duda, el indicador ms importante de la relacin
funcional entre dos variables.
Indica el Incremento o Decremento de la variable Y (rango) a un
Incremento o Decremento unitario de la variable X (dominio).
El estimado de la pendiente b1 = 0,55 indicar al investigador que en
promedio, un metro en el aumento de la estatura de los padres se
reflejar en en los hijos en promedio 0,55 metros.
En este ejemplo, un incremento en la estatura de los padres se refleja
en un incremento en la estatura de los hijos, por tanto, la relacin es
positiva.
Habr otros problemas en los que un incremento en la variable X se
traduzca en decrementos de la variable Y, entonces la relacin ser
negativa.
10

Obteniendo el modelo con la


Hoja Electrnica.
Definitivamente, para aproximar resultados de manera ms
confiable es preferible utilizar una estructura firme, por
ejemplo el modelo matemtico de la Regresin Lineal Simple:

yi b0 b1 xi
La Interceptada es b0, La Pendiente es b1, yi la estatura del -
simo hijo; xi la estatura del -simo padre. Que la HE calcula
directamente para cada uno de los parmetros dando por
resultado el modelo:

y i 0,8581 0,4885( x i )
11

La Lnea de Regresin Estimada.


Lnea de Regresin
Con tal modelo se estima la
1,90
lnea de regresin qu se
Estatura de los hijos en m

1,85
1,80
1,75
acomoda de maneta tal que
1,70
1,65
aproxima al diagrama de
1,60
1,55
dispersin de los a los datos.
1,50 Esta se puede observar en el
1,45
1,45 1,55 1,65 1,75 1,85 1,95 grfico como una lnea sobre
Estatura de los padres en m
una serie de puntos de color
fucsia.
Esta lnea que Mejor Ajusta Los Datos posee cualidades muy
deseables en un modelo de aproximacin y prediccin que se
irn desvelando a medida que se avance en el tema.
12

Es la lnea de mejor ajuste?


12

En el grfico anterior es notorio que hay diferencias entre la


lnea estimada y los puntos observados. Si se supone que la
lnea es un promedio de las estaturas de los hijos para cada
una de las estaturas de los padres muestreadas, debe
cumplirse que la suma de las diferencias de los valores
observados menos los esperados es cero, esto es:
n
d y i 0,8581 0,4885( x i ) 0
i 1

Proposicin que se cumple segn la prueba prctica de la


HE. Si esto ocurre, la suma de cuadrados de d2i =ser
mnima, con un valor de:
n

i 0,1866
d 2

i 1
13

Estadstica Descriptiva.
13

Ambas variables son de naturaleza continua y adems


aleatorias, por tanto, se puede interpretar la estadstica
descriptiva en ambas.
Estadsticos Padres Hijos
Media 1,69 1,68 En este momento, de especial
Error tpico
Mediana
0,0014
1,69
0,0009
1,68
inters es la suma de
Moda 1,67 1,62 cuadrados agregada. Se
Desviacin estndar 0,1225 0,0762
Varianza de la muestra
0,0150 0,0058 requiere para efectuar
Suma de Cuadrados 1,26
Curtosis -1,04
0,49
1,68
comparaciones de variacin
Coeficiente de asimetra
-0,19 0,21 importantes para comprender
Rango 0,43 0,35
Mnimo 1,45 1,52
la justificacin terica del
Mximo 1,88 1,87 potencial de la regresin en la
Suma 143,36 142,97
Cuenta 85 85 estimacin estadstica.
14

Las Sumas de Cuadrados


14

De la misma variable Y se tienen dos sumas de cuadrados o


varianzas. Las usuales de las estadsticas descriptivas que
llamaremos Suma de Cuadrados de Y o Suma de Cuadrados
Total, definida por:
SCY n 1 SY2 85 1 0,0058 0,4872

Y la obtenida de las diferencias cuadrticas de los valores


observados con respecto a los valores esperados que se
identificarn como Suma de Cuadrados del Error:
n
SCE d i2 yi b0 b1 xi 0,1866
2

i 1

No son iguales!, entonces en donde est la suma de cuadrados


faltante?
La Suma de Cuadrados de la Regresin.
15

Se considerar que existe una fuente de variacin adicional


y se supondr que proviene de la relacin entre la variable
Y con la variable X. De esta manera se puede establecer la
siguiente relacin:
n n

yi y SCR yi b0 b1 xi SCT SCR SCE


2 2

i 1 i 1

De la ecuacin anterior denominada Ecuacin de las Sumas


de Cuadrados y resolviendo para SCR se obtiene que:
n
SCR b 1
2

ix x 2
0,4885 2
1,2595 0,3006
i 1

La Suma de Cuadrados de Regresin resuelve La Ecuacin


de la Suma de Cuadrados fundamental, esto es:
SCT SCR SCE ;
0,4872 0,3006 0,1866
16

Las varianzas o Cuadrados Medios

Cada una de las sumas de cuadrados divididos por sus


respectivos grados de libertad son respectivamente: la
Varianza Total, La Varianza de Regresin y La Varianza del
Error, llamados Cuadrados Medios.
Por razones que se vern ms adelante, la atencin debe
ponerse en los siguientes cuadrados medios:
El Cuadrado Medio de Regresin cuyo origen de
variacin es conocido, en el ejemplo la parte gentica del
aporte de los padres a la estatura de los hijos;
Y El Cuadrado Medio del Error cuya fuente es
desconocida o no interesa discernir.
17

La Hiptesis y La Prueba
Interesa conocer si las dos componentes de variacin total son iguales. Esto
es:
Ho; C. M. De Regresin = C. M. Del Error.
La Teora Estadstica desarroll una prueba para valorar dos varianzas
mediante cociente llamado de F. Esto es:
S R2 SCR (c 1)
F( GLR ; GLE ) 2
S E SCE (n 2)
Evidentemente, s F = 1 las varianzas sern iguales, cuando el nmero de
observaciones es alto. Para compensar esto, se ha desarrollado la funcin de
densidad de F que considera los grados de libertad. En el ejemplo el valor
calculado de F:
0,3006 1 0,3006
F(1; 83) 133,6997
0,1866 83 0,0022

La funcin de densidad de F(133,7;1;83) = 0,000.. Indica la probabilidad de que


ambas variables sean iguales.
18

El Cuadro del ANDEVA


Se ha venido trabajando con la finalidad de mostrar en un cuadro
sinptico el resumen de las fuentes de variacin que componen el
comportamiento de una variable aleatoria bajo la influencia de un
Factor.
Otra manera de expresarlo sera:
El ANDEVA es un resumen de las variaciones involucradas en el anlisis
de poblaciones cuando se utiliza un modelo lineal. En todo caso, el
sistema se utiliza para probar hiptesis estadsticas.

Origen de Suma de Grados de Cuadrado EstadsticoProbabiulidad Valores Crticos


la variacin Cuadrados Libertad Medio F para F P(0,05) P(0,01)
Total 0,4872 84 0,0058
De Regresin 0,3006 1 0,3006 133,6997 5,6E-19 3,9560 6,9505
Del Error 0,1866 83 0,0022
19
Clculos para El ANDEVA: Clculo de estadsticos.

Aun cuando es poco probable que tenga que efectuar los


clculos para el anlisis de la varianza sin un equipo de
computacin, es conveniente que sepa que clculos debe
considerar para efectuar una anlisis manual.

De Y De X Productos XY
Nmero 85
Suma 142,97 143,36
Promedio 1,6820 1,6866
Corrector por la media 240,4755 241,7893 241,1315
Sumas Cuadraticas 240,9627 243,0488 241,7468
Sumas de Cuadrados 0,4872 1,2595 0,6153
Pendiente 0,4885
Interceptada 0,8581
20
Cuadro de la varianza o ANDEVA

Como se mencion con anterioridad, el investigador decide la


probabilidad de significacin para la prueba. Si la
probabilidad del cociente de F es igual o menor al nivel de
significacin o si el valor del estadstico F es igual o mayor al
criterio de F elegido deber rechazarse la hiptesis nula que
dice que no hay relacin entre las variables X e Y. Se ofrece un
ANDEVA con ms informacin.
Cuadro de ANDEVA completo
Fuente de la Grados de Sumas de Cuadrados Cociente de Probabilidad Valores Crticos de F
Variacin Libertad Cuadrados Medios Fc. de F P < 0,05 P < 0,01
Regresin 1 0,3006 0,3006 133,6997 5,578E-19 3,9560 6,9504
Error (o Residual) 83 0,1866 0,0022
Total 84 0,4872
Promedio de Y 1,6820
Desvo Estndar 0,0474
Coeficiente Variacin 2,82%
Coeficiente Determinacin 61,70%
21
Prueba de Hiptesis sobre la Interceptada
En ocasiones, el coeficiente de la Interceptada tiene poca utilidad
deductiva e inductiva, como es el caso, pues indica que cuando el padre
mida 0 metros el hijo medir 0,8581 metros. Siempre se reporta en el
ANDEVA de regresin los elementos para valorar la hiptesis nula:
Ho; B0 = 0. Contra Ha; B0 0
En palabras: establecer que la lnea de regresin pasa por 0 cuando la
variable independiente tiene valor 0. Los estimadores de la regresin se
aglomeran sobre los parmetros con una distribucin normal.
Usualmente, se utiliza la Distribucin de t de Student para
aproximarse considerando los grados de libertad para la prueba. El
estadstico tc se obtiene con la siguiente frmula:
b0 0,8581 0,8581
tc 12,0113
Sb0 1 x 2
1 1,6866
SE 0,0474
n SCX 85 1,2595

Valor que determina una probabilidad de 0,000. De que B0 sea cero.


22
Intervalo Confiable para la Interceptada

Como una ampliacin de la prueba de t se obtiene el


intervalo de confianza para la interceptada.

Prb0 t ( 0, 05;83) S bo B0 b0 t ( 0, 05;83) S b 0 0,95


Pr 0,8581 1,989 0,0714 B0 0,8581 1,989 0,0714 0,95
Pr 0,7160 B0 1,0002 95%

Se reitera que en este caso, la interpretacin el valor de la Interceptada


no siempre permite conclusiones lgicas. No obstante, siempre se
ofrecen los lmites confiables como marcos de referencia para estudios
similares.
En el ejemplo se espera que el Parmetro B0 se encuentre entre 0,72 y
1,00 metros en 19 de cada 20 ensayos, cuando los padres tengan altura
0. Galton encontr 0,84 metros, por tanto, los resultados son
consistentes.
23
Prueba de Hiptesis sobre la Pendiente

Sin duda, el parmetro importante en la regresin es la pendiente. Para una


sola variable X la probabilidad de Fc del ANDEVA es idntica a la que se
obtiene usando una prueba de t para valorar la hiptesis:
Ho; B1 = 0. Contra Ha; B0 0.
En Palabras: probar que no hay relacin entre Y y X. La tc se obtiene
mediante:
b1 0,4885 0,4885
tc 11,5629
S b1 S E 0,0474
SCX 1,2595

Valor que determina una probabilidad de 0,000.. De que B1 sea cero. Existe
una relacin entre la estatura de los padres y la estatura de los hijos.
Puede comprobar que elevando al cuadrado esta t obtiene el valor de la F.
24
Intervalo de Confianza para la Pendiente

En un anlisis de Regresin, es insoslayable que se presente el


intervalo confiable para la Pendiente B1. En este caso, para
ejemplificar se usar un intervalo confiable de 99%

Pr b1 t ( Sb1 ) 1 b1 t ( Sb1 ) 1
Pr 0,4885 - 2,6364 0,0422 1 0,4885 2,6364 0,0422 95%
Pr 0,3771 1 0,5999 95%

Se espera que el verdadero parmetro de la Pendiente se encuentre entre


valores que van desde 0,38 hasta 0,60 metros por cada metro en la estatura
de los padres con una probabilidad del 99%. Galton encontr, 0,516
unidades de estatura en los hijos por unidad paterna. Estos resultados son
consistentes.
25

Bandas de Confianza
Dado que la lnea de regresin cubre una infinidad de puntos yi
asociados con cada xi los intervalos de confianza se estiman en
todo el recorrido de la lnea de regresin. En el plano
cartesiano parecen bandas a ambos lados de la lnea estimada.
Se acostumbra presentar dos tipos de intervalos confiables:
Para promedios, que el Teorema Central del Lmite asegura que
siempre sern vlidos si se cumple que la variable Y se
distribuya normal o se trabaja con promedios;
Y para observaciones, vlidos nicamente si la distribucin Yi
(Rango) es normal en cada punto Xi (del dominio).
En las siguientes diapositivas se ofrecen las frmulas y
resultados.
26

Bandas de Confianza para Promedios


Los intervalos de confianza para promedios, estiman como se
espera, promedios de la variable Y promedio de estaturas
de los hijos en cada punto X estatura de los padres .
Se acostumbra presentarlos en todo el recorrido de X, esto es
desde la estatura ms baja de 1,45 hasta la mayor de 1,88 a
espacios regulares. Se obtiene aplicando la siguiente frmula
en cada punto.

Pr y i t ( ; n -2) S yi Yi y i t ( ; n -2) S yi 1

En donde la Desviacin Tpica para cada punto xi es:


1 xi x 1 1,45 1,6866
2 2
S yi S e 0,0474 0,0112
n SCX 85 1,2595
Pr1,56 Yi 1,58 1
La estimacin se presenta ms adelante.
27
Bandas de Confianza para Observaciones.
Los intervalos de confianza para observaciones, estiman valores de
individuos de la variable Y estatura de los hijos en cada punto
X estatura de los padres . Se procede igual que con los
promedios, en el recorrido de X. Debe hacerse hincapi que la
extrapolacin, esto es, ir ms all del recorrido de X, debe tomarse
con cuidado en ambas bandas de confianza.

Pr y i t ( ; n -2) S y Yi y i t ( ; n -2) S y i 1
i

Y en donde la Desviacin Tpica en cada punto xi es:


1 xi x 1 1,45 1,6866
2 2
S S 1
yi e 0,0474 1 0,0487
n SCX 85 1,2595

La estimacin se presentar ms adelante. Se ejemplifica con


la estatura del padre de 1,45:
Pr1,57 - 1,989 0,0487 Y(1,45) 1,57 1,989 0,0487 95%
28
Tabla de Bandas de Confianza 95%
La tabla de valores estimados muestra que los intervalos de confianza
para los promedios se estiman ms prximos a la lnea de regresin
mientras los intervalos confiables para las observaciones son ms amplios.
Puesto que las estaturas se distribuyen normales, los valores extremos
sern menos frecuentes, situacin que se refleja en bandas de confianza
ms amplias en los extremos.
N Valor de X O. Inferior P. Inferior Y Estimado P. Superior O. Superior
1 1,45 1,51 1,56 1,57 1,58 1,62
2 1,50 1,54 1,58 1,59 1,60 1,64
3 1,55 1,56 1,61 1,62 1,62 1,66
4 1,60 1,59 1,63 1,64 1,65 1,69
5 1,65 1,61 1,66 1,66 1,67 1,71
6 1,70 1,64 1,68 1,69 1,69 1,74
7 1,75 1,66 1,71 1,71 1,72 1,76
8 1,80 1,68 1,73 1,74 1,74 1,79
9 1,85 1,71 1,75 1,76 1,77 1,81
10 1,90 1,73 1,78 1,79 1,80 1,83
11 1,95 1,76 1,80 1,81 1,82 1,86
12 2,00 1,78 1,82 1,84 1,85 1,88
29
Grfico de las Bandas de Confianza.

Bandas de Confianza
1,90 Generalmente, el Anlisis
1,85
de Regresin Concluye con
Estatura de los hijos en m

1,80

1,75 este grfico.


1,70

1,65

1,60
La lnea central
1,55 corresponde a los valores
1,50
1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 2,00 estimados. Sobre estos se
calculan los lmites de
Estatura de los padres en m

O. Inferior P. Inferior Y Estimado P. Superior O. Superior


confianza para cada x.
Los ms prximos corresponden a los intervalos de confianza para
los promedios. Los ms alejados sern los intervalos de confianza
para los valores individuales. As, el promedio de estatura de los
hijos varones de una familia se estima con las bandas ms estrechas.
Una estatura individual se estimar con las bandas ms amplias.
30

La Correlacin
Para poder ofrecer conclusiones mediante anlisis de
correlacin, es insoslayable que las variables involucradas
sean de naturaleza aleatoria. Esto no impide, por ejemplo,
calcule la correlacin entre niveles de fertilizante aplicados a
una planta y el rendimiento, o las ventas y el costo del
producto de las mismas de una empresa en una serie de aos.
Ser incorrecto que reporte por ejemplo que la correlacin
entre ventas y aos es significativa, puesto que los aos no son
una variable aleatoria, para estos casos se usa la regresin.
Ambos coeficientes, el de correlacin y el de regresin estn
ntimamente relacionados, pero su uso es diferente.
31

El Ejemplo de Correlacin
El ejemplo consiste en agregar un nuevo conjunto de
85 observaciones que incluye el peso de padres e hijos
varones.
Todas las variables X1 = La Estatura de los Padres; X2
= El Peso de los Padres; X3 = La Estatura de los hijos;
X4 = El peso de los hijos son de naturaleza aleatoria.
El Objetivo del anlisis:
Conocer las relaciones entre las variables
mencionadas en un estudio gentico de peso y estatura
entre hijos y padres varones.
32

Definicin de Correlacin
La correlacin mide la relacin concomitante entre dos
variables aleatorias. Esta definida por la ecuacin:
n

x y
i 1
i i

S xy n 1

Sx Sy n n

xi x
i
2 2
y y
i 1 i 1

n 1 n 1

Es el cociente de la coovarianza dividida por las desviaciones


estndar de las varianzas. Un indicador que corre de 1 cuando
una variable disminuye mientras la otra aumenta hasta +1
cuando una variable aumenta mientras la otra tambin lo hace
y 0 cuando no hay relacin entre las variables.
33

El Clculo de los Coeficientes


Los coeficientes de correlacin se pueden obtener aplicando,
para cada par de variables la frmula de la diapositiva anterior,
solicitndolo a la HE por cada par de variables la opcin
CORRELACION(Y;X) u operando el algoritmo de Coeficiente
de Correlacin de la HE. Por ser ms comn y simple, se usar
este ltimo con los resultados mostrados en el cuadro.

X1 = E. Padres X2 = P. Padres X3 = E. Hijos X4 = P.Hijos


X1 = E. Padres 1,0000
X2 = P. Padres 0,5169 1,0000
X3 = E. Hijos 0,7831 0,4435 1,0000
X4 = P.Hijos 0,1893 0,1252 0,3458 1,0000
34

Estadsticos para la prueba


Segn la definicin, entre ms se acerque el coeficiente de correlacin a 1-1
mayor ser la relacin funcional ente las variables. Sin embargo, es necesario
usar una prueba estadstica de significacin. Por la relacin que tiene con el
coeficiente de regresin, el estimador muestral del coeficiente de correlacin
se distribuye alrededor del parmetro con una distribucin normal o como
una t de Students con n-2 grados de libertad. Ejemplificando con la
estatura y peso del padre:
r n2 0,4250 85 2
t ( n2) 4,2770
1 r 2
1 0,4250 2

O como una F(1; n 2) en donde el coeficiente de correlacin r se transforma en


el coeficiente de determinacin r2.

r 2 n 2
F(1; n -2)
1 r 2
35

Valorando la Hiptesis
La hiptesis que se valora para el coeficiente de determinacin es:
Ho; 0 : Contra Ha : 0
Los estadsticos t o F se valoran directamente utilizando la funcin de
densidad de la HE que indicar la probabilidad que va del punto
determinado por el valor del estadstico a mas infinito. Dicho de otra forma,
la probabilidad de la zona de rechazo. Para la t:
831

2
4,2770 2
F (4,2770; 83) Y0 1 dt 0,0001
0
83
O para F:
Fc 14,989
F (18,2927;1 ; 83) f ;1 ; 83 df 0,0001
0
0,819
Se puede usar el mtodo antiguo de cuando no se contaba con la facilidad de
la HE comparando el valor del estadstico contra el valor que determina una
probabilidad de significacin definida, por ejemplo 0,05. Para t = 1,9890 y
para F = 3,9560 y tomado la decisin de rechazar la hiptesis si los
estadsticos son mayores o iguales a los criterios.
36

Los Clculos y las Pruebas

La prueba completa indica relaciones significantes en las correlaciones


sealadas con negrilla.
37

Interpretacin de los Resultados


La interpretacin de los resultados es simple:
La talla de los padres se relaciona significativamente en:
r = 51,69% con el peso de los mismos;
r = 78,31% con la talla de los hijos y;
r = 33,35% con el peso de los hijos.
El peso de los padres con:
r = 44,35% con la talla de los hijos;
Pero no con el peso de los hijos.
Y finalmente, la estatura de los hijos;
r = 40,57% con el peso de ellos mismos.

Notar que todas las relaciones son positivas, esto significa


que al aumentar una aumenta concomitantemente la otra.
38
Relacin con el Coeficiente de Regresin.

Si se estuviera interesado en obtener un Modelo de Regresin bastara


conocer el promedio y la desviacin estndar de la o las variables de
inters. Por ejemplo: Estimar la estatura con el peso de los padres.
Aplicando la ecuacin:
Sy 0,1256
b1 r 0,4250 0,0043
Sx 12,5115

Para aproximar la estatura de los padres conociendo el peso, a


aplicando el modelo de regresin alternativo:

yi y b1 ( xi x ) 1,6735 0,0043( xi 71,8094)

La relacin viceversa es uso menos frecuente:


Sx 12,5115
r b1 0,0043 0,4250
Sy 0,1256
39
10.39 Caso en que X es un Factor.

Planteamiento del problema en donde X es un factor


En la Experimentacin Planificada, el investigador mantiene un control estricto
sobre los tratamientos aplicados a unidades experimentales, la relacin
funcional del Factor X (dominio de la funcin) con la variable Objetivo Y (rango
de la funcin) se espera que sea de naturaleza causal. Esto es, qu produzca
cambios en los sujetos experimentados por efecto de los tratamientos.
Problema:
Una investigacin estaba interesada en valorar la densidad de siembra sobre el
rendimiento de una variedad de tomatillo (Phisalis). Se analizaron 5 distancias
entre surcos sobre 12 repeticiones.
La hiptesis nula se plante de la siguiente manera:
Ho; La densidad de siembra no afecta el rendimiento del tomatillo.
El inters en la investigacin es determinar la relacin entre rendimiento o
variable Y a diferentes densidades de siembra X, un Factor aplicado a 5 niveles
predeterminados 45, 60, 75, 90, 105 centmetros entre surcos, que se considera,
causar diferencias en el rendimiento del sujeto experimentado, El Tomatillo.
40
Propiedad de los Polinomios Mnimos

Cuando las facilidades de clculo eran restringidas a reglas de


clculo y sumadoras manuales, se idearon los polinomios
ortogonales para solucionar problemas de regresin. Estos
polinomios tienen la caracterstica de que su suma es cero y la
suma del producto entre dos polinomios tambin deber ser cero.
Un polinomio mnimo para los tratamientos aplicados en el
ejemplo sera:
45 75 60 75 75 75 90 75 105 75
X1 2; X 2 0; X 3 0; X 4 1; X 5 2
15 15 15 15 15

Los clculos se facilitan mucho. Pero la importancia de esta


manera de transformar los niveles de los factores se hace
importante en el anlisis de experimentos mediante modelos
lineales.
41
Los Polinomios de Grado Superior
Para un factor de 5 niveles o tratamientos se requiere un polinomio de
grado 4 para recorrer el espacio muestral mediante una lnea sinusoide
que permita pasar por los diferentes puntos que se puedan crear. Un
polinomio de grado 4 significa un modelo de la forma:
yi y b11i b2 i2 b33i b4 i4 i

En donde cada es un polinomio mnimo de la ponencia de X. Estos


polinomios se obtienen de manera similar a la mostrada en la diapositiva
anterior. Para no preocuparse por minucias se han desarrollado tablas de
polinomios mnimos como la mostrada en la HE_Tablas de donde se estracta
el cuadro aledao.
Tratamiento o Lineal Cuadrtico Cbico Curtico
Nivel de Factor X1 X2 X3 X4
45 -2 2 -1 1
60 -1 -1 2 -4
75 0 -2 0 6
90 1 -1 -2 -4
105 2 2 1 1
42
Las Sumas de Cuadrados por Coeficiente

Acomodando apropiadamente los polinomios a los datos, basta


operar la funcin de fx = PENDIENTE() de la HE para obtener los
coeficientes de regresin y la funcin fx = COEFICIENTE.R2() para
obtener los coeficientes de determinacin. Finalmente se obtienen las
sumas de cuadrados correspondientes a cada polinomio
multiplicando la Suma de Cuadrados Total por el Coeficiente de
Determinacin. La suma de cuadrados para cada polinomio es:
Efecto Lineal: SCX 1 r12 SCT 0,15254 6.560,79 1.000,76
Efecto Cuadrtico: SCX 2 r2 SCT 0,71462 6.560,79 4.688,46
2

Efecto Cbico: SCX 3 r 3


2
SCT 0,00121 6.560,79 7,92
Efecto Curtico SCX 4 r42 SCT 0,01194 6.560,79 78,31
Es evidente que la suma de los efectos independientes hace la
suma de cuadrados de los tratamientos.
t 1
SCF SCT ri 2 1.00,76 4.668,46 7,92 78,31 5.775,44
i 1
43
El Anlisis de la Varianza Completo.
El anlisis de varianza suele presentarse como se muestra a
continuacin:
Fuente de la Grados de Suma de Promedio de Cociente de Probabilidad Valores Crticos
Variacin Libertad Cuadrados los Cuadrados F de F 0,05 0,01
Total 59 6.560,79
Efectos:
Lineal 1 1.000,76 1.000,76 70,0856 0,00000 4,0162 7,1194
Cuadrtico 1 4.688,46 4.688,46 328,3454 0,00000 "" ""
Cbico 1 7,92 7,92 0,5544 0,45969 "" ""
Curtico 1 78,31 78,31 5,4842 0,02284 "" ""
Tratamientos 4 5.775,44 1.443,86 26,25202 0,00000 2,5397 3,6809
Error 55 785,35 14,28

Notar que los efectos significativos se refieren al efecto lineal,


al efecto cuadrtico y el efecto curtico. El efecto cbico no
mostr efectos importantes, el modelo de regresin que estima
los promedios significativos quedar definido por:
yi 27,824 2,8878 X 1i -5,2828 X 2 i 0,3053 X 3i

Se analizar, efecto por efecto:


44
Anlisis del Efecto Lineal

Es importante que el estudiante entienda la respuesta del


sujeto experimental bajo los efectos que integran el modelo
significativo. El primero corresponde al efecto lineal: En el
rendimiento por parcela es ascendente, aumenta de 45 a 105;
pero al llevarlo a Ha el efecto se invierte y curva por efecto de
la densidad (Recuerde que interesa el rendimiento por Ha).
Efecto Lineal

105
Tratamientos

90

75

60

45

0,0 10,0 20,0 30,0 40,0


Kilos por parcela
45
Anlisis del Efecto Cuadrtico

El Efecto cuadrtico indica que el rendimiento tiende a ser


mayor hacia el tratamiento de una distancia entre surcos de
75 cm., al extrapolar a rendimiento por hectrea, el
rendimiento se mayor se desplaza hacia una distancia entre
surcos de 60 centmetros.
46
Anlisis del Efecto Cbico.
Aun cuando el efecto cbico no se mostr a niveles
significativos es conveniente que el estudiante observe la
tendencia de este y piense en la interrogante: La variable de
rendimiento por hectrea est determinada por la densidad de
siembra?
47
Anlisis del Efecto Curtico.
El efecto curtico compara los valores intermedios del efecto cuadrtico.
En el rendimiento por parcela el valor ms alto se obtiene con el
tratamiento de 90 cm., de distancia entre surcos. Al llevar el rendimiento
a hectreas, el rendimiento se desplaza a valores de mayor densidad
siendo entonces, el tratamiento de 45 cm., entre surcos el ms
recomendable.

Efecto Cbico ?

105

Distancia entre surcos


90

75

60

45

0 5.000 10.000 15.000 20.000 25.000 30.000

Kilogramos por hectrea


48
Los Promedios Significativos Integrados:

Cada efecto independiente aporta su efecto al modelo integrado. Las


estimaciones de los promedios de rendimiento por parcela par para
cada tratamiento mediante el modelo integrado sern:

Para 45 cm: y1 27,824 2,8878(-2) - 5,2828(2) 0,3053(1) 11,8

Para 60 cm: y 2 27,824 2,8878(-1) - 5,2828( 1) 0,3053(4) 29,0


y1 27,254 0,7652(-2) 1,1658(2) 0,8816(1) 28,9
Para 75 cm: y3 27,824 2,8878(0) - 5,2828(2) 0,3053(6) 40,2
Para 90 cm: y 4 27,824 2,8878(1) - 5,2828(1) 0,3053(4) 34,8
Para 105 cm: y5 27,824 2,8878(2) - 5,2828( 2) 0,3053(1) 23,3

Estos valores debern calcularse para rendimiento por hectrea


mediante la frmula para una parcela de 25 metros de largo:
10.000 ri 4
Ri
Distancia _ Entre _ Surco
Ri es el rendimiento por hectrea y ri el rendimiento por parcela.
49
La Representacin Grfica
La representacin grfica de la prueba de hiptesis utilizando el modelo
significativo elaborado a partir del Anlisis de la Varianza para Modelos
de Regresin mediante polinomios ortogonales es muy ilustrativa
utilizando el grfico apropiado y los datos convenientes. El grfico de la
Izquierda muestra los promedios de kilos de parcela en surcos de 25
metros, el de la derecha los mismos datos llevados a hectreas. Recuerde
que se est trabajando con densidad de siembra. Para obtener el ptimo
el Tomatillo debe sembrarse en surcos de 75 y 90 centmetros entre ellos
dando un poco de ms peso a los datos por parcela. .
50
Conclusin Importante

Paso a paso se ha llegado a una conclusin importante para


los diseos experimentales que usan modelos lineales:

Con la Regresin de Polinomios Ortogonales


se pueden encontrar todos los efectos de un
Factor.
Esto, es trascendental en el anlisis de Experiencias
Planificadas, pues basta aplicar el modelo de regresin
significativo para determinar sin ambigedad, cul o cules
tratamientos han demostrado un efecto importante sobre el
sujeto de la experimentacin, en este ejemplo, El Tomatillo.
51
La Rutina de Clculo Directo en la HE.
La HE tiene una herramienta que permite calcular regresiones mltiples
hasta de 16 variables. Puede comprobar que los resultados son idnticos, fije
su atencin en las probabilidades de F en el anterior y de t en este.

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,9382
Coeficiente de determinacin R^2 0,8803
R^2 ajustado 0,8716
Error tpico 3,7788
Observaciones 60

ANLISIS DE VARIANZA
Fuente de la Grados de Suma de Promedio de Cociente de Probabilidad Valores Crticos
Variacin Libertad Cuadrados los Cuadrados F de F 0,05 0,01
Regresin 4 5.775,44 1.443,86 101,12 0,0000 2,5397 2,5397
Residuos 55 785,35 14,28
Total 59 6.560,79

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%


Intercepcin 27,824 0,4878 57,0357 0,0000 26,8465 28,8017
X1 2,888 0,3450 8,3717 0,0000 2,1965 3,5791
X2 -5,283 0,2915 -18,1203 0,0000 -5,8670 -4,6985
X3 -0,257 0,3450 -0,7446 0,4597 -0,9481 0,4344
X4 0,305 0,1304 2,3418 0,0228 0,0440 0,5666
52
Anlisis de las Toneladas por Hectrea

Se ha venido expandiendo el
rendimiento por parcela a
rendimiento por hectrea. Es
ms conveniente expandir cada
observacin y analizarla para
obtener un modelo significativo
para la variable.

yi 15,125 -0,7133 X 1i - 2,7554 X 2 i


Igualando a 0 y derivando se puede
obtener el punto ptimo: b1 (0,7133)
o -0,1294
2b2 2(2,7554)
Llevndolo a valores de X para
obtener 73 cm. Xo 15 75 0,1294 15 75 73

Calculando 20 para obtener un 2o 12 2 (0.1294) 2 2 -1,983


promedio mximo de 20,682 TM. y o 15,125 0,7133(0,1294) 2,7554( - 1,983) 20,682
53
10.53 Regresin en donde X se determina.

Variable independiente que se hace convencional.


En trabajos de economa es muy frecuente utilizar convencionalmente
directa o indirectamente los aos como variables X. Definitivamente, los
aos estn dados, lo que si es aleatorio es el resultado de las variables Y
consideradas en los anlisis.
En este tipo de estudios los resultados no pueden achacarse estrictamente
al ao, sino qu, ms bien el ao refleja una serie de acontecimientos que
ocurren, y que afectan a las variables Y, pero que no interesa descubrir
por si solos.
Entonces, se toma como referencia la variable determinada como ao,
que puede ser natural de enero a diciembre o eventualmente fiscal, de
octubre a septiembre como se usa en Costa Rica
54

El problema: Regresin lineal con


X determinada.
El departamento de planeamiento prepar para la
junta directiva un programa de inversiones para los
siguientes cuatro aos. Para mostrar lo que se podra
esperar de inversin gubernamental. Decidieron
estudiar el comportamiento del gasto en construccin
pblica Y2 y el monto de la inversin privada Y1 en la
construccin de vivienda no subvencionada por el
gobierno de los ltimos 30 aos.
Decidieron hacer el estudio mediante Regresin Lineal
Simple de las inversiones sobre los aos.
55

La Correlacin
An cuando las correlaciones de los gastos con el ao se
manifiestan positivas y altamente significativas,
estrictamente no se puede hacer referencia a estas pues el
ao no es una variable aleatoria. Por tanto, la nica
correlacin a la que se puede hacer mencin es entre gastos
que es de 0,7139 o 71,39% altamente significativa.

Grados de Libertad 28
Ao I. Vivienda G. Pblico
Ao 1,0000
I. Vivienda 0,8305 1,0000
G. Pblico 0,8159 0,7139 1,0000
Probabilidad de F
Ao 1,0000
I. Vivienda 0,0000 1,0000
G. Pblico 0,0000 0,0000 1,0000
56

Las Tasa de Crecimiento


A partir de los coeficientes de correlacin y las estadsticas
descriptivas se obtienen las tasas de crecimiento:

La Inversin en vivienda crece a una tasa de 3,43 miles por


ao y la inversin del gobierno en 33,43 por ao.
El gasto de una unidad moneda por el gobierno se traduce
en una inversin privada en vivienda en 0,074 miles de
unidades moneda por ao.
Las diferentes tasas de crecimiento, por su magnitud no
permiten deducir, por ejemplo cul crece ms por ao?.
57

Las Tasa Estandarizadas


La estandarizacin permite la comparacin de cualquier conjunto
de variables puesto que transforman los estadsticos a una unidad
comn, adems en un nmero puro. Esta se consigue dividiendo el
coeficiente de regresin por la desviacin estndar de la variable
que se estudia, Y.
La estandarizacin de la tasa de la inversin particular en vivienda
es:
bY 1 3,5336
bZ 1 0,0943
SY 1 37,4567

La estandarizacin de la tasa de gasto de gobierno es:


b 33,4291
bz 2 Y 2 0,0927
SY 2 360,6812

Ha crecido ms la inversin particular que el gasto del Gobierno.


58

Representacin Grfica
Comparacin de Tendencias de Crecimiento

2,00

1,50

1,00
Valores Estndar

0,50

0,00

-0,50

-1,00

-1,50

-2,00
Aos

I. Vivienda G. Pblico

Las lneas del grfico muestran que prcticamente no hay


diferencias entre las tendencias de crecimiento entre las
variables.
59

Indexando las Variables


Observando la tabla de valores estandarizados estimados se
aprecia que las tendencias cambian de signo en 1985. Si se
toma el ndice medio desde 1983 hasta 1987 . Para la Inversin
en vivienda de:
1
I1(19831987 ) 25,0 23.8 7,68 15,45 60,25 26,44
5
Para el gasto del gobierno en construccin:
1
I 2 (19831987 ) 843 550 275 191 113 394,40
5

Dividiendo el ndice medio respectivo por cada valor desde


1986 se consiguen los modelos de regresin:
60

Modelos para los IndiceaI. Vivienda G. Pblico


La tasa de inversin desde 1986 Intersectada -366,6116 -449,8313
de la inversin privada en Pendiente 0,1856 0,2267
Coef. Determinacin 0,5121 0,9069
vivienda ha sido inferior y ms Grados de Libertad 12
errtica que la tasa de gasto en Cociente de F 12,5955 116,9192
Probabilidad F 0,0040 0,0000
construccin del gobierno.
Si la empresa depende de sus
fondos o de prstamos para Indices y Tendencias

invertir en vivienda corre ms 5,0 5,0


4,5 4,5
riesgo que ofrecer sus servicios 4,0 4,0

para el gobierno. 3,5 3,5


3,0 3,0
2,5 2,5

Aun cuando la tasa de 2,0


1,5
2,0
1,5
inversin privada indica que ha 1,0
0,5
1,0
0,5
gastado ms que en 1966 que lo 0,0 0,0
86 87 88 89 90 91 92 93 94 95 96 97 98 99
que gast el gobierno; es Aos
probable que haya aumentado I. Vivienda G. Pblico E.I. Vivienda E.G. Pblico
la competencia por contratos
gubernamentales.
61

Se ha estudiado la Regresin Lineal en sus tres modalidades:


Cuando Ambas Variables X e Y en la relacin son de
naturaleza aleatoria, usualmente obtenidas mediante
tcnicas de muestreo;
Cuando La Variable Independiente X es un Factor
aplicado en una experiencia planificada con modelos
lineales;
Cuando La Variable Independiente X se determina a
conveniencia de la investigacin.
Cualquiera que sea la modalidad, es evidente que la Regresin
Lineal es una poderosa herramienta de anlisis que permite
una sntesis precisa.
62

Para el estudiante que desee profundizar en el estudio de la


Regresin Lineal y aprender sobre las posibilidades de
induccin que poseen los modelos lineales debe estudiar las dos
secciones avanzadas relacionadas con la Regresin:

La Regresin de Modelos no Lineales pero linealizables, en


donde entran la familia de los modelos logartmicos y
exponenciales y los modelos de potencias;

Y la Regresin Lineal Mltiple, una herramienta de eleccin


muy til en el estudio de relaciones entre variables.
Manuel Pontigo A. 2004