Documentos de Académico
Documentos de Profesional
Documentos de Cultura
E10 RLineal R01
E10 RLineal R01
MENÚ
Ejemplo 1: Caso de Ambas variables Aleatorias.
La Línea de Regresión Estimada
Las Hipótesis y la Prueba.
La Correlación.: Ejemplo 2.
Ejemplo 3: Caso en que X es un Factor.
Análisis de la Varianza Completo.
Ejemplo 4. Caso en que X se determina (Anualidades)
Regresión con variables Indexadas.
El Método de la Correlación
Es la Técnica Estadística para medir el grado y la naturaleza de la
asociación de las distintas variables.
Suele aplicarse en:
•Técnicas de Muestreo;
•Análisis de Experimentos;
•O simples exploraciones estadísticas.
Para esto, es insoslayable que todas las variables sean de naturaleza
aleatoria.
Usualmente, en los estudios por muestreo tanto la variable Dependiente Y
como (rango de la función) la variable Independiente X (dominio de la
función) son de naturaleza aleatoria. Es estos casos, Los Métodos de
Regresión y de Correlación son alternativas de análisis válidas.
5
El Modelo de Regresión
La relación funcional lineal más simple se puede aproximar
mediante el modelo:
yi b0 b1 xi
En este:
yi es la el valor de variable de interés en la í-sima observación,
obligadamente de naturaleza aleatoria. En matemática El Rango de la
función.
bo ó Interceptada y b1 o Pendiente, son los parámetros que definen la
función lineal;
xi es el valor de la variable concomitante de la í-sima observación. No
necesariamente será de naturaleza aleatoria. En matemática El
dominio de la función.
7
El Diagrama de Dispersión
1,85
1,80
1,75
Pendiente = 0,55 m
Ordenando los datos
1,70 ascendentemente y tomando
1,65
como base la estatura de los
1,60
1,55 padres. Usando el Gráfico X, Y
1,50 de la HE y acomode a mano
1,40 1,50 1,60 1,70 1,80 1,90
La Pendiente
La Pendiente, es sin duda, el indicador más importante de la relación
funcional entre dos variables.
Indica el Incremento o Decremento de la variable Y (rango) a un
Incremento o Decremento unitario de la variable X (dominio).
El estimado de la pendiente b1 = 0,55 indicará al investigador que en
promedio, un metro en el aumento de la estatura de los padres se
reflejará en en los hijos en promedio 0,55 metros.
En este ejemplo, un incremento en la estatura de los padres se refleja
en un incremento en la estatura de los hijos, por tanto, la relación es
positiva.
Habrá otros problemas en los que un incremento en la variable X se
traduzca en decrementos de la variable Y, entonces la relación será
negativa.
10
yi b0 b1 xi
La Interceptada es b0, La Pendiente es b1, yi la estatura del í-
simo hijo; xi la estatura del í-simo padre. Que la HE calcula
directamente para cada uno de los parámetros dando por
resultado el modelo:
y i 0,8581 0,4885( x i )
11
1,85
1,80
1,75
acomoda de maneta tal que
1,70
1,65
aproxima al diagrama de
1,60
1,55
dispersión de los a los datos.
1,50 Esta se puede observar en el
1,45
1,45 1,55 1,65 1,75 1,85 1,95 gráfico como una línea sobre
Estatura de los padres en m
una serie de puntos de color
fucsia.
Esta línea que Mejor Ajusta Los Datos posee cualidades muy
deseables en un modelo de aproximación y predicción que se
irán desvelando a medida que se avance en el tema.
12
i 0,1866
d 2
i 1
13
Estadística Descriptiva.
13
i 1
i 1 i 1
La Hipótesis y La Prueba
Interesa conocer si las dos componentes de variación total son iguales. Esto
es:
Ho; C. M. De Regresión = C. M. Del Error.
La Teoría Estadística desarrolló una prueba para valorar dos varianzas
mediante cociente llamado de F. Esto es:
S R2 SCR (c 1)
F( GLR ; GLE ) 2
S E SCE (n 2)
Evidentemente, sí F = 1 las varianzas serán iguales, cuando el número de
observaciones es alto. Para compensar esto, se ha desarrollado la función de
densidad de F que considera los grados de libertad. En el ejemplo el valor
calculado de F:
0,3006 1 0,3006
F(1; 83) 133,6997
0,1866 83 0,0022
De Y De X Productos XY
Número 85
Suma 142,97 143,36
Promedio 1,6820 1,6866
Corrector por la media 240,4755 241,7893 241,1315
Sumas Cuadraticas 240,9627 243,0488 241,7468
Sumas de Cuadrados 0,4872 1,2595 0,6153
Pendiente 0,4885
Interceptada 0,8581
20
Cuadro de la varianza o ANDEVA
Valor que determina una probabilidad de 0,000.. De que B1 sea cero. Existe
una relación entre la estatura de los padres y la estatura de los hijos.
Puede comprobar que elevando al cuadrado esta t obtiene el valor de la F.
24
Intervalo de Confianza para la Pendiente
Bandas de Confianza
Dado que la línea de regresión cubre una infinidad de puntos yi
asociados con cada xi los intervalos de confianza se estiman en
todo el recorrido de la línea de regresión. En el plano
cartesiano parecen bandas a ambos lados de la línea estimada.
Se acostumbra presentar dos tipos de intervalos confiables:
Para promedios, que el Teorema Central del Límite asegura
que siempre serán válidos si se cumple que la variable Y se
distribuya normal o se trabaja con promedios;
Y para observaciones, válidos únicamente si la distribución Yi
(Rango) es normal en cada punto Xi (del dominio).
En las siguientes diapositivas se ofrecen las fórmulas y
resultados.
26
Bandas de Confianza
1,90 Generalmente, el Análisis
1,85
de Regresión Concluye con
Estatura de los hijos en m
1,80
1,65
1,60
La línea central
1,55 corresponde a los valores
1,50
1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 1,85 1,90 1,95 2,00 estimados. Sobre estos se
calculan los límites de
Estatura de los padres en m
La Correlación
Para poder ofrecer conclusiones mediante análisis de
correlación, es insoslayable que las variables involucradas
sean de naturaleza aleatoria. Esto no impide, por ejemplo,
calcule la correlación entre niveles de fertilizante aplicados a
una planta y el rendimiento, o las ventas y el costo del
producto de las mismas de una empresa en una serie de años.
Será incorrecto que reporte por ejemplo que la correlación
entre ventas y años es significativa, puesto que los años no son
una variable aleatoria, para estos casos se usa la regresión.
Ambos coeficientes, el de correlación y el de regresión están
íntimamente relacionados, pero su uso es diferente.
31
El Ejemplo de Correlación
El ejemplo consiste en agregar un nuevo conjunto de
85 observaciones que incluye el peso de padres e hijos
varones.
Todas las variables X1 = La Estatura de los Padres; X2
= El Peso de los Padres; X3 = La Estatura de los hijos;
X4 = El peso de los hijos son de naturaleza aleatoria.
El Objetivo del análisis:
Conocer las relaciones entre las variables
mencionadas en un estudio genético de peso y estatura
entre hijos y padres varones.
32
Definición de Correlación
La correlación mide la relación concomitante entre dos
variables aleatorias. Esta definida por la ecuación:
n
x y
i 1
i i
S xy n 1
Sx Sy n n
xi x
i 1
2
iy
i 1
y 2
n 1 n 1
r 2 n 2
F(1; n -2)
1 r 2
35
Valorando la Hipótesis
La hipótesis que se valora para el coeficiente de determinación es:
Ho; 0 : Contra Ha : 0
Los estadísticos “t” o F se valoran directamente utilizando la función de
densidad de la HE que indicará la probabilidad que va del punto
determinado por el valor del estadístico a mas infinito. Dicho de otra forma,
la probabilidad de la zona de rechazo. Para la t:
831
2
4,2770 2
F (4,2770; 83) Y0 1 dt 0,0001
0
83
O para F:
Fc 14,989
F (18,2927;1 ; 83) f ;1 ; 83 df 0,0001
0
0,819
Se puede usar el método antiguo de cuando no se contaba con la facilidad de
la HE comparando el valor del estadístico contra el valor que determina una
probabilidad de significación definida, por ejemplo 0,05. Para t = 1,9890 y
para F = 3,9560 y tomado la decisión de rechazar la hipótesis si los
estadísticos son mayores o iguales a los criterios.
36
105 105
90 90
Tratamientos
Tratamientos 75
75
60 60
45 45
0,0 10,0 20,0 30,0 40,0 0 5.000 10.000 15.000 20.000 25.000
105
105
Tratamientos
Tratamientos
90 90
75 75
60 60
45 45
105 105
75 75
60 60
45 45
26,6 26,8 27,0 27,2 27,4 27,6 27,8 28,0 28,2 28,4 28,6 0 5.000 10.000 15.000 20.000 25.000 30.000
Efecto Cúbico ¿?
Efecto Cúbico (No Significativo)
105
90
90
Tratamientos
75 75
60 60
45 45
26,6 26,8 27,0 27,2 27,4 27,6 27,8 28,0 28,2 28,4 28,6 0 5.000 10.000 15.000 20.000 25.000 30.000
90
75
75
60
60
45
45
0 5.000 10.000 15.000 20.000 25.000
0,0 10,0 20,0 30,0 40,0 50,0 Peso del Tom atillo kilos por Hectárea
Peso del Tom atillo kilos por Parcela
50
Conclusión Importante
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,9382
Coeficiente de determinación R^2 0,8803
R^2 ajustado 0,8716
Error típico 3,7788
Observaciones 60
ANÁLISIS DE VARIANZA
Fuente de la Grados de Suma de Promedio de Cociente de Probabilidad Valores Críticos
Variación Libertad Cuadrados los Cuadrados F de F 0,05 0,01
Regresión 4 5.775,44 1.443,86 101,12 0,0000 2,5397 2,5397
Residuos 55 785,35 14,28
Total 59 6.560,79
Promedios significativos en TM / Ha
Se ha venido expandiendo el
105 rendimiento por parcela a
Distancia enter surcos
La Correlación
Aún cuando las correlaciones de los gastos con el año se
manifiestan positivas y altamente significativas,
estrictamente no se puede hacer referencia a estas pues el
año no es una variable aleatoria. Por tanto, la única
correlación a la que se puede hacer mención es entre gastos
que es de 0,7139 o 71,39% altamente significativa.
Grados de Libertad 28
Año I. Vivienda G. Público
Año 1,0000
I. Vivienda 0,8305 1,0000
G. Público 0,8159 0,7139 1,0000
Probabilidad de F
Año 1,0000
I. Vivienda 0,0000 1,0000
G. Público 0,0000 0,0000 1,0000
56
Representación Gráfica
Comparación de Tendencias de Crecimiento
2,00
1,50
1,00
Valores Estándar
0,50
0,00
70
72
74
76
78
80
82
84
86
88
90
92
94
96
98
4
-0,50
-1,00
-1,50
-2,00
Años
I. Vivienda G. Público