Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad N⺠Viii
Unidad N⺠Viii
UNIDAD VIII
En las unidades anteriores nos centramos en el estudio de una sola variable de respuesta
numérica, como por ejemplo, el ingreso de los empleados, el peso de un grupo de
personas o las ventas de un comercio, donde calculamos o describimos la variable en
estudio a partir de las medidas descriptivas, la probabilidad de que se verifiquen ciertos
eventos, sus distribuciones o modelos teóricos que los definen y estimar ciertos
parámetros poblacionales.
El análisis de regresión se usa con propósito de predicción. Las metas del análisis de
regresión es desarrollar un modelo estadístico a partir de una ecuación que se pueda usar
para predecir los valores de una variable basado en los valores de al menos otra
variable.
y = f(x)
2
independiente, también denominada variable explicativa o regresor. Es importante
identificar cual es la variable dependiente y cual es la independiente en el modelo de
regresión, por ejemplo, supongamos que se desea desarrollar un modelo estadístico que
pueda servir para predecir el ingreso personal en $ de los empleados que trabajan más
de 8 horas diarias en una empresa. Si bien en la práctica para elaborar este modelo
estadístico intervienen varias variables, como ser, capacitación laboral, edad,
antigüedad, puesto laboral, podemos suponer que la antigüedad en años puede ser una
buena variable de predicción. Así, la variable dependiente y, que es la que vamos a
predecir, será el ingreso personal en $ y la variable independiente x, serán los años de
antigüedad.
Utilizamos la correlación para medir la magnitud de una asociación lineal entre dos
variables aleatorias. Para ilustrar esta idea, el siguiente ejemplo muestra el efecto de la
temperatura de operación del proceso sobre el rendimiento del producto.
Temperatura ºC (x) 100 110 120 130 140 150 160 170 180 190
Rendimento % (y) 45 51 54 61 66 70 74 78 85 89
3
Diagrama de dispersión de rendimiento frente a la temperatura
100
90
80
Rendimiento 70
60
50
40
30
20
10
0
90 110 130 150 170 190 210
Temperatura
E(y/x) = α + βx
4
Donde las constantes α y β determinan una recta concreta. Es importante tener
presente que el supuesto de linealidad no puede extenderse fuera del intervalo, ya que al
no disponer de observaciones fuera de este rango el supuesto de linealidad no puede ser
respaldado pudiendo dar conclusiones erroneas.
y i = α + βx i + ε i
n
SC = ∑ (y i - a - bx i ) 2
i =1
n n
∑ (x i - x ) . (y i - y) ∑ x i y i - n x y
i =1 i =1
b= n = n
∑ (x i - x ) 2 ∑ x i2 - n x 2
i =1 i =1
a = y - bx
5
Finalmente, la recta de regresión muestral queda definida:
y = a + bx
La pendiente b es:
n
∑ x i yi - n x y
i =1 (101570) - (10) . (145) . (67,3) 3985
b= n = = = 0,483
(218500) - (10) . (145)2 8250
∑ x i2 - n x 2
i =1
6
normal y aleatoriamente alrededor de la recta de regresión poblacional. Como la
variable dependiente y toma un conjunto de valores para uno específico de x, la
recta de regresión estima el valor promedio de yi, por lo tanto, la recta de
regresión poblacional pasa por la media de aquellos valores de y i en donde xi
toma un valor específico.
2. Variancias iguales de los valores yi. El método de mínimos cuadrados asume que
la variancia en los valores yi es la misma para todos los valores de x i. Este
supuesto se llama homoscedasticidad. Este supuesto se no se verifica cuando se
trabaja con datos de corte seccional, por ejemplo, se desea desarrollar un modelo
de regresión en el cual los ingresos de los consumidores se utilicen para predecir
o explica sus gastos de consumo, consumo = f(ingreso). Si se recolectaran datos
sobre los consumidores en diferentes estratos de ingreso durante un año dado, se
estaría usando datos de corte seccional ya que se incluyeron las observaciones a
través de diferentes estratos de ingresos. Por lo tanto se puede encontrar un
rango muy estrecho en los valores para el consumo en los niveles de bajos
ingresos, mientras que para los consumidores de altos ingresos, la variación en
sus gastos de consumo es mucho mayor. Los valores y i se dispersan más
ampliamente a medida que el ingreso se incrementa. Este supuesto se denomina
heteroscedasticidad.
7
4. Supuesto de linealidad. En un modelo de regresión lineal la relación entre x e y
puede representarse por medio de una recta y se sostiene que a medida que x
cambia y cambia en una cantidad constante.
Coeficiente de determinación.
Una ecuación de regresión puede considerarse como un intento de emplear la
información proporcionada por una variable independiente x para explicar el
comportamiento de una variable dependiente y. Las observaciones de la variable
dependiente presentaran cierta variabilidad en la muestra, por lo tanto nos interesa
conocer que proporción de esta variabilidad puede explicarse por la dependencia lineal
de y sobre x.
Para los valores muestrales, la recta de regresión estimada puede escribirse como:
y i = a + bx i + e i o y i = y*i + e i
( y i - y) = ( y *i - y) + e i
i =1 i =1 i =1
8
El término del lado izquierdo representa la variabilidad total en la muestra de la variable
dependiente en torno a su media y esta puede descomponerse en dos partes, la primera
representa la parte de la variabilidad explicada por la regresión mientras que el segundo
término representa la variabilidad no explicada. Así, a mayor proporción de variabilidad
explicada, mayor capacidad explicativa tiene la regresión.
n
Suma de Cuadrados Total: SCT = ∑ ( yi - y) 2
i =1
n
Suma de Cuadrados de la Regresión: SCR = ∑ ( y *i - y) 2
i =1
n
Suma de Cuadrados del Error (o residual): SCE = ∑ e i2
i =1
SCR SCR
R2 = = 1-
SCT SCT
0 ≤ R2 ≤ 1
9
del valor real de y cuando se utiliza el modelo de regresión para fines predictivos. Si
todos los puntos de datos se situaran perfectamente sobre una recta, la recta de regresión
pasaría por cada uno de ellos, no presentándose errores en los pronósticos y el error
estándar de estimación seria cero.
n
∑ e i2
i =1 SCE
S e2 = =
n-2 n-2
SCE
Se =
n-2
10
Temperatura ºC Rendimento %
y *i ei2 ( y*i - y) 2 ( y i - y) 2
(x) (y)
100 45 45,561 0,3147 472,584 497,29
110 51 50,391 0,3709 285,914 265,69
120 54 55,221 1,4908 145,902 176,89
130 61 60,051 0,9006 52,548 39,69
140 66 64,881 1,2522 5,852 1,69
150 70 69,711 0,0835 5,813 7,29
160 74 74,541 0,2927 52,432 44,89
170 78 79,371 1,8796 145,709 114,49
180 85 84,201 0,6384 285,644 313,29
190 89 89,031 0,0010 472,236 470,89
Total - - 7,224 1924,634 1932,100
SCR
r=
SCT
-1 ≤ r ≤ 1
11
2. Si r = -1 . En este caso la correlación es perfecta negativa y la recta es de
pendiente negativa.
BIBLIOGRAFIA
1. ENCICLOPEDIA DE MATEMÁTICAS
OCEANO Grupo Editorial S.A.
12
2. ESTADÍSTICA
Murria R. Spiegel - Larry J. Stephens
Mc Graw Hill
Año 2002
7. http://es.wikipedia.org/wiki/Wikipedia:Portada
13