Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INGENIERIA INDUSTRIAL
06/02/2019
Contenido
Introducción ......................................................................
.................................................................. 4
La regresión lineal
simple ............................................................................
................................. 5
Antecedentes ......................................................................
.......................................................... 5
Mediciones univaribles, bivariables y multivariables en
estadística .................................. 5
Definición de
R.l.S .............................................................................
............................................... 6
Diagrama de
dispersión ........................................................................
......................................... 6
Tipos de modelos de regresión
lineal ............................................................................
............. 7
Método de mínimos
cuadrados .........................................................................
........................... 8
Interpretación de la pendiente del
modelo ............................................................................
. 10
Suposiciones en la regresión lineal
simple ............................................................................
.. 11
Prueba “t” de independencia entre las variables (significación de la regresión).
....... 13
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del
modelo). .......................... 14
Intervalo de confianza para la ordenada al origen
β1. ........................................................... 15
Intervalo de Confianza para la media µ
y,x . .............................................................................
.. 16
Intervalo de Confianza de predicción para una observación futura
Yi ............................. 16
Análisis residual (gráfico y
numérico). ........................................................................
............. 17
Gráfica de residuales contra
ȳ .................................................................................
............... 19
El coeficiente de
Determinación......................................................................
........................... 20
Cálculo del coeficiente e
interpretación ....................................................................
............... 21
Análisis de
correlación .......................................................................
.......................................... 22
Prueba de hipótesis sobre el coeficiente de
correlación ....................................................... 23
Regresión lineal
múltiple...........................................................................
........................................ 23
Determinación de la
ecuación...........................................................................
................................ 23
Inferencia en
R.L.M .............................................................................
.............................................. 25
Prueba de Significancia para cada coeficiente de la
regresión ......................................................... 28
Estimación de intervalos de confianza para 1
2............................................................................ 30
Predicción de la variable dependiente
y .................................................................................
.......... 31
Coeficiente de determinación
múltiple ..........................................................................
.................. 31
Coeficiente de determinación
ajustado ..........................................................................
.................. 32
Análisis
residuales ........................................................................
..................................................... 33
2
Matriz de
correlación .......................................................................
................................................. 36
Aplicaciones.......................................................................
............................................................ 36
Bibliografía ......................................................................
.................................................................. 38
3
Introducción
Este documento tiene como objetivo servir de soporte
en la parte conceptual de la unidad 1 de la materia
estadística inferencial 2 y así tener un mejor
desempeño a la hora de realizar los ejercicios
correspondientes de esta unidad.
4
La regresión lineal simple
Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos
cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde
desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde
se incluía una versión del teorema de Gauss-Márkov.
Pero bien, como se ha dicho, se puede usar el término lineal para distinguir
modelos
basados en cualquier clase de aplicación.
5
También es necesario hacer una distinción entre la regresión lineal y la regresión
curvilineal (no lineal). En modelo de regresión lineal, la relación entre X y Y
puede
representarse por medio de una línea recta. Sostiene que a medida que X cambia. Y
cambia en cantidad constante. La regresión curvilineal utiliza una curva para
expresar la
relación entre X y Y. Es habitual colocar la variable independiente en el eje
horizontal. La
siguiente figura11.1 (a) sugiere una relación positiva y lineal entre X y Y. Es
positiva
porque X y Y parecen moverse en la misma dirección. A medida que X aumenta
(disminuye).Y aumenta (disminuye).
Definición de R.l.S
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado
para
aproximar la relación de dependencia entre una variable dependiente Y, las
variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un
tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los
valores de
dos variables para un conjunto de datos
Se emplea cuando una o varias variables está bajo el control del experimentador. Si
existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente y
habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La
variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje de
las
ordenadas). Si no existe una variable dependiente, cualquier variable se puede
6
representar en cada eje y el diagrama de dispersión mostrará el grado de
correlación (no
causalidad) entre las dos variables.
β0 y β1 se conocen como los parámetros del modelo, y ε (la letra griega épsilón) es
una
variable aleatoria que se conoce como término del error. El término del error da
cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y
y.
7
A la ecuación que describe la relación entre el valor esperado de y, que se denota
E(x), y x
se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.
donde ε es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el
modelo
de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como
el
valor esperado del error es cero, E(ε)=0 , se puede ver que el valor esperado de la
variable
Y, para cada valor de X , está dado por línea recta
8
En donde β0 y β1 son los parámetros del modelo y son constantes desconocidas. Por
lo
tanto, para tener bien especificada la ecuación que relaciona las dos variables
será
necesario estimar los dos parámetros, que tienen los siguientes significados:
9
Interpretación de la pendiente del modelo
La interpretación de a y b, es análoga a la que comentábamos en el apartado
6.1.3.2, sólo
que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.
10
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en
la
talla, por cada incremento unitario de edad; si la edad está en años, por cada año
aumente la edad.
y*i = a+bxi
11
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante: • La
prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q
(cuantiles)
o P-P(proporciones) (ver explorar) • gráficamente en Analizar-Regresión-
Lineal-
Gráficos . La opción Histograma: añade una curva N(0,1) Gráfico de
Probabilidad
Normal de tipo P-P: Representa las proporciones acumuladas de la variable
esperada respecto a las proporciones acumuladas de la variable observada.
12
Prueba “t” de independencia entre las variables (significación de la
regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están
relacionadas
linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es determinar si se puede
concluir
que 𝛽 1 ≠0. Para probar la hipótesis siguiente acerca del parámetro 𝛽 1 se
emplearán los
datos muestrales.
H0: 𝛽 1 =0
Ha ∶ 𝛽 1≠ 0
Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una
relación
estadísticamente significante. La base para esta prueba de hipótesis la
proporcionan las
propiedades de la distribución muestral de b1, el estimador de 𝛽1, obtenido
mediante el
método de mínimos cuadrados.
13
Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador
insesgado de
𝛽 1.
14
Por lo tanto el estadístico de prueba se define como:
15
Intervalo de Confianza para la media µ y,x .
A veces es conveniente estimar el valor medio o separado de Y para el un valor dado
de X,
tal estimación se hace con el intervalo de confianza:
Al calcular los límites de confianza para los valores de medios, estos se obtiene
para cada
valor de Xo; tales limites serán más estrechos a medida que se aproximan a la
medida de
la variable independiente y más amplios a medida que se alejan de ella, por esta
razón se
obtienen limites llamados bandas de confianza dentro de las cuales queda
comprendida la
recta verdadera para un nivel de significación a.
Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0 dos
valores
extremos y uno intermedio, y se harán las estimaciones por intervalo. Estos
intervalos se
dibujan sobre los diagramas de dispersión uniendo todos los puntos generados por
los
límites inferiores y por otro lado, todos los correspondientes a los límites
superiores.
Cuando se hacen predicciones, estas, más que ser sobre valores medios de Y,
son para valores individuales, por lo tanto el error debido al azar (error de
estimación
16
) es una fuente adicional de variación, por ello la varianza se ve
aumentada y el
donde
17
Este modelo indica que se supone que las ventas trimestrales (y) son función lineal
del
tamaño
de la población de estudiantes (x), más un término del error ϵ. En la sección 14.4,
para el
término
del error ϵ se hicieron las siguientes suposiciones
1. E(ϵ) = 0.
2. La varianza de ϵ, que se denota σ2, es la misma para todos los valores de x.
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para
determinar
si la relación
entre x y y es significativa y para las estimaciones, mediante intervalos de
confianza y de
predicción, presentadas en la sección 14.6. Si las suposiciones acerca del término
del error
ϵ son
dudosas, puede ser que las pruebas de hipótesis acerca de la significancia de la
relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el
análisis de
los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ
son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se
estudiarán
las siguientes gráficas de residuales.
1. La gráfica de residuales contra los valores de la variable independiente x
2. La gráfica de residuales contra los valores pronosticados para la variable
dependiente 𝑦̂
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.
18
horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza
de no es la
misma para todos los valores x —por ejemplo, si la variabilidad respecto a la línea
de
regresión es mayor para valores de x mayores— el aspecto de la gráfica puede ser
como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que
tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la
gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un
modelo de regresión curvilíneo o múltiple.
19
suposiciones del modelo. En la regresión lineal simple, tanto la gráfica de
residuales contra
x como la gráfica de residuales contra tienen la misma forma. En el análisis de
regresión
múltiple, la gráfica de residuales contra se usa más debido a que se tiene más de
una
variable independiente.
El coeficiente de Determinación
La intensidad de una relación entre dos variables de una población por lo general
se mide
mediante el coeficiente de correlación p, cuyos valores van desde -1,
correspondiente a
una correlación perfectamente negativa, hasta +1, correspondiente a una correlación
perfectamente positiva. En la figura 17.6 se ilustran estas tres diferentes clases
de
asociación entre variables. En el panel A de esta figura presentamos una relación
lineal
negativa prefecta entre X y Y, de modo que Y disminuirá de una manera perfectamente
predecible en la medida que X aumenta. En el panel B se tiene un ejemplo en el que
no
hay relación entre X y Y. a medida que X no se da ningún cambio en Y, de modo que
no
hay ninguna asociación entre los valores de X y los de Y. por el contrario, en el
panel C se
presenta una correlación perfectamente positiva entre las dos variables. En este
caso, Y
aumenta de una manera perfectamente predecible conforme se incrementa X.
De modo que
𝑟 = √𝑟 2
20
interesa la medición de la asociación entre variables, y no con el uso de una
variable para
predecir otra.
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las
más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el
cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión
lineal
simple. Si existen varios resultados para una única variable, es decir, para una X
existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen
casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.2
21
Análisis de correlación
En la rama de la estadística, la correlación se refiere a que existe un vínculo
entre varios
eventos. Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo
indicarnos si
existe relación entre dos eventos – es decir, variables–, un poco sobre la
naturaleza de
dicha relación, y su fuerza. Para poder realizar un análisis de correlación
confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables
22
Prueba de hipótesis sobre el coeficiente de correlación
La prueba de hipótesis del coeficiente de correlación poblacional Rho se estima con
(r) y
corresponde a las siguientes hipótesis
H0: p=0
H1:p≠0
Mientras más cercano a cero sea el coeficiente de correlación, se indicará que tan
débil es la
asociación entre ambas variables. Si es igual cero se concluirá que no existe
relación lineal alguna
entre ambas variables.
Determinación de la ecuación
Sea X1,X2…Xn variables independientes o regresoras, y sea una variable de
respuesta, entonces el
modelo de regresión lineal múltiple con variables independientes es el polinomio de
primer
orden.
23
Donde los j son los parámetros del modelo que se conocen como coeficientes de
regresión y
es el error aleatorio, con media cero,E( y V()=σ2 Si en la ecuación
(1.22)K=1 , estamos en el
caso de regresión lineal simple y el modelo es una línea recta; si K=2 , tal
ecuación representa un
plano. En general, la ecuación (1.22) representa un hiperplano en el espacio de K
dimensiones
generado por las variables Xj .
El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22)
es función
lineal de los parámetros desconocidos 0 1…k La interpretación de éstos es muy
similar a lo ya
explicado para el caso de regresión lineal simple:0 es la ordenada al origen, y
j mide el
cambio esperado en Y por cambio unitario en Xj cuando el resto de las variables
regresoras se
mantienen fijas o constantes. Para encontrar los coeficientes de regresión múltiple
por el método
de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:
24
Inferencia en R.L.M
Error estándar de estimación Al igual que en regresión lineal simple, el error
estándar de
estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una
interpretación similar a la que se dio para el caso de regresión lineal simple. En
cuanto al cálculo
en el caso múltiple, el error estándar de estimación
25
la bondad de ajuste del modelo. Esta prueba determina si existe una relación lineal
entre la
variable respuesta y alguna de las variables regresoras . La
hipótesis estadística
adecuada es
Ejemplo
26
Luego como el valor P=0,00 entonces se rechaza la hipótesis nula lo cual significa
que al menos
una de las variables regresoras o contribuye significativamente al modelo.
27
Prueba de Significancia para cada coeficiente de la regresión
La prueba individual de un coeficiente de regresión puede se útil para determinar
si:
La SC incremente
La SC disminuya
28
Importante
regresora dado que las otras variables regresoras están presentes en el modelo,
por medio
del método de Suma de Cuadrados Extra (link:cap5\leccion8\suma-extra.tex)
Ejemplo
Los programas estadísticos producen una tabla para la prueba de cada coeficiente
Los errores estándar de los parámetros son las raíces de los elementos de la
diagonal de la
matriz de varianza-covarianza del vector de parámetros estimados hallada en
ejemplo de la
Lección anterior
29
y por tanto la variable contribuye significativamente al modelo.
Como
30
es una cantidad pivotal para la construcción del intervalo de confianza para
cuya
distribución de probabilidad es con grados de libertad.
Ejemplo
31
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que
llamaremos factores. Dado que podemos predecir una variable aleatoria mediante
su media y que, en este caso, el error cuadrático medio es su varianza, el máximo
error cuadrático medio que podemos aceptar en un modelo para una variable
aleatoria que posea los dos primeros momentos es la varianza. Para estimar el
modelo haremos varias observaciones de la variable a predecir y de los factores.
A la diferencia entre el valor observado de la variable y el valor predicho la
llamaremos residuo. La media cuadrática de los residuos es la varianza residual.
32
Se define como:
Usos:
Análisis residuales
Como ya se ha mencionado anteriormente, el residual es dado
por , los cuales
contienen dentro de ellos información sobre el porque el modelo no se ajusta a los
datos. Por ello
es necesario realizar un análisis de los residuales para obtener cualquier
peculiaridad que el ajuste
de regresión pueda tener.
Cuando se propone el modelo para el juste de los datos se establecen unos supuestos
sobre la
variable error:
33
Nosotros usualmente asumimos que y que todos los errores son
inependientes
uno del otro,pero sus estimados, los residuales no pueden ser independientes. Los
gráficos
utilizados son: el histograma, el gráfico de probabilidad normal entre otros.
Percentil Y
donde
Interpretación: Si los puntos parecen ajustarse a una línea recta, puede decirse
que parece indicar
que los datos provienen de una distribución normal, pero tenga en cuenta que en
algunos casos,
aunque los puntos se ajusten a una línea recta puede que los datos no provengan de
una
distribución normal; por ello se recomienda utilizar métodos objetivos.
Ejemplo
6,25 4
18,75 9
34
Percentil Densidad Optica
31,25 18
43,75 20
56,25 35
68,75 41
81,25 47
93,75 60
\includegraphics{prob-nor-densidad-optica.jpg}
\includegraphics{residuales.gif}
Pronóstico Residuos
Observación Residuos
Densidad Optica estándares
35
Pronóstico Residuos
Observación Residuos
Densidad Optica estándares
Matriz de correlación
El análisis factorial se puede utilizar para estudiar series numéricas o de valores
cuantitativos para
un determinado número de variables cuantitativas mayor de dos. Por ejemplo, tres
características
o más para series numéricas con igual número de datos.
Aplicaciones
Para hacer más potente el análisis factorial los programas estadísticos incluyen
otros análisis
multivariables como es el análisis de pautas o camino, path analysis, y otros
coeficientes de
correlación como es el de rangos o la correspondencia en el orden entre cada pareja
en las series y
se designa por ro.
36
Puede utilizarse esta técnica para muchos propósitos como es la Escala de actitud o
Prioridades
sociales. También un análisis diacrónico de triangulación o varias aplicaciones en
sucesivos
períodos de tiempo y con diferentes métodos para cada aplicación.
37
Bibliografía
Regresión lineal múltiple:
http://networkianos.com/regresion-lineal-multiple/
Determinacion de la ecuación
Determinacion de coeficientes
Inferencias en R.L.M
http://168.176.239.58/cursos/ciencias/2007315/html/un5/cont_08_48.html
Coeficientes de determinación
https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n
https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n_corregido
análisis residual
http://virtual.uptc.edu.co/ova/estadistica/docs/libros/2007315/lecciones_html/
capitulo_2/leccio
n3/residuales.html
Matriz de correlación
https://es.wikipedia.org/wiki/Matriz_de_correlaci%C3%B3n
38