Está en la página 1de 44

INSTITUTO TECNOLÓGICO DE CAMPECHE

INGENIERIA INDUSTRIAL

NUM: 1 NOMBRE DEL TRABAJO: investigación


conceptual
NUM: 1 NOMBRE DE LA UNIDAD: Regresión lineal
multiple

Nombre del alumno:


Materia:
Estadística inferencial
Maestro:
Bocos Patrón Ramón Agustín
Grupo:
MI4

06/02/2019
Contenido
Introducción ......................................................................
.................................................................. 4
La regresión lineal
simple ............................................................................
................................. 5

Antecedentes ......................................................................
.......................................................... 5
Mediciones univaribles, bivariables y multivariables en
estadística .................................. 5
Definición de
R.l.S .............................................................................
............................................... 6
Diagrama de
dispersión ........................................................................
......................................... 6
Tipos de modelos de regresión
lineal ............................................................................
............. 7
Método de mínimos
cuadrados .........................................................................
........................... 8
Interpretación de la pendiente del
modelo ............................................................................
. 10
Suposiciones en la regresión lineal
simple ............................................................................
.. 11
Prueba “t” de independencia entre las variables (significación de la regresión).
....... 13
Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del
modelo). .......................... 14
Intervalo de confianza para la ordenada al origen
β1. ........................................................... 15
Intervalo de Confianza para la media µ
y,x . .............................................................................
.. 16
Intervalo de Confianza de predicción para una observación futura
Yi ............................. 16
Análisis residual (gráfico y
numérico). ........................................................................
............. 17
Gráfica de residuales contra
ȳ .................................................................................
............... 19
El coeficiente de
Determinación......................................................................
........................... 20
Cálculo del coeficiente e
interpretación ....................................................................
............... 21
Análisis de
correlación .......................................................................
.......................................... 22
Prueba de hipótesis sobre el coeficiente de
correlación ....................................................... 23
Regresión lineal
múltiple...........................................................................
........................................ 23
Determinación de la
ecuación...........................................................................
................................ 23
Inferencia en
R.L.M .............................................................................
.............................................. 25
Prueba de Significancia para cada coeficiente de la
regresión ......................................................... 28
Estimación de intervalos de confianza para 1
2............................................................................ 30
Predicción de la variable dependiente
y .................................................................................
.......... 31
Coeficiente de determinación
múltiple ..........................................................................
.................. 31
Coeficiente de determinación
ajustado ..........................................................................
.................. 32
Análisis
residuales ........................................................................
..................................................... 33

2
Matriz de
correlación .......................................................................
................................................. 36

Aplicaciones.......................................................................
............................................................ 36
Bibliografía ......................................................................
.................................................................. 38

3
Introducción
Este documento tiene como objetivo servir de soporte
en la parte conceptual de la unidad 1 de la materia
estadística inferencial 2 y así tener un mejor
desempeño a la hora de realizar los ejercicios
correspondientes de esta unidad.

4
La regresión lineal simple

Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos
cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde
desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en dónde
se incluía una versión del teorema de Gauss-Márkov.

El término regresión se utilizó por primera vez en el estudio de variables


antropométricas:
al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres
tenían
una estatura muy superior al valor medio, tendían a igualarse a éste, mientras que
aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la
estatura media; es decir, "regresaban" al promedio.2 La constatación empírica de
esta
propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión,


que
emplean modelos basados en cualquier clase de función matemática. Los modelos
lineales
son una explicación simplificada de la realidad, mucho más ágiles y con un soporte
teórico
mucho más extenso por parte de la matemática y la estadística.

Pero bien, como se ha dicho, se puede usar el término lineal para distinguir
modelos
basados en cualquier clase de aplicación.

más poderosas que se encuentran disponibles actualmente.

Mediciones univaribles, bivariables y multivariables en estadística


Se debe diferenciar entre la regresión simple y la regresión múltiple. En la
regresión
simple, se establece que Y es una función de solo una variable independiente. Con
frecuencia se le denomina regresión bivariada porque solo hay dos variables, una
dependiente y una independiente, y la regresión simple se representa con la
formula. En
un modelo de regresión múltiple. Y es una función de dos o más variables
independientes.
Un modelo de regresión con k variables independientes se puede expresar así:

5
También es necesario hacer una distinción entre la regresión lineal y la regresión
curvilineal (no lineal). En modelo de regresión lineal, la relación entre X y Y
puede
representarse por medio de una línea recta. Sostiene que a medida que X cambia. Y
cambia en cantidad constante. La regresión curvilineal utiliza una curva para
expresar la
relación entre X y Y. Es habitual colocar la variable independiente en el eje
horizontal. La
siguiente figura11.1 (a) sugiere una relación positiva y lineal entre X y Y. Es
positiva
porque X y Y parecen moverse en la misma dirección. A medida que X aumenta
(disminuye).Y aumenta (disminuye).

Definición de R.l.S
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado
para
aproximar la relación de dependencia entre una variable dependiente Y, las
variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

Diagrama de dispersión
Un diagrama de dispersión o gráfica de dispersión o gráfico de dispersión es un
tipo de
diagrama matemático que utiliza las coordenadas cartesianas para mostrar los
valores de
dos variables para un conjunto de datos

Se emplea cuando una o varias variables está bajo el control del experimentador. Si
existe
un parámetro que se incrementa o disminuye de forma sistemática por el
experimentador, se le denomina parámetro de control o variable independiente y
habitualmente se representa a lo largo del eje horizontal (eje de las abscisas). La
variable
medida o dependiente usualmente se representa a lo largo del eje vertical (eje de
las
ordenadas). Si no existe una variable dependiente, cualquier variable se puede

6
representar en cada eje y el diagrama de dispersión mostrará el grado de
correlación (no
causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las


variables
con un intervalo de confianza determinado. La correlación puede ser positiva
(aumento),
negativa (descenso), o nula (las variables no están correlacionadas). Se puede
dibujar una
línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la
correlación
entre las variables. Una ecuación para la correlación entre las variables puede ser
determinada por procedimientos de ajuste. Para una correlación lineal, el
procedimiento
de ajuste es conocido como regresión lineal y garantiza una solución correcta en un
tiempo finito.

Tipos de modelos de regresión lineal


Ala ecuación con que se describe cómo se relaciona y con x y en la que se da un
término
para el error, se le llama modelo de regresión. El siguiente es el modelo que se
emplea en
la regresión lineal simple.

β0 y β1 se conocen como los parámetros del modelo, y ε (la letra griega épsilón) es
una
variable aleatoria que se conoce como término del error. El término del error da
cuenta
de la variabilidad de y que no puede ser explicada por la relación lineal entre x y
y.

7
A la ecuación que describe la relación entre el valor esperado de y, que se denota
E(x), y x
se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la
regresión lineal simple.

La gráfica de la ecuación de regresión lineal simple es una línea recta; β0 es la


intersección
de la recta de regresión con el eje y, β1 es la pendiente y E(y) es la media o
valor esperado
de y para un valor dado de x.

Método de mínimos cuadrados


Suponga que las variables X y Y están relacionadas linealmente y que para cada
valor de ,
la variable dependiente, Y, es una variable aleatoria. Es decir, que cada
observación de Y
puede ser descrita por el modelo:

donde ε es un error aleatorio con media cero y varianza . También suponga que los
errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el
modelo
de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como
el
valor esperado del error es cero, E(ε)=0 , se puede ver que el valor esperado de la
variable
Y, para cada valor de X , está dado por línea recta

8
En donde β0 y β1 son los parámetros del modelo y son constantes desconocidas. Por
lo
tanto, para tener bien especificada la ecuación que relaciona las dos variables
será
necesario estimar los dos parámetros, que tienen los siguientes significados:

Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar β0 y β1


es
mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: si de la
ecuación (1.1) despejamos los errores, los elevamos al cuadrado y los sumamos,
obtendremos lo siguiente:

De esta forma, se quieren encontrar los valores de β0 y β1 que minimizan la suma de


los
errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las
distancias en forma vertical de los puntos a la recta se minimice

9
Interpretación de la pendiente del modelo
La interpretación de a y b, es análoga a la que comentábamos en el apartado
6.1.3.2, sólo
que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresión.

Como podemos observar, en el numerador de b, aparece la covarianza, y en el


denominador la varianza de la variable independiente. Esto hace que el signo de b
sea el
mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una
relación
directa entre las variables, y si b<0 entonces la relación es inversa.

10
En nuestro ejemplo de talla y edad, b sería el incremento medio que se produce en
la
talla, por cada incremento unitario de edad; si la edad está en años, por cada año
aumente la edad.

Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos


la
expresión de la ecuación donde ahora ya, a y b son conocidos. No olvidemos que ese
era
uno de los objetivos del análisis, tratar de conocer valores de Y a partir de los
de X:

y*i = a+bxi

Suposiciones en la regresión lineal simple


1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de
especificación.
En el caso de que sean varias variables independientes, la opción Analizar-
RegresiónLineal-Gráficos-Generar todos los gráficos parciales nos da los
diagramas
de dispersión parcial para cada variable independiente. En ellos se ha
eliminado el
efecto proveniente de las otras variables y así la relación que muestran es
la
relación neta entre las variables representadas.
2. Independencia de la variable aleatoria “residuos” (especialmente importante
si los
datos se han obtenidos siguiendo una secuencia temporal). Independencia
entre
los residuos mediante el estadístico de Durbin-Watson que toma valor 2
cuando
los residuos son completamente independientes (entre 1.5 y 2.5 se considera
que
existe independencia), DW2 autocorrelación negativa

3. Homocedasticidad o igualdad de varianzas de los residuos y los pronósticos.


Esta
condición se estudia utilizando las variables: ZPRED=pronósticos
tipificados y
ZRESID=residuos tipificados mediante: • el estadístico de Levene (ver
explorar) •
un gráfico de dispersión .Que se obtiene en Analizar-Regresión-Lineal-
Gráficos. El
supuesto de homocedasticidad implica que la variación de los residuos sea
uniforme en todo el rango de valores de los pronósticos (gráfico sin pautas
de
asociación).

11
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante: • La
prueba de Kolmogorff-Smirnov, con gráficos de normalidad de tipo Q-Q
(cuantiles)
o P-P(proporciones) (ver explorar) • gráficamente en Analizar-Regresión-
Lineal-
Gráficos . La opción Histograma: añade una curva N(0,1) Gráfico de
Probabilidad
Normal de tipo P-P: Representa las proporciones acumuladas de la variable
esperada respecto a las proporciones acumuladas de la variable observada.

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:


colinealidad perfecta si una de las variables independientes tiene una
relación
lineal con otra/as independientes, colinealidad parcial si entre las
variables
independientes existen altas correlaciones

Error estándar de la estimación

Estimación de σ2 De acuerdo con el modelo de regresión y con sus suposiciones, se


puede concluir que σ2, la varianza de ε, representa también la varianza de los
valores de y
respecto a la recta de regresión. Recuérdese que a las desviaciones de los valores
de y de
la recta de regresión estimada se les conoce como residuales. Por lo tanto, SCE, la
suma
de los cuadrados de los residuales, es una medida de la variabilidad de las
observaciones
reales respecto a la línea de regresión estimada. El errorcuadrado medio (ECM)
proporciona una estimación de σ2; esta estimación es SCE dividida entre sus grados
de
libertad.

A cada suma de cuadrados le corresponde un número llamado sus grados de libertad.


Se
ha demostrado que SCE tiene n-2 grados de libertad porque para calcular SCE es
necesario
estimar dos parámetros (β0 y β1). Por lo tanto, el cuadrado medio se calcula
dividiendo
SCE entre n-2. ECM proporciona un estimador insesgado de σ2. Como el valor del ECM
proporciona un estimado de σ2, se emplea también la notación s2

12
Prueba “t” de independencia entre las variables (significación de la
regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están
relacionadas
linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es determinar si se puede
concluir
que 𝛽 1 ≠0. Para probar la hipótesis siguiente acerca del parámetro 𝛽 1 se
emplearán los
datos muestrales.

H0: 𝛽 1 =0

Ha ∶ 𝛽 1≠ 0

Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una
relación
estadísticamente significante. La base para esta prueba de hipótesis la
proporcionan las
propiedades de la distribución muestral de b1, el estimador de 𝛽1, obtenido
mediante el
método de mínimos cuadrados.

Primero, considérese que es lo que ocurriría si para el mismo estudio de regresión


se
usara otra muestra aleatoria simple. Supóngase, por ejemplo, que Armand’s Pizza
Parlors
usa una muestra de las ventas de otros 10 restaurantes. El análisis de regresión de
esta
otra muestra dará como resultado una ecuación de regresión parecida a la ecuación
de
regresión anterior 𝑌̂ = 60 + 5x. Sin embargo, no puede esperarse que se obtenga
exactamente la misma ecuación (una ecuación en la que la intersección con el eje y
sea
exactamente 60 y la pendiente sea exactamente 5). Los estimadores b0 y b1,
obtenidos
por el método de mínimos cuadrados, son estadísticos muestrales que tienen su
propia
distribución muestral. A continuación se presentan las propiedades de la
distribución
muestral de b1.

13
Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador
insesgado de
𝛽 1.

Como no se conoce el valor de σ, se obtiene una estimación de σ𝑏1 , que se denota


S𝑏1 ,
estimandoσ mediante s en la ecuación (14.17). De esta manera se obtiene el
estimador
siguiente de σ𝑏1 .

Intervalo de Confianza para β 1 y β 0 (pendiente y ordenada del


modelo).
Para el intervalo de confianza de la pendiente β1 se utiliza la distribución t de
student con
n-2 grados de libertad ya que se desconoce la varianza de la población 𝜎2𝛽 ; el
estimador
de esta varianza se define por:

14
Por lo tanto el estadístico de prueba se define como:

En el intervalo de confianza de nivel 1-α estab dado por :

Una prueba muy sensilla y util es la prueba de independencia entre variables. Si la


hipotesis nula H0: B1=0 es aceptada, Y no depende linealmente de X, en caso
contrario, se
dice que Y depende de X.

Intervalo de confianza para la ordenada al origen β1.


Para probar H0, se utiliza la distribucion t de student con n-2 grados de libertad
y ccuya
expresion esta dada por :

El intervalo de confianza del 95% está definido por

15
Intervalo de Confianza para la media µ y,x .
A veces es conveniente estimar el valor medio o separado de Y para el un valor dado
de X,
tal estimación se hace con el intervalo de confianza:

Al calcular los límites de confianza para los valores de medios, estos se obtiene
para cada
valor de Xo; tales limites serán más estrechos a medida que se aproximan a la
medida de
la variable independiente y más amplios a medida que se alejan de ella, por esta
razón se
obtienen limites llamados bandas de confianza dentro de las cuales queda
comprendida la
recta verdadera para un nivel de significación a.

Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0 dos
valores
extremos y uno intermedio, y se harán las estimaciones por intervalo. Estos
intervalos se
dibujan sobre los diagramas de dispersión uniendo todos los puntos generados por
los
límites inferiores y por otro lado, todos los correspondientes a los límites
superiores.

Intervalo de Confianza de predicción para una observación futura Yi


Como las bandas de confianza se abren a medida que Xo se aleja de la media X,
resulta
aventurado hacer predicciones sobre Y para valores fuera de la escala de valores de
X
empleada para establecer la ecuación de regresión de la muestra. A menos de que
este
razonablemente seguro que existe la misma función de regresión sobre un amplio
rango
de valores de X, por haberse experimentado en una muestra, se podrá usar valores de
Xo
alejados de la media X para predecir valores de Y.

Cuando se hacen predicciones, estas, más que ser sobre valores medios de Y,
son para valores individuales, por lo tanto el error debido al azar (error de
estimación

16
) es una fuente adicional de variación, por ello la varianza se ve
aumentada y el

intervalo de confianza para un valor de predicción es más amplio que


el de

Análisis residual (gráfico y numérico).


El análisis residual es la herramienta principal para determinar si el modelo de
regresión
empleado es apropiado.
Como ya se indicó, el residual de la observación i es la diferencia entre el valor
observado
de la variable dependiente (yi) y el valor estimado de la variable dependiente
(yˆ )

donde

y¡ es el valor observado de la variable dependiente

𝑦̂ es el valor estimado de la variable dependiente

En otras palabras, el residual i es el error que resulta de usar la ecuación de


regresión
estimada
para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan
estos
residuales correspondientes a los datos del ejemplo de Armand’s Pizza Parlors. En
la
segunda columna de la
tabla se presentan los valores observados de la variable dependiente y en la
tercera
columna, los
valores estimados de la variable dependiente obtenidos usando la ecuación de
regresión
estimada
𝑦̂ = 60 + 5x. Un análisis de los residuales correspondientes, que se encuentran en
la cuarta
columna de la tabla, ayuda a determinar si las suposiciones hechas acerca del
modelo de
regresión son adecuadas.
A continuación se revisan las suposiciones de regresión en el ejemplo de Armand’s
Pizza
Parlors. Se supuso un modelo de regresión lineal simple
y =𝛽 0 + 𝛽 1 x + ϵ (14.29)

17
Este modelo indica que se supone que las ventas trimestrales (y) son función lineal
del
tamaño
de la población de estudiantes (x), más un término del error ϵ. En la sección 14.4,
para el
término
del error ϵ se hicieron las siguientes suposiciones
1. E(ϵ) = 0.
2. La varianza de ϵ, que se denota σ2, es la misma para todos los valores de x.
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para
determinar
si la relación
entre x y y es significativa y para las estimaciones, mediante intervalos de
confianza y de
predicción, presentadas en la sección 14.6. Si las suposiciones acerca del término
del error
ϵ son
dudosas, puede ser que las pruebas de hipótesis acerca de la significancia de la
relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el
análisis de
los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ
son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se
estudiarán
las siguientes gráficas de residuales.
1. La gráfica de residuales contra los valores de la variable independiente x
2. La gráfica de residuales contra los valores pronosticados para la variable
dependiente 𝑦̂
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.

Gráfica de residuales contra x La gráfica de residuales contra la variable


independiente x
es una gráfica en la que los valores de la variable independiente se representan en
el eje
horizontal y los valores de los residuales correspondientes se representan en el
eje
vertical. Para cada residual se grafica un punto. La primera coordenada de cada
punto está
dada por el valor xi y la segunda coordenada está dada por el correspondiente valor
del
residual yi i. En la gráfica de residuales contra x obtenida con los datos de
Armand’s Pizza
Parlors de la tabla 14.7, las coordenadas del primer punto son (2,-12), que
corresponden a
x1 = 2 y y1-ȳ1 = -12; las coordenadas del segundo punto son (6, 15), que
corresponden a
x2 = 6 y y2 -ȳ2 = 15; etc. En la figura 14.11 se muestra la gráfica de residuales
obtenida.
Antes de interpretar los resultados de esta gráfica de residuales, se considerarán
algunas
de las formas generales que pueden tener las gráficas de residuales. En la figura
14.12 se
muestran tres ejemplos. Si la suposición de que la varianza de es la misma para
todos los
valores de x y si el modelo de regresión empleado representa adecuadamente la
relación
entre las variables, el aspecto general de la gráfica de residuales será el de una
banda

18
horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza
de no es la
misma para todos los valores x —por ejemplo, si la variabilidad respecto a la línea
de
regresión es mayor para valores de x mayores— el aspecto de la gráfica puede ser
como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que
tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la
gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un
modelo de regresión curvilíneo o múltiple.

Gráfica de residuales contra ȳ


En otra gráfica de residuales los valores pronosticados para la variable
dependiente se
representan en el eje horizontal y los valores de los residuales en el eje
vertical. A cada
residual corresponde un punto en la gráfica. La primera coordenada de cada uno de
los
puntos es i y la segunda coordenada es el valor correspondiente del residual i,yi
i.
Empleando los datos de Armand’s, tabla 14.7, las coordenadas del primer punto son
(70,-
12), que corresponden a ȳ1 = 70 y y1 ȳ 1=-12; las coordenadas del segundo punto son
(90,
15), etc. En la figura 14.13 se presenta esta gráfica de residuales. Obsérvese que
la forma
de esta gráfica de residuales es igual a la forma de la gráfica de residuales
contra la
variable independiente x. Esta no es una forma que pudiera llevar a dudar de las

19
suposiciones del modelo. En la regresión lineal simple, tanto la gráfica de
residuales contra
x como la gráfica de residuales contra tienen la misma forma. En el análisis de
regresión
múltiple, la gráfica de residuales contra se usa más debido a que se tiene más de
una
variable independiente.

El coeficiente de Determinación
La intensidad de una relación entre dos variables de una población por lo general
se mide
mediante el coeficiente de correlación p, cuyos valores van desde -1,
correspondiente a
una correlación perfectamente negativa, hasta +1, correspondiente a una correlación
perfectamente positiva. En la figura 17.6 se ilustran estas tres diferentes clases
de
asociación entre variables. En el panel A de esta figura presentamos una relación
lineal
negativa prefecta entre X y Y, de modo que Y disminuirá de una manera perfectamente
predecible en la medida que X aumenta. En el panel B se tiene un ejemplo en el que
no
hay relación entre X y Y. a medida que X no se da ningún cambio en Y, de modo que
no
hay ninguna asociación entre los valores de X y los de Y. por el contrario, en el
panel C se
presenta una correlación perfectamente positiva entre las dos variables. En este
caso, Y
aumenta de una manera perfectamente predecible conforme se incrementa X.

Para problemas orientados a la regresión, el coeficiente de correlación de muestra


(r)
puede obtenerse de la siguiente manera:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅


𝑟2 = =
𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇

De modo que

𝑟 = √𝑟 2

En casos de regresión lineal simple, r toma el signo de b1; si este es positivo, r


es positivo;
si b1 es negativo, r es negativo; y si b1 es cero, r es cero.

La regresión y la correlación son dos técnicas separadas: la regresión tiene que


ver con la
predicción y la correlación con la asociación. En muchas aplicaciones solamente nos

20
interesa la medición de la asociación entre variables, y no con el uso de una
variable para
predecir otra.

Si únicamente se lleva a cabo un análisis de correlación de un conjunto de datos,


el
coeficiente de correlación de muestra r, puede calcularse directamente utilizando
la
siguiente fórmula:

∑𝑛𝑖=1(𝑋1 − 𝑋̅)(𝑌1 − 𝑌̅)


𝑟=
√∑𝑛𝑖=1(𝑋1 − 𝑋̅)2 √∑𝑛𝑖=1(𝑌1 − 𝑌̅)2

Cálculo del coeficiente e interpretación


En estadística, el coeficiente de determinación, denominado R² y pronunciado R
cuadrado,
es un estadístico usado en el contexto de un modelo estadístico cuyo principal
propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la
calidad
del modelo para replicar los resultados, y la proporción de variación de los
resultados que
puede explicarse por el modelo.1

Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las
más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el
cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión
lineal
simple. Si existen varios resultados para una única variable, es decir, para una X
existe una
Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen
casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.2

21
Análisis de correlación
En la rama de la estadística, la correlación se refiere a que existe un vínculo
entre varios
eventos. Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo
indicarnos si
existe relación entre dos eventos – es decir, variables–, un poco sobre la
naturaleza de
dicha relación, y su fuerza. Para poder realizar un análisis de correlación
confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables

El análisis de correlación general da como resultado un número entre -1 y 1,


llamado
coeficiente de correlación. Este resultado nos sirve para entender tres cosas: Si
existe o
no correlación entre las variables. Un coeficiente que valga cero indica que
nuestras
variables son independientes; un ejemplo de esto sería que no hay relación entre
qué tan
dulce es una fruta y cuál es el precio de un litro de jugo. Qué tan fuerte es la
correlación (si
es que existe). A más se ‘aleje del cero’ el coeficiente, más fuerte será la
correlación entre
las dos variables. Siendo así, las correlaciones cuyo coeficiente esté más cerca de
-1 o 1
serán más poderosas. Detalles sobre la naturaleza de la correlación. Existen
correlaciones
llamadas directas (donde ambas variables aumentan o disminuyen simultáneamente) e
inversas (donde cuando una variable aumenta, la otra disminuye). Un coeficiente
positivo
significa que la correlación es del primer tipo, mientras que uno negativo indica
que es del
segundo. Un ejemplo de correlación positiva es que, si el precio de una fruta
aumenta, el
precio de un litro de jugo de dicha fruta también aumentará; una correlación
negativa
sería que a más gente consuma una fruta, menor cantidad de fruta estará disponible.
El
coeficiente de correlación es el resultado de dividir la covarianza entre las
variables X y Y
entre la raíz cuadrada del producto de la varianza de X y la de Y.

22
Prueba de hipótesis sobre el coeficiente de correlación
La prueba de hipótesis del coeficiente de correlación poblacional Rho se estima con
(r) y
corresponde a las siguientes hipótesis

H0: p=0

H1:p≠0

Esta prueba se hace con n-1 grados de libertad

Mientras más cercano a cero sea el coeficiente de correlación, se indicará que tan
débil es la
asociación entre ambas variables. Si es igual cero se concluirá que no existe
relación lineal alguna
entre ambas variables.

Regresión lineal múltiple


La regresión lineal es una técnica estadística destinada a analizar las causas de
por qué pasan las
cosas. A partir de los análisis de regresión lineal múltiple podemos: identificar
que variables
independientes (causas) explican una variable dependiente (resultado) comparar y
comprobar
modelos causales predecir valores de una variable, es decir, a partir de unas
características
predecir de forma aproximada un comportamiento o estado

La regresión lineal múltiple es la gran técnica estadística para comprobar


hipótesis y relaciones
causales. Ante de empezar, una serie de condiciones que se deben cumplir para poder
aplicar la
regresión lineal múltiple:

 La variable dependiente (resultado) debe ser ordinal o escalar, es decir,


que las categorías
de la variable tengan orden interno o jerarquía, p.ej. nivel de ingresos,
peso, número de
hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.

 Las variables independientes (causas) deben ser ordinales o escalares o


dummy

 Hay otras condiciones como: las variables independientes no puede estar


altamente
correlacionadas entre sí, las relaciones entre las causas y el resultado
deben ser lineales,
todas variables deben seguir la distribución normal y deben tener
varianzas iguales. Estas
condiciones no son tan estrictas y hay maneras de tratar los datos si se
incumple. Sobre
ello volveremos en futuras entradas

Determinación de la ecuación
Sea X1,X2…Xn variables independientes o regresoras, y sea una variable de
respuesta, entonces el
modelo de regresión lineal múltiple con variables independientes es el polinomio de
primer
orden.

23
Donde los j son los parámetros del modelo que se conocen como coeficientes de
regresión y 
es el error aleatorio, con media cero,E( y V()=σ2 Si en la ecuación
(1.22)K=1 , estamos en el
caso de regresión lineal simple y el modelo es una línea recta; si K=2 , tal
ecuación representa un
plano. En general, la ecuación (1.22) representa un hiperplano en el espacio de K
dimensiones
generado por las variables Xj .

El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22)
es función
lineal de los parámetros desconocidos 0 1…k La interpretación de éstos es muy
similar a lo ya
explicado para el caso de regresión lineal simple:0 es la ordenada al origen, y
j mide el
cambio esperado en Y por cambio unitario en Xj cuando el resto de las variables
regresoras se
mantienen fijas o constantes. Para encontrar los coeficientes de regresión múltiple
por el método
de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:

La solución manual aplicando el sistema de tres ecuaciones lineales con


tres incógnitas
(3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien el método de
Cramer.
Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste
en la
siguiente secuencia:

24
Inferencia en R.L.M
Error estándar de estimación Al igual que en regresión lineal simple, el error
estándar de
estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una
interpretación similar a la que se dio para el caso de regresión lineal simple. En
cuanto al cálculo
en el caso múltiple, el error estándar de estimación

Prueba de hipótesis para los coeficientes 1 2

La prueba de significancia de la regresión es una de la pruebas de hipótesis


utilizadas para medir

25
la bondad de ajuste del modelo. Esta prueba determina si existe una relación lineal
entre la
variable respuesta y alguna de las variables regresoras . La
hipótesis estadística
adecuada es

Al rechazar la hipótesis nula se concluye que al menos una de las variables


regresoras contribuye
significativamente al modelo.

La prueba estadística utilizada es

La cual asumiendo que la hipótesis nula es cierta se distribuye con grados


de libertad en el
numerador y grados de libertad en el denominador.

Se rechaza la hipótesis nula si el valor calculado de la estadística de prueba es


mayor que el valor
teórico de la distribución .

Ejemplo

La hipótesis es dada por

La prueba estadística utilizada es

26
Luego como el valor P=0,00 entonces se rechaza la hipótesis nula lo cual significa
que al menos
una de las variables regresoras o contribuye significativamente al modelo.

27
Prueba de Significancia para cada coeficiente de la regresión
La prueba individual de un coeficiente de regresión puede se útil para determinar
si:

Se incluyen otra variable regresora

Se elimina una una o más variables regresoras presentes en el modelo

La adición de variables regresoras en el modelo implica:

La SC incremente

La SC disminuya

pero se debe decidir si el incremento en la SC es tan significativo que


justifique la
inclusión de otra variable regresora en el modelo, ya que la inclusión de variables
que no

deberían ser incluidas puede aumentar la SC .

La hipótesis para probar la significancia dede cualquier coeficiente de regresión


es

Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora


puede ser
eliminada del modelo.

La prueba estadística para la hipótesis es

donde es el elemento de la diagonal de la matriz correspondiente a


. La prueba
estadística se distribuye con grados del libertad del error. La
hipótesis nula se
rechaza si:

28
Importante

1. Esta prueba es una prueba marginal, es decir se está determinando la


contribución
de dado que las otras variables regresoras estan presentes en el modelo. Por
ello, no se debe
apresurar en eliminar una variable regresora cuando la prueba no sea significativa.

2. También se puede determinar la contribución en la SC , de la variable

regresora dado que las otras variables regresoras están presentes en el modelo,
por medio
del método de Suma de Cuadrados Extra (link:cap5\leccion8\suma-extra.tex)

Ejemplo

Los programas estadísticos producen una tabla para la prueba de cada coeficiente

Estimado Error estándar T Valor p

CONSTANTE -94,552 9,96343 -9,48991 0,0002

X1 2,80155 0,300978 9,30816 0,0002

X2 1,07268 0,0932349 11,5052 0,0001

Los errores estándar de los parámetros son las raíces de los elementos de la
diagonal de la
matriz de varianza-covarianza del vector de parámetros estimados hallada en
ejemplo de la
Lección anterior

La primera fila prueba la hipótesis

de la cual se concluye que el intercepto es significativamente diferente de cero.

La segunda fila prueba la hipótesis

de la cual se concluye que el coeficiente de regresión es significativamente


diferente de cero

29
y por tanto la variable contribuye significativamente al modelo.

La tercera fila prueba la hipótesis

de la cual se concluye que el coeficiente de regresión es significativamente


diferente de cero
y por tanto la variable contribuye significativamente al modelo.

Estimación de intervalos de confianza para 1 2


para la construcción de los intervalos de confianza para los coeficientes de
regresión se debe
asumir que los errores son normalmente distribuidos, independientes
con y Este supuesto hace que variable sea también
una variable

normal ya que es una función de una variable normal, con


y
vatrianza .

Debido a que el estimador de mínimos cuadrados es una función de


entonces es
normalmente distribuido con

Como

entonces la distribución marginal de cualquier coeficiente de regresión es


normal con

Donde es el elemento de la matriz . Luego

30
es una cantidad pivotal para la construcción del intervalo de confianza para
cuya
distribución de probabilidad es con grados de libertad.

Donde obtenido de la tabla de Anova. Por tanto un intervalo de


confianza

del por ciento para el coeficiente de regresión , , es

Ejemplo

los intervalos de confianza del 95% para los parámetros son:

Parámetro Estimado Error estándar Límite inferior Límite superior

-94,552 9,96343 -120,164 -68,9402

2,80155 0,300978 2,02786 3,57524

1,07268 0,0932349 0,833014 1,31235

Predicción de la variable dependiente y


También es posible obtener un intervalo de confianza con respecto a la respuesta
media en un
punto particular, digamos x10 x20…xk está dado por

Coeficiente de determinación múltiple


En estadística, el coeficiente de determinación, denominado R² y pronunciado R
cuadrado, es un
estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir
futuros resultados o probar una hipótesis. El coeficiente determina la calidad del
modelo para
replicar los resultados, y la proporción de variación de los resultados que puede
explicarse por el
modelo

31
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que
llamaremos factores. Dado que podemos predecir una variable aleatoria mediante
su media y que, en este caso, el error cuadrático medio es su varianza, el máximo
error cuadrático medio que podemos aceptar en un modelo para una variable
aleatoria que posea los dos primeros momentos es la varianza. Para estimar el
modelo haremos varias observaciones de la variable a predecir y de los factores.
A la diferencia entre el valor observado de la variable y el valor predicho la
llamaremos residuo. La media cuadrática de los residuos es la varianza residual.

Si representamos por σ2 la varianza de la variable dependiente y la varianza


residual por σ2r , el coeficiente de determinación viene dado por la siguiente
ecuación:

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el


100% de valor de la variable; si coincide con la varianza de la variable
dependiente, el modelo no explica nada y el coeficiente de determinación es del
0%. En variables económicas y financieras, suele ser difícil conseguir un
coeficiente de determinación mayor de un 30%

El coeficiente de determinación corregido en un modelo de regresión lineal mide el


porcentaje de variación de la variable dependiente (al igual que el coeficiente de
determinación) pero teniendo en cuenta el número de variables incluidas en el
modelo.

Sabemos que a medida que vamos incluyendo variables en el modelo, el


coeficiente de determinación aumenta aunque las variables que incluyamos no
sean significativas. Esto supone un problema, ya que no debemos olvidar que la
inclusión de nuevas variables supone un aumento en el número de parámetros a
estimar para el modelo....

Coeficiente de determinación ajustado


El coeficiente de determinación corregido viene a resolver este problema del
coeficiente de determinación.

32
Se define como:

Dónde: N es el tamaño de la muestra y k refleja el número de variables.

Usos:

- Se emplea habitualmente para comparar modelizaciones alternativas que


manteniendo el mismo número de observaciones varían en el número de
regresores especificados.

- Resulta de especial interés en situaciones en las que el número de variables


explicativas está cercano al número de observaciones de la muestra.

Análisis residuales
Como ya se ha mencionado anteriormente, el residual es dado
por , los cuales
contienen dentro de ellos información sobre el porque el modelo no se ajusta a los
datos. Por ello
es necesario realizar un análisis de los residuales para obtener cualquier
peculiaridad que el ajuste
de regresión pueda tener.

Cuando se propone el modelo para el juste de los datos se establecen unos supuestos
sobre la
variable error:

Independencia de los errores

Los errores se distribuyen normal con media cero

Los errores son independientes

Los errores tienen varianza constante

Cuando se ajusta el modelo se espera que los residuales exhiban el cumplimiento de


los anteriores
supuestos sobre la variable error. Despues de examinar los residuales sólo se podrá
decir
que los supuestos parecen ser violados o los supuestos parecen no ser
violados. Esto
último no significa que los supuestos se cumplan; esto significa que sobre la base
de los datos se
ha visto que no hay razón para decir que los supuestos no se cumplen.

Normalidad de los residuales

33
Nosotros usualmente asumimos que y que todos los errores son
inependientes
uno del otro,pero sus estimados, los residuales no pueden ser independientes. Los
gráficos
utilizados son: el histograma, el gráfico de probabilidad normal entre otros.

Histograma de frecuencias relativas.

Se realiza un histograma con los datos y se observa si la forma de la gráfica es


simétrica.

Gráfico de Probabilidad Normal

Este se puede obtener por el procedimiento descrito en la sección de distribución


normal curso
dieño virtual: validación de supuestos. Ver guía de Excel o tambien al ejecutar el
análisis de
regresión en Excel y elegir gráfico de probabilidad normal. Excel utiliza los
residuales y aplica el
mismo procedimiento descrito en la guía de Excel, e incluye salidas de dos
columnas:

Percentil Y

donde

es el mismo valor utilizado por el procedimiento descrito en la guía de Excel.

Interpretación: Si los puntos parecen ajustarse a una línea recta, puede decirse
que parece indicar
que los datos provienen de una distribución normal, pero tenga en cuenta que en
algunos casos,
aunque los puntos se ajusten a una línea recta puede que los datos no provengan de
una
distribución normal; por ello se recomienda utilizar métodos objetivos.

Ejemplo

Para el ejemplo tratado, los valores fueron:

Percentil Densidad Optica

6,25 4

18,75 9

34
Percentil Densidad Optica

31,25 18

43,75 20

56,25 35

68,75 41

81,25 47

93,75 60

\includegraphics{prob-nor-densidad-optica.jpg}

Figura 1. Gráfico de probabilidad normal para los residuos de la densidad optica

Independencia de los errores

Las variable aleatorias error, son independientes. El cumplimiento del supuesto


de
independencia se puede determinar gráficamente mediante un gráfico de los
residuales contra el
orden en que se tomaron las observaciones (si se tiene). Para los datos del
ejemplo, el gráfico se
muestra en la figura 2. No se observa un patrón característico, por lo tanto,
parece indicar que los
residuos se encuentran independientes o aleatoriamente distribuídos.

\includegraphics{residuales.gif}

Figura 2. Gráfico de residuales vs orden para la densidaad óptica

Análisis de los residuales

Pronóstico Residuos
Observación Residuos
Densidad Optica estándares

1 5,13087491 -1,13087491 -0,909114892

2 9,068691251 -0,068691251 -0,055221173

3 16,94432393 1,055676067 0,84866224

4 20,88214027 -0,882140275 -0,709156118

35
Pronóstico Residuos
Observación Residuos
Densidad Optica estándares

5 32,6955893 2,304410701 1,852525039

6 40,57122198 0,428778019 0,344696375

7 48,44685466 -1,446854664 -1,163132289

8 60,26030369 -0,260303688 -0,209259182

Observación: corresponde al número de la observación de la variable

Pronóstico Densidad Optica: corresponde al valor pronosticado por la ecuación de


regresión para
la variable .

Residuos: corresponde a la diferencia obtenida entre el valor verdadero y el


pronosticado.

Residuos estándares: corresponde a

Matriz de correlación
El análisis factorial se puede utilizar para estudiar series numéricas o de valores
cuantitativos para
un determinado número de variables cuantitativas mayor de dos. Por ejemplo, tres
características
o más para series numéricas con igual número de datos.

Estas variables independientes o explicativas están dispuestas ya en una matriz de


correlación,
que es una tabla de doble entrada para A B y C, que muestra una lista multivariable
horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente
de correlación
llamado r o la relación entre cada pareja en cada celda, expresada con un número
que va desde 0
a 1. El modelo mide y muestra la interdependencia en relaciones asociadas o entre
cada pareja de
variables y todas al mismo tiempo.

Aplicaciones
Para hacer más potente el análisis factorial los programas estadísticos incluyen
otros análisis
multivariables como es el análisis de pautas o camino, path analysis, y otros
coeficientes de
correlación como es el de rangos o la correspondencia en el orden entre cada pareja
en las series y
se designa por ro.

36
Puede utilizarse esta técnica para muchos propósitos como es la Escala de actitud o
Prioridades
sociales. También un análisis diacrónico de triangulación o varias aplicaciones en
sucesivos
períodos de tiempo y con diferentes métodos para cada aplicación.

La representación gráfica de la matriz de correlación es una línea recta diagonal


en los ejes
cartesianos en los que las abscisas son las variables y los coeficientes son una
nube de puntos.

El test, que está empleando un coeficiente de correlación o asociación, no es


inferencial o
predictor, ya que es no-paramétrico o libre de probabilidad, y es descriptivo, no
causal. Un test del
nivel significativo de los coeficientes de correlación valida la prueba.

Las tablas de asociación 2 x 2 es el caso más elemental o simple de variables


dicotomizadas, que
igualmente miden o describen la significación estadística. A veces las
representaciones gráficas
son más descriptivas de la asociación entre variables.

37
Bibliografía
Regresión lineal múltiple:

http://networkianos.com/regresion-lineal-multiple/

Determinacion de la ecuación

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Determinacion de coeficientes

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Interpretacion de los coeficientes

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Inferencias en R.L.M

http://168.176.239.58/cursos/ciencias/2007315/html/un5/cont_08_48.html

Estimación de intervalos de confianza

01 ESTADISTICA INFERENCIAL II - LIBRO DEL CURSO Ing. Ind.

Coeficientes de determinación

https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n

Coeficiente de determinación ajustado

https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n_corregido

análisis residual

http://virtual.uptc.edu.co/ova/estadistica/docs/libros/2007315/lecciones_html/
capitulo_2/leccio
n3/residuales.html

Matriz de correlación

https://es.wikipedia.org/wiki/Matriz_de_correlaci%C3%B3n

38

También podría gustarte