Está en la página 1de 21

Tecnológico Nacional de México

Instituto Tecnológico de Campeche

Ingeniería Industrial

Unidad 1: Regresión lineal simple y múltiple.


-Temas de Investigación Conceptual-
Trabajo No. 1

Gómez Cruz Oscar Manuel


Estadística Inferencial II
MI-4

03/Febrero/2016

1
Índice
> La regresión lineal simple ................................................................................................................. 4
 – Antecedentes
 – Antecedentes   ................................................................................................................................................4

 – Mediciones univaribles, bivariables y multivariables


multivariabl es en estadística   ...................................................6
> Una definición
definición formal de la R. L. S. ................................................................................................... 7
> El diagrama de dispersión................................................................................................................. 8
> Tipos de modelos de Regresión......................................................................................................
Regresión...................................................................................................... 11
> Determinación de la ecuación de R. L. S. ....................................................................................... 13
- El método de mínimos cuadrados   ........................................................................................................14
- Determinación de los coeficientes b0 y b ₁  ..........................................................................................15
-  Ajuste e interpretación
interpretación de la recta ........................................................................................................16
> Interpretación de la pendiente
pendiente del modelo ...................................................................................... 17
> Suposiciones en la R. L. S. ............................................................................................................. 18
> Inferencias en la R. L. S. ................................................................................................................. 19
 – Error
 – Error estándar de la Estimación   ..............................................................................................................19

 – Prueba “t” de independencia entre las variables (significación de la regresión)   .............................20


 – Enfoque
 – Enfoque del ANDEVA p/la prueba de significación de la regresión   ..................................................21
 – I.
 – I. de C. para la media  y,x  .........................................................................................................................24

 – I.
 – I. de C. de predicción para una observación futura Y i  ........................................................................24
> Evaluación
Evaluación de la adecuación del modelo de regresión.................................................................... 25
- Análisis residual (gráfico y numérico)   ......................................................................................................25
- El coeficiente
coeficiente de Determinación....................................................................................................... 32
+ Introducción   ................................................................................................................................................32

+ Medidas de variación en la Regresión y Correlación   ...........................................................................32


* SCT (SST), SCR (SSR), SCE (SSE)   .......................................................................................................32
+ Cálculo del coeficiente e interpretación ..................................................................................................35
- Prueba de falta de ajuste ................................................................................................................. 36
> El análisis de Correlación................................................................................................................ 37
- Introducción   .............................................................................................................................................37

- Cálculo del coeficiente   ...........................................................................................................................38

- P. de H. e Interpretación   ........................................................................................................................39

La Regresión Lineal Múltiple (R.L.M) ................................................................................................. 41


- Introducción   .............................................................................................................................................41

Determinación
Determinación de la ecuación de R.L.M............................................................................................. 42
- Determinacion de los coeficientes b 1  ...................................................................................................43
- Método de mínimos cuadrados ................................................................................... 44
- El Método Matricial (más conveniente
conveniente en el modelo de R.L.M). ........................................... 44

2
Inferencias
Inferencias en la R.L.M ...................................................................................................................... 46
- Error estándar de estimación   ................................................................................................................46

- p. de H. (de significación) para los coeficientes ₁, ₂,…  ................................................................47


.................................................................... 47
................................ 48
- Estimación de intervalos de confianza ₁, ₂ ................................................................................ 48
- Predicción dela variables dependiente “Y”  ................................................................................. 49
- Intervalo de confianza para la media y, x₁, x₂,… ........................................................................
,… ........................................................................ 49
- Intervalo de predicción para una observación futura Y i ................................................................ 49
El coeficiente de determinación
determinación múltiple ............................................................................................ 49
- Introducción   .............................................................................................................................................49

- Medidas de variación [SCT (SST), SCR (SSR), SCE (SSE)]  ..........................................................50


- Cálculo del coeficiente e interpretación ...............................................................................................51
- El coeficiente de Determinación “ajustado”   ........................................................................................52
Evaluación
Evaluación de la adecuación
adecuación del modelo de regresión....................................................................... 52
-  Análisis residual
residual  ......................................................................................................................................52

La matriz de correlación..................................................................................................................... 53
- ¿Qué propósitos tiene? ..........................................................................................................................53
La multicolinealidad
multicolinealidad o colinalidad
colinalidad múltiple
m últiple.......................................................................................... 54
- ¿Qué es?  .................................................................................................................................................54

- ¿Cómo se detecta su presencia?   ........................................................................................................54

- ¿Qué medidas correctivas se pueden utilizar para resolver este problema?  ...............................54
Regresión no lineal ............................................................................................................................ 56
Bibliografía
Bibliografía y referencias bibliográficas .............................................................................................. 57

3
 La regresión lineal simple
 – Antecedentes
 –  Antecedentes
La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados
que fue publicada por Legendre en 1805, y en dónde se incluía una versión del teorema de
Gauss-Márkov.
El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al
comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una
estatura muy superior al valor medio, tendían a igualarse a éste, mientras que aquellos cuyos
padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir,
"regresaban" al promedio. La constatación empírica de esta propiedad se vio reforzada más
tarde con la justificación teórica de ese fenómeno.
El término lineal  se
  se emplea para distinguirlo del resto de técnicas de regresión, que emplean
modelos basados en cualquier clase de función matemática. Los modelos lineales son una
explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más
extenso por parte de la matemática y la estadística.
Pero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados
en cualquier clase de aplicación.
El análisis de regresión es una técnica estadística para investigar la relación funcional entre
dos o más variables, ajustando algún modelo matemático. La regresión lineal simple utiliza una
sola variable de regresión y el caso más sencillo es el modelo de línea recta. Supóngase que
se tiene un conjunto de n pares de observaciones (x ¡,y¡), se busca encontrar una recta que
describa de la mejor manera cada uno de esos pares observados.

Se considera que la variable X es la variable independiente o regresiva y se mide sin error,


mientras que Y es la variable respuesta para cada valor específico xi de X; y además Y es una
variable aleatoria con alguna función de densidad para cada nivel de X.

4
Si la recta de regresión es: Y = β0 + β1X Cada valor y ¡  observado para un x ¡  puede
considerarse como el valor esperado de Y dado x ¡ más un error:

Los ε¡ se suponen errores aleatorios con distribución normal, media cero y varianza σ²; β0 y
β1 son constantes desconocidas (parámetros del modelo de regresión).

Método de Mínimos Cuadrados para obtener estimadores de β0 y β1


Consiste en determinar aquellos estimadores de β0 y β1 que minimizan la suma de cuadrados
de los errores ε ¡; es decir, los estimadores y de β0 y β1 respectivamente deben ser tales que:
sea mínima.

 Ahora, el modelo de regresión


regresión lineal simple
simple ajustado
ajustado (o recta
recta estimada)
estimada) es:

5
 – Mediciones univaribles, bivariables y multivariables en estadística
Univariables
Suelen ser la antesala para la realización de otros análisis.
Se concentran en una sola variable y buscan encontrar y representar características propias
de las mismas.

Medidas de tendencia central


  Media
  Mediana
  Moda

Medidas de frecuencia

 Frecuencia Absoluta
 Frecuencia Relativa
 Frecuencia Acumulada

Medidas de dispersión

 Rango o Recorrido
 Desviación Típica
  Varianza

Bivariables

Luego de realizar los análisis exploratorios corresponde realizar los análisis bivariables con
dos fines:

Fines Descriptivos: Describir al conjunto de la población observada.

Fines Explicativos: Analizar la posible existencia de relaciones causales entre dos variables
(dependiente e independiente).

6
Tablas de conting encia

Por tablas de contingencia se entiende aquellas de doble entrada, donde se realiza una
clasificación de la muestra de acuerdo a un doble criterio de clasificación:

 Cada valor de la tabla es el cruce de una fila y una columna. (Variable dependiente vs.
Independiente).
 Una variación porcentual es significativa si es mayor al 5 % (Dependiendo del error).

Covariancia

Dos variables se encuentran relacionadas si sus parámetros varían conjuntamente.


Para medir esta relación se utilizan métodos estadísticos de contingencia:

 Variables Nominales: Chi Cuadrado, C Pearson, etc y Variables Ordinales: Rho de


Spearman, Tau-A, etc.
 Variables de Intervalo: Coeficiente de Correlación producto-momento de Pearson.

 Multivariables
Buscan relaciones entre más de dos variables de manera simultánea.
En las ciencias sociales el análisis bivariable es por regla general insuficiente o simplista.
Las técnicas de AMV se pueden agrupar en dos grupos:
 Técnicas de Dependencia
 Técnicas de Interdependencia

> Una definición formal de la R. L. S.


El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la
relación lineal entre la variable respuesta y la variable regresora , a partir de una
muestra n
i = 1 , que sigue el siguiente modelo:

Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial

Donde t  = , t  = , t  = , t  = .

Se supone que se verifican las siguientes hipótesis:

1. La función de regresión es lineal,

O, equivalentemente, E  = 0, i =1,..., n.

7
2. La varianza es constante ( homocedasticidad),

2
O, equivalentemente, Var = , i = 1,..., n.

3. La distribución es normal,

O, equivalentemente, i  ~ N , i = 1,..., n.

4. Las observaciones Y i  son independientes. Bajo las hipótesis de normalidad, esto
equivale a que la Cov (Y i ,Y  j ) = 0, si i ≠ j.

Esta hipótesis en función de los errores sería “los i  son independientes”, que bajo  normalidad,
equivale a que Cov = 0, si i ≠ j.

En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los
coeficientes de la recta de regresión, 0 y 1; y la varianza de la distribución normal, 2.
El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos,
siendo los más utilizados el método de máxima verosimilitud y el método de mínimos
cuadrados.

> El diagrama de dispersión


En las distribuciones bidimensionales a cada individuo le corresponden los valores de dos
variables, las representamos por el par (x ¡ y¡).

Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos
ellos se llama nube de puntos o diagrama de dispersión.

Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible,
llamada recta de regresión.

Diagrama de dispersión

1º Correlación dir ecta

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

8
Use los pasos siguientes para encontrar la ecuación de la recta que mejor se ajusta para un
conjunto de parejas ordenadas.
Paso 1: Calcule la media de los valores de  x  y la media de los valores de y .
Paso 2: Realice la suma de los cuadrados de los valores de  x .
Paso 3: Realice la suma de cada valor de  x  multiplicado por su valor correspondiente y .
Paso 4: Calcule la pendiente de la recta usando la fórmula:

Donde n es el número total de puntos de los datos.


Paso 5: Calcule la intercepción en  y  de la recta usando la fórmula:

Donde son las medias de las coordenadas de  x y y de los puntos de datos
respectivamente.
Paso 6: Use la pendiente y la intercepción en y  para formar la ecuación de la recta.

- Determinación de los coeficientes b0 y b₁

La función de regresión lineal simple es expresado como:

Minimizando la suma de cuadrados de los errores, se determinan los valores de b 0 y b1, así:

b0: es el valor que representa (estimador) a 0 constituye el intercepto cuando X=0;


b1: es el valor que representa (estimador) a 1.
Sus desviaciones estándares respectivas son:

15
Luego, la ecuación de regresión es: y = b 0 + b1X
El coeficiente de regresión (b1).- pendiente de la recta de regresión, representa la tasa de
cambio de la respuesta Y al cambio de una unidad en X.
Si b1=0, se dice que no existe relación lineal entre las dos variables.

- Ajuste e interpretación de la recta


La recta de regresión, tiene carácter de línea media, como ya se ha señalado con anterioridad,
tratando por lo tanto de resumir o sintetizar la información suministrada por los datos.
Si tiene carácter de línea media (de promedio, en definitiva), deberá ir acompañada siempre
de una medida que nos hable de su representatividad, es decir, de lo buena que es la recta,
ya que el haber obtenido la mejor de todas no da garantías de que sea buena.

Necesitamos, por tanto, una medida de dispersión, que tenga en cuenta la dispersión de cada
observación con respecto a la recta, es decir, lo alejado que se encuentra cada punto de la
recta.
Es decir, deberemos evaluar esas distancias verticales a la recta, es decir, los errores o
residuales.
Si las dispersiones son pequeñas, la recta será un buen representante de la nube de puntos,
o lo que es lo mismo, la bondad de ajuste del modelo será alta. Si la dispersión es grande, la
bondad de ajuste será baja.
Una forma de medir dicha bondad de ajuste es precisamente evaluando la suma de los
cuadrados de los errores. Por tanto, llamaremos Varianza residual a la expresión:

16
Si la varianza residual es grande, el modelo será malo, es decir, la recta no explicará el
comportamiento general de la nube.
La fórmula práctica para el cálculo de la varianza residual, si el procedimiento de ajuste es el
de los mínimos cuadrados es la siguiente:

La cota máxima de la varianza residual es la varianza que tratamos de explicar mediante el


modelo de regresión, es decir, la varianza de la variable dependiente. Por tanto, sin más que
hacer relativa la varianza residual respecto de su máximo valor, y multiplicando por 100,
obtendremos el porcentaje de variaciones no explicado por el modelo:

 Ahora, ya es fácil obtener una media que nos indique el porcentaje de variaciones controladas
o explicadas mediante el modelo, que se conoce como Coeficiente de Determinación, que
denotaremos con R2. Su expresión en tantos por 1, será:

Como puede observarse, a partir de la expresión anterior: 0< R² <1. Por tanto:

Si R²=1, entonces no hay residuos, habrá una dependencia funcional. Cuanto más se acerque
dicho valor a la unidad, mayor poder explicativo tendrá el modelo de regresión.

Si R²=0, X no explica en absoluto ninguna de las variaciones de la variable Y, de modo que o


bien el modelo es inadecuado, o bien las variables son independientes. Cuanto más cercano
a 0 esté dicho valor, menor poder explicativo.

> Interpretación de la pendiente del modelo


En este modelo, la pendiente de la recta β 1 representa el cambio esperado en Y por unidad
de cambio en x; esto es, representa la cantidad que cambia la variable Y (ya sea positiva o
negativamente), con respecto a una unidad de cambio particular en X. Por otro lado, la
intersección en el eje, β 0, representa el valor promedio de Y cuando X es igual a cero.
En los paneles siguientes se muestra la relación que tienen X con Y.

17
La expresión general de los límites de predicción del (1- α) 100 % para una observación futura
para el valor de la variable explicativa es:

La única diferencia entre el intervalo de confianza y el de predicción es que aparece un 1


dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras
que la longitud de los intervalos de predicción nunca pueda ser menor que.
Si la cantidad de observaciones es grande la raíz que aparece en la expresión de predicción
es aproximadamente igual a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta
cerca de 4s. Por lo tanto, si estamos interesados en predicción, 4σˆ e s un excelente indicio de
la calidad del ajuste, y como consecuencia, de la incerteza de las predicciones.

> Evaluación de la adecuación del modelo de regresión

- Análisis residual (gráfico y numérico)


Como ya se indicó, el residual de la observación i es la diferencia entre el valor observado de
la variable dependiente ( yi ) y el valor estimado de la variable dependiente (ŷ i )

25
En otras palabras, el residual i es el error que resulta de usar la ecuación de regresión estimada
para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan estos residuales
correspondientes a los datos del ejemplo de Armand’s Pizza Parlors. En la segunda  columna
de la tabla se presentan los valores observados de la variable dependiente y en la tercera
columna, los valores estimados de la variable dependiente obtenidos usando la ecuación de
regresión estimada ŷ = 60+5 x . Un análisis de los residuales correspondientes, que se
encuentran en la cuarta columna de la tabla, ayuda a determinar si las suposiciones hechas
acerca del modelo de regresión son adecuadas. A continuación se revisan las suposiciones de
regresión en el ejemplo de Armand’s Pizza Parlors. Se s upuso un modelo de regresión lineal
simple.

Este modelo indica que se supone que las ventas trimestrales ( y ) son función lineal del tamaño
de la población de estudiantes ( x ), más un término del error ϵ. Para el término del error ϵ se
hicieron las siguientes suposiciones
1. E  (ϵ) = 0.
2. La varianza de ϵ, que se denota σ 2, es la misma para todos los valores de  x .
3. Los valores de ϵ son independientes.
4. El término del error ϵ tiene distribución normal.
Estas suposiciones son la base teórica para las pruebas t y F que se usan para determinar si
la relación entre x y y es significativa y para las estimaciones, mediante intervalos de confianza
y de predicción. Si las suposiciones acerca del término del error ϵ son dudosas, puede ser que
las pruebas de hipótesis acerca de la significancia de la relación de regresión y los resultados
de la estimación por intervalo no sean correctas.
Los residuales proporcionan la mejor información acerca de ϵ; por lo tanto, el análisis de los
residuales es muy importante para determinar si las suposiciones hechas acerca de ϵ  son
apropiadas.
Gran parte del análisis residual se basa en examinar gráficas. En esta sección se estudiarán
las siguientes gráficas de residuales.

26
1. La gráfica de residuales contra los valores de la variable independiente  x
2. La gráfica de residuales contra los valores pronosticados para la variable dependiente ŷ
3. La gráfica de residuales estandarizados
4. La gráfica de probabilidad normal.

Gráfica de residuales contra x

La gráfica de residuales contra la variable independiente  x es una gráfica en la que los valores
de la variable independiente se representan en el eje horizontal y los valores de los residuales
correspondientes se representan en el eje vertical. Para cada residual se grafica un punto. La
primera coordenada de cada punto está dada por el valor  xi y la segunda coordenada está
dada por el correspondiente valor del residual yi - ŷi . En la gráfica de residuales contra  x
obtenida con los datos de Armand’s Pizza Parlors de la tabla 14.7, las coordenadas del primer
punto son (2,-12), que corresponden a  x 1 = 2 y y 1-ŷ1=-12; las coordenadas del segundo punto
son (6, 15), que corresponden a  x 2 = 6 y y 2-ŷ2=15; etc. En la figura 14.11 se muestra la gráfica
de residuales obtenida. Antes de interpretar los resultados de esta gráfica de residuales, se
considerarán algunas de las formas generales que pueden tener las gráficas de residuales. En
la figura 14.12 se muestran tres ejemplos. Si la suposición de que la varianza de ϵ es la misma
para todos los valores de  x y si el modelo de regresión empleado representa adecuadamente
la relación entre las variables, el aspecto general de la gráfica de residuales será el de una
banda horizontal de puntos como en la gráfica A de la figura 14.12. Pero si la varianza de ϵ no
es la misma para todos los valores  x —por ejemplo, si la variabilidad respecto a la línea de
regresión es mayor para valores de  x mayores— el aspecto de la gráfica puede ser como el
de la gráfica B de la figura 14.12. En este caso, se viola la suposición de que ϵ  tiene una
varianza constante. En la gráfica C se muestra otra forma que puede tomar la gráfica de
residuales. En este caso, se puede concluir que el modelo de regresión empleado no
representa adecuadamente la relación entre las variables, y deberá considerarse un modelo
de regresión curvilíneo o múltiple. Volviendo, ahora, a la gráfica de los residuales del ejemplo
de Armand’s Pizza Parlors, figura 14.11. Estos residuales parecen   tener una forma que se
aproxima a la forma de banda horizontal de la gráfica A de la figura 14.12. Por lo tanto, se
concluye que esta gráfica de residuales no muestra evidencias de que las suposiciones hechas
para el modelo de regresión de Armand’s puedan  ser dudosas. Se concluye que el modelo de
regresión lineal simple empleado para el ejemplo de Armand’s, es válido.

27
estudios de regresión, el tamaño de la muestra es suficientemente grande para que una
aproximación normal sea muy buena.

- El coeficiente de Determinación

+ Introducción
En el ejemplo de Armand Pizza Parlors para aproximar la relación lineal entre el tamaño de la
población de estudiantes  x y las ventas trimestrales y se obtuvo la ecuación de regresión
estimada ŷ= 60 + 5 x . Ahora la pregunta es: ¿qué tan bien se ajusta a los datos la ecuación de
regresión estimada? En esta sección se muestra que una medida de la bondad de ajuste de la
ecuación de regresión estimada (lo bien que se ajusta la ecuación a los datos) es el coeficiente
de determinación.
 A la diferencia que existe, en la observación i , entre el valor observado de la variable
dependiente yi , y el valor estimado de la variable dependiente, se le llama residual i . El residual
i  representa el error que existe al usar ŷ i para estimar yi . Por lo tanto, para la observación i , el
residual es yi - ŷi  . La suma de los cuadrados de estos residuales o errores es la cantidad que
se minimiza empleando el método de los mínimos cuadrados. Esta cantidad, también conocida
como suma de cuadrados debida al error, se denota por SCE.

+ Medidas de variación en la Regresión y Correlación

* SCT (SST), SCR (SSR), SCE (SSE)

32
33
34
Una aplicación práctica del análisis factorial es mencionada por Malhotra (2008), quien afirma
que gracias a dicho análisis la compañía bancaria JPMorgan Chase & Co logró identificar las
dimensiones que usan los clientes para evaluar los bancos y desarrollar estrategias de
marketing adecuadas; así, se convirtieron en el segundo banco más grande de Estados
Unidos.

La multicolinealidad o colinalidad múltiple


- ¿Qué es?
El proceso o término de multicolinealidad en Econometría es una situación en la que se
presenta una fuerte correlación entre variables explicativas del modelo. La correlación ha de
ser fuerte, ya que siempre existirá correlación entre dos variables explicativas en un modelo,
es decir, la no correlación de dos variables es un proceso idílico, que sólo se podría encontrar
en condiciones de laboratorio.
- ¿Cómo se detecta su presencia?

 Solicitando el determinante de la matriz de varianzas-covarianzas, que estará cercano


a cero.
 Calculando el cociente entre el primer y último autovalor de la matriz de varianzas-
covarianzas que será mayor de 50.
 Calculando para cada variable el coeficiente de determinación (R²) de dicha variable
con el resto.

- ¿Qué medidas correctivas se pueden utilizar para resolver este problema?


La solución es eliminar del modelo aquellas variables explicativas que dependen unas de otras.
En principio, el problema de la multicolinealidad está relacionado con deficiencias en la
información muestral. El diseño muestral no experimental es, a menudo, el responsable de
estas deficiencias. Sin embargo, la aproximación cuantitativa a los conceptos teóricos puede
ser inadecuada, haciendo que en el término de perturbación se absorban errores de
especificación. Veamos a continuación algunas de las soluciones propuestas para resolver el
problema de la multicolinealidad.

Eliminación de variables
La multicolinealidad puede atenuarse si se eliminan los regresores que son más afectados por
la multicolinealidad. El problema que plantea esta III-7 solución es que los estimadores del
nuevo modelo serán sesgados en el caso de que el modelo original fuera el correcto. Sobre
esta cuestión conviene hacer la siguiente reflexión. El investigador está interesado en que un
estimador sea preciso (es decir, que no tenga sesgo o que este sea muy pequeño) y con una
varianza reducida. El error cuadrático medio (ECM) recoge ambos tipos de factores.
 Así para el estimador , el ECM se define de la siguiente manera.

Si un regresor es eliminado del modelo, el estimador de un regresor que se mantiene (por


ejemplo, ) será sesgado, pero, sin embargo, su ECM puede ser menor que el
54
correspondiente al modelo original, debido a que la omisión de una variable puede hacer
disminuir suficientemente la varianza del estimador. En resumen, aunque la elimin ación de una
variable no es una práctica que en principio sea aconsejable, en ciertas circunstancias puede
tener su justificación cuando contribuye a disminuir el ECM.

 Aumento del tamaño de la muestra


Teniendo en cuenta que un cierto grado de multicolinealidad acarrea problemas cuando
aumenta ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir
encaminadas a reducir esta varianza.

Existen dos vías: por un lado, se puede aumentar la variabilidad a lo largo de la muestra de los
regresores colineales introduciendo observaciones adicionales. Esta solución no siempre es
viable, puesto que los datos utilizados en las contrastaciones empíricas proceden
generalmente de fuentes estadísticas diversas, interviniendo en contadas ocasiones el
investigador en la recogida de información.

Por otro lado, cuando se trate de diseños experimentales, se podrá incrementar directamente
la variabilidad de los regresores sin necesidad de incrementar el tamaño de la muestra.
Finalmente, conviene no olvidar que el término de perturbación no debe contener ningún factor
que sea realmente relevante para la explicación de las variaciones del regresando, con el fin
de reducir todo lo posible la varianza del término de perturbación.

Utilización de información extramuestral


Otra posibilidad es la utilización de información extramuestral, bien estableciendo restricciones
sobre los parámetros del modelo, bien aprovechando estimadores procedentes de otros
estudios. El establecimiento de restricciones sobre los parámetros del modelo reduce el
número de parámetros a estimar y, por tanto, palia las posibles deficiencias de la información
muestral. En cualquier caso, para que estas restricciones sean útiles deben estar inspiradas
en el propio modelo teórico o, al menos, tener un significado económico.
En general, un inconveniente de esta forma de proceder es que el significado atribuible al
estimador obtenido con datos de corte transversal es muy diferente del obtenido con datos
temporales. A veces, estos estimadores pueden resultar realmente «extraños» o ajenos al
objeto de estudio. Por otra parte, al estimar las varianzas de los estimadores obtenidos en la
segunda regresión hay que tener en cuenta la estimación previa.

Utilización de ratios
Si en lugar del regresando y de los regresores del modelo original se utilizan ratios con respecto
al regresor que tenga mayor colinealidad, puede hacer que la correlación entre los regresores
del modelo disminuya. Una solución de este tipo resulta muy atractiva, por su sencillez de
aplicación. Sin embargo, las transformaciones de las variables originales del modelo utilizando
ratios pueden provocar otro tipo de problemas. Suponiendo admisibles las hipótesis básicas
con respecto a las perturbaciones originales del modelo, esta transformación modificaría
implícitamente las propiedades del modelo, de tal manera que las perturbaciones del modelo
transformado utilizando ratios ya no serían perturbaciones homoscedásticas, sino
heteroscedásticas.

55
Regresión no lineal
Si las dos variables X y Y se relacionan según un modelo de línea recta, se hable de regresión
lineal simple

Cuando las variables X y Y se relacionan según una línea curva, se habla de regresión no
lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica, exponencial, potencial,
etc.

56
Bibliografía y referencias bibliográficas
http://tarwi.lamolina.edu.pe/~fmendiburu/index-
filer/academic/Foresteria%20I/Teoria/Exposicion%20regresion.pdf
http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml
https://es.wikipedia.org/wiki/M%C3%ADnimos_cuadrados
http://hotmath.com/hotmath_help/spanish/topics/line-of-best-fit.html
http://biplot.usal.es/problemas/regresion/teoria/regsimple.htm
http://tarwi.lamolina.edu.pe/~fmendiburu/index-filer/academic/metodos1/Regresion.pdf
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html
https://luisdi.files.wordpress.com/2008/09/primera-unidad-regresion-y-correlacion.pdf
http://www.mcgraw-hill-
educacion.com/pye01e/cap13/13analisis_de_correlacion_y_regresion.pdf
http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo13/B0C13m1t9.htm
http://www.vitutor.com/estadistica/bi/correlacion.html
Estadística aplicada a los negocios y la economía- Webster
Estadística básica para administración-Berenson Levine
Estadística schawn 4ta edición
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.p
df 
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_02_63.html
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.p
df 
http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un5/cont_01_41.html
http://cursos.tecmilenio.edu.mx/cursos/at8q3ozr5p/prof/fi/fi09002/anexos/explica3.htm
https://es.wikipedia.org/wiki/Multicolinealidad
http://www.uv.es/uriel/material/multicolinealidad3.pdf 
Estadística inferencial segundo libro del curso- Raúl Giménez González. I.T. de Ensenada

57

También podría gustarte