Investigación - 1IM121 - Maria Martínez Bonilla - 4-779-1710 PDF

Universidad Tecnológica De
Panamá
Licenciatura en Ingeniería
Mecánica
Grupo:
1IM121
Materia:
Probabilidad y Estadística
Tema:
Métodos de Regresión y Correlación
Presentado Por:
María Celina Martínez Bonilla
4-779-1710
Profesor:
Luis Pomares
Panamá, 21 de junio de 2020.
1
Tabla de contenido
Introducción........................................................................................................... 4
MÉTODOS DE REGRESIÓN Y CORRELACIÓN ................................................... 5
1. MODELO LINEAL SIMPLE .............................................................................. 5
1.1 Definición ......................................................................................................................... 5
1.2 Supuestos del Modelo .................................................................................................. 7
1.3 Métodos de Mínimos cuadrados para encontrar la ecuación de mejor ajuste
9
1.4 Medición del coeficiente de correlación ................................................................ 11
1.5 Medición del Coeficiente de Determinación ......................................................... 11
1.6 Medición del error de estimación ............................................................................ 13
1.7 Verificación gráfica de los supuestos de modelo ............................................... 14
1.8 Problemas Resueltos del Modelo ............................................................................ 16
2. MODELO LINEAL MÚLTIPLE ....................................................................... 19
2.1 Definición ....................................................................................................................... 19
2.2 Supuestos de Modelo.................................................................................................. 20
2.3 Metodos de Minimos cuadrados para encontrar la ecuación de mejor ajuste
21
2.4 Medición del Coeficiente de Correlación ............................................................... 22
2.5 Medición del Coeficiente de Determinación ......................................................... 24
2.7 Medición del error de estimación ............................................................................ 26
2.8 Problemas Resueltos del Modelo ............................................................................ 27
3. MODELO EXPONENCIAL ............................................................................. 31
3.1 Definición ....................................................................................................................... 31
3.2 Supuestos de Modelo.................................................................................................. 33
3.3 Métodos de Mínimos Cuadrados para encontrar la Ecuación de mejor ajuste
34
3.5 Medición del coeficiente de determinación........................................................... 36
3.6 Medición de error de estimación.............................................................................. 36
3.7 Verificación gráfica de los supuestos del modelo .............................................. 37
3.8 Problemas Resueltos del modelo ............................................................................ 38
Conclusiones ....................................................................................................... 43
2
Bibliografía e Infografía ...................................................................................... 44
3
Introducción
La regresión lineal es la técnica básica del análisis econométrico. Mediante dicha

técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una
variable dependiente o endógena, respecto de una o varias variables explicativas
o exógenas. Gujarati (1975), define el análisis de regresión como el estudio de la
dependencia de la variable dependiente, sobre una o más variables explicativas,
con el objeto de estimar o predecir el valor promedio poblacional de la primera en
términos de los valores conocidos o fijos (en medias muestrales repetidas) de las
últimas.
En este trabajo abordaré temas importantes dentro del estudio de los métodos de
regresión y correlación, entre ellos el simple, múltiple y exponencial, así como sus
respectivos supuestos de modelo, coeficientes de correlación y determinación,
entre otros aspectos relevantes.
4
MÉTODOS DE REGRESIÓN Y CORRELACIÓN
1. MODELO LINEAL SIMPLE
1.1 Definición
La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables.
En algunos casos la naturaleza de las variables permite suponer que existe

relación de dependencia entre ellas, es decir, que los valores de una variable Y
(variable dependiente o endógena) dependen o están influidos por los valores de
otra variable, X (variable independiente o exógena). En el caso en que pueda
suponerse una relación lineal de dependencia, ésta podrá sintetizarse mediante
un modelo de regresión.
A partir del diagrama de dispersión y de los resultados obtenidos en el análisis de

correlación puede decidirse si está relación es de tipo lineal. En este caso, los
puntos del diagrama de dispersión aparecen tanto más próximos a una línea recta
ajustada a la nube de puntos cuanto más intenso es el grado de asociación. Por
otra parte, según sea el sentido de la asociación dicha línea tendrá pendiente
positiva si el coeficiente de correlación simple, r, es positivo y negativa en caso
contrario.
El punto de partida del modelo de regresión lineal simple (MRLS) es que la

relación entre ambas variables no es de tipo determinista, sino estocástico; de
forma que para cada valor de X existe una distribución de probabilidad de Y,
siendo la relación tal que los valores esperados de las distribuciones de
probabilidad de Y asociadas a cada uno de los valores de X están situados sobre
5
una línea recta, llamada recta de regresión poblacional, que se expresa como:
donde:
• ßo: El valor de la ordenada donde la línea de regresión se interseca al eje

Y.
• ß1: El coeficiente de regresión poblacional (pendiente de la línea recta)
• ε: El error.
A la ecuación que describe la relación entre el valor esperado de y, que se denota

E(x), y x se le llama ecuación de regresión. La siguiente es la ecuación de
regresión para la regresión lineal simple, la misma se expresa como:
E(y)= ßo + ß1x
Ejemplos de líneas de regresión en la regresión lineal simple.
6
1.2 Supuestos del Modelo
Los valores deben cumplir con una serie de requisitos para que sea pertinente el
uso del modelo de regresión. Estos requisitos pueden ser aplicados a la variable Y,
que es la otra variable aleatoria implicada en el modelo de regresión.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los
siguientes supuestos:
1. Que la relación entre las variables sea lineal.
2. Que los errores en la medición de las variables explicativas sean

independientes entre sí.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemática igual a cero (los errores
de una misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.
Formalmente estos requisitos o supuestos se expresan así:
7
Gráfico de y vs x
Homocedasticidad se refiere al supuesto de que la variable dependiente (Y)

presenta una distribución con igual varianza en todo el rango de valores de la
variable independiente (X).
Homocedasticidad vs Heterocedasticidad
La normalidad de los errores permite la estimación por intervalos de

confianza no sólo para los coeficientes de regresión, sino también para
la predicción. Permite el planteamiento de pruebas de hipótesis sobre
los parámetros del modelo. Cuando los errores no son normales, los
intervalos y las pruebas de hipótesis no son exactas y pueden llegar
a ser inválidas (Behar, 2003).
8
1.3 Métodos de Mínimos cuadrados para encontrar la ecuación de
mejor ajuste
El método de mínimos cuadrados es un método en el que se usan los datos
muestrales para hallar la ecuación de regresión estimada.
Es un procedimiento de análisis numérico en la que, dados un conjunto de datos
(pares ordenados y familia de funciones), se intenta determinar la función continua
que mejor se aproxime a los datos (línea de regresión o la línea de mejor ajuste),
proporcionando una demostración visual de la relación entre los puntos de los
mismos. En su forma más simple, busca minimizar la suma de cuadrados de las
diferencias ordenadas (llamadas residuos) entre los puntos generados por la
función y los correspondientes datos.
Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio, con el fin de expresar su comportamiento de manera
lineal y así minimizar los errores de la data tomada.
La creación del método de mínimos cuadrados

generalmente se le acredita al matemático alemán Carl
Friedrich Gauss, quien lo planteó en 1794 pero no lo
publicó sino hasta 1809. El matemático francés Andrien-
Marie Legendre fue el primero en publicarlo en 1805, este
lo desarrolló de forma independiente.
Carl Friedrich Gauss
9
Su expresión general se basa en la ecuación de una
recta y = mx + b. Donde m es la pendiente y b el punto
de corte, y vienen expresadas de la siguiente manera:
Mínimos cuadrados
El método de mínimos cuadrados calcula a partir de los N pares de datos

experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta.
Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias d de
los puntos medidos a la recta.
Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al

conectar punto a punto no se describe una recta, debemos aplicar el método de
mínimos cuadrados, basándonos en su expresión general:
Cuando se haga uso del método de mínimos cuadrados se debe buscar una línea
de mejor ajuste que explique la posible relación entre una variable independiente y
una variable dependiente. En el análisis de regresión, las variables dependientes
se designan en el eje y vertical y las variables independientes se designan en el
eje x horizontal. Estas designaciones formarán la ecuación para la línea de mejor
ajuste, que se determina a partir del método de mínimos cuadrados.
10
1.4 Medición del coeficiente de correlación
El Coeficiente de correlación es una medida que permite conocer el grado de
asociación lineal entre dos variables cuantitativas (X, Y).
Podemos observar que en un diagrama B los puntos se acercan más a la recta,

caso contrario en el diagrama A, los puntos están más alejados. Entonces
podemos decir que la relación lineal del diagrama A es más débil con comparación
a la relación que existe en el diagrama B.
Un diagrama dispersión no nos da certeza de que tan débil o fuerte es la relación

lineal, necesitamos una medida que nos de la fuerza de la asociación y la
dirección que toma esta relación.
Para esto sirve el coeficiente de correlación que esta dado por la siguiente
formula:
Donde:
SXY = covarianza
SXSY= Desviación Estándar de X multiplicada por la Desviación Estándar de Y.
1.5 Medición del Coeficiente de Determinación
11
El coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un
estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la
calidad del modelo para replicar los resultados, y la proporción de variación de los
resultados que puede explicarse por el modelo.
En un modelo de regresión lineal el coeficiente de determinación es adimensional

y se calcula del siguiente modo:
Donde la suma total es la varianza muestral de la variable endógena multiplicada

por el tamaño de la muestra; por lo tanto, mide las fluctuaciones de esta variable
alrededor de su media; y, la suma residual indica cuál es el nivel de error que se
comete con el modelo estimado al explicar la variable endógena.
El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a

1 si el modelo estimado puede explicar completamente la variable dependiente sin
ningún error, lo cual es muy improbable en la práctica) y si, además, el modelo
tiene término independiente, entonces el R2 es mayor o igual que cero.
Si el modelo tiene término independiente, existen diferentes expresiones que

permiten el cálculo del R2, tales como:
donde, la suma explicada es el grado de fluctuación de la variable dependiente
que el modelo de regresión estimado es capaz de explicar; es el vector de

parámetros estimados del modelo, X es la matriz de observaciones de las
12
variables explicativas del modelo, y es el vector de observaciones de la variable
dependiente, T es el número de observaciones de las variables del modelo,
e es el cuadrado de la media de la variable dependiente.
El R2 también se puede calcular como el cuadrado del coeficiente de correlación
entre y (variable dependiente) e (variable dependiente estimada a través del

modelo de regresión).
El coeficiente de determinación no solo mide la capacidad explicativa de un

modelo sino que, además, permite elegir entre varios modelos cuál es el más
adecuado. Así si los modelos tienen la misma variable dependiente y el mismo
número de variables explicativas, será más adecuado el que tenga un coeficiente
de determinación mayor.
1.6 Medición del error de estimación

Error de estimación es el valor absoluto de la diferencia entre una estimación
particular y el valor del parámetro.
En realidad por cada valor estimado del parámetro se tiene un error de estimación
por lo general diferente. Sin embargo, es posible fijar un intervalo dentro del cual
se encontrarán la mayoría de los valores de error de estimación para un estimador
y parámetro dados.
Los estimadores se usan cuando los parámetros que se incluyen en las fórmulas
de los errores de estimación son desconocidos.
13
1.7 Verificación gráfica de los supuestos de modelo
Los 4 supuestos son:
1. Linealidad: E(Y ) = Xβ
2. Homoscedasticidad: V ar(€i) = σ2 = cte.
3. Normalidad: €i tienen distribución Normal
4. Independencia de los errores: i independiente de €j si i 6≠ j.
14
15
1.8 Problemas Resueltos del Modelo
16
Problema 2
17
Problema 3
18
2. MODELO LINEAL MÚLTIPLE
2.1 Definición
El análisis de regresión múltiple estudia la relación de una variable dependiente
con dos o más variables independientes. Para denotar el número de variables
independientes se suele usar p. Existen muchas técnicas de regresión en función
del tipo de variables y de la forma funcional supuesta entre ellas. Las más
elementales (aunque las más potentes en el sentido de que se puede obtener más
información) son las lineales. La regresión lineal supone que la relación entre dos
variables tiene una forma lineal (o linealizable mediante alguna transformación de
las variables). La regresión lineal tiene una versión “simple” que empareja dos
variables, pero esta suele ser insuficiente para entender fenómenos mínimamente
complejos en la que influyen más de dos variables, esta versión es la “múltiple”.
En el modelo de regresión lineal múltiple suponemos que más de una variable
tiene influencia o está correlacionada con el valor de una tercera variable. Por
ejemplo en el peso de una persona pueden influir edad, género y estatura, en la
renta pueden influir trabajo, capital físico, conocimientos, etc. En el modelo de
regresión lineal múltiple esperamos que los sucesos tengan una forma funcional
como
donde y es la variable endógena, x las variables exógenas, u los residuos y b los

coeficientes estimados del efecto marginal entre cada x e y.
19
Modelo lineal múltiple
2.2 Supuestos de Modelo

Los conceptos de modelo de regresión y ecuación de A la ecuación que describe
cómo está relacionada la variable dependiente y con las variables independientes
x_1, x_2, . . ., x_ρ se le conoce como modelo de regresión múltiple. Se supone
que el modelo de regresión múltiple toma la forma siguiente:
En el modelo de regresión múltiple, 𝛽0, 𝛽1, 𝛽2, . . . , 𝛽𝜌 , son parámetros y el término

del error 𝜀 (la letra griega épsilon) es una variable aleatoria. Examinando con
atención este modelo se ve que y es una función lineal de 𝑥1 , 𝑥2 , . . ., 𝑥𝜌 (la parte
𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 ...+ 𝛽𝜌 𝑥𝜌 ) más el término del error 𝜌. El término del error corresponde
a la variabilidad en y que no puede atribuirse o explicarse al efecto lineal de las p
variables independientes.
Uno de los supuestos es que la media o valor esperado de 𝜀 es cero. Una

consecuencia de este supuesto es que la media o valor esperado de y, que se
denota E(y), es igual a A la ecuación 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 ...+ 𝛽𝜌 𝑥𝜌 que describe cómo
20
está relacionada la media de y con 𝑥1 , 𝑥2 , . . ., 𝑥𝜌 se le conoce como ecuación de
regresión múltiple.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:
• Linealidad: Que la relación entre las variables sea lineal.

• Independencia: Que los errores en la medición de las variables explicativas
sean independientes entre sí.
• Homocedasticidad: Que los errores tengan varianza constante.
• Normalidad: Que las variables sigan la Ley Normal.
• No colinealidad: Que las variables independientes no estén correlacionadas
entre ellas.
2.3 Metodos de Minimos cuadrados para encontrar la ecuación

de mejor ajuste
El método para obtener la ecuación de regresión estimada que permitía aproximar
mejor la relación lineal entre las variables dependiente e independiente también se
usa para obtener la ecuación de regresión múltiple estimada. El criterio está en el
método de mínimos cuadrados.
El procedimiento más objetivo para ajustar una recta a un conjunto de datos

presentados en un diagrama de dispersión se conoce como "el método de los
mínimos cuadrados".
La recta resultante presenta dos características importantes:
➢ Es nula la suma de las desviaciones verticales de los puntos a partir de la recta

de ajuste.
∑ (Yｰ - Y) = 0.
21
➢ Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta
daría una suma menor de las desviaciones elevadas al cuadrado.
∑ (Yｰ - Y)² → 0(mínima).
Los valores estimados de la variable dependiente se calculan empleando la
ecuación de regresión múltiple estimada
𝒚̂= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 ...+ 𝛽𝜌 𝑥𝜌
el método de mínimos cuadrados emplea datos muestrales para obtener los valores
de β0 , β1, β2 , . . ., βρ que hacen que la suma de los cuadrados de los residuales [las
diferencias entre los valores observados de la variable dependiente (𝑦𝑖 ) y los valores
estimados de la variable dependiente ( 𝑦̂)] sea un mínimo. En la regresión múltiple,
en cambio, las fórmulas para calcular β0 , β1, β2 , . . ., βρ emplean álgebra de matrices
y quedan fuera del alcance de este texto. Por esta razón, en el estudio de la
regresión múltiple, se centrará la atención en el uso de los paquetes de software
para obtener la ecuación de regresión estimada y algunas otras informaciones. Lo
importante será la interpretación de los resultados que proporcionan estos paquetes
de software y no cómo hacer los cálculos para la regresión múltiple.
2.4 Medición del Coeficiente de Correlación

La correlación lineal múltiple estima los coeficientes de la ecuación lineal, con una
o más variables independientes, que mejor prediga el valor de la variable
dependiente. Por ejemplo, se puede intentar predecir el total de facturación
lograda por servicios prestados en una IPS cada mes (la variable dependiente) a
partir de variables independientes tales como: Tipo de servicio, edad, frecuencia
del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.
Conceptualmente, el FIVi (Factor de incremento de la varianza) es la proporción
de variabilidad de la iésima variable, que explican el resto de las variables
independientes. La tolerancia de una variable es la proporción de variabilidad de la
variable, que no se explica por el resto de las variables independientes. La
tolerancia y el FIV son muy útiles en la construcción de modelos de regresión. Si
22
construimos un modelo paso a paso entrando las variables de una en una, es útil
conocer la tolerancia o el FIV de las variables independientes ya entradas en la
ecuación. De esta manera, las variables con mayor tolerancia son las que mayor
información aportarán al modelo. Además de la tolerancia y el FIV, debemos
estudiar la matriz de correlaciones. Altas correlaciones entre las variables
implicadas en el modelo deben considerarse como indicios de colinealidad. Puede
ocurrir que, aun siendo pequeñas las correlaciones entre las variables exista
colinealidad. Supongamos que tenemos K variables independientes y construimos
otra que sea la media de los valores de las otras K variables, en este caso la
colinealidad será completa, pero si K es grande, los coeficientes de correlación
serán pequeños. Por lo tanto, el estudio de la matriz de correlaciones no es
suficiente. Una técnica que cada vez se utiliza más, aunque resulta algo
sofisticada, es el análisis de los autovalores de la matriz de correlaciones o de la
matriz del producto cruzado. A partir de los autovalores, se puede calcular el
índice de condicionamiento IC tanto global del modelo como de cada variable. El
índice de condicionamiento es la raíz cuadrada del cociente entre el máximo y el
mínimo autovalores. Si el IC es mayor que 30, existe colinealidad elevada, si el IC
es mayor que 10 y menor que 30, la colinealidad es moderada, si el IC es menor
que 10, no existe colinealidad. También es interesante el índice de
condicionamiento para cada variable Ici, que es la raíz cuadrada del cociente del
máximo autovalor y el iésimo autovalor. La varianza de cada coeficiente de
regresión, incluida la constante, puede ser descompuesta como la suma de
componentes asociadas a cada uno de los autovalores si el porcentaje de la
varianza de algunos coeficientes de correlación se asocia con el mismo autovalor,
hay evidencia de colinealidad.
PASOS:
• Identificar Xi, Y
• Construir diagrama de dispersión
• Estimar los parámetros del modelo.
• Probar la significancia
• Determinar la fuerza de la asociación
• Verificar la exactitud de la predicción
23
• Análisis de residuales
• Validación cruzada del modelo
2.5 Medición del Coeficiente de Determinación

Una vez estimada la ecuación de regresión lineal tiene interés determinar la
exactitud del ajuste realizado. Para ello hay que analizar la variación que
experimenta esta variable dependiente y, dentro de esta variación, se estudia qué
parte está siendo explicada por el modelo de regresión y qué parte es debida a los
errores o residuos.
La forma de realizar dicho análisis es a partir de la siguiente expresión:
SCT=SCE+SCR
donde:
• SCT es la Suma de Cuadrados Totales y representa una medida de la variación

de la variable dependiente.
• SCE es la Suma de Cuadrados Explicados por el modelo de regresión.
• SCR es la Suma de Cuadrados de los Errores
Cuando el modelo tiene término independiente, cada una de estas sumas viene
dada por:
Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios

que tengan el mismo número de variables exógenas, ya que la capacidad
explicativa de un modelo es mayor cuanto más elevado sea el valor que tome
este coeficiente. Sin embargo, hay que tener cierto cuidado a la hora de trabajar
con modelos que presenten un R2 muy cercano a 1 pues, aunque podría
parecer que estamos ante el modelo “perfecto”, en realidad podría encubrir
ciertos problemas de índole estadística.
24
Por otra parte, el valor del coeficiente de determinación aumenta con el número
de variables exógenas del modelo por lo que, si los modelos que se comparan
tienen distinto número de variables exógenas, no puede establecerse
comparación entre sus R2. En este caso debe emplearse el coeficiente de
determinación corregido (R2), el cual depura el incremento que experimenta el
coeficiente de determinación cuando el número de variables exógenas es
mayor.
La expresión analítica de la versión corregida es:

La correlación es la medida de la fuerza de relación lineal entre dos variables,
después de controlar los efectos de otras variables en el modelo; es decir, el grado
de asociación entre Y Una variable explicativa, eliminando el efecto lineal de todas
las otras variables explicativas. Mide la fuerza de la relación entre Y una sola
variable independiente, considerando la cantidad en que se reduce la variación
explicada al incluir esta variable en la ecuación de regresión. Esta correlación se
representa por:
25
Expresiones que se leen:
Correlación de las variables Y-X1, Cuando se tiene controlado

el efecto X2 en un modelo. También se puede leer :Correlación Y-X1 ,Cuando X2
ya está en el modelo.
Correlación de las variables Y-X1, Cuando se tienen

controlados los efectos de X2 y X3 en un modelo.
Correlación de las variables X3 , X4 y X5 con Y

cuando se tienen controlados los efectos de X1 y X2 en un modelo.
2.7 Medición del error de estimación

El error estándar múltiple de la estimación es la medida de la eficiencia de la
ecuación de regresión.
Esta medida en las mismas unidades que la variable dependiente.
Es difícil determinar cuál es un valor grande y cual es un valor pequeño para el
error estándar.
La fórmula es:
Donde n es el número de observaciones y k es el número de variables

independientes.
26
2.8 Problemas Resueltos del Modelo
27
Usando los siguientes datos, consumo nacional (Ct) y renta nacional (Rt) en España
para el periodo 1995-2005 a precios corrientes (109 euros), obtenga las
estimaciones por MCO, así como las sumas de cuadrados total, explicada y
residual, y el coeficiente de determinación, para el modelo de regresión Ct = β1 +
β2Rt + ut.
28
29
30
3. MODELO EXPONENCIAL
3.1 Definición
Una regresión exponencial es el proceso de encontrar la ecuación de la función
exponencial que se ajuste mejor a un conjunto de datos. Como un resultado,
obtenemos una ecuación de la forma donde .
La potencia predictiva relativa de un modelo exponencial está denotada por R 2 . El

valor de R 2 varía entre 0 y 1. Mientras más cercano el valor esté de 1, más
preciso será el modelo.
La regresión exponencial, aunque no es lineal es linealizable tomando logaritmos

ya que haciendo el cambio de variable
v = log y tendremos que la función anterior nos generaría:
v = log y = log( a.bx) = log a + x log b
la solución de nuestro problema vendría de resolver la regresión lineal entre v ý x,

y una vez obtenida supuesta ésta:
v* = A + B x ; obviamente la solución final será:
a = antilog A y b = antilog B.
Modelo Exponencial
31
A pesar de la sencillez analítica de sus funciones de definición, la distribución
exponencial tiene una gran utilidad práctica ya que podemos considerarla como un
modelo adecuado para la distribución de probabilidad del tiempo de espera entre
dos hechos que sigan un proceso de Poisson. De hecho, la distribución exponencial
puede derivarse de un proceso experimental de Poisson con las mismas
características que las que enunciábamos al estudiar la distribución de Poisson,
pero tomando como variable aleatoria, en este caso, el tiempo que tarda en
producirse un hecho.
Obviamente, entonces, la variable aleatoria será continua. Por otro lado, existe una
relación entre el parámetro a de la distribución exponencial, que más tarde
aparecerá, y el parámetro de intensidad del proceso 𝜆 , esta relación es 𝜆 = l
Al ser un modelo adecuado para estas situaciones tiene una gran utilidad en los
siguientes casos:
• Distribución del tiempo de espera entre sucesos de un proceso de Poisson

• Distribución del tiempo que transcurre hasta que se produce un fallo, si se
cumple la condición que la probabilidad de producirse un fallo en un instante
no depende del tiempo transcurrido. Aplicaciones en fiabilidad y teoría de la
supervivencia.
Resulta que la exponencial es un caso especial de la distribución gamma, ambas

tienen un gran número de aplicaciones. Las distribuciones exponencial y gamma
juegan un papel importante tanto en teoría de colas como en problemas de
confiabilidad. El tiempo entre las llegadas en las instalaciones de servicio y el tiempo
de falla de los componentes y sistemas eléctricos, frecuentemente involucran la
distribución exponencial. La relación entre la gamma y la exponencial permite que
la distribución gamma se utilice en tipos similares de problemas.
32
3.2 Supuestos de Modelo
La densidad de probabilidad y la función de distribución del modelo exponencial
uniparamétrico vienen dadas por:
donde 1/θ representa la media de la variable aleatoria T, tiempo aleatorio entre

fallos. El cálculo de este parámetro se obtiene de forma directa como sigue:
A continuación, se resumen las principales características de esta distribución:
➢ Mediana
➢ Moda
➢ Desviación Estándar
➢ Función de Replicabilidad
➢ Fiabilidad Condicional
33
3.3 Métodos de Mínimos Cuadrados para encontrar la Ecuación
de mejor ajuste
La regresión examina la relación entre dos variables, pero restringiendo una de ellas
con el objeto de estudiar las variaciones de una variable cuando la otra permanece
constante. En otras palabras, la regresión es un método que se emplea para
predecir el valor de una variable en función de valores dados a la otra variable. En
todos los casos de regresión existe una dependencia funcional entre las variables.
En el caso de dos variables, siendo una de ellas (X) variable independiente y la otra
(Y) la dependiente, se habla de regresión de Y sobre X; Por ejemplo, los ingenieros
forestales utilizan la regresión de la altura de los árboles sobre su diámetro, lo cual
significa que midiendo el diámetro (variable independiente) y reemplazando su valor
en una relación definida según la clase de árbol se obtiene la altura, y aun sin
necesidad de cálculos aprecian la altura utilizando gráficas de la función de
dependencia, altura = función del diámetro. Cuando la curva de regresión de y sobre
x es exponencial, es decir para cualquier x considerada, la media de
la distribución está dada por la siguiente ecuación predictora:
34
De la definición de la covarianza se deduce que esta tiene una dimensión igual al
producto de las dimensiones de las magnitudes aleatorias X y Y.
Si X y Y están en cm, C(x,y) estará en cm².
Esto es una deficiencia de esta característica numérica, puesto que se dificulta la

comprensión de las covarianzas para distintos sistemas de variables aleatorias.
Para evitar esta deficiencia se define el coeficiente de correlación que se denota

(X,Y) y se define como:
Interpretación de un valor dado de  (X,Y):
| (X,Y)| = 1 Cuando una variable aleatoria es una función lineal exacta de la otra
(y=mx+b)
(X,Y)=1 Si m es positiva
(X,Y)=-1 Si m es negativa
(X,Y) > 0 (cercano a 1); cuando una variable aumenta sus valores, la otra tiende
a aumentar también (fuerte correlación lineal positiva)
(X,Y) < 0 (cercano a -1); cuando una variable aumenta sus valores, la otra tiende
a disminuir (fuerte correlación lineal negativa)
Entonces el coeficiente de correlación brinda información sobre el grado de

relación lineal entre las variables aleatorias.
Variables aleatorias incorrelacionadas
Si (X,Y) = 0 decimos que las variables aleatorias X y Y están incorrelacionadas o

no correlacionadas.
(X,Y) = 0 sí y solo sí C(X,Y) = 0
35
si (X,Y) ≠ 0 X y Y están correlacionadas
Propiedades de las variables aleatorias incorrelacionadas
1. (X,Y) = 0
2. C(X,Y) = 0
3. E(XY)= E(X)E(Y)
4. V(X+Y) = V(X-Y) = V(X) + V(Y)
3.5 Medición del coeficiente de determinación
3.6 Medición de error de estimación
Si predecimos la variable y mediante una exponencial de ecuación general:

𝑦𝑖 = 𝑎𝑒 𝑏𝑥 , Y el error cometido será: 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 = 𝑦𝑖 − 𝑎𝑒 𝑏𝑥 .
36
3.7 Verificación gráfica de los supuestos del modelo
Dada una variable aleatoria continua, X , definida para valores reales positivos.
diremos que X tiene una distribución exponencial de parámetro a cuando su

función de densidad sea: f(x) = a e-a x para x ³ 0 ( siendo el parámetro a positivo)
37
3.8 Problemas Resueltos del modelo
38
39
40
41
42
Conclusiones
• La correlación lineal y la regresión lineal simple son métodos estadísticos

que estudian la relación lineal existente entre dos variables.
• Por norma general, los estudios de correlación lineal preceden a la

generación de modelos de regresión lineal. Primero se analiza si ambas
variables están correlacionadas y, en caso de estarlo, se procede a
generar el modelo de regresión.
• El método de mínimos cuadrados proporciona una forma de encontrar la

mejor estimación, suponiendo que los errores (es decir, las diferencias con
respecto al valor verdadero) sean aleatorias e imparciales.
• El coeficiente de relación lineal mide la fuerza y el sentido de la relación

lineal entre 2 variables cuantitativas.
• El coeficiente de determinación no solo mide la capacidad explicativa de un

modelo sino que, además, permite elegir entre varios modelos cuál es el
más adecuado.
• El análisis de regresión múltiple permite tomar más factores en

consideración y obtener estimaciones mejores que las que son posibles con
la regresión lineal simple.
• La técnica de la regresión nos ayuda a predecir mas no nos dice con exactitud lo
que ocurrirá ,dice lo que podría ocurrir ,nos propicia elementos de juicio para decir
,pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total.
• En la regresión lineal y múltiple, se analiza la relación de dos o más variables

continuas
• El método matemáticamente más exacto para encontrar la función de regresión es

por el método de mínimo cuadrado.
43
Bibliografía e Infografía
• Behar, R. (2003). Validación de supuestos en el modelo de regresión. Serie

Monografías, Universidad del Valle, Cali, vol. 1 edition.
• Draper, N. and Smith, H. (1998). Applied regression analysis. John Wiley &
Sons, New York, 3 edition
• Montgomery, D.C. Peck, E. and Vinning, G. (2002). Introducción al análisis

de regresión lineal. CECSA, Mexico, 3 edition.
• Rawlings, J. O., Pantula, S., and Dickey, D. (1998). Applied Regression

Analyisis: A Research Tool. Springer-Verlag, New York, 2 edition.
• Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with
Special Reference to the Biological Sciences., McGraw Hill, 1960, pp. 187,
287.)
• https://miprofe.com/minimos-cuadrados/
• https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal#:~:text=Supuestos%20del%20mode
lo%20de%20regresi%C3%B3n%20lineal,-
Para%20poder%20crear&text=Que%20la%20relaci%C3%B3n%20entre%20las,explicativas
%20sean%20independientes%20entre%20s%C3%AD.&text=Que%20los%20errores%20ten
gan%20una,y%20distinto%20signo%20son%20equiprobables).
• https://platzi.com/tutoriales/1269-probabilidad-estadistica/2308-coeficiente-de-
correlacion-que-es-y-para-que-
sirve/#:~:text=El%20Coeficiente%20de%20correlaci%C3%B3n%20es,cuantitativas%20(X%2
C%20Y).&text=Recordar%20entonces%20que%20el%20coeficiente,lineal%20entre%202%
20variables%20cuantitativas.
• https://thales.cica.es/rd/Recursos/rd99/ed99-0018-04/MERROR.html
• https://www.monografias.com/trabajos89/regresion-exponencial-metodo-minimos-
cuadrados/regresion-exponencial-metodo-minimos-cuadrados.shtml
• https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/MODEPR1.htm
44

Investigación - 1IM121 - Maria Martínez Bonilla - 4-779-1710 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Investigación - 1IM121 - Maria Martínez Bonilla - 4-779-1710 PDF

Cargado por

Copyright:

Formatos disponibles

Universidad Tecnológica De

Panamá, 21 de junio de 2020.

La regresión lineal es la técnica básica del análisis econométrico. Mediante dicha

1. MODELO LINEAL SIMPLE

En algunos casos la naturaleza de las variables permite suponer que existe

A partir del diagrama de dispersión y de los resultados obtenidos en el análisis de

El punto de partida del modelo de regresión lineal simple (MRLS) es que la

• ßo: El valor de la ordenada donde la línea de regresión se interseca al eje

A la ecuación que describe la relación entre el valor esperado de y, que se denota

Ejemplos de líneas de regresión en la regresión lineal simple.

1. Que la relación entre las variables sea lineal.

2. Que los errores en la medición de las variables explicativas sean

3. Que los errores tengan varianza constante. (Homocedasticidad)

5. Que el error total sea la suma de todos los errores.

Formalmente estos requisitos o supuestos se expresan así:

Homocedasticidad se refiere al supuesto de que la variable dependiente (Y)

La normalidad de los errores permite la estimación por intervalos de

La creación del método de mínimos cuadrados

Carl Friedrich Gauss

El método de mínimos cuadrados calcula a partir de los N pares de datos

Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al

Podemos observar que en un diagrama B los puntos se acercan más a la recta,

Un diagrama dispersión no nos da certeza de que tan débil o fuerte es la relación

SXSY= Desviación Estándar de X multiplicada por la Desviación Estándar de Y.

1.5 Medición del Coeficiente de Determinación

En un modelo de regresión lineal el coeficiente de determinación es adimensional

Donde la suma total es la varianza muestral de la variable endógena multiplicada

El coeficiente de determinación siempre va a ser menor o igual que 1 (sería igual a

Si el modelo tiene término independiente, existen diferentes expresiones que

donde, la suma explicada es el grado de fluctuación de la variable dependiente

que el modelo de regresión estimado es capaz de explicar; es el vector de

e es el cuadrado de la media de la variable dependiente.

El R2 también se puede calcular como el cuadrado del coeficiente de correlación

entre y (variable dependiente) e (variable dependiente estimada a través del

El coeficiente de determinación no solo mide la capacidad explicativa de un

1.6 Medición del error de estimación

2. Homoscedasticidad: V ar(€i) = σ2 = cte.

3. Normalidad: €i tienen distribución Normal

4. Independencia de los errores: i independiente de €j si i 6≠ j.

donde y es la variable endógena, x las variables exógenas, u los residuos y b los

2.2 Supuestos de Modelo

En el modelo de regresión múltiple, 𝛽0, 𝛽1, 𝛽2, . . . , 𝛽𝜌 , son parámetros y el término

Uno de los supuestos es que la media o valor esperado de 𝜀 es cero. Una

• Linealidad: Que la relación entre las variables sea lineal.

2.3 Metodos de Minimos cuadrados para encontrar la ecuación

El procedimiento más objetivo para ajustar una recta a un conjunto de datos

La recta resultante presenta dos características importantes:

➢ Es nula la suma de las desviaciones verticales de los puntos a partir de la recta

2.4 Medición del Coeficiente de Correlación

2.5 Medición del Coeficiente de Determinación

• SCT es la Suma de Cuadrados Totales y representa una medida de la variación

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios

2.6 Medición del coeficiente de correlación

Correlación de las variables Y-X1, Cuando se tiene controlado

Correlación de las variables Y-X1, Cuando se tienen

Correlación de las variables X3 , X4 y X5 con Y

2.7 Medición del error de estimación

Donde n es el número de observaciones y k es el número de variables

obtenemos una ecuación de la forma donde .

La potencia predictiva relativa de un modelo exponencial está denotada por R 2 . El

La regresión exponencial, aunque no es lineal es linealizable tomando logaritmos

v = log y = log( a.bx) = log a + x log b

la solución de nuestro problema vendría de resolver la regresión lineal entre v ý x,