Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Panamá
Licenciatura en Ingeniería
Mecánica
Grupo:
1IM121
Materia:
Probabilidad y Estadística
Tema:
Métodos de Regresión y Correlación
Presentado Por:
María Celina Martínez Bonilla
4-779-1710
Profesor:
Luis Pomares
1
Tabla de contenido
Introducción........................................................................................................... 4
MÉTODOS DE REGRESIÓN Y CORRELACIÓN ................................................... 5
1. MODELO LINEAL SIMPLE .............................................................................. 5
1.1 Definición ......................................................................................................................... 5
1.2 Supuestos del Modelo .................................................................................................. 7
1.3 Métodos de Mínimos cuadrados para encontrar la ecuación de mejor ajuste
9
1.4 Medición del coeficiente de correlación ................................................................ 11
1.5 Medición del Coeficiente de Determinación ......................................................... 11
1.6 Medición del error de estimación ............................................................................ 13
1.7 Verificación gráfica de los supuestos de modelo ............................................... 14
1.8 Problemas Resueltos del Modelo ............................................................................ 16
2. MODELO LINEAL MÚLTIPLE ....................................................................... 19
2.1 Definición ....................................................................................................................... 19
2.2 Supuestos de Modelo.................................................................................................. 20
2.3 Metodos de Minimos cuadrados para encontrar la ecuación de mejor ajuste
21
2.4 Medición del Coeficiente de Correlación ............................................................... 22
2.5 Medición del Coeficiente de Determinación ......................................................... 24
2.6 Medición del coeficiente de correlación ................................................................ 25
2.7 Medición del error de estimación ............................................................................ 26
2.8 Problemas Resueltos del Modelo ............................................................................ 27
3. MODELO EXPONENCIAL ............................................................................. 31
3.1 Definición ....................................................................................................................... 31
3.2 Supuestos de Modelo.................................................................................................. 33
3.3 Métodos de Mínimos Cuadrados para encontrar la Ecuación de mejor ajuste
34
3.4 Medición del coeficiente de correlación ................................................................ 35
3.5 Medición del coeficiente de determinación........................................................... 36
3.6 Medición de error de estimación.............................................................................. 36
3.7 Verificación gráfica de los supuestos del modelo .............................................. 37
3.8 Problemas Resueltos del modelo ............................................................................ 38
Conclusiones ....................................................................................................... 43
2
Bibliografía e Infografía ...................................................................................... 44
3
Introducción
En este trabajo abordaré temas importantes dentro del estudio de los métodos de
regresión y correlación, entre ellos el simple, múltiple y exponencial, así como sus
respectivos supuestos de modelo, coeficientes de correlación y determinación,
entre otros aspectos relevantes.
4
MÉTODOS DE REGRESIÓN Y CORRELACIÓN
1.1 Definición
La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables.
5
una línea recta, llamada recta de regresión poblacional, que se expresa como:
donde:
E(y)= ßo + ß1x
6
1.2 Supuestos del Modelo
Los valores deben cumplir con una serie de requisitos para que sea pertinente el
uso del modelo de regresión. Estos requisitos pueden ser aplicados a la variable Y,
que es la otra variable aleatoria implicada en el modelo de regresión.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los
siguientes supuestos:
4. Que los errores tengan una esperanza matemática igual a cero (los errores
de una misma magnitud y distinto signo son equiprobables).
7
Gráfico de y vs x
Homocedasticidad vs Heterocedasticidad
8
1.3 Métodos de Mínimos cuadrados para encontrar la ecuación de
mejor ajuste
El método de mínimos cuadrados es un método en el que se usan los datos
muestrales para hallar la ecuación de regresión estimada.
Es un procedimiento de análisis numérico en la que, dados un conjunto de datos
(pares ordenados y familia de funciones), se intenta determinar la función continua
que mejor se aproxime a los datos (línea de regresión o la línea de mejor ajuste),
proporcionando una demostración visual de la relación entre los puntos de los
mismos. En su forma más simple, busca minimizar la suma de cuadrados de las
diferencias ordenadas (llamadas residuos) entre los puntos generados por la
función y los correspondientes datos.
Este método se utiliza comúnmente para analizar una serie de datos que se
obtengan de algún estudio, con el fin de expresar su comportamiento de manera
lineal y así minimizar los errores de la data tomada.
9
Su expresión general se basa en la ecuación de una
recta y = mx + b. Donde m es la pendiente y b el punto
de corte, y vienen expresadas de la siguiente manera:
Mínimos cuadrados
Cuando se haga uso del método de mínimos cuadrados se debe buscar una línea
de mejor ajuste que explique la posible relación entre una variable independiente y
una variable dependiente. En el análisis de regresión, las variables dependientes
se designan en el eje y vertical y las variables independientes se designan en el
eje x horizontal. Estas designaciones formarán la ecuación para la línea de mejor
ajuste, que se determina a partir del método de mínimos cuadrados.
10
1.4 Medición del coeficiente de correlación
El Coeficiente de correlación es una medida que permite conocer el grado de
asociación lineal entre dos variables cuantitativas (X, Y).
Para esto sirve el coeficiente de correlación que esta dado por la siguiente
formula:
Donde:
SXY = covarianza
11
El coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un
estadístico usado en el contexto de un modelo estadístico cuyo principal propósito
es predecir futuros resultados o probar una hipótesis. El coeficiente determina la
calidad del modelo para replicar los resultados, y la proporción de variación de los
resultados que puede explicarse por el modelo.
12
variables explicativas del modelo, y es el vector de observaciones de la variable
dependiente, T es el número de observaciones de las variables del modelo,
13
1.7 Verificación gráfica de los supuestos de modelo
Los 4 supuestos son:
1. Linealidad: E(Y ) = Xβ
14
15
1.8 Problemas Resueltos del Modelo
16
Problema 2
17
Problema 3
18
2. MODELO LINEAL MÚLTIPLE
2.1 Definición
El análisis de regresión múltiple estudia la relación de una variable dependiente
con dos o más variables independientes. Para denotar el número de variables
independientes se suele usar p. Existen muchas técnicas de regresión en función
del tipo de variables y de la forma funcional supuesta entre ellas. Las más
elementales (aunque las más potentes en el sentido de que se puede obtener más
información) son las lineales. La regresión lineal supone que la relación entre dos
variables tiene una forma lineal (o linealizable mediante alguna transformación de
las variables). La regresión lineal tiene una versión “simple” que empareja dos
variables, pero esta suele ser insuficiente para entender fenómenos mínimamente
complejos en la que influyen más de dos variables, esta versión es la “múltiple”.
En el modelo de regresión lineal múltiple suponemos que más de una variable
tiene influencia o está correlacionada con el valor de una tercera variable. Por
ejemplo en el peso de una persona pueden influir edad, género y estatura, en la
renta pueden influir trabajo, capital físico, conocimientos, etc. En el modelo de
regresión lineal múltiple esperamos que los sucesos tengan una forma funcional
como
19
Modelo lineal múltiple
20
está relacionada la media de y con 𝑥1 , 𝑥2 , . . ., 𝑥𝜌 se le conoce como ecuación de
regresión múltiple.
Para poder crear un modelo de regresión lineal es necesario que se cumpla con
los siguientes supuestos:
21
➢ Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta
daría una suma menor de las desviaciones elevadas al cuadrado.
∑ (Yー - Y)² → 0(mínima).
Los valores estimados de la variable dependiente se calculan empleando la
ecuación de regresión múltiple estimada
𝒚̂= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 ...+ 𝛽𝜌 𝑥𝜌
el método de mínimos cuadrados emplea datos muestrales para obtener los valores
de β0 , β1, β2 , . . ., βρ que hacen que la suma de los cuadrados de los residuales [las
diferencias entre los valores observados de la variable dependiente (𝑦𝑖 ) y los valores
estimados de la variable dependiente ( 𝑦̂)] sea un mínimo. En la regresión múltiple,
en cambio, las fórmulas para calcular β0 , β1, β2 , . . ., βρ emplean álgebra de matrices
y quedan fuera del alcance de este texto. Por esta razón, en el estudio de la
regresión múltiple, se centrará la atención en el uso de los paquetes de software
para obtener la ecuación de regresión estimada y algunas otras informaciones. Lo
importante será la interpretación de los resultados que proporcionan estos paquetes
de software y no cómo hacer los cálculos para la regresión múltiple.
22
construimos un modelo paso a paso entrando las variables de una en una, es útil
conocer la tolerancia o el FIV de las variables independientes ya entradas en la
ecuación. De esta manera, las variables con mayor tolerancia son las que mayor
información aportarán al modelo. Además de la tolerancia y el FIV, debemos
estudiar la matriz de correlaciones. Altas correlaciones entre las variables
implicadas en el modelo deben considerarse como indicios de colinealidad. Puede
ocurrir que, aun siendo pequeñas las correlaciones entre las variables exista
colinealidad. Supongamos que tenemos K variables independientes y construimos
otra que sea la media de los valores de las otras K variables, en este caso la
colinealidad será completa, pero si K es grande, los coeficientes de correlación
serán pequeños. Por lo tanto, el estudio de la matriz de correlaciones no es
suficiente. Una técnica que cada vez se utiliza más, aunque resulta algo
sofisticada, es el análisis de los autovalores de la matriz de correlaciones o de la
matriz del producto cruzado. A partir de los autovalores, se puede calcular el
índice de condicionamiento IC tanto global del modelo como de cada variable. El
índice de condicionamiento es la raíz cuadrada del cociente entre el máximo y el
mínimo autovalores. Si el IC es mayor que 30, existe colinealidad elevada, si el IC
es mayor que 10 y menor que 30, la colinealidad es moderada, si el IC es menor
que 10, no existe colinealidad. También es interesante el índice de
condicionamiento para cada variable Ici, que es la raíz cuadrada del cociente del
máximo autovalor y el iésimo autovalor. La varianza de cada coeficiente de
regresión, incluida la constante, puede ser descompuesta como la suma de
componentes asociadas a cada uno de los autovalores si el porcentaje de la
varianza de algunos coeficientes de correlación se asocia con el mismo autovalor,
hay evidencia de colinealidad.
PASOS:
• Identificar Xi, Y
• Construir diagrama de dispersión
• Estimar los parámetros del modelo.
• Probar la significancia
• Determinar la fuerza de la asociación
• Verificar la exactitud de la predicción
23
• Análisis de residuales
• Validación cruzada del modelo
Cuando el modelo tiene término independiente, cada una de estas sumas viene
dada por:
24
Por otra parte, el valor del coeficiente de determinación aumenta con el número
de variables exógenas del modelo por lo que, si los modelos que se comparan
tienen distinto número de variables exógenas, no puede establecerse
comparación entre sus R2. En este caso debe emplearse el coeficiente de
determinación corregido (R2), el cual depura el incremento que experimenta el
coeficiente de determinación cuando el número de variables exógenas es
mayor.
La expresión analítica de la versión corregida es:
25
Expresiones que se leen:
26
2.8 Problemas Resueltos del Modelo
27
Usando los siguientes datos, consumo nacional (Ct) y renta nacional (Rt) en España
para el periodo 1995-2005 a precios corrientes (109 euros), obtenga las
estimaciones por MCO, así como las sumas de cuadrados total, explicada y
residual, y el coeficiente de determinación, para el modelo de regresión Ct = β1 +
β2Rt + ut.
28
29
30
3. MODELO EXPONENCIAL
3.1 Definición
Una regresión exponencial es el proceso de encontrar la ecuación de la función
exponencial que se ajuste mejor a un conjunto de datos. Como un resultado,
a = antilog A y b = antilog B.
Modelo Exponencial
31
A pesar de la sencillez analítica de sus funciones de definición, la distribución
exponencial tiene una gran utilidad práctica ya que podemos considerarla como un
modelo adecuado para la distribución de probabilidad del tiempo de espera entre
dos hechos que sigan un proceso de Poisson. De hecho, la distribución exponencial
puede derivarse de un proceso experimental de Poisson con las mismas
características que las que enunciábamos al estudiar la distribución de Poisson,
pero tomando como variable aleatoria, en este caso, el tiempo que tarda en
producirse un hecho.
Obviamente, entonces, la variable aleatoria será continua. Por otro lado, existe una
relación entre el parámetro a de la distribución exponencial, que más tarde
aparecerá, y el parámetro de intensidad del proceso 𝜆 , esta relación es 𝜆 = l
Al ser un modelo adecuado para estas situaciones tiene una gran utilidad en los
siguientes casos:
32
3.2 Supuestos de Modelo
La densidad de probabilidad y la función de distribución del modelo exponencial
uniparamétrico vienen dadas por:
➢ Mediana
➢ Moda
➢ Desviación Estándar
➢ Función de Replicabilidad
➢ Fiabilidad Condicional
33
3.3 Métodos de Mínimos Cuadrados para encontrar la Ecuación
de mejor ajuste
La regresión examina la relación entre dos variables, pero restringiendo una de ellas
con el objeto de estudiar las variaciones de una variable cuando la otra permanece
constante. En otras palabras, la regresión es un método que se emplea para
predecir el valor de una variable en función de valores dados a la otra variable. En
todos los casos de regresión existe una dependencia funcional entre las variables.
En el caso de dos variables, siendo una de ellas (X) variable independiente y la otra
(Y) la dependiente, se habla de regresión de Y sobre X; Por ejemplo, los ingenieros
forestales utilizan la regresión de la altura de los árboles sobre su diámetro, lo cual
significa que midiendo el diámetro (variable independiente) y reemplazando su valor
en una relación definida según la clase de árbol se obtiene la altura, y aun sin
necesidad de cálculos aprecian la altura utilizando gráficas de la función de
dependencia, altura = función del diámetro. Cuando la curva de regresión de y sobre
x es exponencial, es decir para cualquier x considerada, la media de
la distribución está dada por la siguiente ecuación predictora:
34
3.4 Medición del coeficiente de correlación
De la definición de la covarianza se deduce que esta tiene una dimensión igual al
producto de las dimensiones de las magnitudes aleatorias X y Y.
| (X,Y)| = 1 Cuando una variable aleatoria es una función lineal exacta de la otra
(y=mx+b)
(X,Y)=1 Si m es positiva
(X,Y)=-1 Si m es negativa
(X,Y) > 0 (cercano a 1); cuando una variable aumenta sus valores, la otra tiende
a aumentar también (fuerte correlación lineal positiva)
(X,Y) < 0 (cercano a -1); cuando una variable aumenta sus valores, la otra tiende
a disminuir (fuerte correlación lineal negativa)
35
si (X,Y) ≠ 0 X y Y están correlacionadas
1. (X,Y) = 0
2. C(X,Y) = 0
3. E(XY)= E(X)E(Y)
36
3.7 Verificación gráfica de los supuestos del modelo
Dada una variable aleatoria continua, X , definida para valores reales positivos.
37
3.8 Problemas Resueltos del modelo
38
39
40
41
42
Conclusiones
• La técnica de la regresión nos ayuda a predecir mas no nos dice con exactitud lo
que ocurrirá ,dice lo que podría ocurrir ,nos propicia elementos de juicio para decir
,pero lo que ocurrirá con cualquier fenómeno no estará bajo el control total.
43
Bibliografía e Infografía
• Draper, N. and Smith, H. (1998). Applied regression analysis. John Wiley &
Sons, New York, 3 edition
• Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with
Special Reference to the Biological Sciences., McGraw Hill, 1960, pp. 187,
287.)
• https://miprofe.com/minimos-cuadrados/
• https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal#:~:text=Supuestos%20del%20mode
lo%20de%20regresi%C3%B3n%20lineal,-
Para%20poder%20crear&text=Que%20la%20relaci%C3%B3n%20entre%20las,explicativas
%20sean%20independientes%20entre%20s%C3%AD.&text=Que%20los%20errores%20ten
gan%20una,y%20distinto%20signo%20son%20equiprobables).
• https://platzi.com/tutoriales/1269-probabilidad-estadistica/2308-coeficiente-de-
correlacion-que-es-y-para-que-
sirve/#:~:text=El%20Coeficiente%20de%20correlaci%C3%B3n%20es,cuantitativas%20(X%2
C%20Y).&text=Recordar%20entonces%20que%20el%20coeficiente,lineal%20entre%202%
20variables%20cuantitativas.
• https://thales.cica.es/rd/Recursos/rd99/ed99-0018-04/MERROR.html
• https://www.monografias.com/trabajos89/regresion-exponencial-metodo-minimos-
cuadrados/regresion-exponencial-metodo-minimos-cuadrados.shtml
• https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/MODEPR1.htm
44