Está en la página 1de 24

Estadística Inferencial II

Proyecto Pactico
(Regresión lineal múltiple, no lineal y series de tiempos).

Ing. José Alberto lona lozano

Ingeniería Industrial

Palma Moreno Dulce Magali

2020111018

4II11

Es verdadera mente absurdo ver cómo un número limitado de observaciones pueden convertirse,
en manos de los hombres, en ideas preconcebidas

F. Gallon
RESUMEN

Empezaremos diciendo que suele hacerse para ver si dos variables


aleatorias están relacionadas o no siendo X e Y; siendo Y la variable
dependiente, y X la variable independiente, teniendo una toma de muestra
aleatoria. Sobre cada individuo de la muestra se analizan las dos características
en estudio, de modo que para cada individuo se tenga un par de valores (xᵢ, yᵢ)
(i=1, 2,3…, n) Seguidamente, se representan dichos valores en unos ejes
cartesianos, dando lugar a un diagrama de dispersión o nube de puntos.

El objetivo de un modelo de regresión es tratar de explicar la relación que


existe entre una variable dependiente (variable respuesta) Y un conjunto de
variables independientes (variables explicativas) X1,..., Xn. En un modelo de
regresión lineal simple tratamos de explicar la relación que existe entre la
variable respuesta Y y una única variable explicativa X.
ajustar modelos lineales o linealizables entre una variable dependiente y
más de unas variables independientes. En este tipo de modelos es importante
testar la heterocedasticidad, la multicolinealidad y la especificación. En este
curso trataremos de introducirnos en el mundo de la modelización, con creación
de dummies, configurando un individuo de referencia, factores de ponderación,
variables de interacción, interrelación, etc. Es particularmente importante
entender lo que se está haciendo en cada momento porque estos principios
sirven para prácticamente todos los modelos que se emprendan a continuación
y después, con modelos más complejos y menos intuitivos, serán más difíciles
de comprender.
Abstract

We will start by saying that it is usually done to see if two random variables are
related or not being X and Y; Y being the dependent variable, and X the
independent variable, having a random sampling. On each individual of the
sample the two characteristics under study are analyzed, so that for each
individual there is a pair of values (xi, yi) (i = 1, 2,3 ..., n) Next, these values are
represented in Cartesian axes, giving rise to a scatter plot or point cloud.

The goal of a regression model is to try to explain the relationship between a


dependent variable (response variable) AND a set of independent variables
(explanatory variables) X1,..., Xn. In a simple linear regression model we try to
explain the relationship between the response variable Y and a single explanatory
variable X.

fit linear or linearizable models between a dependent variable and more than a
few independent variables. In this type of models it is important to test
heterocedasticity, multicolinearity and specification. In this course we will try to
introduce ourselves to the world of modelling, with the creation of dummies,
configuring a reference individual, weighting factors, interaction variables,
interrelation, etc. It is particularly important to understand what is being done at
each moment because these principles serve for virtually all the models that are
undertaken next and then, with more complex and less intuitive models, they will
be more difficult to understand.
Índice
Introducción............................................................................................................................... 5
Marco teórico............................................................................................................................. 6
Regresión lineal .................................................................................................................... 6
Regresión lineal múltiple: .............................................................................................. 6
Aplicaciones de la regresión lineal ............................................................................. 7
Regresión no lineal .............................................................................................................. 7
Serie de tiempo ..................................................................................................................... 8
Pronóstico de series de tiempo.................................................................................... 9
Aplicaciones de las series de tiempo ......................................................................... 9
Planteamiento del promedio ............................................................................................... 10
Objetivo especifico ................................................................................................................ 10
Metodología ............................................................................................................................. 10
Regresión Lineal Múltiple ................................................................................................ 11
Ejercicio 1 ......................................................................................................................... 11
Conclusión ............................................................................................................................... 23
Introducción

La regresión lineal múltiple permite generar un modelo lineal en el que el valor


de la variable dependiente o respuesta (Y) se determina a partir de un conjunto
de variables independientes llamadas predictores (X1, X2, X3…). Es una
extensión de la regresión lineal simple, por lo que es fundamental comprender
esta última. Los modelos de regresión múltiple pueden emplearse para predecir
el valor de la variable dependiente o para evaluar la influencia que tienen los
predictores sobre ella (esto último se debe que analizar con cautela para no
malinterpretar).

Los modelos lineales múltiples siguen la siguiente ecuación:

Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+eiYi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei

β0: es la ordenada en el origen, el valor de la variable dependiente YY cuando


todos los predictores son cero.

Β1: es el efecto promedio que tiene el incremento en una unidad de la variable


predictora XiXi sobre la variable dependiente YY, manteniéndose constantes el
resto de variables. Se conocen como coeficientes parciales de regresión.

e1: es el residuo o error, la diferencia entre el valor observado y el estimado por


el modelo.

Es importante tener en cuenta que la magnitud de cada coeficiente parcial de


regresión depende de las unidades en las que se mida la variable predictora a la
que corresponde, por lo que su magnitud no está asociada con la importancia de
cada predictor. Para poder determinar qué impacto tienen en el modelo cada una
de las variables, se emplean los coeficientes parciales estandarizados, que se
obtienen al estandarizar (sustraer la media y dividir entre la desviación estándar)
las variables predictoras previo ajuste del modelo.
Marco teórico

Como se señaló en la introducción, no hay un solo modelo para establecer


pronósticos que sea el mejor. De hecho, existen bastantes métodos para realizar
estimaciones que se puedan usar. Estos métodos se dividen en dos tipos
clásicos: métodos cualitativos y cuantitativos.

Regresión lineal

La regresión lineal es una técnica de modelado estadístico que se emplea para


describir una variable de respuesta continua como una función de una o varias
variables productoras. Puede ayudar a comprender y predecir el comportamiento
de sistemas complejos o a analizar datos experimentales, financieros y
biológicos.

Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo
describe la relación entre una variable dependiente y (también conocida como
la respuesta) como una función de una o varias variables independientes Xi
(denominadas predictores). La ecuación general correspondiente a un modelo
de regresión lineal es:
Y=β0+∑ βiXi+ϵi

Donde β representa las estimaciones de parámetros lineales que se deben


calcular y ϵ representa los términos de error.

El presente trabajo pretende implementar la teoría básica de los modelos de


regresión desarrollada en los textos, utilizando herramientas de fácil adquisición
y utilización como la hoja de cálculo Excel, con el fin de democratizar estas
metodologías y ponerlas al alcance de los dueños de las microempresas que no
cuentan con muchos recursos para la compra de software especializado. Estas
herramientas son útiles siempre y cuando la información con la que se cuenta
sea confiable, de lo contrario, se sugieren métodos de tipo cualitativo.

Por último, se espera despertar en la comunidad de las pequeñas y medianas


empresas el interés por llevar un buen sistema de información que sea de su
entera confianza a través de los años.

Regresión lineal múltiple:


Se define como un procedimiento mediante el cual se trata de determinar si
existe o no relación de dependencia entre dos o más variables. Es decir,
conociendo los valores de una variable independiente, se trata de estimar los
valores, de una o más variables dependientes. La regresión en forma grafica,
trata de lograr que una dispersión de las frecuencias sea ajustada a una línea
recta o curva.
Regresión Múltiple: Este tipo se presenta cuando dos o más variables
independientes influyen sobre una variable dependiente.
Ejemplo: Y = f(x, w, z).
Por ejemplo:

Una Empresa de desarrollo de software establece relacionar sus Ventas en


función del numero de pedidos de los tipos de software que desarrolla (Sistemas,
Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el
presente año.

En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W


(Nº de pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de
Automatizaciones empresariales)

Aplicaciones de la regresión lineal

La regresión lineal cuenta con ciertas características ideales para las siguientes
aplicaciones:

 Predicción o pronóstico: utilice un modelo de regresión para crear un


modelo de pronóstico para un conjunto de datos específico. A partir de la
moda, puede usar la regresión para predecir valores de respuesta donde
solo se conocen los predictores.
 Fuerza de la regresión: utilice un modelo de regresión para determinar si
existe una relación entre una variable y un predictor, y cuán estrecha es
esta relación.

Regresión no lineal

En estadística, la regresión no lineal es un problema de inferencia para un


modelo tipo: y fx = ( ,θ ) + ε basado en datos multidimensionales x , y , donde
f es alguna función no lineal respecto a algunos parámetros desconocidos θ .
Como mínimo, se pretende obtener los valores de los parámetros asociados con
la mejor curva de ajuste (habitualmente, con el método de los mínimos
cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser
necesario utilizar conceptos de inferencia estadística tales como intervalos de
confianza para los parámetros así como pruebas de bondad de ajuste.

Regresión no lineal es un método para encontrar un modelo no lineal para la


relación entre la variable dependiente y un conjunto de variables independientes.
A diferencia de la regresión lineal tradicional, que está restringida a la estimación
de modelos lineales, la regresión no lineal puede estimar modelos con relaciones
arbitrarias entre las variables independientes y las dependientes. Esto se lleva a
cabo usando algoritmos de estimación iterativos. Tenga en cuenta que este
procedimiento no es necesario para los modelos polinómicos simples de la forma
Y = A + BX**2. Definiendo W = X**2, obtenemos un modelo lineal simple, Y = A
+ BW, que se puede estimar usando métodos tradicionales como el
procedimiento Regresión lineal.
Serie de tiempo
Definición y componentes

Una serie de tiempo es una forma estructurada de presentar los datos, en donde
un registro de fecha/hora lleva asociado un valor. Es decir, es una secuencia de
observaciones sobre intervalos de tiempo regulares.

En el presente estudio, con la base de datos sin procesar, se tiene un movimiento


(despegue o aterrizaje) y un valor de pasajeros y carga (en kilogramos) asociado
a la fecha y hora en que se haya registrado dicha operación.

Actualmente, el volumen de datos mensual está en el orden de los 45 a 50 mil


registros, lo que lleva que la base de datos con varios años de historia sea difícil
de manejar correctamente. De todas maneras, según el análisis, se pueden
consolidar los datos sobre una base mensual para cada aeropuerto y tipo de
operación, disminuyendo significativamente el volumen final del dataset. De
todas maneras, con las mismas técnicas uno podría trabajar al nivel de detalle
que se requiera: puede existir un negocio donde los patrones de demanda
presenten cierta tendencia y ciclo a nivel diario u horario y en esos casos también
se podrá realizar la proyección correspondiente.
Una serie temporal se puede caracterizar de acuerdo a sus componentes:

Tendencia: es la componente de largo plazo que determina la base de


crecimiento (o decrecimiento) de la serie. Si la serie es estacionaria, su media y
varianza son invariantes.

Estacionalidad: es el comportamiento de una serie dentro de un período dado.


Las series temporales pueden formar patrones que se repiten de un período al
siguiente.
Ciclos: son desviaciones de la tendencia subyacente debido a distintos factores
(generalmente externos), diferentes de la estacionalidad. El tiempo y duración
de los ciclos no necesariamente es regular.

Aleatoriedad: fluctuaciones impredecibles o no periódicas que subyacen en la


serie.

Los pasajeros en los distintos aeropuertos suelen tener un comportamiento


estacional que se repite año a año. Por ejemplo, aquellos en centros turísticos
en la costa (Aeropuerto de Mar del Plata, por ejemplo), tienen un fuerte afluente
de pasajeros en los meses de verano y una baja demanda el resto del año.

Con el correr de los años, gracias a una mayor oferta de asientos y baja de
precios (sobre todo, precios relativos contra otros medios de transporte,
compitiendo principalmente contra los micros de larga distancia), el sector está
en constante crecimiento, mostrando una tendencia de fondo creciente en la
mayoría de los aeropuertos. Por supuesto, el sector aerocomercial no será ajeno
a los vaivenes económicos y políticos del país, y sufrirán o se beneficiarán de
acuerdo a en qué momento se encuentre la Argentina en su ciclo económico. En
efecto, es un sector muy sensible a algunas variables, tales como el tipo de
cambio, que hará que pueda existir sustitución de pasajeros en vuelos de
cabotaje por internacionales o regionales y viceversa. Por último, siempre hay
observaciones que no se explican por la tendencia de fondo, la estacionalidad
propia del aeropuerto o el ciclo. Ejemplo de ello son las cuestiones climáticas,
paros de actividad o cierres por obras

Pronóstico de series de tiempo

El pronóstico de la serie temporal implica extender los valores históricos hacia el


futuro. Las dos variables que lo definen son: el período, dado por el nivel de
agregación (días, horas, meses, etc.), y el horizonte, dado por la cantidad de
períodos a proyectar.

Aplicaciones de las series de tiempo

Representar los datos del negocio como series de tiempo suele ayudar a las
empresas a visualizar la actividad del negocio. A su vez, usualmente las series
de tiempo se utilizan para predecir el comportamiento futuro de la variable
medida.
A modo de ejemplo, el siguiente gráfico presenta la serie de tiempo de las ventas
de un producto. A simple vista, se aprecia una cierta estacionalidad. Durante los
meses de verano (Diciembre-Febrero) baja la venta, mientras sube en invierno.

Planteamiento del promedio

En la presente investigación se pretende aclarar la incógnita de la importancia


de la regresión lineal múltiple, no lineal y series de tiempos ya que en la
actualidad existen muchas preguntas. Por la cual encontraremos ejercicios para
aclarar dudas, sin limitaciones de tiempo y espacio es el desafío que tenemos
que enfrentar.

Objetivo especifico

Encontrar los presentes resultados en los ejercicios planteados, con el objetivo


de aclarar dudas con los temas de importancia de la regresión lineal múltiple, no
lineal y series de tiempos.

Metodología

Ejercicios de Estadística Inferencial 1er seguimiento, para todos encontrar un


modelo matemático y hacer predicciones para los 2 periodos mas recientes
ejemplo si los datos llegan hasta 2020 calcular el 2021 y 2022 en caso de los
índices la siguiente 2 semanas, o los siguientes 2 meses, o los siguiente 2
trimestre o los siguientes 2 cuatrimestres.
Calcular
A) a mano usar formulas, lápiz, regla calculadora, fotos.
B) en Excel, formulas, capturas de pantalla.
C) en Excel con análisis de datos, captura de pantalla.
D) en minitab, captura de pantalla.
Regresión Lineal Múltiple

Ejercicio 1

1. Se pretende estudiar la posible relación lineal entre el precio de pisos en


miles de euros, en una conocida ciudad española y variables como la superficie
en m2 y la antigüedad del inmueble en años. Para ello, se realiza un estudio, en
el que se selecciona de forma aleatoria una muestra estratificada representativa
de los distintos barrios de la ciudad. Los datos aparecen en la siguiente tabla.
PRESIO SUPERFICIE ANTIGÜEDAD
200 100 20
120 70 15
155 120 30
310 150 20
320 90 12
400 227 400
100 75 100
80 65 80
75 80 75
169 150 169
110 120 110
210 100 210
200 125 200
180 137 180
140 90 140
95 110 95

a) a mano usar formulas, lápiz, regla calculadora, fotos.


b) en Excel, formulas, capturas de pantalla.

Regresion Lineal Multiple (RLM)

PRESIO SUPERFICIE ANTIGÜEDAD x₁ᵢYᵢ x₂ᵢYᵢ

200 100 20 10000 400 2000 20000 4000


120 70 15 4900 225 1050 8400 1800
155 120 30 14400 900 3600 18600 4650
310 150 20 22500 400 3000 46500 6200
320 90 12 8100 144 1080 28800 3840
400 227 400 51529 160000 90800 90800 160000
100 75 100 5625 10000 7500 7500 10000
80 65 80 4225 6400 5200 5200 6400
75 80 75 6400 5625 6000 6000 5625
169 150 169 22500 28561 25350 25350 28561
110 120 110 14400 12100 13200 13200 12100
210 100 210 10000 44100 21000 21000 44100
200 125 200 15625 40000 25000 25000 40000
180 137 180 18769 32400 24660 24660 32400
140 90 140 8100 19600 12600 12600 19600
95 110 95 12100 9025 10450 10450 9025
2864 1809 1856 229173 369880 252490 364060 388301
Matriz
16 1809 1856
Ŷ= SCR SCE SCT
A=XX= 1809 229173 252490
1856 252490 369880 169,999733 81,0048017 900,016006 441
113,116384 4340,65091 47,3841748 3481
Matriz inversa 206,80158 772,927832 2683,40366 576
0,659789 -0,00629456 0,000986116 266,205799 7604,85144 1917,93201 17161
-0,00629456 7,76522E-05 -2,14224E-05 152,102984 723,449468 28189,408 19881
0,00098612 -2,1422E-05 1,23789E-05 350,501101 29412,6277 2450,141 48841
108,45206 4977,01181 71,4373216 6241
92,572007 7469,79798 158,05536 9801
122,274117 3217,82582 2234,84212 10816
multiplicacion de mateces
241,165157 3864,50678 5207,80993 100
193,35694 206,121717 6948,37939 4761
2864 -19,0512
138,068713 1675,37024 5174,11002 961
g= X'y = 364060 1,9241
187,852326 78,3636804 147,565977 441
388301 -0,1681 214,302942 1246,29772 1176,69184 1
130,59156 2343,37706 88,5187429 1521
Modelo de regresion lineal Multiple 176,636596 5,58567632 6664,53388 7056
= -19.0512 + 1.9241 2864 68019,7706 64060,2294 132080
comproba ci on 132080
TABLA ANOVA
Fuente de Suma de Grado de
Cuadro medio Fo Fc
la varianza cuadrados liberacion
Regresion 68019,7706 2 34009,8853 6,90176281 3,80556525
Error 64060,2294 13 4927,7100
Total 132080 15 8805,3333

coeficiente de determinacion: 𝑅 0,51498918


𝑅𝑎𝑗
coeficiente de determinacion ajustada: R 0,44037213
coeficiente de correlacion: 0,71762746

c) en Excel con análisis de datos, captura de pantalla.

d) en minitab, captura de pantalla


Ejercicio 2

2. Savings and Loan contiene 25 observaciones por año de las variables.


Utilizaremos estos datos para desarrollar un modele lineal que prediga el margen
anual de beneficios en funci6n de los ingresos por dólar depositado y del número
de oficinas.

Ingresos por Numero de Margen de


año
dólar oficinas beneficio
1 3,92 7 0,75
2 3,61 6,855 0,71
3 3,32 6,636 0,66
4 3,07 6,506 0,61
5 3,06 6,45 0,07
6 3,11 6,402 0,72
7 3,21 6,368 0,77
8 3,26 6,64 0,74
9 3,42 6,349 0,09
10 3,42 6,352 0,82
11 3,45 6,361 0,75
12 3,58 6,369 0,77
13 3,66 6,546 0,78
14 3,78 6,672 0,74
15 3,82 6,89 0,79
16 3,97 7,115 0,7
17 4,07 7,325 0,68
18 4,25 7,546 0,72
19 4,41 7,931 0,55
20 4,49 8,097 0,63
21 4,7 8,468 0,56
22 4,58 8,719 0,41
23 4,69 8,991 0,51
24 4,71 9,179 0,47
25 4,78 9,318 0,32

A) a mano usar formulas, lápiz, regla calculadora, fotos.


B) en Excel, formulas, capturas de pantalla.
Ingresos por Numero de Margen de
año x₁ᵢYᵢ x₂ᵢYᵢ
dólar oficinas beneficio
1 3,92 7 0,75 15,3664 53,2608 28,6082 2,9400 5,4735
2 3,61 6,855 0,71 13,0321 46,9910 24,7466 2,5631 4,8671
3 3,32 6,636 0,66 11,0224 44,0365 22,0315 2,1912 4,3798
4 3,07 6,506 0,61 9,4249 42,3280 19,9734 1,8727 3,9687
5 3,06 6,45 0,07 9,3636 41,6025 19,7370 0,2142 0,4515
6 3,11 6,402 0,72 9,6721 40,9856 19,9102 2,2392 4,6094
7 3,21 6,368 0,77 10,3041 40,5514 20,4413 2,4717 4,9034
8 3,26 6,64 0,74 10,6276 44,0896 21,6464 2,4124 4,9136
9 3,42 6,349 0,09 11,6964 40,3098 21,7136 0,3078 0,5714
10 3,42 6,352 0,82 11,6964 40,3479 21,7238 2,8044 5,2086
11 3,45 6,361 0,75 11,9025 40,4623 21,9455 2,5875 4,7708
12 3,58 6,369 0,77 12,8164 40,5642 22,8010 2,7566 4,9041
13 3,66 6,546 0,78 13,3956 42,8501 23,9584 2,8548 5,1059
14 3,78 6,672 0,74 14,2884 44,5156 25,2202 2,7972 4,9373
15 3,82 6,89 0,79 14,5924 47,4721 26,3198 3,0178 5,4431
16 3,97 7,115 0,7 15,7609 50,6232 28,2466 2,7790 4,9805
17 4,07 7,325 0,68 16,5649 53,6556 29,8128 2,7676 4,9810
18 4,25 7,546 0,72 18,0625 56,9421 32,0705 3,0600 5,4331
19 4,41 7,931 0,55 19,4481 62,9008 34,9757 2,4255 4,3621
20 4,49 8,097 0,63 20,1601 65,5614 36,3555 2,8287 5,1011
21 4,7 8,468 0,56 22,0900 71,7070 39,7996 2,6320 4,7421
22 4,58 8,719 0,41 20,9764 76,0210 39,9330 1,8778 3,5748
23 4,69 8,991 0,51 21,9961 80,8381 42,1678 2,3919 4,5854
24 4,71 9,179 0,47 22,1841 84,2540 43,2331 2,2137 4,3141
25 4,78 9,318 0,32 22,8484 86,8251 44,5400 1,5296 2,9818
25 96,34 181,383 15,32 379,2928 1339,69584 711,91134 58,5364 109,56401
c) en Excel con análisis de datos, captura de pantalla.
D) en minitab, captura de pantalla.
Ejercicio 3

3.- El Gobierno Municipal de Aguascalientes desea estimar la recaudación de


adeudos en los servicios públicos en función de los gastos de publicidad en TV
y en volante de los descuentos disponibles que ofrece a sus habitantes. ¡Los
datos! históricos de una muestra de" semanas son los siguientes.

recaudacion semanal anuncios en Anuncio en volantes


(miles de $) TV (Miles de $) (miles de $)
96 5,0 1,5
90 2,0 2
95 4,0 1,5
92 2,5 2,5
95 3,0 3,3
94 3,5 2,3
94 2,5 4,2
94 3,0 2,5

A) a mano usar formulas, lápiz, regla calculadora, fotos.


B) en Excel, formulas, capturas de pantalla.
C) en Excel con análisis de datos, captura de pantalla.

D) en minitab, captura de pantalla.


Conclusión

El presente trabajo pretende implementar la teoría básica de los modelos de


regresión desarrollada en los textos, utilizando herramientas de fácil adquisición
y utilización como la hoja de cálculo Excel, con el fin de democratizar estas
metodologías y ponerlas al alcance de los dueños de las microempresas que no
cuentan con muchos recursos para la compra de software especializado. Estas
herramientas son útiles siempre y cuando la información con la que se cuenta
sea confiable, de lo contrario, se sugieren métodos de tipo cualitativo. Por último
se espera despertar en la comunidad de las pequeñas y medianas empresas el
interés por llevar un buen sistema de información que sea de su entera confianza
a través de los años.

También podría gustarte