Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Estadística Aplicada) TP
(Estadística Aplicada) TP
Estadística Aplicada
Regresión Múltiple
Introducción
Mediante este informe, vamos a hacer un análisis de Regresión Múltiple sobre un caso elegido, con
datos reales. Analizaremos una variable aleatoria (VA), que llamaremos “Y” y sus tres variables
explicativas “X1”, “X2”, “X3”. Con la ayuda del programa RM, llegaremos a la conclusión de cuál
es el modelo que explica mejor la VA.
Empresa elegida
La empresa que seleccionamos para realizar este análisis es una estación de servicio de Bandera
Blanca, se dedica a la venta de Nafta Súper, Gasoil y Kerosene.
Hay que aclarar que esta empresa le paga a su proveedor un porcentaje de más al precio de compra
para que le reserve los litros y así nunca le falte productos.
Datos seleccionados
Nuestro análisis se base en datos que comprenden un mes y un período de 11 meses, desde Febrero
de 2009 hasta Diciembre de 2009.
Tomamos los datos de las “Ventas de Nafta Súper en litros” como nuestra variable Y.
Las posibles variables explicativas que elegimos fueron:
X1: “Cantidad de días en que hubo faltante de nafta en la zona”.
X2: “La venta de GNC en millones de m3 que hubo en Argentina”.
X3: “La cantidad de patentamientos en el rubro automotor en Argentina”.
La primer variable podría afectar a nuestra Y, ya que al haber poca nafta en las otras estaciones,
posiblemente aumenten las ventas de nuestra empresa elegida.
La segunda variable podría tener una relación inversa con nuestra Y, al haber más consumo de
GNC, las ventas de Nafta Súper bajaría o viceversa.
La tercera variable podría tener una relación directa, ya que al haber más automóviles en las calles,
el consumo de Nafta Súper aumentaría.
Los datos obtenidos se muestran en la siguiente tabla.
MES Y: Ventas de Nafta X1: Cantidad de días X2: La venta de GNC X3: La cantidad de
Súper en litros en que hubo faltante en millones de m3 que patentamientos en el
de nafta en la zona hubo en Argentina rubro automotor en
Argentina
Febrero 8983 1 195,48 39196
Lo primero que se debe analizar es el R2, que es la suma de cuadrados del error. Se toma como un
mínimo el 50%.
Por lo que el modelo 2; 3; 2-3 se descarta.
Con respecto al CP, que es el cuadrado medio del error, quien tiene que ser menor a 4 o 5 veces la
cantidad de variables del modelo, todos los que no es descartaron califican.
El DET, nos muestra la multicolinealidad que hay entre las variables, el más cercano a uno es el
más confiable.
La varianza (S2), nos da la dispersión de los datos en el modelo, el de menor S2 es el más confiable.
El PRESS, es la suma de los cuadradros de Predicción, el de menos PRESS es el más confiable.
Los modelos 1-2; 1-2-3 según el DET nos dejan en alerta. Y según el S2 y el PRESS el modelo que
mejor califica es el 1 aunque no por mucho.
Por último nos queda analizar el ALFA de cada variable en cada modelo, que es quien nos dice si
hay correlación entre cada X con la Y. No debe superar el 10%.
Obtenemos:
En el modelo 1: X1 = 1,21%
Por lo que nos decidimos que el modelo que mejor explica nuestra variable aleatoria, “Ventas de
Nafta Súper en litros”, es el modelo 1, cantidad de días en que hubo faltante de nafta en la zona.
Fuente: Ventas de GNC en millones de m3 - Cámara argentina del Gas Natural Comprimido -
http://www.gnc.org.ar/
Cantidad de patentamientos en el rubro automotor - Dirección Nacional de los Registros
Nacionales de la Propiedad Automotor y de Créditos Prendarios (D.N.R.P.A.) -
http://www.dnrpa.gov.ar/portal_dnrpa/index.html --> Boletines estadísticos --> Inscripciones
Iniciales por Provincia/Mes
Inscripciones iniciales Nacionales e importadas