Está en la página 1de 12

ESTUDIANTE: VERÓNICA TATIANA

GARCÍA GARCÍA

BLOQUE 3: ESTADÍSTICA Y FINANZAS

DD118 ESTADÍSTICA BÁSICA

CASO PRÁCTICO I
CASO DE ESTUDIO

A partir de los datos que se brindan responda las siguientes cuestiones:

Investigue que marca de coche es la más cara. Justifique la respuesta.

Tras la utilización de la fórmula MAX en Excel se ha determinado que la marca de vehículo más
cara en el listado de 193 coches clásicos es la marca Mercedes Benz, con un motor a gasolina, dos
puertas, 8 cilindros, que ofrece 184 caballos de potencia y una aceleración de 4500 revoluciones
por minuto con motor frontal y un precio ajustado a la inflación de 112.195 unidades monetarias
respectivamente.
Calcule un intervalo de confianza para la media del precio ajustado a la inflación para
cada marca.

Aunque dentro de las instrucciones no se indican el nivel de significancia (α), trabajaremos con el
más común de ellos que es el del 5% y teniendo en cuenta las distintos valores que puede tomar
(n) de acuerdo a las marcas de automóviles.

Nivel de confianza (1 – α) = 0,95

Nivel de significancia (α) = 0,05

Las fórmulas para la media y la desviación estándar son las siguientes:

Media o Promedio: Ῡ = ∑𝑌𝑖 /n

Desviación estándar σ y= √∑ (𝑌𝑖- Ῡ)2 /n-1

Percentil Límite Inferior de Limite Superior de


Fabricante N° Media Desviación confianza (1- confianza (1-
estándar T(α/2,N-1)
α=0,95) α=0,95)
Z(1-α/2)
Alfa-romero 3 38.300,67 4.287,40 4,30 27.650,17 48.951,17
Audi 6 44.135,00 8.531,68 2,57 35.181,55 53.088,45
Bmw 8 64.546,13 22.893,32 2,36 45.406,83 83.685,42
Chevrolet 3 14.844,67 1.864,70 4,30 10.212,50 19.476,83
Dodge 8 19.251,50 5.808,09 2,36 14.395,82 24.107,18
Honda 13 20.226,46 5.094,99 2,18 17.147,59 23.305,33
Isuzu 2 22.035,00 7.450,08 2,00 11.499,00 32.571,00
Jaguar 3 85.506,00 5.059,71 4,30 72.936,99 98.075,01
Mazda 12 24.346,83 10.792,64 2,20 17.489,52 31.204,15
Mercedes- 16.778,60
8 83.150,63 2,36 59.123,37 97.177,88
Benz
Mercury 1 40.783,00 0,00 0,00 0,00
Mitsubishi 13 22.833,77 7.520,07 2,18 18.289,44 27.378,10
Nissan 18 25.739,83 11.064,80 2,11 20.237,44 31.242,23
Peugot 11 38.277,45 5.552,19 2,23 34.547,44 42.007,47
Plymouth 7 19.679,71 5.919,95 2,45 14.204,67 25.154,79
Porsche 4 77.599,00 16.134,52 3,18 51.925,38 103.272,62
Saab 6 37.620,83 7.069,63 2,57 30.201,71 45.039,96
Subaru 12 21.107,75 4.794,73 2,20 18.061,33 24.154,17
Toyota 32 24.430,41 7.920,37 1,96 21.686,14 27.174,68
Volkswagen 12 24.904,33 5.383,75 2,20 21.483,66 28.325,01
Volvo 11 44.638,82 8.191,36 2,23 39.135,78 50.141,85
Total 193
Contraste la hipótesis, para un nivel de significación estadística del 99%, de que el
precio de los Mazda y los Subaru son distintos.

a) Se plantea la hipótesis nula y alternativa

Ho: µx ≠ µy El precio de los vehículos Mazda es distinto de Subaru

Ha: µx = µy El precio de los vehículos Mazda es igual al de Subaru

b) Se determina la media y la desviación a ambas muestras que son independientes


y tienen el mismo número de elementos.
292.162
X= 1281291468
12 𝜎=√
12 − 1
X= 24.346.83
𝜎 = 10.792.64

253.293
X= 5599328745
12 𝜎=√
12 − 1
X= 21.107.75
𝜎 = 4.794.63

c) Determinar el valor de T ya que son muestras independientes.

T (α/2; n-2), ya que son muestras independientes n = 12 y m = 12 y tienen el mismo


número de elementos, tenemos n + m = 12 + 12 = 24 -2 = 22 grados de libertad, el valor
de T (0,005; 22) = 2,819

Ya que la prueba es bilateral entonces el intervalo será desde 2.819 hasta 2.819 positivo,
dentro de la curva de distribución T de Student, procedemos a encontrar la T calculada
mediante las diferencias de medias y luego lo dividimos entre el error estándar.
d) Cálculo estadístico

𝜇𝑥 – 𝜇𝑦
𝑇 (Prueba) = (𝑚 − 1) 𝑆𝑦2 √1 1
√ (n− 1) 𝑆𝑥2 + +

m+n-2 n m

T= 24.346.83 − 21.107.75 / √ (12 − 1) (10.792.64)2 + (12 − 1) (𝑆𝑦2) √ 1 + 1

12 + 12 – 2 12 12

T= 0.9503

Determinamos el valor de T (α/2; n-2), ya que son muestras independientes n = 12 y m = 12 y


tienen el mismo número de elementos, tenemos n + m = 12 + 12 = 24 -2 = 22 grados de libertad,
el valor de T (0,005; 22) = 2,819. Como el valor de la T (prueba) es menor a la T de tabla, podemos
concluir que la hipótesis nula es aceptada ya que cae en la zona de aceptación bajo la curva de T
Student.

Contraste la hipótesis, para un nivel de significación del 95%, de que el precio de los
coches diésel de Mercedes-Benz es superior al de los coches de gasolina de la propia marca.

4.1. Planteamos la hipótesis nula y alternativa

𝐻0: 𝜇𝑋 > 𝜇𝑌 El precio de los vehículos Mercedes Benz a diésel es superior a los de gasolina

𝐻𝑎: 𝜇𝑋 ≤ 𝜇𝑌 El precio de los vehículos Mercedes Benz a diésel es menor igual a los de gasolina

4.2 Hallamos la media y la desviación a ambas muestras que son independientes y tiene el
mismo número de elementos.

Prueba unilateral a la derecha, establecemos los parámetros para las variables y hallamos la
media y la desviación estándar.
𝜇 384.528 510.003.996
𝑥= 4 𝜎𝑥√
4
𝜇𝑥= 96.132
𝜎𝑥 = 13.038.46

𝜇 280.677 112.516.223
𝑦= 4 𝜎𝑦√
4
𝜇𝑥= 70.169.5
𝜎𝑦 = 6.124.15

4.3. Determinar el valor de T:


Valor de T= 3.182 como la prueba es unilateral a la derecha desde -∞ hasta 3.182 positivo,
dentro de la curva T Student, una vez calculada t c mediante las diferencias de medias y
luego lo dividimos entre el error estándar para pruebas unilateral derecha.

T (Prueba) = 96.132−70.169.25 /√ (4−1) (13.038.46)2 + (4−1) (6.124.15)2 /4+4-2 √ ¼ +1/4

T (Prueba) = 3.605

Decisión.- Se rechaza la hipótesis nula de que los vehículos de la marca Mercedes Benz a diésel
ya que es superior a los de gasolina, y la prueba unilateral a la derecha nos muestra, que el T
estimado es mayor a T crítico o de tabla y aceptar la hipótesis alternativa.

3.182 < 3.605


Desarrolle un modelo de regresión lineal que permita estimar la variable precio,
inflación a partir de las variables capacidad, motor, caballos, potencia, longitud y peso. ¿Cuál
de las variables analizadas explica mejor el precio?

Para poder resolver este literal, observamos que la variable independiente (precio
inflación) y los predictores (capacidad del motor, caballos de potencia, longitud y peso).

Ya identificadas las variables y digitadas en el software, arroja como resultado los que se
muestran a continuación:
Variables entradas/eliminadas
Modelo Variables entradas Variables eliminadas Método
1
Peso, capacidad, motor, caballos de Introducir
potencia, longitud

a. Variables dependiente: Precio inflación


b. Todas las variables solicitadas introducidas.

Resumen del modelo


R
Modelo R R Error estándar Durbin -
cuadrado cuadrado e la estimación Watson
ajustado
1 0,879 0,773 0,769 9617,8031 0,735
a. Predictores: (Constante), Peso, capacidad del motor, caballos potencia, longitud
b. Variable dependiente: Precio inflación

ANOVA
Modelo Suma de cuadrados g.l. Media cuadrática F Sig.
1 Regresión 59334817465,247 4 14833704366,312 160,361 0,000
Residuo 17390401713,613 188 92502136,775
Total 76725219178,860 192
a. Variable dependiente: Precio inflación
b. Predictores: (constante), peso, capacidad del motor, caballos de potencia, longitud
Coeficientes
Coeficientes Coeficientes Estadísticas
Model no estandarizados t Sig. de
o estandarizado colinealida
s d
B Dev. Error Beta Tolerancia VIF
1 (Constante) -24993,511 16963,607 - 0,14
1,473 2
Capacidad de -2565,617 2246,455 -0,4 - 0,25 0,96 1,042
motor 1,142 5
Caballos de 215,117 29,434 408 7,309 0 0,386 2,591
potencia
Longitud -64,071 123,515 -0,04 - 0,60 0,203 4,931
0,519 5
Peso 21,498 3,682 -0,566 5,839 0 0,128 7,807
a. Variable dependiente: Precio inflación

De este modo la ecuación que se requiere estimar por medio del modelo de regresión
lineal múltiple tiene la siguiente forma funcional:

𝑌𝑙 = 𝛽0 + 𝛽1 + 𝛽1𝑖 + 𝛽2 + 𝛽2𝑖 + 𝛽3 + 𝛽3𝑖 + 𝜀

𝛽0 = 𝑅𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜

𝛽1 = 𝐸𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒𝑙 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑟𝑜 𝑋1𝑖

𝛽2 = 𝐸𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒𝑙 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑟𝑜 𝑋2𝑖

𝛽3 = 𝐸𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒𝑙 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑟𝑜 𝑋3𝑖

𝛽4 = 𝐸𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒𝑙 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑟𝑜 𝑋4𝑖

𝜀 = 𝑇é𝑟𝑚𝑖𝑛𝑜 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑖𝑛𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑏𝑙𝑒

Obteniendo: Y = -24.994 - 2.566X1 +215X2 - 64X3 + 21X4

8
CASO PRÁCTICO

El primer estadístico a examinar será R cuadrado y el R cuadrado ajustado; ambos estadísticos


proporcionan información acerca de la variación de la variable dependiente (en este caso la del
precio inflación), explicado por el conjunto de variables explicativas. En el presente estudio,
tanto el R cuadrado como el R cuadrado ajustado superan el 77%, lo cual indica que el 77% de
la variación del precio inflación, es explicado por la capacidad motor, los caballos de potencia,
la longitud y el peso.

Es necesario elegir como medida de bondad de ajuste al R cuadrado ajustado (0.769) sobre el
R cuadrado, debido a que este; tiene un comportamiento optimista al ajuste de la regresión
lineal, es decir, a medida que se agreguen más variables explicativas al modelo, el estadístico
R cuadrado también se incrementa, sin importar las variables explicativas adicionales tengan
algún grado de correlación con la variable dependiente. En tal virtud, el R cuadrado ajustado
corrige la estimación excesiva producida por el R cuadrado.

Evaluación del modelo de regresión

Luego de haber determinado el análisis regresión lineal múltiple para determinar el


comportamiento de la variable precio inflación, en función de un conjunto de variables
explicativas (capacidad del motor, caballos de potencia, longitud, peso), se deberá ahora
examinar si los supuestos detrás del modelo de regresión se cumplan: No multicolinealidad,
Homocedasticidad, independencia de los errores, independencia y linealidad. El cumplimiento
de lo antes expuesto implicaría que los resultados arrojados por el modelo aplicarse con mucha
precisión a la población de interés.

Independencia. Para verificar que los errores son independientes entre observaciones, se aplica
el test Durbin-Watson. Este test puede variar entre 0 y 4, donde un valor cercano a 2 significa
que los residuos no están correlacionados, por lo tanto, un valor superior a 2 indica una
correlación positiva entre errores subyacentes, mientras que un valor menos a 2 representa una
correlación negativa entre errores. Revisando la información desplegada en la tabla se observa
que el valor del estadístico Durbin Watson es cercano a 2, información confirmada con el p-
valor de 0.735.

9
CASO PRÁCTICO

Multicolinealidad: La multicolinealidad se produce cuando existe una fuerte correlación entre


las variables explicativas o cuando existe una evaluación de la importancia que tiene cada
predictor. El método para detectar la presencia de multicolinealidad es por medio del factor de
inflación e la varianza (VIF por sus siglas en inglés).

Dicho estadístico, indica si un predictor tiene una fuerte relación lineal con otro predictor. La
literatura especializada, considera que, si el valor del VIF es mayor a 10, probablemente exista
un problema de multicolinealidad, asimismo considerando el promedio de este indicador, si el
mismo es mayor que 1, la multicolinealidad posiblemente genera un problema de sesgo en el
modelo de regresión.

Una vez revisado la información de la tabla, se evidencia que tanto los valores VIF como del
estadístico de tolerancia cumple los parámetros establecidos, por lo cual concluye que no existe
multicolinealidad.

Residuos: Para finalizar con el análisis de los supuestos subyacentes al modelo de regresión
lineal múltiple, se deberá considerar el supuesto de la distribución normal de los residuos
(errores), Se deberá graficar los residuos estandarizados (en el eje y) versus los valores
ajustados (en el eje x), con esto se determinará si el supuesto de errores aleatorios y de
homocedasticidad se cumple. En el gráfico se puede observar la dispersión de los puntos
distribuidos uniformemente alrededor del cero, siendo esta una señal de que tanto los supuestos
de linealidad (la relación existe entre la variable dependiente e independiente son lineales) y
homocedasticidad (varianza de los errores constantes) se cumple.

10
CASO PRÁCTICO

Otro gráfico que nos permite visualizar y examinar si una variable tiene una distribución
normal, es el gráfico P-P, el cual grafica los valores acumulados de la variable versus la
probabilidad acumulada de la distribución normal. En este sentido, cada valor es contrastado
con el valor esperado de que el resultado sea una distribución normal.

En el caso del presente caso práctico, se analiza los residuos observados y se los grafica por
medio del diagrama P-P.

En esencial si los errores tienen una distribución normal, los mismos formaran una línea
diagonal recta, misma que se evidencia en el gráfico, por lo tanto, los errores tienen una
distribución normal.

Concluido y revisado los supuestos inherentes al modelo de regresión lineal múltiple se ha


cumplido, se puede concluir que el modelo previsto puede ser generalizable para la población.
Asimismo, y a la luz de los resultados vistos en las secciones anteriores, se concluye que los
caballos de potencia, y el precio son igual de importantes para predecir el precio inflación.

11
CASO PRÁCTICO

Por otro lado, a pesar de que las variables, capacidad motor y longitud fueron estadísticamente
significativas, tuvieron un menor impacto en relación a las dos variables antes mencionadas.

Bibliografía:

1. ALEA, V. et al. (1999) Estadística Aplicada a les Ciències Econòmiques


Socials. Barcelona: Edicions McGraw-Hill EUB.
2. CANAVOS, G. (1988) Probabilidad y Estadística. Aplicaciones y Métodos. México:
McGraw-Hill.
3. DURA PEIRó, J. M. y LóPEZ CUñAT, J.M. (1992) Fundamentos de Estadística.
Estadística Descriptiva y Modelos Probabilísticos para la Inferencia. Madrid: Ariel
Editorial.
4. URIEL, E. y PEIRó, A. (2000) Introducción al análisis de series temporales. Madrid:
AC.
5. Anderson D., Sweeney D., Williams T. Estadística para la administración y
economía. Décima edición. Cengage Learning. 2008
6. http://www.amstat.org/about/ethicalguidelines.cfm

12

También podría gustarte