Está en la página 1de 13

Universidad de Santiago de Chile

Facultad de ingeniera
Departamento de Ingeniera en Minas
LABORATORIO N 1: Anlisis estadstico inferencial al consumo de
combustible en camiones
Nombres:
Cristbal lvarez
Max Blondel
Profesor:
Fernando Machuca
Ayudante:
Flavia Leiva
Fecha de entrega:
03/11/2013
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
2
1. Resumen Ejecutivo
En el presente trabajo se realiz un anlisis estadstico inferencial de la variable
consumo de combustible, proveniente de la flota de camiones que transportan material
tronado en la pared sur del rajo BAYODOS. Dicho anlisis, que incluye a camiones con y sin
carga por pedido expreso de la Gerencia, tiene como finalidad evaluar si los anlisis
preliminares efectuados por la compaa TIRELINE, que indican una distribucin Normal
de la variable estudio, son correctos.
Para evaluar el supuesto de Normalidad se analiz la estadstica descriptiva bsica
de los datos muestreados. Adems, se agruparon los datos bajo tres criterios; con tal de
obtener distintas resoluciones del problema estudio. Estos criterios corresponden al
criterio grupal, de Sturges y de n raz. A partir de estas tres agrupaciones se analizaron los
histogramas asociados a estos grupos, se normalizaron los datos y se evalu su
normalidad utilizando la prueba de bondad de ajuste de chi cuadrado.
A partir de los anlisis efectuados, se observa que los datos no presentan una
distribucin Normal. Esta desviacin al supuesto de Normalidad se ve reflejado en que la
distribucin de la variable estudio presenta una asimetra negativa y es bimodal. La
condicin bimodal de la distribucin indica la presencia de datos provenientes de dos
poblaciones distintas. En este caso dichas variables corresponden a los camiones con y sin
carga, produciendo desviaciones en la distribucin de los datos estudios a la Normalidad.
La presencia de dos variables categricas independientes en un solo grupo de datos viola
los supuestos de la prueba de bondad de ajuste de chi cuadrado, por lo que los resultados
arrojados por esta prueba son cuestionables. Por lo tanto, se recomienda cambiar el
diseo del estudio, considerando las variables de camiones con y sin carga por separado
para evaluar efectivamente la distribucin asociada a cada variable.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
3
2. ndice
1. Resumen Ejecutivo.......................................................................................................... 2
3. Introduccin .................................................................................................................... 4
4. Objetivo general .............................................................................................................. 5
5. Objetivos especficos....................................................................................................... 5
6. Metodologa y resultados ............................................................................................... 5
7. Anlisis de resultados...................................................................................................... 9
8. Conclusiones.................................................................................................................. 10
9. Referencias.................................................................................................................... 10
ANEXO 1: Estandarizacin de datos ..................................................................................... 11
ANEXO 2: Calculo test de prueba Chi-Cuadrada .................................................................. 12
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
4
3. Introduccin
Uno de los principales desafos al momento de estudiar un fenmeno, consiste en
describir las propiedades o parmetros que definen a una poblacin estadstica, o sea, a la
totalidad de datos independientes que componen el fenmeno a estudiar. Debido a que
no es prctico censar o analizar todas las observaciones independientes de una poblacin
se debe seleccionar una muestra aleatoria representativa de la poblacin problema. A
partir de esta muestra representativa se realizan inferencias sobre de los parmetros que
describen a la poblacin estudio, los que pasan a denominarse estadgrafos por su
carcter muestral. Este proceso corresponde a lo que se denomina inferencia estadstica
(Sokal et al.,2012).
Una vez realizada la estimacin de los estadgrafos a partir de los datos muestrales
de una poblacin, se requiere determinar si dichos estadgrafos son concordantes con los
parmetros de la poblacin de inters. En este contexto, surgen las pruebas de hiptesis,
que consiste en rechazar o aceptar una hiptesis nula cuantificando la probabilidad de
cometer un error al tomar dicha decisin. Uno de los principales objetivos de dichas
pruebas de hiptesis es evaluar el tipo de distribucin que presentan los datos de una
muestra. Uno de los mtodos para evaluar si los datos de una muestra corresponden a
una poblacin de una determinada distribucin es la prueba de bondad de ajuste de chi-
cuadrado. Esta prueba compara los valores empricos obtenidos por muestreo con valores
tericos que pertenecen a una poblacin con una distribucin de probabilidad especfica.
La importancia de contar con una distribucin de probabilidad que describa la variable de
estudio, radica en que esta informacin permite modelar el comportamiento de los
parmetros de la poblacin bajo distintos escenarios (Sokal et al.,2012).
Una de las distribuciones ms importantes corresponde a la distribucin de
probabilidad Normal. Esta distribucin se caracteriza por presentar una curva con forma
de campana y ser unimodal, o sea, la media aritmtica, moda y mediana son iguales y se
encuentran en el punto mximo de la curva. Es asinttica en sus extremos y simtrica con
respecto a su media (Sokal et al.,2012).
En el presente estudio se evaluar si los anlisis preliminares de TIRELINE, que
informan de un comportamiento Normal de la variable consumo de combustible de la
flota de camiones estudio, es correcta.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
5
4. Objetivo general
Realizar un anlisis estadstico inferencial que determine la veracidad del supuesto
de distribucin Normal de la variable consumo de combustible de la flota de camiones,
realizada por TIRELINE en sus anlisis preliminares.
5. Objetivos especficos
Producir un anlisis estadstico preliminar de la variable consumo de combustible.
Realizar una estandarizacin a los valores cannicos de la distribucin Normal.
Aplicar una prueba de bondad de ajuste con chi-cuadrado, con la normal como
hiptesis nula.
6. Metodologa y resultados
A partir de la base de datos entregada se analiz la variable consumo de
combustible de la flota de camiones, considerando todos los camiones sin distincin, con
y sin carga, como fue encomendado por Gerencia.
Se dividi el trabajo en tres partes. En primer lugar se realiz un anlisis preliminar
de los datos en funcin de la estadstica descriptiva asociada al conjunto total de datos
(tabla 1).
Media 11.346
Desviacin Estndar 1.383
Mximo 16.450
Mnimo 3.020
Cuenta 11233
Curtosis 0,597
Coeficiente de
asimetra -0,919
Error tpico 0,013
Tabla 1: Resumen de la estadstica descriptiva asociada a los datos de consumo de combustible a
evaluar. Los valores han sido aproximados a su tercer decimal
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
6
Posteriormente, se agruparon los datos utilizando tres criterios distintos: criterio
grupal, de Sturges y de races de n. Las frmulas utilizadas para definir la amplitud (A) de
los intervalos de cada criterio son las siguientes:
A
grupa|
=
Hox Hin
1u
A
xturgex
=
Hox Hin
1 +S.22Iog
10(
N)
A
n raicex
=
Hox Hin
N
A partir de cada criterio se elabor un histograma (Figura 1,2 y 3). La finalidad de
utilizar tres criterios de agrupacin radica en que cada criterio produce un histograma de
distinta resolucin como resultado de la generacin de distintas amplitudes en los
intervalos de los datos observados. Mientras mayor sea el nmero de intervalos que se
obtengan, ms claro ser el tipo de distribucin que presenten los datos.
Figura 1 : Histograma creado a partir del Criterio de agrupacin de datos grupal.
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
0
1000
2000
3000
4000
5000
6000
F
r
e
c
u
e
n
c
i
a
Marcas de clase
Criterio grupal
Frecuencia
% acumulado
Porcentaje (%)
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en M
Figura 2: Histograma creado a partir del Criterio de agrupacin de datos grupal.
Figura 2: Histograma creado a partir del Criterio de agrupacin de datos grupal.
Finalmente, se realiz una
cada uno de los tres criterios de agrupacin implementados,
1), con la finalidad de evaluar estadsticamente la hiptesis de distribucin Normal
planteada previamente por I
hiptesis para cada uno de los tres criterios
Hiptesis nula (H
Hiptesis alternativa
0
500
1000
1500
2000
2500
3000
3500
4000
4500
3
.
4
9
8
1
8
7
9
2
4
4
.
4
5
4
5
6
3
7
7
3
5
.
4
1
0
9
3
9
6
2
2
6
.
3
6
7
3
1
5
4
7
1
7
.
3
2
3
6
9
1
3
2
8
.
2
8
0
0
6
7
1
6
9
9
.
2
3
6
4
4
3
0
1
8
F
r
e
c
u
e
n
c
i
a
Marcas de clase
Criterio de Sturges
0
100
200
300
400
500
600
700
3
,
0
8
3
3
5
7
5
1
5
3
,
8
4
3
6
4
7
7
4
,
6
0
3
9
3
7
8
8
4
5
,
3
6
4
2
2
8
0
6
8
6
,
1
2
4
5
1
8
2
5
3
6
,
8
8
4
8
0
8
4
3
7
7
,
6
4
5
0
9
8
6
2
1
F
r
e
c
u
e
n
c
i
a
Marcas de clase
Criterio raz de N
Universidad de Santiago de Chile
Facultad de ingeniera
ngeniera en Minas
Histograma creado a partir del Criterio de agrupacin de datos grupal.
Histograma creado a partir del Criterio de agrupacin de datos grupal.
Finalmente, se realiz una prueba de bondad de ajuste de Chi cuadrado
cada uno de los tres criterios de agrupacin implementados, previa normalizacin (Anexo
con la finalidad de evaluar estadsticamente la hiptesis de distribucin Normal
por INTERLINE. En este contexto, se plantearon las siguientes
para cada uno de los tres criterios:
Hiptesis nula (H
o
): X = N(11.347, 1.382)
Hiptesis alternativa (H
a
): X N(11.347, 1.382)
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
9
.
2
3
6
4
4
3
0
1
8
1
0
.
1
9
2
8
1
8
8
7
1
1
.
1
4
9
1
9
4
7
2
1
2
.
1
0
5
5
7
0
5
7
1
3
.
0
6
1
9
4
6
4
1
1
4
.
0
1
8
3
2
2
2
6
1
4
.
9
7
4
6
9
8
1
1
1
5
.
9
5
1
4
4
3
0
2
Marcas de clase
Criterio de Sturges
Frecuencia
% acumulado
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
7
,
6
4
5
0
9
8
6
2
1
8
,
4
0
5
3
8
8
8
0
6
9
,
1
6
5
6
7
8
9
9
9
,
9
2
5
9
6
9
1
7
5
1
0
,
6
8
6
2
5
9
3
6
1
1
,
4
4
6
5
4
9
5
4
1
2
,
2
0
6
8
3
9
7
3
1
2
,
9
6
7
1
2
9
9
1
1
3
,
7
2
7
4
2
0
1
1
4
,
4
8
7
7
1
0
2
8
1
5
,
2
4
8
0
0
0
4
7
1
6
,
0
0
8
2
9
0
6
5
Marcas de clase
Criterio raz de N
Porcentaje (%)
7
cuadrado inverso a
previa normalizacin (Anexo
con la finalidad de evaluar estadsticamente la hiptesis de distribucin Normal
En este contexto, se plantearon las siguientes
Frecuencia
% acumulado
Frecuencia
% acumulado
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
8
Como el estadstico de Chi cuadrado es una prueba de cola derecha de la distribucin,
se utilizaron dos regiones de aceptacin: se estableci el lmite inferior (LI) del estadstico
con una significancia del 95%, y el lmite superior (LS) con una significancia del 5%. El
ajuste de la distribucin ser bueno si el chi calculado (P) presenta las siguientes
relaciones:
LI<LS<P entonces el ajuste es malo
LI<P<LS entonces el ajuste es bueno
P<LI<LS entonces el ajuste es muy bueno
Slo en el criterio de raz de n se logr obtener un ajuste muy bueno, mientras que
en el resto el ajuste fue malo, rechazndose en aquellos casos las hiptesis nulas (tabla 2).
CRITERIO
LIMITE
INFERIOR
LIMITE
SUPERIOR
Calculado Ajuste Ho =0.05 Ho =0.95
GRUPAL 2.733 15.507 54.867 Malo Se rechaza Se rechaza
STURGER 5.226 21.026 32.136 Malo Se rechaza Se rechaza
RAZ DE N 81.468 128.804 57.540 Muy bueno
No se
puede
rechazar
No se
puede
rechazar
Tabla 2: Resultado de la prueba de bondad de ajuste de chi cuadrado para cada
criterio de agrupacin analizado. Los valores finales han sido aproximados a su tercer
decimal.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
9
7. Anlisis de resultados
El anlisis estadstico preliminar describe un grupo de datos con una media cercana
a 11.347 y una desviacin estndar de alrededor de 1.382, lo que indicara, en un
comienzo, que el grupo de datos analizados no presentara una gran dispersin o
heterogeneidad respecto a la media. Al respecto, el bajo valor de error estndar
calculado, de aproximadamente 0.013, representa una baja incertidumbre asociada a la
estimacin de la media de la muestra analizada. Los valores obtenidos del coeficiente de
asimetra y curtosis, de -0.9194 y 0.5965 aproximadamente, son indicadores de que el
grupo de datos considerados presentan una asimetra negativa, o sea, la mayor parte de
los datos se distribuyen a la derecha de la media, y una distribucin leptocurtica, o sea, los
datos tienden a concentrarse alrededor de los valores centrales de la variable. Por lo
tanto, la media estimada no es la mejor medida de tendencia central de los datos
analizados, a pesar de concentrarse gran parte de los valores alrededor de la regin
central de la distribucin. Adems, los valores del coeficiente de asimetra y curtosis se
alejan al esperado en una distribucin Normal ideal; el que ascendera a 0. Por lo tanto, el
anlisis estadstico preliminar nos indicara que nuestros datos se alejaran al supuesto de
Normalidad.
Los histogramas obtenidos por cada uno de los tres criterios de agrupacin de
datos implementados, entregan una evaluacin visual rpida de la distribucin de los
datos, indicando desde un comienzo la desviacin de la distribucin de los datos del
supuesto de Normalidad. El histograma construido a partir del criterio grupal es el de
menor resolucin y denota una distribucin unimodal con asimetra negativa. En el caso
del histograma asociado al criterio de struges, de mayor resolucin que el anterior, se
presenta con mayor claridad esta asimetra negativa y se comienza a observar la presencia
de un segundo mximo en la distribucin de la variable estudio. Finalmente, en el
histograma creado a partir del criterio de races de n, el de mayor resolucin, se puede
observar claramente que la distribucin de los datos es bimodal, o sea, posee dos puntos
mximos. Esta distribucin es el resultado de considerar dos procesos con dos
distribuciones distintas en un solo grupo de datos. En nuestro caso la presencia de una
distribucin bimodal se debe a que consideramos en un slo grupo de datos el consumo
de combustible proveniente de camiones con y sin carga, siendo que el anlisis debiese
filtrar ambos grupos y tratarlos de forma independiente. De hecho, al filtrar los datos
segn la presencia o ausencia de carga se obtienen medias, de alrededor de 8.587-0.765
y 11.6761.026 respectivamente, concordantes con los dos puntos mximos observados
en la distribucin bimodal del histograma.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
10
Las pruebas de bondad de ajuste de chi cuadrado inverso realizado para las
agrupaciones de datos por el criterio grupal y de Sturges nos indican un rechazo al
supuesto de distribucin Normal en la variable analizada. Resultado, que concuerda con
los anlisis previos por histogramas y estadstica descriptiva. Sin embargo, al realizar la
prueba de chi cuadrado inverso para los datos agrupados por el criterio de raz de n, se
tiene que el valor observado de chi cuadrado es menor al terico para los dos niveles de
significancia considerados; 5 y 95%. Esto significa, que no es posible rechazar la hiptesis
nula de Normalidad en los datos agrupados por criterio de raz de n. A pesar de esto, se
debe considerar que al realizar esta prueba de bondad de ajuste se esta violando una de
sus suposiciones. Particularmente, se viola la suposicin que concierne a la utilizacin de
una sola variable categrica (Sokal et al.,2012). En el caso de este estudio, se utilizaron dos
variables categricas, camin con y sin carga, cada uno con su propia distribucin de
datos. Por lo tanto, considerando todos los anlisis realizados se puede concluir que los
datos analizados no poseen distribucin normal debido a que se consideran dos variables
categricas independientes. Probablemente, el anlisis por separado de ambos grupos
arroje un comportamiento Normal para ambos casos.
8. Conclusiones
Con los anlisis efectuados se puede concluir que el supuesto de Normalidad en la
variable consumo de combustible, realizado de forma preliminar por la empresa TIRELINE,
se rechaza. Las desviaciones al supuesto de Normalidad se deben a que el grupo de datos
analizados no es independiente, existiendo datos provenientes de dos poblaciones en los
datos muestreados. Por lo tanto, se insta a cambiar el protocolo de anlisis y realizar un
filtro con tal de considerar de forma separada ambos grupo de datos, en este caso en
particular, se debe filtrar utilizando como criterio si los camiones estn con o sin carga;
debido a que esta es la fuente de variacin de los datos.
9. Referencias
1. Sokal, R. R. and F. J. Rohlf. 2012. Biometry: the principles and practice of statistics
in biological research. 4th edition. W. H. Freeman and Co.: New York. 937 pp.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
11
ANEXO 1: Estandarizacin de datos
PASO 1: Una vez que se determinaron los mximos y mnimos, se calcularon las
marcas de clase (M.C)(promedio de ambos), con el programa Excel 2007. Adems, el
resumen estadstico fue calculado con la herramienta previamente utilizando en la
seccin 'DATOS' la opcin denominada 'Anlisis de datos', la que despliega una ventana y
la opcin a elegir se llama :' Estadstica descriptiva'.
PASO 2: Seleccionar la columna de donde se requiere la estadstica descriptiva, en
este caso es FUEL RATE.
PASO 3: Se desplegar una tabla con las principales medidas estadsticas, con la
cual se puede realizar la normalizacin, previamente hecho el histograma. A las marcas de
clase se debe aplicar el comando: NORMALIZACION(marca de clase; media; desv.
estndar) y con ello se logra la normalizacin de los datos.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
12
ANEXO 2: Calculo test de prueba Chi-Cuadrada
Para REALIZAR el test de prueba de bondad de ajuste es necesario calcular y llenar
la siguiente tabla:
ai bi Y1 Y2 Area1 Area2 oj frecuencia ej (oj-ej)^2/ej
Donde:
ai : mnimos calculados para el histograma
bi: mximos calculados para el histograma
Y1: normalizacin de datos mediante la herramienta:
''NORMALIZACION(ai;media;desv.est)' de Excel
Y2: normalizacin de datos mediante la herramienta:
'NORMALIZACION(bi;media;desv.est)' de Excel
Area1: Valor sobre la tabla de la distribucin normal, calculado mediante la herramienta:
'DISTR.NORM.ESTAND(Y1)' de Excel
Area2: Valor sobre la tabla de la distribucin normal, calculado mediante la herramienta:
'DISTR.NORM.ESTAND(Y2)' de Excel
oj: Area2 - Area1
Frecuencia: Encontrada al desarrollar el histograma
ej: frecuencia de la celda/total de datos
Finalmente, el clculo del test de prueba es la suma de la columna: (oj-ej)^2/ej.
Universidad de Santiago de Chile
Facultad de ingeniera
Departamento de Ingeniera en Minas
13
Clculo de lmites de chi-cuadrado:
Se utiliza la herramienta de Excel denominada: PRUEBA.CHI.INV(%;v). Para el clculo de
los lmites se usa una significancia de 5% para el lmite superior, y un 95% para el inferior.
V corresponde a los grados de libertad, siendo: v = N-1-k, donde k es la variables
estimadas, siendo de k=1.Por tanto:
Criterio Confianza (%) v Test Chi-cuadrado
Grupal 5 8
15.507
95 8
2.733
Sturges 5 12
21.026
95 12
5.226
Raz de N 5 104
128,804
95 104
81.468
Tabla 3: Valores asociados a la prueba de bondad de ajuste de chi cuadrado inverso
para cada una de los tres criterios de agrupacin de datos.

También podría gustarte