Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FUNCIONALES
TESIS
que para obtener el grado de
Maestro en Ciencias con Especialidad en
Probabilidad y Estadstica
p r e s e n t a
Diego Rivera Garca
Dr. Enrique Ral Villa Diharce
Director de Tesis
Dr. Joaqun Ortega Snchez
Codirector de Tesis
Guanajuato, Gto.
Agosto de 2011
ndice general
ndice General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1
12
2.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Datos funcionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1
Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2
Splines suavizados
2.3.3
Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2
Anlisis de derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . 24
29
3.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Descripcin del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Propuestas realizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Cartas de control para datos funcionales . . . . . . . . . . . . . . . . . . . 32
4 Conclusiones
41
Bibliografa
43
ii
ndice de figuras
1.2.1
. . . . . . . . . . . . . . . . . . . . .
1.2.2
1.4.1
1.4.2
1.5.1
Longitud de corrida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1
2.2.2
Estudio de crecimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1
B-spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3.2
2.4.1
2.4.2
Anlisis de derivadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5.1
3.2.1
Datos de motores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1
3.4.1
Ajuste de B-spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2
3.4.3
Simulaciones bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4.4
Conjunto de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.5
Longitud de corrida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.6
3.4.7
iii
ndice de cuadros
3.4.1
3.4.2
Relacin Confianza-ARL . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.3
iv
Agradecimientos
Un agradecimiento muy especial a CONACYT por el apoyo recibido para poder cursar
esta maestra. De igual forma quisiera agradecer a CIMAT AC, y a los profesores que me
acompaaron y orientaron durante esta travesia.
Tambin quiero agradecer al Dr. Enrique Villa Diharce y al Dr. Joaqun Ortega
Snchez por brindarme el apoyo para la realizacin de este trabajo.
Al Dr. Miguel Nakamura Savoy gracias por sus valiosos consejos y enseanzas.
A mis amigos, en especial a Joel Iglesias, Mario Santana, Gustavo Cano, Harol Moreno,
Abelardo Motesinos, Norma Selomit Ramrez, Lina Vargas gracias por su apoyo y amistad.
Un agradecimiento muy especial a Leticia Escobar por ser uno de los motores que me
impulsaron a crecer como estudiante y sobre todo como persona.
Prefacio
En el presente trabajo se hace una propuesta de cartas de control que permite monitorear caractersticas de calidad cuando estas estn en funcin de una o ms covariables,
las cartas de control para datos funcionales. Este trabajo se desarrolla de la siguiente forma: En el primer captulo se hace una introduccin a las cartas de control, en el captulo
2 se realiza una breve introduccin al anlisis de datos funcionales, en el captulo 3 se
realiza un caso de estudio para un conjunto de datos dado y finalmente el el captulo 4 se
muestran las conclusiones obtenidas a lo largo del trabajo.
vi
Captulo 1
Cartas de control
1.1.
Introduccin
En el rea de estadstica existe un conjunto de tcnicas para el mejoramiento y control de las lineas de produccin industrial, conocida como control estadstico de procesos
(CEP). Dentro del CEP existe una herramienta grfica de gran utilidad usada para el
monitoreo de procesos, las cartas de control. En el presente captulo se dar una breve
introduccin a las cartas de control para monitorear procesos industriales.
1.2.
Cartas de control
Una carta de control es una herramienta estadstica empleada para el estudio y control de procesos a travs del tiempo. El objetivo de las cartas de control es el observar
y analizar mediante el uso de datos estadsticos la variabilidad del proceso de inters a
travs del tiempo, (Gutirrez y De la Vara, 2004 [9]).
Mediante el uso de las cartas de control se pretende identificar las principales fuentes
de variacin del proceso, las cuales se identifican como:
Variabilidad debida a causas comunes: Variabilidad que aparece de manera
1 Cartas de control
Variabilidad debida a causas especiales: Variabilidad originada por circunstancias o situaciones especiales ajenas al proceso. Este tipo de variabilidad a menudo
puede ser identificada y eliminada del proceso
La idea bsica de una carta de control es que, mediante el clculo de limites de control,
podamos observar dnde vara el proceso a travs del tiempo, graficando un estadstico,
denotado por W, el cual mide la caracterstica de inters en el proceso. Los elementos
para construir una carta de control son:
Linea central (LC): Esta linea representa el promedio de los valores de W.
Los lmites de control inferior (LCI) y superior (LCS): Estos lmites definen
el rango de variacin del proceso, de tal manera que al estar el proceso bajo control
estadstico, haya una alta probabilidad de que los valores de W se encuentren dentro
de los lmites de control.
Cabe mencionar que estos lmites de control no corresponden a los lmites de especificacin, tolerancias o deseos del proceso. Estos son calculados a partir de la variacin
de los datos que se representan en la carta. La idea de su clculo est en establecer los
lmites de forma que sea cubierto el mayor porcentaje de la variabilidad del proceso. Sin
embargo, la eleccin de estos lmites debe ser realizada con cuidado, ya que si se desea
cubrir un alto porcentaje de variabilidad, los lmites sern muy amplios. Esto dificultara
la deteccin de cambios; en cambio si el porcentaje es pequeo, los lmites sern muy
estrechos causando muchas seales en falso.
As, si algn valor de W cae fuera de los lmites de control esto indicar un evento
inusual en el proceso. En la figura 1.2.1 se presentan los elementos de la carta de control.
1 Cartas de control
LCS
LC
LCI
y w +3w , donde bajo control estadstico se ubica el 99.73 % de los posibles valores de W.
En el caso de tener una distribucin diferente a la normal, y se tenga una distribucin
1 Cartas de control
LC
LCI
LCI
LC
LCS
LCS
a)
b)
Figura 1.2.2: Control estadstico: a)Proceso fuera de control, b) Proceso bajo control
extensin del teorema de Chebyshev, la cual esta dada por
Teorema 1.2.1 (Desigualdad de Chebyshev) Sea = E(X) y 2 = V ar(X), en
1
tonces P (X k) 2 .
k
y S que establece el porcentaje
A partir de este resultado se obtiene una relacin entre X
kS y X
+ kS.
mnimo de datos que caen entre los lmites X
Las cartas de control que siguen esta metodologa fueron propuestas por el doctor
Walter A. Shewhart (1924), y sus lmites de control estn dados por
LCI = w 3w ,
LC = w ,
LCS = w + 3w .
(1.2.1)
Este tipo de cartas son conocidas como cartas tipo Shewhart. Con ellas y bajo condiciones de control estadstico se tendr alta probabilidad de que los valores de W caigan
dentro de los lmites definidos en (1.2.1). En el caso de que se tenga una distribucin
normal esta probabilidad ser 0.9973.
A menudo los parmetros de la distribucin de W son desconocidos, por los cual deben
ser estimados. Para ello se toma un conjunto de datos histricos, con los cuales se estiman
1 Cartas de control
los parmetros de la distribucin de W. Una vez estimados estos valores se realiza un proceso de depuracin de la informacin hasta considerar el proceso bajo control estadstico.
Este proceso se conoce como Fase I de la construccin de la carta de control.
Durante la Fase II el proceso se muestrea en lnea y los valores de W obtenidos son
graficados en la carta de control. Generalmente se muestrea un nmero m de subgrupos,
que oscilan entre 20 y 50 de tamao 5.
1.3.
Una vez construida la carta de control, mediante algn criterio se juzga si el proceso se
encuentra o no bajo control. Por aleatoriedad del proceso se corre el riesgo de equivocarse
y de que el proceso enve seales falsas de estar fuera de control.
(1.3.1)
con lo cual se tiene una relacin entre las cartas de control y las pruebas de hiptesis.
1.4.
1 Cartas de control
Existen dos grupos generales de cartas de control: para variables y para atributos.
Las cartas de control para variables, se aplican al monitoreo de caractersticas de calidad
del tipo continuo, las cuales requieren de un instrumento de medicin (Peso, volumen,
voltaje, etc.).
X(Promedios)
R (Rangos)
S (Desviacin estndar)
X (Medidas individuales)
T 2 (Multivariadas)
Las cartas de control para atributos se aplican cuando el producto o el proceso no es
medido y simplemente es juzgado como conforme o no conforme, dependiendo del nmero
de defectos o no conformidades que tiene. Las principales cartas de control para atributos
son:
p (Proporcin o fraccin de artculos defectuosos)
np (Nmero de unidades defectuosas)
c (Nmero de defectos)
u (Nmero de defectos por unidad)
Adems de las cartas mencionadas, existe una gran variedad de cartas de control, con
las cuales se pretende detectar ms rpido un cambio en el proceso y reducir la frecuencia
de falsas alarmas. Entre estas cartas las ms conocidas son las cartas EWMA y CUSUM.
1 Cartas de control
En el presente trabajo se hablar principalmente de las cartas para medidas individuales, para mayor referencia acerca de las cartas de control consultar del libro de Gutirrez
y De la Vara et al, (2004).
1.4.1.
Este tipo de cartas se usan para monitorear variables del tipo continuo en el caso que
se trabaje con procesos lentos o costosos, en los cuales para obtener una muestra de la
produccin se requiere de periodos relativamente largos.
La determinacin de los lmites de control en este caso no difiere del caso de las otras
cartas de control, esto es, mediante la estimacin de la media y desviacin estndar del
estadstico W que se est usando. En este caso es directamente la observacin individual
obtenida del proceso, X. Entonces los lmites quedan determinados por
LCI = X 3X ,
LC = X ,
LCS = X + 3X ,
(1.4.1)
y X = R ,
X = X
d2
(1.4.2)
(1.4.3)
donde R = max{Xi } mn{Xi }. Estas constantes usualmente vienen tabulados en los li-
bros de control estadstico de procesos. La constante d2 depende del tamao del subgrupo
R
y define la media del rango relativo q = ; en este caso se tiene que d2 = 1.128.
De acuerdo con lo anterior se tiene que los limites de control para medidas individuales
1 Cartas de control
LCS = X
+3 R .
3 R , LC = X,
LCI = X
1.128
1.128
(1.4.4)
LCI
LC
LCS
LCI = 0, LC = R,
+ 3R .
LCS = R
(1.4.5)
Aqu R = d3 es una constante que depende del tamao del subgrupo y corresponde a
R
la desviacin estndar del rango relativo, q = , en este caso d3 = 0.853. Esta constante
1 Cartas de control
(1.4.6)
LCI
LC
LCS
Carta de control R
Cabe mencionar que las cartas de control para medidas individuales son una gran
alternativa para el monitoreo de procesos lentos, sin embargo, el desvo de la distribucin
de las observaciones de la normal puede afectar los criterios de interpretacin de la carta.
1.5.
1 Cartas de control
LCI
LC
LCS
RL
x = 1, 2, ....
(1.5.1)
10
(1.5.2)
1 Cartas de control
(1 p)
1
y var(RL) =
, de donde se obtiene
p
p2
que bajo condiciones de control estadstico, se tiene
De acuerdo con esto se sigue que E(RL) =
ARL =
1
p
(1.5.3)
Por ejemplo bajo distribucin normal y usando un esquema de cartas tipo Shewhart
se tiene que p = 0.0027 y ARL = 370.4, es decir cada 370 puntos la carta de control dar
una seal de fuera de control a pesar de que no hayan ocurrido cambios en el proceso. De
esta manera mediante el ARL es posible la comparacin de cartas, siendo la mejor aquella
que enve menos seales de fuera de control falsas, es decir, aquella con el ARL mayor.
11
Captulo 2
2.1.
Introduccin
Durante los ltimos aos los avances tecnolgicos se han visto en aumento, provocando
un gran impacto en diversas reas de investigacin. ste tipo de impacto ha mejorado los
instrumentos de medicin, hacindolos ms rpidos y precisos.
En el rea de estadstica estos cambios no han sido menores. Actualmente se ha empezado a trabajar con grandes bases de datos que corresponden a observaciones de variables aleatorias tomadas sobre intervalos de tiempo, donde el resultado de dicha medicin
es una curva que representa a la muestra concreta que ha sido evaluada. Este tipo de
datos son llamados datos funcionales.
Ante estos nuevos retos surge como respuesta la estadstica de datos funcionales, la
cual define a un dato como una funcin en un intervalo de tiempo. En el presente captulo
se dar una breve introduccin acerca de la estadstica de datos funcionales.
2.2.
Datos funcionales
En esencia los problemas a los que se enfrenta la estadstica de datos funcionales son
12
los mismos a los que se enfrenta la estadstica clsica, cuyos objetivos se pueden listar
como:
Lograr una representacin que capture las caractersticas del conjunto de datos.
Estudiar fuentes importantes de patrones y variacin entre los datos.
Explicar la variabilidad de una respuesta mediante el uso de variables independientes.
Contraste, validacin y prediccin.
Mtodos de clasificacin de un conjunto de datos respecto a alguna caracterstica.
Como se mencion anteriormente, ahora tenemos el caso en el que el conjunto de
observaciones para el anlisis es un conjunto de funciones y no de datos como usualmente
se hace, en la grfica 2.2.1 se puede observar las diferencias entre ambos enfoques.
Estadstica para datos funcionales
Altura
80
100
120
0
1
140
160
180
Estadstica clsica
10
15
Edad
a)
b)
Figura 2.2.1: Tipos de anlisis: a) Estadstica clsica, b) Estadstica para datos funcionales
Siguiendo la definicin de Ferraty y Vieu (2006) [7] se tiene que la definicin de dato
funcional esta dada por
Definicin 2.2.1 Una variable aleatoria X se dice que es una variable funcional si toma
valores en un espacio funcional (Espacio normado o semi-normado completo).
13
De acuerdo con esto decimos que, un conjunto de datos funcionales {X1 , ..., Xn } es la
observacin de n variables funcionales X1 , ..., Xn idnticamente distribuidas.
Esto puede ser aplicado a muchos tipos de espacios. En particular, Rp con las mtricas
usuales ser un espacio funcional y por lo tanto puede deducirse que toda tcnica que
se desarrolle para datos funcionales puede ser aplicada con ciertas garantas en el caso
multivariado. El reverso generalmente no es cierto.
A manera de ejemplo considere los datos provenientes del libro de Ramsay y Silverman
(2005)[12], los cuales muestran las curvas de crecimiento de 10 nias con mediciones en 31
puntos entre 1 y 18 aos de edad, dichas mediciones no son igualmente espaciadas. Este
estudio corresponde a un estudio de crecimiento realizado en Berkeley, en la grfica 2.2.2
se observan los datos correspondientes a este estudio.
120
80
100
Altura (cm)
140
160
180
Estudio de crecimiento
10
15
Edad (Aos)
14
2.3 Bases
2.3.
Bases
Como se ha visto, los datos funcionales corresponden a observaciones a travs del tiempo de una variable aleatoria. Estos valores recolectados corresponden a discretizaciones
de curvas a las cuales llamamos datos funcionales.
(2.3.1)
15
2.3 Bases
2.3.1.
Splines
En el presente trabajo se usar una base de Splines, por lo que se dar una breve
introduccin acerca de ellos
Definicin 2.3.2 (Splines) La funcin : [a, b] R es un spline de grado p con
nodos en t1 , ..., tk si se verifica lo siguiente:
1. a < t1 < < tk < b (denotemos t0 = a, tk+1 = b)
2. En cada intervalo [tj , tj+1 ], j = 0, ..., k, es un polinomio de grado p o inferior.
3. La funcin tiene (p 1) derivadas en [a, b], (es decir, los polinomios que definen
la funcin en los intervalos [tj1 , tj ] y [tj , tj+1 ] enlazan bien en tj )
Una vez definida la funcin de splines, definamos una base de splines, dentro de las
cuales resaltan las B-splines las cuales cumplen las siguientes propiedades
Cada funcin base k (t) es una funcin spline de orden p y con nodos.
Dado que un mltiplo de splines es spline y la suma de splines es tambin spline,
cualquier combinacin lineal de k (t) ser tambin un spline.
Cualquier spline de orden p y con nodos puede ser expresado como una combinacin lineal de funciones base k (t).
Este tipo de bases desarrolladas por de Boor (2001) son las ms populares y estan
disponibles en una gran cantidad de Software, incluyendo R. En la grfica 2.3.1 presentamos trece funciones B-spline para un spline de orden tres definidas por nueve nodos
equiespaciados.
Un caso especial resulta cuando se hace uso de splines suaviados, los cuales agregan
un termino que penaliza la falta de suavidad por parte de la curva.
16
2.3 Bases
0.6
0.4
0.0
0.2
0.8
1.0
Bspline
10
2.3.2.
Splines suavizados
La metodologa de spline suavizado ajusta la curva x(t) proveniente de las observaciones yj = x(tj ) + j tomando en cuenta los posibles conflictos que pueden surgir en la
estimacin. Por un lado se desea asegurar un buen ajuste de la curva a los datos. Por
otro lado no se desea que el ajuste sea tan bueno si este produce una curva excesivamente
rugosa o muy variable localmente.
[D 2 x(s)]2 ds.
(2.3.2)
En funciones altamente variables puede esperarse que los valores de P EN2 (x) sean
altos, ya que su segunda derivada ser grande al menos sobre un rango de inters.
17
2.3 Bases
Dado que en varias aplicaciones de datos funcionales, las derivadas son de gran inters, la expresin (2.3.2) puede no ser adecuada, puesto que slo controla la curvatura
de la funcin original. Por tanto, si queremos estudiar la derivada de orden m, se debe
penalizar las derivadas de orden m + 2 para controlar la curvatura de derivadas de alto
orden (Ramsay y Silverman, 2005[12]).
De acuerdo con esto, mediante la generalizacin (2.3.2) que permite una derivada,
D m x, de orden arbitrario se obtiene la siguiente penalizacin
P ENm (x) =
[D m x(s)]2 ds.
(2.3.3)
[D 4 x(s)]2 ds,
(2.3.4)
2.3.3.
Estimacin de parmetros
Recuerde que los datos con los que se trabaja en datos funcionales provienen de discretizaciones de funciones. Entonces el objetivo es ajustar las observaciones discretas yj ,
j = 1, 2, ..., n usando el modelo yj = x(tj ) + j , donde x(t) es aproximado mediante una
base como se mencion en la seccin 2.3.1.
Un simple suavizamiento se obtiene determinando los coeficientes ck por mnimos
cuadrados ordinarios
SMSSE(y | c) =
n
X
j=1
[yj
K
X
ck k (tj )]2 .
(2.3.5)
k=1
18
(2.3.6)
2.3 Bases
(2.3.7)
(2.3.8)
es
De acuerdo con esto el vector de valores ajustados y
= (T )1 T y
y
(2.3.9)
(2.3.10)
donde W es una matriz simtrica y positiva definida que permite pesos desiguales para
los residuales.
(2.3.11)
19
2.3 Bases
2.3.4.
(2.3.12)
Con el fin de permitir que la penalizacin de la rugosidad, P ENm (x), juegue un rol en
la determinacin de x(s), se define una expresin que regule el ajuste de los datos contra
el suavizamiento de la curva; sta es conocida como mininos cuadrados penalizados,
P ENSEE (y | c) = (y c)T W(y c) + P ENm (x).
(2.3.13)
mediante la interpolacin de los datos que satisface la ecuacin x(tj ) = yj para toda j.
An en este caso lmite, la curva ajustada es la mejor curva suave y dos veces derivable
que interpola a los datos, (Ramsay y Silverman, 2005[12]).
20
2.3 Bases
[D m x(s)]2 ds,
[D m cT (s)]2 ds,
(2.3.14)
cT D m (s)D m T cds,
Z
T
= c [ D m (s)D m T ds]c,
= cT Rc,
donde
R=
D m (s)D m T ds.
(2.3.15)
(2.3.16)
(2.3.17)
(2.3.18)
(2.3.19)
= S y.
donde S es la matriz hat, simtrica pero a diferencia del caso de regresin estndar
21
2.3 Bases
S no es idempotente, es decir
S S 6= S .
Se debe tener precaucin al elegir el parmetro de suavizamiento, . Esta eleccin debe
ser de manera que se obtenga un nivel aceptable de rugosidad en las curvas estimadas y
no perder fuentes de variacin importantes.
Existen varios procedimientos para la eleccin del parmetro . Estos mtodos son
descritos en el libro de Ramsay y Silverman (2007)[12]. Sin embargo, el procedimiento de
suavizamiento esta determinado por los intereses del estudio que se est realizando.
120
100
80
Altura (cm)
140
160
180
10
15
Edad (aos)
22
2.4.
2.4.1.
Como en cualquier otro anlisis de datos las estadsticas descriptivas son una gran
herramienta para la descripcin y exploracin de datos. En el caso de datos funcionales
estas estadsticas son definidas como funciones, donde la funcin media est dada por:
N
1 X
x (t) =
xi (t) .
N i=1
(2.4.1)
Esto es, el promedio de las funciones punto a punto, sobre todas las replicas del proceso.
De igual manera definimos la funcin varianza
N
1 X
var [x (t)] =
[xi (t) x (t)]2 ,
N 1 i=1
(2.4.2)
En la figura 3.4.2 se muestran la media y la varianza para los datos del estudio de
crecimiento de Berkeley
Definamos ahora la funcin de covarianza funcional, la cual mide el grado de dependencia a travs de los diferentes argumentos y es calculada para toda t1 y t2 mediante la
expresin
23
Desviacin estndar
Altura (cm)
120
80
100
Altura (cm)
140
160
Media funcional
10
15
Edad (aos)
10
15
Edad (aos)
a)
b)
1 X
Cov [x (t1 , t2 )] =
[xi (t1 ) x (t1 )] [xi (t2 ) x (t2 )] ,
N 1 i=1
(2.4.3)
2.4.2.
(2.4.4)
Anlisis de derivadas
24
imiento se acelera durante la infancia y durante la pubertad, cosa que no se puede observar
a partir de los datos, ver figura 2.3.2.
2
4
6
10
Aceleracin (cm/ao^2)
10
15
Edad (aos)
2.5.
Bootstrap suavizado
El bootstrap es una tcnica para la creacin de muestras artificiales, las cuales pueden
ser usadas para la estimacin de densidades.
Considere X1 , ..., Xn una muestra de datos iid tal que Xi f (x) donde frecuentemente
f (x) es desconocida por lo cual hay que estimarla mediante algn mtodo de estimacin
de densidad.
25
boostrap.
En este caso usaremos el estimador Kernel para densidades el cual se define como:
Definicin 2.5.1 Dado un kernel K y un nmero positivo h, llamado ancho de banda, el
estimador de densidades kernel es definido como:
n
1 X x Xi
K
f (x) =
nh i=1
h
tal que K(x) 0 y
K(x)dx = 1,
xK(x)dx = 0 y
(2.5.1)
x2 K(x)dx > 0.
El valor del ancho de banda, h, debe ser elegido cuidadosamente ya que valores muy
grandes de h producen una funcin de densidad estimada demasiado suave, mientras que
valores muy pequeos de h producen una funcin de densidad estimada demasiado rugosa.
La eleccin ptima de h debe realizarse de modo que este valor minimice el error cuadrado
medio integrado que se define como:
ECMI(f) =
E(f(x) f (x))2 .
(2.5.2)
f(x) =
1 X 1
Kd H (x xi )
n|H| i=1
26
(2.5.3)
15
10
10
15
0.00
0.05
f(x)
0.10
0.15
0.00
0.00
0.05
0.05
f(x)
f(x)
0.10
0.10
0.15
0.15
15
10
10
15
a)
15
10
10
15
b)
c)
2.5.1.
i1/(d+4)
4
.
(d + 2)n
27
(2.5.4)
2.6.
(2.5.5)
Conjuntos de confianza
Definimos un conjunto de confianza para el funcional X(t) con nivel , como el conjunto de curvas c las cuales tienen la misma distribucin que X(t) tal que
CS(x) = {c : d(x, c) < D }
(2.6.1)
donde d es una distancia funcional y D es tal que P (CS(x)) = . Esto es, dada
una muestra original X1 (t), X2 (t), ..., Xn (t) se extraen muestras bootstrap denotadas por
X1 (t), X2 (t), ..., Xn (t). Entonces un conjunto del % de confianza basado en el estadstico T (X1 , X2 , ...Xn ) es definido calculando el valor de D tal que el % de replicas
T (X1, X2 , ...Xn ) se localicen dentro de una distancia menor que D de su promedio, es
decir D es el radio del conjunto de confianza bootstrap centrado en la media de T . En
este caso para medir la distancia D se usar una mtrica L2 la cual para una curva x(t)
est dada por
||x(t)||2 =
Z
tmax
tmn
28
1/2
x(t)2 dt
(2.6.2)
Captulo 3
3.1.
Introduccin
En el presente trabajo se realiz un anlisis de datos de motores empleando un enfoque de datos funcionales mediante una propuesta de cartas de control para datos funcionales. Con este enfoque se pretende captar mucha ms informacin que con tcnicas
tradicionales. Los datos fueron tomados del trabajo de Amiri et al. (2009)[1].
3.2.
Como se mencion anteriormente los datos fueron tomados del trabajo de Amiri et
al. (2009)[1] y corresponden a mediciones del torque del motor de un automvil (TU3
de autos Peugeot). Los motores fueron puestos en marcha a diferentes RPM (variable
explicativa) y los valores del torque (variable de respuesta) fueron registrados. El la figura
3.2.1 se presentan los datos correspondientes a 26 motores evaluados a distintos niveles
de RPM.
De acuerdo con lo anterior si el proceso de manufactura est bajo control, los perfiles
que describen la relacin entre RPM y torque deben ser muy similares, mientras que si
algn motor presenta anomalas el perfil correspondiente a este motor debe diferir de los
29
80
90
Torque
100
110
Datos de motores
2000
3000
4000
5000
6000
Rpm
3.3.
Propuestas realizadas
(3.3.1)
es el vector de parmetros fijos, Z matriz asociada con los efectos aleatorios, bj vector
de efectos aleatorios. Se asume que los efectos aleatorios son normalmente distribuidos,
bj Np (0, D) donde 0 es un vector de ceros y D es una matriz diagonal de varianzas30
70
80
90
Torque
100
110
120
1000
2000
3000
4000
5000
6000
Rpm
A partir de lo anterior fue construida una carta de control multivariada, T 2 para los
parmetros de efectos aleatorios estimados, mediante la cual se monitorear el proceso. Si
algn motor presenta algn defecto los parmetros de ste se vern afectados por lo que
mostrara una seal de fuera de control.
Mediante esta tcnica se observ que los motores estn bajo control, por lo cual a
travs estos datos fue realizada la Fase I para proseguir a monitorear el proceso en la
Fase II. El objetivo de este trabajo es la propuesta de un mtodo alternativo a este
procedimiento, para mayor informacin ver el trabajo de Amiri et al. (2009)[1].
31
3.4.
Como puede observarse, los datos de motores estn dados en forma discreta por lo
cual para iniciar el anlisis usando un enfoque de datos funcionales, hay que buscar una
representacin de los datos que muestre su verdadera forma funcional. En este caso el uso
de una base B-spline, como las definidas en la seccin 2.3.1, permite una mejor representacin de los datos que el ajuste propuesto por Amiri et al.(2009)[1].
Mediante el paquete fda de R fue definida una base B-spline que aproxima la forma funcional de los datos. Esta base es definida por splines cbicos cuyos nodos fueron
definidos de tal forma que se agruparan ms donde exista mayor variabilidad por parte de
la curva, los nodos fueron definidos en 2000, 2500, 2660, 2940, 3500, 4000, 4500, 5775. En la
figura 3.4.1 se muestra el ajuste del B-spline de splines cbicos, donde las lineas punteadas
muestran los puntos donde fueron colocados los nodos.
Note que en este caso no se tiene gran inters en el anlisis de derivadas de los datos
por lo cual se ha tomado el parmetro de suavizamiento, como cero. Esto reduce la
estimacin de los coeficientes, c, definidos en (2.3.18) al caso de estimacin por mnimos
cuadrados dada en (2.3.12). En el cuadro 3.4.1 son presentados los valores de c.
Al igual que el caso de la estadstica clsica, las estadsticas descriptivas son de gran
ayuda para un primer anlisis de los datos. En la figura 3.4.2 se muestran la media y
desviacin estndar para los datos correspondientes a los motores. En esta figura puede
observarse que la variabilidad del proceso es mayor al inicio y a la mitad del estudio.
32
70
80
90
Torque
100
110
120
Ajuste de splines
2000
3000
4000
5000
6000
Rpm
No. De Motor
329
449
529
642
724
803
930
1148
1171
1516
1791
2600
3100
3720
4025
4068
4926
5155
6143
6844
7811
8007
8623
9388
9404
10430
1500
98.530
96.350
98.770
96.700
96.750
97.610
100.061
94.549
96.480
100.730
101.980
96.829
100.070
97.440
100.000
97.980
97.290
100.970
91.130
93.110
95.380
98.280
96.790
96.450
91.530
98.369
2000
92.947
94.738
94.838
89.354
91.799
94.186
93.704
98.203
94.861
94.227
98.662
95.608
96.527
95.552
95.325
97.908
101.871
98.447
93.653
98.739
92.861
90.752
97.184
97.471
94.192
96.029
2500
112.718
106.524
112.008
111.194
110.852
111.523
114.412
109.504
106.660
113.983
112.313
113.279
111.826
108.647
111.873
113.195
110.777
112.206
110.651
110.291
110.649
112.172
111.271
113.365
109.047
108.504
2660
115.232
113.811
112.584
111.756
110.270
113.093
112.549
115.409
113.953
113.632
115.471
115.251
113.425
111.510
111.653
116.497
118.630
113.054
112.072
113.543
112.589
112.813
114.233
114.563
112.235
115.519
Nodos
2940
3500
119.394
107.043
116.852
106.364
115.034
108.848
112.047
103.451
112.613
104.587
117.471
106.687
116.096
106.959
116.928
107.486
117.011
106.499
117.650
107.364
115.784
108.726
119.298
107.874
115.493
107.432
110.880
107.037
115.776
107.046
117.148
107.333
118.024
109.232
115.752
108.924
115.301
102.367
114.645
107.759
111.992
107.279
113.116
105.458
112.343
107.219
117.584
108.846
112.379
102.668
112.587
109.295
4000
110.847
108.269
110.386
107.085
103.312
108.961
109.113
109.554
108.409
110.392
110.911
110.637
109.310
107.771
108.484
110.419
112.131
110.576
107.378
108.922
107.289
106.742
107.529
111.080
107.497
110.240
4500
103.334
101.886
105.425
101.408
102.692
101.196
103.950
102.803
102.015
101.965
103.362
104.421
102.548
104.319
102.295
101.792
104.852
104.736
102.887
100.488
100.600
104.001
104.419
104.919
99.095
104.082
5775
92.795
90.966
94.568
90.538
87.579
88.860
91.440
90.648
91.083
91.051
88.520
91.227
91.120
92.629
90.330
90.315
93.355
93.217
90.036
92.731
89.425
89.192
91.052
92.364
91.314
93.072
6000
74.731
74.896
77.867
74.890
73.126
71.780
75.044
73.905
74.986
73.102
73.557
75.688
75.772
76.076
73.083
72.184
76.401
76.427
75.495
73.911
73.483
73.725
76.307
76.478
72.253
75.712
33
Desviacin estndar
Torque
1.4
80
1.6
90
1.8
Torque
2.0
100
2.2
110
2.4
Media funcional
2000
3000
4000
5000
6000
2000
Rpm
3000
4000
5000
6000
Rpm
a)
b)
En la generacin de muestras bootstrap suavizadas fue utilizado un kernel multivariado, como el definido en 2.5.3. El Kernel usado fue un kernel gaussiano, definido 2.5.5, de
dimensin d = 14.
1/2
donde x
34
manera:
Generar B muestras bootstrap denotadas por xbi (ti ) i = 1, 2, ..., n y b = 1, 2, ..., B
Obtener muestras suavizadas
yib (ti ) = xbi (ti ) + zib (ti ),
(3.4.1)
donde zib (ti ) es tal que zib (t1 ), ..., zib (tn ) tiene distribucin normal con vector de medias
0 y matriz de varianzas- covarianzas hx .
Dada la expresin 2.5.4 propuesta por Bowman y Foster (1993)[2] se tiene que el h
ptimo est dado por
(3.4.2)
h = 0.7725785.
100
70
80
90
Torque
110
120
Simulaciones bootstrap
2000
3000
4000
5000
6000
Rpm
35
70
80
90
Torque
100
110
120
2000
3000
4000
5000
6000
Rpm
36
70
80
90
Torque
100
110
120
2000
3000
4000
5000
6000
Rpm
(3.4.3)
de donde se sigue que la probabilidad de que la carta de control enve una seal de
fuera de control es
p = 0.0338287.
(3.4.4)
Es decir, se esperara que en promedio cada 29 curvas el proceso mostrar una seal
de fuera de control sin que realmente esta exista.
37
Nivel de confianza
0.9
0.95
0.99
0.9975
ARL
16.7211
29.5607
103.6727
141.9561
3000
2000
0
1000
Frequency
4000
5000
50
100
150
200
250
300
RL
38
Otra manera de obtener estas cartas de control es construir los lmites de control
usando la idea propuesta por Shewhart (1924) y la extensin del teorema de Chebishev
1.2.1. Es decir, la amplitud del intervalo de control estar dada en trminos de la desviacin
estndar. Por ejemplo, considere la idea de las cartas tipo Shewhart, esto es
LCI = w 3w ,
LC = w ,
LCS = w + 3w ,
(3.4.5)
70
80
90
Torque
100
110
120
2000
3000
4000
5000
6000
Rpm
39
2
3
3.5
4
4.5
5
ARL
1.039
1.9068
7.7515
21.0268
70.3506
293.0233
1549.756
Note que el ARL se incrementa conforme se aumenta la amplitud del intervalo y con
ello la probabilidad de obtener una seal de fuera de control falsa disminuye. Sin embargo,
un ARL muy grande involucra un conjunto de confianza demasiado amplio lo cual reducir
la precisin de la estimacin
40
Captulo 4
Conclusiones
Como fue mencionado a lo largo de este trabajo, el monitoreo de un proceso de produccin permite detectar cuando un proceso se ha salido de control, esto es, identificar en que
punto del proceso las condiciones con las que se trabaja han sufrido cambios provocando
anomalas en la produccin. Una vez detectadas la seales de fuera de control es posibles
corregirlas para mantener el proceso bajo control.
Las herramientas tradicionales para el monitoreo de procesos han sido las cartas de
control univariadas y multivariadas. Estas cartas son de gran utilidad cuando la caracterstica de calidad se expresa por medio de una o ms variables. Sin embargo, en muchas
ocasiones la calidad de un producto o proceso est dada por la relacin funcional entre
una variable respuesta y una o ms covariables, por tanto es necesaria la implementacin
de una herramienta que permita el monitoreo del proceso bajo este esquema.
En este trabajo se propuso una carta de control, para monitorear una caracterstica
de calidad funcional de motores de un automvil (TU3 de autos Peugeot). En estos, la
calidad se expresa por la relacin entre el torque (N m) y la velocidad (Rpm) a la que
se gira.
41
4 Conclusiones
Las funciones que aqu se presentan fueron analizadas previamente por Amiri et al.
(2009)[1], a travs de una carta de control multivariada para los parmetros de un modelo
de efectos mixtos, ajustado a las trayectorias de los motores.
Aqu fueron modeladas las trayectorias de los motores, mediante la definicin de una
base B-spline que aproxima la forma funcional de los datos, a las cuales posteriormente
se les construy una cartas de control mediante la metodologa bootstrap.
Entre las herramientas usadas en la simulacin de las trayectorias de motores, el bootstrap suavizado resulta una herramienta poderosa en la creacin de muestras artificiales,
ya que amplia el rango de posibles valores sobre los cuales realizar el re-muestreo.
Las cartas de control para datos funcionales propuestas en este trabajo, permiten el
monitoreo de un proceso cuando la caracterstica de calidad est en funcin de una variable explicativa. A diferencia de la propuesta realizada por Amiri et al. (2009)[1], este
tipo de cartas de control permite observar todos los trayectorias a lo largo del periodo
de observacin, y de esta manera identificar los periodos donde el proceso presenta una
mayor variabilidad.
Otro aspecto relevante de las cartas de control para datos funcionales es el fcil clculo
del ARL y con ello evaluar el desempeo de la carta. En el problema de datos de motores
el ARL obtenido resulta bastante bueno, ya que se esperan pocas seales de fuera de
control falsas y una mejor deteccin de verdaderas seales de fuera de control. Usando un
esquema de las cartas tipo Shewhart y de acuerdo al cuadro 3.4.3 la amplitud del intervalo
ser elegida dependiendo del ARL que se desee obtener.
42
Bibliografa
[1] Amiri, A., Jensen, W. A. and Kazemzadeh, R. B., A case study on monitoring
polinomial profiles in the automotive industry, Qual. Reliab. Engng. Int. 26, 509520,2009.
[2] Bowman A.W., Foster P.J., Adaptive smoothing and density-based tests of multivariate normality, Journal of the American Statistical Association, Vol. 88, No.
442,529-537, 1993.
[3] Cuevas A., Febrero-Bande, M., Fraiman R., On the use of bootstrap for estimating
functions with functional data, Computational Statistics and Data Analysis 51:
1063-1074, 2006.
[4] de Boor, C., A practical guide to splines, Revised Edition, Springer, New York, 2001.
[5] Febrero-Bande, M., Galeano, P., and Gonzalez-Manteiga, W., Outlier detection in
functional data by depth measures with application to identify abnormal NOx levels,
Environmetrics 19, 4, 331-345, 2008.
43
BIBLIOGRAFA
BIBLIOGRAFA
[7] Ferraty F. y Vieu Ph., Nonparametric functional data analysis, Springer, New York,
2006.
[8] Fraiman R., Muniz G., Trimmed means for functional data, Test 10: 419-440, 2001.
[10] Montgomery D., Control estadstico de la calidad, Limusa-Wiley, Mxico, 2004, 3a ed.
[11] Ramsay J.O, Hooker G. and Graves S., Functional data analysis with R and Matlab,
Springer, New York, 2009.
[12] Ramsay J.O and Silverman B.W., Functional data analysis, Springer, New York,
2005, 2a ed.
[13] Wasserman, L., All of statistics: A concise course in statistical inference, SpringerVerlag. New York, NY, 2004
44