Está en la página 1de 16

Validacin de Modelos

Prof. Claudio Gelmi W.

All models are wrong .


. some are useful
George Box

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

mbitos que cubriremos


1. Qu implica la validacin de un modelo?
2. Algunas herramientas para decidir...
3. Comportamiento del modelo frente a
incertidumbre en la informacin
4. Cuando tenemos 2 o ms modelos disponibles,
cul y cmo decidimos por el mejor modelo?

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

Validacin de modelos
Validar modelos implica tener evidencia de que el
modelo en cuestin es lo suficientemente bueno. La
validacin posee tres aspectos claves:
1. El modelo describe lo suficientemente bien a los
datos experimentales?
2. Es el modelo lo suficientemente bueno con respecto
a los objetivos de mi proyecto o propsito?
3. Describe el modelo a la realidad estudiada?
(filosficamente, imposible de responder)

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

Validacin de modelos
- Idealmente, para responder las preguntas planteadas,
deberemos enfrentar al modelo con la mayor cantidad de
informacin sobre el sistema real (e.g., conocimiento a
priori, datos experimentales, experiencia usando el modelo)
- Algunas herramientas disponibles para descartar modelos,
y tambin para desarrollar confianza en ellos:
Factibilidad de los parmetros del modelo (compararlos con
conocimiento experto, sensibilidad del modelo c/r a variaciones en
los parmetros problemas de identificacin)

Intervalos de confianza para los parmetros (qu pasa si el


IdC de 95% contienen al cero?)

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

Validacin de modelos
- Principio de parsimonia (el modelo ms simple)
- Robustez frente a los supuestos
- Simulacin y capacidad predictiva (capacidad para
reproducir y predecir nueva informacin, coef. de
determinacin R2 entre predicciones y los datos
experimentales, etc.)
- Anlisis de residuos (mtricas, inspeccin visual,
histograma de los residuos, grfico de normalidad,
autocorrelacin)
Condicin bsica para la validacin: uso de datos
independientes a los utilizados para ajustar los
parmetros del modelo
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

Algunas herramientas analticas


que usaremos
- R2
- Anlisis de residuos:
Mtricas para medir error
Normalidad (test de Anderson-Darling)
Autocorrelacin (test de Durbin y Watson )

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

Coeficiente de determinacin R2
- R2 se define como la proporcin de la variabilidad total en
^ (y):
los datos (yi) que es explicada por el modelo

SST = suma cuadrtica total


SSE = suma total de errores
cuadrticos

- Desde el punto de vista de la modelacin, R2 nos entrega


informacin sobre la bondad del ajuste del modelo.
- R2 ajustado toma en cuenta el nmero de parmetros (p)
utilizados por el modelo (siempre R2 al # de parmetros):
2
adj

n 1 n = # de datos experimentales
p = # de parmetros
= 1 1 R
n p

8
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

Algunos ejemplos del coeficiente de correlacin r (r2 = R2):

http://en.wikipedia.org/wiki/Correlation_coefficient

En MATLAB:
>> help corrcoef
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

En poca de crisis volvemos a la universidad?

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

10

Qu tan
significativo
puede ser r?

An Introduction to Error Analysis,


Taylor (1997)
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

11

La forma rigurosa para calcular P es:

(comparar esta probabilidad con el segundo argumento de salida de la


funcin corrcoef. Este argumento corresponde al p-value del
coeficiente de correlacin.)

IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

12

Anlisis de residuos
Los residuos corresponden a la diferencia entre los valores
experimentales (yi) y los entregados por el modelo matemtico
^
(y):

ei = (valor experimental)i (valor terico)i


Existen varias mtricas para medir el error global del modelo
con respecto a datos experimentales utilizados:
Error cuadrtico
medio =

Error absoluto
medio =
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

13

Anlisis de residuos: normalidad


1000
900

0.999
0.997
0.99
0.98
0.95
0.90

800

Probabilidad

Frecuencia

700
600
500
400
300
200
100
0
-4

-3

-2

0.75
0.50
0.25
0.10
0.05
0.02
0.01
0.003
0.001

-1

-3 0

Residuos

-2 1

-12

03

41

Residuos

En MATLAB ver: hist, histfit, normplot. Usaremos el test de


Anderson-Darling para verificar si los datos ~ Normal o no (Herramienta 5
en SidIng).
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

14

Anlisis de residuos: autocorrelacin


Test de Durbin y Watson (test de independencia de los
residuos), de acuerdo con el siguiente estadgrafo D:

ei = (valor experimental) (valor terico)


Valor de D dentro del rango dL-dU = no existe evidencia
significativa de que los residuos exhiben autocorrelacin (o
dependencia).
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

15

Anlisis de residuos: autocorrelacin


Valores crticos del test de Durbin-Watson
Nivel de significancia alpha = 0.05
n

k=1

k=2

dL

dU

0.61

1.40

0.70

k=3

dL

dU

1.36

0.47

1.90

0.76

1.33

0.56

0.82

1.32

10

0.88

11

k=4

dL

dU

1.78

0.37

2.29

0.63

1.70

0.46

1.32

0.70

1.64

0.93

1.32

0.66

12

0.97

1.33

13

1.01

14

k=5

dL

dU

dL

dU

2.13

0.30

2.59

0.53

2.02

0.38

2.41

0.24

2.82

1.60

0.60

1.93

0.44

2.28

0.32

2.65

0.81

1.58

0.66

1.86

0.51

2.18

0.38

2.51

1.34

0.86

1.56

0.72

1.82

0.57

2.09

0.45

2.39

1.05

1.35

0.91

1.55

0.77

1.78

0.63

2.03

0.51

2.30

15

1.08

1.36

0.95

1.54

0.82

1.75

0.69

1.97

0.56

2.21

16

1.10

1.37

0.98

1.54

0.86

1.73

0.74

1.93

0.62

2.15

http://www.stanford.edu/~clint/bench/dwcrit.htm
IIQ3733 Anlisis de Biosistemas, C. Gelmi 2012

16

También podría gustarte