Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Roc RL
Roc RL
on Lineal
Area
de Matem
atica
Facultad de Ciencias Qumicas y Farmc
euticas
Universidad de Chile
4 de junio de 2010
Area
de Matem
atica
Facultad de Ciencias Qumicas y Farmc
euticas
Universidad de Chile
4 de junio de 2010
Tabla de Contenidos
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
Tabla de Contenidos
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Ejemplo.
Se quiere diagnosticar si un paciente presenta cierta enfermedad o
no. Para ello, se controla alguna variable relacionada con la
enfermedad y se desea determinar si el paciente est
a enfermo a
traves del nivel de dicha variable. Es as como, si queremos saber
si un paciente presenta un colesterol alto (enfermo) o no (sano),
se mide la variable X correspondiente al % de
acidos grasos en la
sangre. Finalmente, el test se construye de la siguiente forma:
Si X > c, entonces el paciente presenta colesterol alto;
si X c, entonces el paciente presenta colesterol bajo.
Para determinar el valor
optimo de c emplearemos criterios
extras, los cuales se discutir
an m
as adelante.
Notaci
on
De manera general, denotaremos T+ y T al resultado del test
positivo y negativo, respectivamente. A su vez, denotaremos R+ y
R a los casos en que el individuo presenta y no presenta la
condici
on en estudio, respectivamente. Luego, la clasificaci
on se
puede resumir en el siguiente cuadro
Resultado Test
Cond. Encontrada
(T+ )
Cond. No Encontrada
(T )
Estado real
Cond.Ausente(R ) Cond.Presente(R+ )
Falso Positivo
No hay error
FP
No hay error
Falso Negativo
FN
Observaciones.
El test ideal es aquel que minimice los errores.
Dada la clasificaci
on, podemos definir dos tipos de errores:
falsos positivos, individuos cuyo test arroj
o un resultado
positivo, sin tener presenta la condici
on; y
falsos negativos, correspondientes a aquellos individuos cuyo
test arroj
o un resultado negativo, a pesar de presentar la
condici
on.
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Definiciones.
Sea X una variable aleatoria sobre la cual queremos determinar el
test.
Definici
on (Sensibilidad)
Es la probabilidad de clasificar correctamente a un individuo cuyo
estado real es definido como positivo, respecto a la condici
on de
prueba. Esto es
Sensibilidad = P[T+ |R+ ].
Definiciones.
Definici
on (Especificidad)
Es la probabilidad de clasificar correctamente a un individuo cuyo
estado real es definido como negativo, respecto a la condici
on de
prueba. Esto es
Especificidad = P[T |R ].
Estimaciones
Dada una muestra, podemos estimar las probabilidades anteriores
de la siguiente forma:
n
umero de verdaderos positivos
n
umero de positivos reales
= FVP
n
umero de verdaderos negativos
Especificidad =
n
umero de negativos reales
= FVN,
Sensibilidad =
(FVP: fracci
on de verdaderos positivos y FVN: fracci
on de
verdaderos negativos).
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Ejemplo.
Consideremos un test cuyos resultados de clasificaci
on se
resumen en la siguiente tabla
T+
T
Total
R+
12
4
16
R
9
27
36
Total
21
31
52
Ejemplo.
Dados los resultados de este test en esta muestra, podemos hacer
las siguientes estimaciones
Sensibilidad =
P[T+|R+]
FVP
VP
=
VP + FN
12
=
16
3
=
4
Ejemplo
Por otra parte,
Especificidad =
P[T|R]
FVN
VN
=
VN + FP
27
=
36
3
=
4
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Indices Predictivos.
Haciendo uso valores muestrales y el teorema de Bayes, se
construyen los siguientes indicadores predictivos:
Definici
on (Indice Predictivo de Verdaderos Positivos)
+ +
+
P[R+|T+] = P[T+|R+] P P[T[R+|R] +] P P[T[R+|R] ] P[R]
Definici
on (Indice Predictivo de Verdaderos Negativos)
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Dise
no del Test.
Supongamos que se mide una variable aleatoria X que es
continua. Luego, el test se construir
a de la siguiente forma:
Si X > c, entonces el paciente es diagnosticado positivo
(T+ );
si X c, entonces el paciente es diagnosticado negativo
(T ).
Adem
as, supondremos que la funci
on de densidad de probabilidad
de la variable X depender
a si presenta la condici
on en estudio o
no. Esto es:
Si X f+ si la persona presenta la condici
on (R+ ).
si X f si la persona no presenta la condici
on (R ).
Sensibilidad y Especificidad.
Dado un valor de c fijo, se puede calcular directamente los valores
de sensibilidad y especificidad del test de la siguiente forma:
Sensibilidad =
=
P[T+|R+]
P[X > c|X f+]
f+ (t)dt.
=
c
Especificidad =
=
P[T|R]
P[X c|X f]
Zc
f (t)dt.
Curva ROC
Para cada valor de c se encuentra un par
(Sensibilidad(c), 1 Especificidad(c)), los cuales definen una
curva. Esta curva es la llamada Curva ROC. Para estimaciones
muestrales, la curva ROC se construir
a variando el nivel de corte
de la variable en estudio y estimando con los pares (FVP, FFP).
Esta se ilustra en la figura (1).
Observaciones.
Consideremos lo siguiente:
Los puntos (0, 0) y (1, 1) siempre pertenecen a la curva ROC.
La forma de la curva depender
a de cu
an diferentes sean las
densidades. Es as como, en el caso extremo, f+ = f , se
concluye que, independiente el valor de corte c, FVP FFP.
El test es malo y no permite discriminar de buena manera.
Observaci
on.
Si las densidades se presentan como la figura (2), la curva ROC
ser
a como en (3), donde se nota claramente que el test es mejor.
Curva ROC
Definci
on.
Definici
on (Indice de separaci
on de poblaciones)
Isep
= 2 Area
bajo la curva ROC
2
Se tiene
1
Isep = 1, la poblaci
on que presenta la condici
on y la poblaci
on
que no la presenta se pueden distinguir perfectamente.
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Ejemplo
Considere un test de diagn
ostico que puede tomar tres valores:
Alto, Medio y Bajo. Los pacientes pueden ser normales (E ) o
enfermos (E+ ). Se realiz
o un experimento sobre 100 pacientes y
los resultados se resumen en el cuadro (1):
Estado Real
Normal(E ) Enfermo(E+ )
30
8
14
12
6
30
Sensibilidad y Especificidad
Sens. (FVP)
0
0,60
0,84
1
(1-Especificidad) (F
0
0,12
0,40
1
Curva ROC
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Introducci
on y Motivaci
on.
Se espera establecer una relaci
on funcional entre dos variables. A
partir de los valores muestrales se construye una relaci
on del tipo
lineal que permita explicar el comportamiento de una variable en
funci
on de otra.
La pregunta en este caso es determinar si existe una relaci
on
entre dos variables y para responderla se plantean modelos e
hip
otesis y se estudia la validez de estas.
La relaci
on m
as simple que podemos suponer entre dos variables
es una relaci
on del tipo lineal, para la cual el modelo ofrece la
ventaja de ser simple y f
acil de usar.
Ejemplos.
1
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Modelo.
Se plantea un modelo de la forma
Y = a + b x + ,
N (0, 2 ),
donde x ser
a una variable ex
ogena, independiente y que
denominaremos explicativa, Y ser
a una variable end
ogena
dependiente, y ser
a una variable aleatoria distribuida de forma
normal, con esperanza cero y varianza 2 (puede ser
desconocida).
Este modelo dice que las realizaciones de la variable Y dependen
linealmente del resultado que toma la variable x, m
as un error
aleatorio. Por lo tanto, x contiene informaci
on para estimar el
resultado de Y.
Procedimiento
1
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Estimaci
on
Encontrar a, b coeficientes de la recta que son soluci
on del
problema
n
n
X
X
mn
2i mn
(yi a bxi )2 .
{a,b}
{a,b}
i=1
Pn
i=1
n
X
F
(a, b) = 0
(yi a bxi ) = 0
a
F
(a, b) = 0
b
i=1
n
X
xi (yi a bxi ) = 0
i=1
De ac
a, resolviendo el sistema, se obtiene que los coeficientes
vienen dados por
Coeficientes.
b =
!
n
1X
xi yi xy
n
i=1
!
.
n
1X 2
2
xi x
n
i=1
covm (x, y)
.
varm (x)
a = y bx
Observaci
on.
Los coeficientes a y b dependen de los valores muestrales. Con
esto, para diferentes muestras, obtendremos diferentes
estimaciones de rectas a traves de los mnimos cuadrados.
Estimaci
on.
Para coeficientes estimados con mnimos cuadrados, definimos
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
R =
covm (x, y)
p
p
varm (x) varm (y)
!2
Observaciones
Para establecer la bondad del modelo, notemos que:
R [1, 1].
R2 [0, 1].
Cuando R2 1, se tiene que existe una correlaci
on lineal
fuerte entre las variables.
Cuando R2 0, se tiene que no existe una correlaci
on lineal
entre las variables.
El coeficiente de determinaci
on se interpreta como el
porcentaje de variabilidad de la variable Y explicada por el
modelo lineal.
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Aplicaciones.
Modelo exponencial.
Y = aea+bx
Modelo de tiempos de reacci
on.
Y = Aect
Modelos en economa.
Y = AK L1 .
Outline
1 Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple
Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.
Ejemplo.
Se tienen los siguientes datos respecto de la concentraci
on de una
soluci
on en funci
on del tiempo, agrupados en el cuadro 3
t
C
0,50
3,03
1,00
2,31
1,50
1,30
2,00
1,67
2,50
1,43
3,00
0,63
3,50
0,71
4,00
0,84
t
C
4,50
0,38
5,00
0,25
5,50
0,24
6,00
0,27
6,50
0,18
7,00
0,10
7,50
0,12
8,00
0,07
Cuadro: Datos.
Diagrama de dispersi
on.
Ejemplo.
1
Ejemplo.
Se pretende buscar otro tipo de relaci
on, en base al diagrama de
los datos. Para ello, se plantea el modelo
y = aebx .
(1)
Diagrama de dispersi
on.
Conclusiones
En este caso, se tiene que la relaci
on es fuertemente lineal, con
un coeficiente de determinaci
on cercano a 1. Con este modelo se
explica el 96 % de la variaci
on de C.
Finalmente, en ambos casos se obtienen buenos resultados de
regresi
on. Sin embargo, el segundo modelo posee un coeficiente
de determinaci
on m
as cercano a 1, y por lo tanto, la relaci
on que
bx
explica la variabilidad de C de la mejor fora es C = ae .