Está en la página 1de 54

Curvas ROC y Regresi

on Lineal

Curvas ROC y Regresi


on Lineal
Julio Deride Silva

Area
de Matem
atica
Facultad de Ciencias Qumicas y Farmc
euticas
Universidad de Chile

4 de junio de 2010

Curvas ROC y Regresi


on Lineal
Tabla de Contenidos

Curvas ROC y Regresi


on Lineal
Julio Deride Silva

Area
de Matem
atica
Facultad de Ciencias Qumicas y Farmc
euticas
Universidad de Chile

4 de junio de 2010

Curvas ROC y Regresi


on Lineal
Tabla de Contenidos

Tabla de Contenidos
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Tabla de Contenidos

Tabla de Contenidos
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.

Ejemplo.
Se quiere diagnosticar si un paciente presenta cierta enfermedad o
no. Para ello, se controla alguna variable relacionada con la
enfermedad y se desea determinar si el paciente est
a enfermo a
traves del nivel de dicha variable. Es as como, si queremos saber
si un paciente presenta un colesterol alto (enfermo) o no (sano),
se mide la variable X correspondiente al % de
acidos grasos en la
sangre. Finalmente, el test se construye de la siguiente forma:
Si X > c, entonces el paciente presenta colesterol alto;
si X c, entonces el paciente presenta colesterol bajo.
Para determinar el valor
optimo de c emplearemos criterios
extras, los cuales se discutir
an m
as adelante.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.

Notaci
on
De manera general, denotaremos T+ y T al resultado del test
positivo y negativo, respectivamente. A su vez, denotaremos R+ y
R a los casos en que el individuo presenta y no presenta la
condici
on en estudio, respectivamente. Luego, la clasificaci
on se
puede resumir en el siguiente cuadro

Resultado Test
Cond. Encontrada
(T+ )
Cond. No Encontrada
(T )

Estado real
Cond.Ausente(R ) Cond.Presente(R+ )
Falso Positivo
No hay error
FP
No hay error
Falso Negativo
FN

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Introducci
on y Motivaci
on.

Observaciones.
El test ideal es aquel que minimice los errores.
Dada la clasificaci
on, podemos definir dos tipos de errores:
falsos positivos, individuos cuyo test arroj
o un resultado
positivo, sin tener presenta la condici
on; y
falsos negativos, correspondientes a aquellos individuos cuyo
test arroj
o un resultado negativo, a pesar de presentar la
condici
on.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Definiciones.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Definiciones.

Definiciones.
Sea X una variable aleatoria sobre la cual queremos determinar el
test.
Definici
on (Sensibilidad)
Es la probabilidad de clasificar correctamente a un individuo cuyo
estado real es definido como positivo, respecto a la condici
on de
prueba. Esto es
Sensibilidad = P[T+ |R+ ].

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Definiciones.

Definiciones.
Definici
on (Especificidad)
Es la probabilidad de clasificar correctamente a un individuo cuyo
estado real es definido como negativo, respecto a la condici
on de
prueba. Esto es
Especificidad = P[T |R ].

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Definiciones.

Estimaciones
Dada una muestra, podemos estimar las probabilidades anteriores
de la siguiente forma:
n
umero de verdaderos positivos
n
umero de positivos reales
= FVP
n
umero de verdaderos negativos
Especificidad =
n
umero de negativos reales
= FVN,
Sensibilidad =

(FVP: fracci
on de verdaderos positivos y FVN: fracci
on de
verdaderos negativos).

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Ejemplo.
Consideremos un test cuyos resultados de clasificaci
on se
resumen en la siguiente tabla
T+
T
Total

R+
12
4
16

R
9
27
36

Total
21
31
52

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Ejemplo.
Dados los resultados de este test en esta muestra, podemos hacer
las siguientes estimaciones
Sensibilidad =

P[T+|R+]

FVP
VP
=
VP + FN
12
=
16
3
=
4

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Ejemplo
Por otra parte,
Especificidad =

P[T|R]

FVN
VN
=
VN + FP
27
=
36
3
=
4

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Indices Predictivos.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Indices Predictivos.

Indices Predictivos.
Haciendo uso valores muestrales y el teorema de Bayes, se
construyen los siguientes indicadores predictivos:
Definici
on (Indice Predictivo de Verdaderos Positivos)
+ +
+
P[R+|T+] = P[T+|R+] P P[T[R+|R] +] P P[T[R+|R] ] P[R]

Definici
on (Indice Predictivo de Verdaderos Negativos)

P[R|T] = P[T|R] P P[T[R|R] +] P P[T[R|R] +] P[R+]

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Dise
no del Test.
Supongamos que se mide una variable aleatoria X que es
continua. Luego, el test se construir
a de la siguiente forma:
Si X > c, entonces el paciente es diagnosticado positivo
(T+ );
si X c, entonces el paciente es diagnosticado negativo
(T ).
Adem
as, supondremos que la funci
on de densidad de probabilidad
de la variable X depender
a si presenta la condici
on en estudio o
no. Esto es:
Si X f+ si la persona presenta la condici
on (R+ ).
si X f si la persona no presenta la condici
on (R ).

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Sensibilidad y Especificidad.
Dado un valor de c fijo, se puede calcular directamente los valores
de sensibilidad y especificidad del test de la siguiente forma:
Sensibilidad =
=

P[T+|R+]
P[X > c|X f+]

f+ (t)dt.

=
c

Especificidad =
=

P[T|R]
P[X c|X f]
Zc
f (t)dt.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Curva ROC
Para cada valor de c se encuentra un par
(Sensibilidad(c), 1 Especificidad(c)), los cuales definen una
curva. Esta curva es la llamada Curva ROC. Para estimaciones
muestrales, la curva ROC se construir
a variando el nivel de corte
de la variable en estudio y estimando con los pares (FVP, FFP).
Esta se ilustra en la figura (1).

Figura: Curva ROC

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Observaciones.
Consideremos lo siguiente:
Los puntos (0, 0) y (1, 1) siempre pertenecen a la curva ROC.
La forma de la curva depender
a de cu
an diferentes sean las
densidades. Es as como, en el caso extremo, f+ = f , se
concluye que, independiente el valor de corte c, FVP FFP.
El test es malo y no permite discriminar de buena manera.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Observaci
on.
Si las densidades se presentan como la figura (2), la curva ROC
ser
a como en (3), donde se nota claramente que el test es mejor.

Figura: Densidades muy diferentes

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Curva ROC

Figura: Curva ROC

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Dise
no del Test.

Definci
on.
Definici
on (Indice de separaci
on de poblaciones)


Isep

= 2 Area
bajo la curva ROC
2

Se tiene
1

Isep [0, 1].

Isep = 0, entonces las poblaciones son indistinguibles.

Isep = 1, la poblaci
on que presenta la condici
on y la poblaci
on
que no la presenta se pueden distinguir perfectamente.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Ejemplo
Considere un test de diagn
ostico que puede tomar tres valores:
Alto, Medio y Bajo. Los pacientes pueden ser normales (E ) o
enfermos (E+ ). Se realiz
o un experimento sobre 100 pacientes y
los resultados se resumen en el cuadro (1):

Valor del Test


Alto
Medio
Bajo

Estado Real
Normal(E ) Enfermo(E+ )
30
8
14
12
6
30

Cuadro: Valores Muestrales.

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Sensibilidad y Especificidad

Valor del Test


Siempre Normal (T )
Alto y Medio (T ) - Bajo (T+ )
Alto (T ) - Medio y Bajo (T+ )
Nunca Normal (T+ )

Sens. (FVP)
0
0,60
0,84
1

Cuadro: Sensibilidad y (1-Especificidad)

(1-Especificidad) (F
0
0,12
0,40
1

Curvas ROC y Regresi


on Lineal
Test de Diagn
ostico y Curvas ROC
Ejemplo.

Curva ROC

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Introducci
on y Motivaci
on.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Introducci
on y Motivaci
on.

Introducci
on y Motivaci
on.
Se espera establecer una relaci
on funcional entre dos variables. A
partir de los valores muestrales se construye una relaci
on del tipo
lineal que permita explicar el comportamiento de una variable en
funci
on de otra.
La pregunta en este caso es determinar si existe una relaci
on
entre dos variables y para responderla se plantean modelos e
hip
otesis y se estudia la validez de estas.
La relaci
on m
as simple que podemos suponer entre dos variables
es una relaci
on del tipo lineal, para la cual el modelo ofrece la
ventaja de ser simple y f
acil de usar.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Introducci
on y Motivaci
on.

Ejemplos.
1

Un automovilista preocupado por la alza en los combustibles,


desea estudiar la relaci
on entre el gasto de combustible (y) y
la velocidad media de viaje (x).

Un estudiante de qumica desea comprobar la primera ley de


la termodin
amica. Para ello, realiza experimentos sobre un
gas en un ambiente isob
arico y toma mediciones de su
temperatura y volumen. Desea establecer si existe una
relaci
on lineal entre ambas variables.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Modelo.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Modelo.

Modelo.
Se plantea un modelo de la forma
Y = a + b x + ,

N (0, 2 ),

donde x ser
a una variable ex
ogena, independiente y que
denominaremos explicativa, Y ser
a una variable end
ogena
dependiente, y ser
a una variable aleatoria distribuida de forma
normal, con esperanza cero y varianza 2 (puede ser
desconocida).
Este modelo dice que las realizaciones de la variable Y dependen
linealmente del resultado que toma la variable x, m
as un error
aleatorio. Por lo tanto, x contiene informaci
on para estimar el
resultado de Y.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Modelo.

Procedimiento
1

Se dispone de una muestra de tama


no n con observaciones
pareadas de ambas variables, es decir, {(xi , yi )}ni=1 ,

se busca una recta que mejor se ajuste a los datos. El criterio


para determinar la mejor recta ser
a considerar el mnimo
error total que se comente al aproximar por una recta. Para
ello, consideraremos que cada observaci
on entrega un error
i , y el error total ser
a la suma de cada error al cuadrado,
para evitar problemas de signo.

Con esto, el problema consiste en encontrar el coeficiente de


posici
on a y la pendiente b de la recta, cuyo error total sea
mnimo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Estimaci
on.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Estimaci
on.

Estimaci
on
Encontrar a, b coeficientes de la recta que son soluci
on del
problema
n
n
X
X
mn
2i mn
(yi a bxi )2 .
{a,b}

{a,b}

i=1

Pn

i=1

Si definimos F(a, b) = i=1 (yi a bxi )2 , se tienen las siguientes


condiciones de primer orden:

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Estimaci
on.

Condiciones de primer orden

n
X
F
(a, b) = 0
(yi a bxi ) = 0
a

F
(a, b) = 0
b

i=1
n
X

xi (yi a bxi ) = 0

i=1

De ac
a, resolviendo el sistema, se obtiene que los coeficientes
vienen dados por

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Estimaci
on.

Coeficientes.

b =

!
n
1X
xi yi xy
n
i=1
!
.
n
1X 2
2
xi x
n
i=1
covm (x, y)
.
varm (x)

a = y bx

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Estimaci
on.

Observaci
on.
Los coeficientes a y b dependen de los valores muestrales. Con
esto, para diferentes muestras, obtendremos diferentes
estimaciones de rectas a traves de los mnimos cuadrados.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Estimaci
on.

Estimaci
on.
Para coeficientes estimados con mnimos cuadrados, definimos

yi = a + bxi , la cual llamaremos estimaci


on de yi , ei = yi
yi , el
cual llamaremos residuo. Finalmente, si se dispone de una nueva
observaci
on para la variable x, xi+1 , llamaremos predicci
on del
modelo a yi+1 = a + bxi+1 .

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Bondad del modelo.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Bondad del modelo.

Bondad del modelo.


Para determinar cu
an bueno es el ajuste lineal en una muestra,
definimos
Definici
on (Coeficiente de correlaci
on lineal.)
covm (x, y)
p
R= p
varm (x) varm (y)
Definici
on (Coeficiente de determinaci
on.)

R =

covm (x, y)
p
p
varm (x) varm (y)

!2

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Bondad del modelo.

Observaciones
Para establecer la bondad del modelo, notemos que:
R [1, 1].
R2 [0, 1].
Cuando R2 1, se tiene que existe una correlaci
on lineal
fuerte entre las variables.
Cuando R2 0, se tiene que no existe una correlaci
on lineal
entre las variables.
El coeficiente de determinaci
on se interpreta como el
porcentaje de variabilidad de la variable Y explicada por el
modelo lineal.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Aplicaciones.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Aplicaciones.

Aplicaciones.
Modelo exponencial.
Y = aea+bx
Modelo de tiempos de reacci
on.
Y = Aect
Modelos en economa.
Y = AK L1 .

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Outline
1 Test de Diagn
ostico y Curvas ROC

Introducci
on y Motivaci
on.
Definiciones.
Ejemplo.
Indices Predictivos.
Dise
no del Test.
Ejemplo.
2 Regresi
on Lineal Simple

Introducci
on y Motivaci
on.
Modelo.
Estimaci
on.
Bondad del modelo.
Aplicaciones.
Ejemplo.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Ejemplo.
Se tienen los siguientes datos respecto de la concentraci
on de una
soluci
on en funci
on del tiempo, agrupados en el cuadro 3
t
C

0,50
3,03

1,00
2,31

1,50
1,30

2,00
1,67

2,50
1,43

3,00
0,63

3,50
0,71

4,00
0,84

t
C

4,50
0,38

5,00
0,25

5,50
0,24

6,00
0,27

6,50
0,18

7,00
0,10

7,50
0,12

8,00
0,07

Cuadro: Datos.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Diagrama de dispersi
on.

Figura: Diagrama de dispersi


on.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Ejemplo.
1

Es razonable suponer que existe una relaci


on lineal entre X e
Y que permita predecir Y en funci
on de X, ya que se puede
apreciar en el diagrama 6 que ambas variables siguen un
crecimiento inverso que podra ser lineal.
Estimando los coeficientes del modelo y = n + mx.
= 0, 33
m
= 2, 24
n

Se calcula el coeficiente de determinaci


on:
R2 = 0, 79,
el cual es un valor alto, lo que sugiere que el modelo de
regresi
on lineal es apropiado y explica un 79 % de la variaci
on
de C.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Ejemplo.
Se pretende buscar otro tipo de relaci
on, en base al diagrama de
los datos. Para ello, se plantea el modelo
y = aebx .

(1)

Aplicando el logaritmo, el modelo (1) se transforma en uno lineal.


y = aebx
ln(y) = ln(a) + bx
Estimando los coeficientes y calculando el coeficiente de
determinaci
on R2 .
b = 0, 48
ln(a) = 1, 31
R2 = 0, 96.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Diagrama de dispersi
on.

Figura: Diagrama de dispersi


on.

Curvas ROC y Regresi


on Lineal
Regresi
on Lineal Simple
Ejemplo.

Conclusiones
En este caso, se tiene que la relaci
on es fuertemente lineal, con
un coeficiente de determinaci
on cercano a 1. Con este modelo se
explica el 96 % de la variaci
on de C.
Finalmente, en ambos casos se obtienen buenos resultados de
regresi
on. Sin embargo, el segundo modelo posee un coeficiente
de determinaci
on m
as cercano a 1, y por lo tanto, la relaci
on que
bx
explica la variabilidad de C de la mejor fora es C = ae .

También podría gustarte