Está en la página 1de 8

Autenticacin de usuarios a travs de Biometra de Tecleo

Jos Guadalupe Aguilar Hernndez


Universidad Politcnica del Centro Profesor Investigador Villahermosa, Tabasco guadalupe.aguilar@updc.edu.mx

Luis Adran Lizama Prez


Universidad Jurez Autnoma de Tabasco Profesor Investigador Villahermosa, Tabasco luis.lizama@dais.ujat.mx

Abstract En este trabajo se plantea un mtodo para la autenticacin de usuarios tomando como parmetro la dinmica de tecleo del usuario. El modelo de autenticacin se basa en la comparacin de plantillas, cada plantilla se conforma de los tiempos en el que cada usuario lleva a cabo los eventos pulsar soltar tecla y soltar pulsar tecla, dichos tiempos se manejan con una precisin de cuatro cifras, para la comparacin de similitud de las plantillas se utilizaron funciones estadsticas de dispersin, obteniendo un porcentaje de aceptacin (PA) comparado con un porcentaje de similitud (PS) se decide la aceptacin o rechazo de un usuario. Durante las pruebas se calcularon los errores de falsa aceptacin y falso rechazo obteniendo 0.0% para el primero. Index Terms autenticacin, biometra, dinmica de tecleo, funciones de dispersin.

Los mecanismos de autenticacin se dividen en tres grupos: algo que el usuario conoce: como una contrasea; algo que el usuario posee: como una tarjeta y algo que el usuario es: a travs de tcnicas biomtricas [6]. La tcnica que podemos emplear para realmente saber si el usuario es fsicamente quien dice ser es la biometra, esta se clasifica en biometra esttica y biometra dinmica, la primera identifica a una persona por un rasgo fsico que lo hace diferente de cualquiera y la segunda identifica a una persona midiendo su comportamiento [12]. Dentro de la biometra dinmica existe una tcnica para autentificar a un usuario en base a su dinmica de tecleo (se llama dinmica de tecleo a los patrones de tecleo asociados a la velocidad de tecleo y al tiempo de presin al teclear [4]) llamada biometra de tecleo. II. TRABAJOS RELACIONADOS

I.

INTRODUCCIN

En la actualidad la seguridad informtica juega un papel importante, algunas veces hemos escuchado o ledo frases como: la informacin es dinero la informacin es poder, estas nos hacen pensar en qu podra pasar si la informacin confidencial que tiene una empresa saliera a la luz pblica, imaginarnos sta situacin nos hace reflexionar en lo valioso que es la informacin y las medidas de seguridad que se deben tomar en cuenta para que nicamente las personas autorizadas tengan acceso a ella. Un modo de acceso tradicional a los sistemas de cmputo es el basado en contrasea, el propsito de la contrasea es verificar que el usuario es quien dice ser, es decir la contrasea acta como mecanismo que autentifica al usuario [17]. Sin embargo este mtodo de autenticacin presenta algunos inconvenientes debido a su simplicidad como los siguientes: los usuarios adoptan como contraseas palabras obvias como su nombre, sus iniciales, fecha de nacimiento, las cuales pueden ser robadas fcilmente; un intruso puede ver lo que teclea el usuario en el momento de autentificarse; mediante programas ejecutados en segundo plano grabar lo que el usuario teclea y as conocer su contrasea. De acuerdo a los puntos anteriores nos damos cuenta que la contrasea no es suficiente para tener la seguridad que el usuario es fsicamente quien dice ser.

Los avances que se han llevado a cabo en esta tcnica biomtrica se han dado desde los aos de 1990, incluyen la evaluacin de dos caractersticas de los usuarios: el intervalo de tiempo de soltar pulsar tecla y el tiempo de pulsar soltar tecla. En [4], se aade una nueva caracterstica tiempo de pulsar pulsar el cual es el tiempo que transcurre en el que se pulsa una tecla y se pulsa la siguiente tecla, esta incluye el tiempo de soltar la tecla anterior y presionar la tecla siguiente. Las tcnicas que se han utilizado para clasificar a los usuarios van desde modelo difusos, clasificador de redes de Funcin de Base Radial (RBF) y clasificadores basados en modelos estadsticos. En los trabajos realizados en [3],[7],[9],[10], el modelo para la clasificacin de usuarios se basa en la medicin de los tiempos de tecleo con una precisin de milisegundos, en [4] la precisin del tiempo fue medida en centsimas de segundos. III. METODOLOGA La parte bsica para la autenticacin es una interfaz que sea capaz de recolectar los tiempos de tecleo de cada usuario al momento de autenticarse as como en el momento de crear

sus plantillas por primera vez, esta interfaz debe proporcionarnos un conjunto de tiempos pertenecientes a una secuencia de caracteres escritos. Los elementos necesarios para el desarrollo de este interfaz y de la aplicacin biomtrica son: rutinas para la deteccin de eventos del teclado, un contador de tiempo con una precisin de cuatro cifras para la diferenciacin de los tiempos en cada usuario y normalizacin de estos tiempos, para realizar una autenticacin en red. A. Deteccin de los eventos del teclado La deteccin de los eventos del teclado en los lenguajes de programacin de alto nivel no es una tarea difcil ya que stos incorporan rutinas que se encargan del manejo de los eventos de teclado como son: pulsar tecla o soltar tecla. Deseamos medir el comportamiento del usuario ante el teclado para esto mediremos las caractersticas siguientes: El tiempo que transcurre cuando el usuario presiona una tecla y suelta la misma tecla, a este evento llamaremos pulsar soltar. El tiempo que transcurre cuando el usuario suelta una tecla y presiona la tecla siguiente, a este evento le llamaremos soltar - pulsar.
8765

Entonces tendramos lo siguiente: # Tiempos eventos pulsa soltar = n # Tiempos eventos soltar pulsar = n -1 Donde n es el nmero de caracteres de la cadena. B. Contador para la medicin de tiempos de tecleo El siguiente paso para el modelo es la implementacin de un contador que indicar el tiempo que transcurre en cada unos de los eventos del teclado, este contador es deseable que se incremente con suficiente rapidez de tal manera que por ejemplo para el evento pulsar soltar el tiempo que transcurren entre pulsar la tecla y soltar la tecla tenga cuatro cifras como mnimo. Entre ms rpido se incremente el contador, existir mayor diferenciacin en la dinmica de tecleo de un usuario a otro, ya que los intervalos de tiempo estarn ms separados. As entonces, la velocidad de tecleo puede ser una caracterstica importante para la diferenciacin de los usuarios. El manejo e implementacin de estos contadores depende en gran medida del sistema operativo, para sta aplicacin trabajaremos sobre plataforma Windows, dentro de las opciones con las cuales se puede implementar un contador bajo esta plataforma encontramos: Los componentes Timer, que vienen en lenguajes de alto nivel como Delphi, Visual Basic, Java, etc. stos componentes se manejan en milisegundos. En Windows existe una funcin del API llamada GetTickcount, en el momento que hablamos a esta funcin nos regresa el tiempo en milisegundos que ha estado activo Windows. En Java podemos encontrar una funcin llamada System.currentTimeMillis(), la cual nos proporciona un tiempo en milisegundo que es tomado del sistema. QueryPerformanceCounter funcin del API de Windows que devuelve los ciclos de procesador que han transcurrido desde que se activ Windows con una precisin de once cifras.

5467

Figure 1. Evento pulsar soltar Figure 2. Evento soltar pulsar

Cada uno de los eventos mencionados anteriormente se medir por cada uno de los caracteres de la cadena que el usuario establezca como nombre de usuario o contrasea. Es decir, si la cadena fuese por ejemplo CASA entonces tendramos cuatro tiempos del evento pulsar soltar y tres tiempos del evento soltar pulsar.
5467 4500 4560 4567

En la tabla 1, se muestra una comparacin entre las cuatro opciones anteriores de contadores, y el nmero de cifras que se proporcionan en la medicin de cada uno de los eventos.
Funciones de tiempo Pulsar Soltar Soltar Pulsar

Figure 3. Nmero de muestras de tiempo para el evento pulsar soltar.

Timer GetTickcount System.currentTimeMillis() QueryPerformanceCounter

2 Cifras 2 Cifras 2 Cifras 5 Cifras

2 Cifras 2 a 3 Cifras 2 a 3 Cifras 4 a 5 Cifras

7896

8790

5656

TABLA 1. COMPARACIN DE FUNCIONES DE TIEMPO.

Figure 4. Nmero de muestras de tiempo para el evento soltar pulsar.

Lo comn es obtener de dos a tres cifras, esto se debe a que los contadores no se incrementan con suficiente rapidez y entonces en el momento en que se realiza el corte del tiempo solo existen diferencias en las dos o tres ltimas cifras. En la fig. 5 se muestra un ejemplo para el evento pulsar soltar tecla de cmo se calculara el corte del tiempo para este evento, este es slo un ejemplo, no es de 2

ningn contador en especial, lo que se intenta mostrar es que de acuerdo a la rapidez con la que se incremente el contador ser el nmero de cifras que obtengamos.
6758345 6758465

computadora X. y lo mismo para la computadora Y. As denotamos: xT's = { xTs normalizado por la media } .: xT's = xTs / xm = { xt1 / xm , xt2 / xm, ... , xtn-1 / xm } y del mismo modo; yT's = yTs / ym = { yt1 / ym, yt2 / ym, ... , ytn-1 / ym } Entonces xT's yT's independientemente de cuales sean las velocidades de las computadoras X y Y. Para el caso de los tiempos generados por los eventos pulsar soltar la demostracin es anloga.

T1

T2

T= T2 T1 6758465 6758345 = 120

Figure 5. Clculo del tiempo para el evento pulsar soltar

El contador que elegiremos para nuestro trabajo es la primitiva del API de Windows QueryPerformanceCounter, esta accede a un reloj de alta precisin del hardware del sistema. La precisin de este reloj depende del hardware especfico por lo tanto para saber cuantos tics marca nuestro sistema en un segundo se obtiene a travs de la primitiva QueryPerformanceFrequency. En un Pentium IV a 2.79 GHz llamando esta funcin devuelve la cantidad de 3579545 es decir, que entre tic y tic transcurre aproximadamente la tercera parte de una millonsima de segundo. QueryPerformanceCounter puede ser invocada desde cualquier lenguaje de programacin bajo la plataforma Windows y devuelve una cantidad numrica de alrededor de once cifras que son los ciclos del procesador que han transcurrido desde que se encendi Windows. Debido a que el contador depende directamente del hardware la velocidad con la que se incrementa es variable de una computadora a otra, como la base para la dinmica de tecleo es la velocidad con la que el usuario teclea entonces el tiempo debe ser ms o menos normal cada vez que se autentifique. En [10] se proponen dos tcnicas para normalizar los tiempos que se obtengan de cada usuario, normalizacin por min/max y normalizacin por la media, dejando ver claro que la normalizacin por la media es mejor para atacar este problema. C. Normalizacin por la media Consideremos el caso de medir tiempos generados por el evento soltar pulsar tecla, dada una secuencia de caracteres S = {s1, s2, sn,}, le corresponde un tiempo de tecleo T = {t1, t2, tn-1} donde n es el nmero de caracteres de la secuencia, ahora denotemos a xTs como el patrn de tecleo de usuario normalizado por un factor (x) correspondiente a la velocidad del procesador de la computadora X, y lo mismo para yTs en otra computadora Y con distinta velocidad de procesador. Entonces tenemos: Computadora X Computadora Y xTs = {xt1, xt2, ...,xtn-1} yTs = {yt1, yt2, ...,ytn-1}

Para ilustrar el proceso de esta tcnica se realiz un sencillo experimento en dos computadoras, la primera con procesador Pentium IV a 2.79 GHz, y la segunda computadora con procesador Pentium IV a 1.8 GHz. La secuencia caracteres utilizada fue BIOMETRIA.

TABLA 2. MUESTRAS DE TIEMPOS EN COMPUTADORAS CON PROCESADORES DIFERENTES, PARA LA PALABRA BIOMETRIA.

La diferencia de velocidad en los dos procesadores es de 0.99 GHz. se obtuvieron tiempos mayores en el procesador a 2.79 como se observa en la tabla 2. Observando los tiempos podramos decir que las muestras no son del mismo usuario, a continuacin aplicaremos el proceso de normalizacin por la media. Calculamos la media de cada muestra teniendo 662.63 para el procesador a 2.79 GHz y 347 para el procesador a 1.8 GHz, ahora dividiendo cada tiempo tn entre su respectiva media.

TABLA 3. RESULTADO DEL PROCESO DE NORMALIZACIN

Los tiempos que se muestran en la tabla 3, ya no muestran una gran diferencia.

Figure 6. Grfica de los tiempos no normalizados

Ahora llamamos m = ( t1 + t2 + ... + tn-1 ) / (n 1) media de los tiempos de tecleo. De forma que tendremos en la mquina X, xm = media de los tiempos de tecleos en la

Si observamos los tiempos de cada columna de la tabla 4 son valores relativamente cercanos entre si, el problema es dada una nueva muestra de tiempo (ver tabla 5) determinar si esta puede tiene un porcentaje de similitud considerable a los tiempos que estn en la plantilla.

TABLA 5. EJEMPLO DE UNA NUEVA MUESTRA DE TIEMPO.

Figure 7. Grfica de los tiempos normalizados

Observando las grficas anteriores, se muestra mejor en qu consiste el proceso de normalizacin de las muestras. En la fig. 6 las lneas generadas por los tiempos tn no normalizados se encuentran separadas aunque se puede observar cierta similitud en cuanto a las ondas o curvaturas; ahora bien cuando se aplica el proceso de normalizacin el valor de los tiempos cambia para las dos muestras pero al estar normalizados por la media no se pierden las ondas de las curvas por lo que cada lnea generada es similar a la original pero con tiempos normalizados (Fig. 7), los cuales ahora si se interceptan en un mismo rango de valores y se observa una similitud entre las dos lneas. D. Modelo de comparacin de la dinmica de tecleo Este modelo recibir como parmetros de entrada una lista de tiempos, dicha lista puede ser los tiempos de los eventos pulsar soltar o soltar pulsar, de la misma manera se recibir la plantilla correspondiente con la que se compararn los nuevos tiempos, el parmetro de salida que enviar el modelo es un porcentaje del 1 al 100 al que le llamaremos porcentaje de similitud (PS), este indicar en que porcentaje son parecidos los nuevos tiempos a los tiempos que se encuentran en la plantilla, y de la misma manera se calcular un porcentaje al que llamaremos porcentaje de aceptacin (PA) que nos indicar el porcentaje mnimo que debe alcanzar el usuario para poder ser aceptado por la aplicacin. Las plantillas de los eventos pulsar soltar y soltar pulsar se encuentran estructuradas por columnas que contienen los tiempos en el que se ejecuto el evento correspondiente y lneas que son el nmero de muestras tomadas al usuario.

Una primera aproximacin a nuestro problema es obtener el tiempo mximo y mnimo de cada columna, entonces podramos suponer que cuando el usuario se autentifique nuevamente sus tiempos deben estar entre estos valores. Sin embargo intentarlo de esta manera tiene desventajas como: un usuario fcilmente puede trabarse en el momento de teclear una frase en la escritura de ciertas letras, debido a la velocidad de incremento del contador, quiere decir que un pequeo retardo abrira el rea de aceptacin ya que el tiempo mximo en una de las columna sera grande y esto dara lugar a incrementar el error de falsa aceptacin, por la misma precisin del tiempo es muy fcil que un usuario sobrepase los tiempos mximos o mnimos y de esta manera se rechazara al usuario por no estar dentro de los lmites, lo que incrementara el error de falso rechazo, lo que buscamos es una funcin la cual nos indique si el tiempo nuevo comparado en una columna de la plantilla es similar, para esto entonces necesitamos saber que tan parecidos son todos los tiempos de cada columna de la plantilla para as tener un punto de comparacin con el tiempo nuevo. Dicha funcin nos indicar de manera numrica el grado de desviacin de los tiempos de cada una de las muestras almacenadas en la planilla, la funcin que cumple con estos objetivos es la desviacin estndar S. La desviacin estndar nos dice cunto tienden a alejarse los puntos del promedio. De hecho especficamente la desviacin estndar es el promedio de lejana de los puntajes respecto del promedio [1]. Su frmula es la siguiente:

S=
Donde:

( x x) 2 . n 1
(1)

x: Denota cada uno de los tiempos de cada columna de la plantilla. x: es la media de cada columna. n : el nmero de muestras de tecleo que forman la plantilla. Si sacamos la desviacin estndar de cada columna, tendramos un nmero que nos indicara cuanto fue el grado de desviacin del usuario al momento de capturar las muestras para la plantilla en dicha tecla o intervalo de tecla especfico. Una vez teniendo la desviacin estndar de cada columna de la plantilla, como segundo paso necesitaramos 4

TABLA 4. PLANTILLA DEL EVENTO SOLTAR PULSAR, SE TOMARON DIEZ MUESTRAS AL USUARIO SOBRE EL TECLEO DE LA FRASE WOODYSARGE.

saber cuanto se desvi la nueva muestra, para esto tomaremos como referencia la media de cada columna de la plantilla ya que la media es la que toma la desviacin estndar en el proceso anterior. Entonces en este paso sacaremos una nueva desviacin estndar a la que llamaremos S en base a la media de cada columna de la plantilla y el nuevo tiempo de la columna correspondiente. Si se tratase de un usuario autentico entonces suponemos que la mayora de las columnas S sera mayor a S. Otra de las funciones estadsticas que utilizamos para el modelo es el coeficiente de variacin este nos indica cual es la desviacin de los puntos pero en trminos de porcentajes como mencionamos anteriormente lo que nos interesa es un porcentaje que nos indique el grado de similitud entre la muestras nuevas de tiempo y las muestras de tiempo almacenadas en la platilla. La frmula del coeficiente de variacin es la siguiente:

A-R es la que tiene menos porcentaje de variacin esto quiere decir que este usuario cuando suelta la tecla A y presiona la R su tiempo es muy regular, sin embargo la columna O-D que es la de mayor porcentaje indica que no existe regularidad al soltar la O y presionar la D, que a veces lo hace rpido y a veces lo hace muy lento.
26.88%
46.97% 10.84% 20.54% 21.39% 17.43% 7.83% 13.44% 18.44%

Figure 8. Grfica de los tiempos de la plantilla de la tabla 6 y su respectivo porcentaje de variacin.

CV =

S x
(2)

Donde: S: Es la desviacin estndar de cada columna. x: es la media de cada columna. Como la comparacin es entre los tiempos de la plantilla y los nuevos tiempos entonces se aplicar la misma formula al igual que la desviacin estndar, solo que los nuevos tiempos con relacin a la media es decir, la media de la nueva muestra ser la suma del nuevo tiempo mas la media de la plantilla dividida entre dos a esta le llamaremos media, esto para cada columna.

Ahora, si observamos la grfica anterior en la parte con mayor porcentaje podemos darnos cuenta que la elevacin del porcentaje se debe nicamente a un tiempo que fue el de 1.69644 ya que los dems tiempos se encuentran entre 0.5 y 0.7. Si observamos ahora la de menor porcentaje que es la de 7.83% podemos darnos cuenta que los puntos estn cercanos y tienen una distribucin uniforme ya que los tiempos para este caso van de 1.2 a 1.4, pero no existe ningn tiempo fuera de este rango por lo que el coeficiente de variacin es muy pequeo. Por lo general los coeficientes de variacin que tienden a ser ms grandes para est grfica lo ocasiona uno o dos puntos fuera del rango, las columnas como Y-S, A-R, RG y GE estas tienen la caracterstica de que sus puntos estn agrupados en un rango pequeo de ah que su porcentaje se encuentra entre los menores. Hasta ahora, tenemos un modelo el cual nos indica los porcentajes de variacin en los puntos de la plantilla, y el porcentaje de variacin de los nuevos tiempos con respecto a la media de la plantilla, En la fig. 9 se muestra el rea de aceptacin para la plantilla que hemos venido manejando de ejemplo.

rea de Aceptacin TABLA 6. CLCULO APLICADO A LA PLANTILLA DE LA TABLA 4

Hasta aqu hemos calculado de manera porcentual que tanto estn agrupados o desagrupados los puntos de la plantilla cuando el usuario teclea, de la misma manera el porcentaje que se desvi al autenticarse nuevamente en relacin con la media de la plantilla. Entre mas grande es el porcentaje, entonces mayor es la posibilidad de variacin en esa columna en particular. En la tabla anterior en la columna 5

Figure 9. Grfica del coeficiente de variacin de la plantilla de la tabla 6 esta muestra el lmite de aceptacin del usuario.

De acuerdo a la figura anterior para que un usuario sea autentico los nuevos tiempos deben estar por debajo de la lnea lmite, no como el de mximos y mnimos que eran dos lneas las limitantes. Si graficramos el coeficiente de

variacin de la nueva muestra podramos darnos cuenta que como son del mismo usuario esta se encuentra por debajo del lmite mostrado en la grfica anterior con excepcin de tres puntos que estn por encima, es aqu donde surge la pregunta stos tres puntos que sobrepasan el lmite son factor suficiente para rechazar al usuario? Si los siete puntos que estn por debajo del lmite son suficiente para decir que el usuario es aceptado?, el criterio inicial de aceptacin es el 60% dicho valor representa mas de la mitad con respecto al 100% y fue tomado de manera arbitraria.

tienen un alto grado de similitud, entonces, para este usuario podramos bajar su nivel de aceptacin ya que es fcil que se pueda equivocar y esto originara que la lnea no fuera tan parecida como se espera, y asumiendo que ningn usuario podra teclear como el ya que por su grfica se puede observar que tienen una dinmica bien establecida entonces no habra problemas en bajar un poco el nivel de aceptacin para este usuario. Si el coeficiente de variacin es grande en promedio quiere decir, que las lneas de la plantilla no tienen un grado de similitud considerable por lo tanto cuando el usuario se autentique tendra un rango grande en el cual podra caer sus tiempos, entonces el porcentaje de aceptacin se puede aumentar para as evitar el error de falsa aceptacin. Explicado todo lo anterior, entonces tenemos que el factor que nos indicar el porcentaje de aceptacin es el promedio del coeficiente de variacin, pero este promedio siempre esta por debajo del 50% (tomando como base el estudio de muestreo), por lo tanto al promedio le sumaremos 50% y as cubriremos el 100% que se calcula en el promedio de similitud. Si calculamos el porcentaje de aceptacin para el usuario que hemos venido utilizando como ejemplo, tendramos un porcentaje de aceptacin de 70.42% es decir para que este sea aceptado debe cumplir un 70.42% de porcentaje de similitud en relacin a la media de la plantilla. E. Mecanismo de adaptacin El mecanismo de aceptacin que implementamos en este trabajo es muy sencillo y consiste nicamente en calcular para cada una de las muestras de la plantilla el coeficiente de variacin con base a la media, como si se tratase de una nueva muestra, y sacar la de mayor coeficiente de variacin reemplazndola con la nueva muestra de autenticacin siempre y cuando esta tenga menor coeficiente de variacin, en caso contrario la plantilla quedara igual. IV. PRUEBAS

PS =

# Cv > Cv ' # columnas

(3)

Donde: PS: Es el porcentaje de similitud de las nuevas muestras de tiempos comparadas con los tiempos de la plantilla del usuario. #Cv>Cv: es el nmero de porcentajes en los que el coeficiente de variacin (Cv) de la plantilla fue mayor al coeficiente de variacin (Cv) de la nueva muestra de tiempo con respecto a la media de la plantilla. #Columnas: son el nmero de columnas de la plantilla (para el caso de una plantilla del evento pulsar soltar el numero de columnas es igual a la longitud de la frase tecleada y para el caso del eventos soltar pulsar es igual a la longitud de la frase tecleada menos uno.) El clculo de este porcentaje es el resultado final de este modelo en el cual nos dir cual es el porcentaje de similitud de las muestras de este porcentaje, y de la manera de interpretarlo o compararlo depende la aceptacin o rechazo del usuario como mencionamos anteriormente primero tomamos como condicin que el porcentaje fuera mayor que 60% para aceptar al usuario, ya que en base a observaciones y pruebas del modelo nos dimos cuenta que los usuarios en su mayora cuando no eran los autnticos su porcentaje estaba por debajo del 50%, sin embargo, algunos usuarios autnticos no alcanzaban el 60%. Entonces, se opt porque la comparacin de este porcentaje fuera de manera dinmica y dependiera directamente del comportamiento del usuario en el momento de crear su plantilla, lo que se tom como referencia fue el promedio del coeficiente de variacin de cada una de las columnas de la plantilla, Pero por qu este valor? Como vimos anteriormente este porcentaje nos indica que tanto se desvan los tiempos en la plantilla y en cada columna es un porcentaje diferente en algunos mayor y en otros menor, para el caso que hemos venido manejando si observamos la grfica de la fig. 8 nos daremos cuenta que las lneas llevan una dinmica que a simple vista se puede observar, esto por que sus puntos no se desvan mucho ya que en promedio solo se desvan de 1 a 2 puntos por cada columna. Esto quiere decir, entonces que este usuario cuando se vuelva a autentificar y para ser aceptado debe generar una lnea muy parecida a la de las plantillas ya que las lneas de la plantilla 6

Las pruebas se realizaron sobre tres grupos de persona que se describen a continuacin: Grupo Estudio Muestral: Este grupo de diez personas fue resultado de un muestreo estratificado sobre trabajadores de la UJAT, oscilaban entre edades de 24 a 35 aos, ocupaciones como programadores, contadores, secretarias y administradores. Grupo Universitarios: Este grupo est constituido por doscientos estudiantes de la Universidad Jurez Autnoma de Tabasco de las carreras de Contadura, Educacin y Ciencias de la Comunicacin. Grupo Varios: Este grupo involucra veinte personas, de diferentes edades, ocupaciones y habilidades sobre el teclado.

Cada una de las personas con las que se prob la aplicacin biomtrica estableci dos frases; la primera como login y la segunda como contrasea, para la primera frase se recomend se utilizar su nombre con apellidos, ya que suponemos que esta frase es fcil de escribir por que es lgico pensar que las personas estn familiarizados con su nombre. Para la extraccin de las caractersticas de tecleo de las personas, teclearon diez veces la frase login y posteriormente diez veces la frase contrasea. Los objetivos de las pruebas fueron establecer los errores de falsa aceptacin y falso rechazo [10] en la autenticacin local as como en red. A. Resultados Para el grupo 1 se obtuvo un porcentaje de error de falso rechazo de 5%, de un total de 10 usuarios en 10 intentos, lo que quiere decir que de un total de 100 intentos solo 5 fueron rechazados de manera incorrecta. Se otorg la clave de 5 usuarios a los 10 usuarios para intentar suplantarlos obteniendo un error de falsa aceptacin de 0%. En la autenticacin en red (distintos tipos de computadoras, laptop y computadoras de escritorio, por lo tanto distintos tipos de teclados) para el grupo 1 se obtuvo un error de falso rechazo de 60% cuando se tomaron en cuenta la evaluacin de los dos eventos pulsar soltar y soltar pulsar, posteriormente se evalu nicamente en base al tiempo del evento soltar pulsar y se obtuvo un error de falso rechazo de 19%, es decir de 100 intentos de autenticacin correcta se rechaz al usuario en 19 ocasiones. El porcentaje de error de falsa aceptacin en red fue de 0%. Para el grupo 2 se cont con 200 usuarios que se autentificaron 10 veces cada uno, obteniendo un error de falso rechazo de 26% es decir de 2000 intentos solamente 523 fueron errneos. El error de falsa aceptacin para este grupo fue de 0%. En la autenticacin en red para el grupo 2, se realiz en 3 tipos de computadoras obteniendo un error de falso rechazo de 36%, es decir de 6000 intentos 2182 fueron rechazados de manera incorrecta. El error de falsa aceptacin fue de 0%. Para el grupo 3 se cont con 20 personas las cuales se autentificaban 10 veces obteniendo un error de falso rechazo de 25% es decir de 200 intentos de autenticacin correctos se rechazo de manera incorrecta 50 veces. El error de falsa aceptacin fue de 0%. B. Anlisis de resultados De acuerdo a los experimentos realizados en los tres grupos de pruebas y a las observaciones realizadas se pudo determinar lo siguiente: La frase con la que los usuarios se encuentran ms familiarizados es su propio nombre y sus apellidos, ya que el porcentaje de falso rechazo en los usuarios que tomaron como login su nombre y apellidos fue menor al 0.2 (20%). La captura de la plantilla de cada uno de los usuarios para su autenticacin es la parte principal, por lo cual esta debe 7

capturarse no intentando escribir ms rpido de lo normal y no realizar pausas innecesarias entre teclas. Si un usuario elega una frase no familiarizada con el, se poda observar una disminucin en la velocidad de tecleo, sin embargo, an era posible extraer caractersticas nicas de tecleo. Cuando el usuario elega una frase menor de diez caracteres, se incrementaba el error de falso rechazo de manera considerable. La longitud adecuada de una frase, para el modelo planteado en este trabajo y con las cuales se disminuy el error de falso rechazo fue entre quince y treinta caracteres. El grupo de prueba con menor porcentaje de falso rechazo fue el del grupo del estudio muestral, una de las causas fue que las pruebas sobre este grupo fueron individuales y a cada usuario se le indicaba lo que tena que hacer, en el caso del grupo universitarios al ser prueba masiva los usuarios cayeron en distracciones lo que haca que su dinmica de tecleo al momento de crear las plantillas no fuera la correcta. El manejo de los tiempos de los dos eventos pulsar soltar y soltar pulsar en conjunto para la autenticacin es recomendable cuando la plantilla del usuario fue creada en la misma computadora donde se esta autenticando. Para el caso de que un usuario se autentifique en otra computadora diferente a la donde creo su plantilla, es recomendable no incluir en el proceso de comparacin los tiempos del evento pulsar soltar, ya que stos tienen una variacin considerable que depende de la suavidad de las teclas. Sin embargo el evento soltar pulsar es suficiente para realizar la comparacin y obtener buenos resultados. El promedio de porcentaje de similitud obtenido por usuarios impostores es de 35%, de ah que el porcentaje general de falsa aceptacin fue de 0% ya que por lo menos se necesitara alcanzar un 60% de porcentaje de similitud para ser aceptado por el sistema. El 35% de promedio de porcentaje de similitud para usuarios impostores que obtuvimos, nos da una holgura para poder bajar el porcentaje de aceptacin base que fue de 60% a 40% lo que nos disminuira el porcentaje de falso rechazo obtenido en las pruebas, teniendo la seguridad de que el error de falsa aceptacin no subira. El mecanismo de adaptacin reemplaza las muestras con mayor coeficiente de variacin, en caso de que el usuario vaya mejorando su dinmica de tecleo disminuyendo as con el tiempo el error de falso rechazo. La obtencin de cuatro cifras para la medicin de los tiempos de pulsar soltar y soltar - pulsar tecla fue relevante en los resultados que se obtuvieron para el error de falso rechazo y falsa aceptacin. En general se obtuvo un error de falsa aceptacin de 0%, lo que constituye la fortaleza de este mtodo, el no aceptar a un usuario que no es el autentico, ya que el rechazar el

correcto tiene como consecuencia nicamente que el usuario tenga que intentar autentificarse nuevamente. C. Comparacin con trabajos anteriores Una manera de medir la eficiencia de nuestro modelo de autenticacin de usuarios a travs de biometra de tecleo, es comparando los resultados que obtuvimos en nuestras pruebas con los resultados de otros trabajos relacionados con biometra de tecleo. En [4] proponen una tabla comparativa de otros trabajos nos basaremos en esa tabla aadiendo los resultados de otros trabajos que tratamos en este proyecto.
TABLA 7. COMPARACIN CON TRABAJOS ANTERIORES Autores de Ru y Elof [11] Acevedo y Eugenio [3] Araujo, Lizarraga [4] Marino Tapiador [10] Este trabajo Grupo Estudio Muestral Grupo Estudio Muestral Red Grupo Universitarios Grupo Universitarios Red Grupo Varios Muestras Variado 130 180 2560 Variado 500 400 7000 18000 200
a. b. c.

establecieron dos parmetros para la decisin de aceptacin del usuario que son: el porcentaje de similitud y el porcentaje de aceptacin, teniendo como condicin final que el porcentaje de similitud fuera mayor o igual al porcentaje de aceptacin. Las pruebas nos dieron resultados satisfactorios en cuanto a la obtencin de una tasa de error de 0% para el error de falsa aceptacin y un 35% en promedio para el error de falso rechazo. Finalmente, esta tcnica representa una tecnologa de autentificacin de bajo costo, ya que no requiere hardware adicional, actuando el teclado tradicional como dispositivo biomtrico. VI.
[1] [2] [3]

S.A.a 2 1 2 2 2 2 2 2 2

% EFRb 0.14 0.26 0.35 0.06 0.05 0.19 0.26 0.36 0.25

% EFAc 0.28 0.05 0.29 0.02 0 0 0 0 0

REFERENCIAS

A.M Montiel, F. Rius y F. J. Baron, Elementos bsicos de estadstica econmica y empresarial, 3 edicin Prentice Hall 2004. Leonard Kazmier, Alfredo Diaz Mata, Estadstica aplicada a la administracin y economa, 2 edicin Mc Graw Hill 2002. Acevedo Daniel, Glemarys Hernndez y Eugenio G. Scalise P. Identificacin de Usuarios Basado en el Reconocimiento de Patrones de Tecleo Universidad Central de Venezuela, Facultad de Ciencias 2000. Arajo Lizrraga, Sucupira Jr., Yabu-uti y Ling. Autenticacin personal por dinmica de tecleo basada en lgica difusa Universidad Estatal de Campinas (UNICAMP). D. Umphress and G. Williams, Identity Verification Through keyboard Characteristics International Journal Man-Machine Studies, Academic Press, 1995. Davies Security for Computer Networks: An Introduction to Data Security John Wiley and Sons, New York, 2002. Enzhe Yu, Sungzoon Cho, Keystroke dynamics identity verification problems and practical solutions Department of Industrial Engineering, College of Engineering, Seoul National University, 2004. Fabian Monrose, Aviel D. Rubin, Keystroke Dynamics as a Biometric for Authentication New York University, New York, NY 1999. Obaidat M. S. Keystroke dynamics based Authentication Monmouth University Applied Science University 2002. Marino Tapiador Mateo. Biometra de tecleo, autenticacin de usuarios Ingeniera Informtica, Universidad Autnoma de Madrid, Mayo del 2000. W.G. de Ru and J.H.P. Eloff, Enhanced Password Authentication through Fuzzy Logic IEEE Expert / Intelligent Systems & Their Applications, Noviembre/Diciembre 1997. Asociacin de Biometra Informtica Espaola (ABIE) universidad Autnoma de Madrid. 2005 Foro de consulta sobre Derecho e Informtica 1996. IAfB International Association for Biometrics and International Computer Security Association (ICSA). Glossary of Biometric Terms 2005. Merlat Mximo, Paz Gonzalo, Sosa Matias, Martinez Marcelo. Seguridad Informtica, Hackers 1998. Sue Berg Glossary of Computer Security Terms. Technical Report NCSC-TG-004 National Computer Security Center, Octubre 1988. Vega Prez Auditoria de sistemas informticos. Universidad Catlica de Salta Auditoria de Sistemas 2005.

Numero de secuencias o frases utilizadas Porcentaje de error de falso rechazo Porcentaje de error de falsa aceptacin

[4]

[5]

La tabla anterior es un resumen de algunos trabajos sobre biometra de tecleo, hacemos mencin de los cuatro trabajos con menor porcentaje de error de falsa aceptacin y falso rechazo. Podemos darnos cuenta que los mejores resultados los obtuvimos con el grupo Estudio Muestral, ya que los porcentajes de error estn por debajo de los cuatro trabajos de la tabla, para el caso del experimento en red con este mismo grupo solo esta por encima del trabajo [11]. V. CONCLUSIONES

[6] [7]

[8]

[9] [10]

En este trabajo se plante un modelo para la autenticacin de usuarios a travs de la biometra de tecleo, en trabajos anteriores se plantea la extraccin de caractersticas de tecleo a travs de la medicin de los eventos pulsar soltar y soltar pulsar tecla, mismos que fueron utilizados en este trabajo, se utilizaron dos frases entre quince y treinta caracteres que actuaran como login y contrasea de los usuarios. La medicin de los tiempos se realiz a travs de una llamada a la funcin QueryPerformanceCounter funcin del API de Windows que nos devuelve el tiempo que ha estado Windows activo, obteniendo as con esta funcin tiempos de los eventos con precisin de 4 cifras lo que es una novedad para est tcnica. El modelo para la comparacin de la dinmica de tecleo se bas en el uso de funciones de dispersin, se 8

[11]

[12] [13] [14]

[15] [16] [17]