Está en la página 1de 3

Ataques adversos a la IA

Aunque la IA moderna es increíblemente poderosa, uno de los límites de las


tecnologías de IA actuales en especial las de aprendizaje profundo es que en
ocasiones se las puede engañar. En particular, los sistemas de IA actuales son, en
ocasiones, vulnerables a ataques adversarios si alguien se propone atacar tu
sistema de IA. Echemos un vistazo. Digamos que le das a un sistema de IA esta
imagen de un pájaro y le pides que la clasifique. El sistema de IA dice que se trata
de un colibrí. Pero hagamos una pequeña modificación en esta imagen. Por
pequeña modificación, me refiero a cambiar los valores de los píxeles solo un
poco. Un cambio casi imperceptible para la mayoría de las personas. El mismo
sistema de IA dice ahora que se trata de un ave martillo. A una persona le podrías
decir: "¿Cómo es posible? La imagen de la derecha es casi idéntica a la de la
izquierda". En realidad, los cambios son casi imperceptibles al ojo humano. Pero
un sistema de IA percibe la realidad de un modo muy distinto a nosotros. Es
susceptible de ser engañado por un adversario que cambie una imagen de modo
que no sea perceptible para nosotros, pero que engañe al sistema de IA
haciéndole pensar que la imagen es algo totalmente distinto. A esto se lo llama un
"ataque adversario" contra un sistema de IA. En ciberseguridad, un ataque contra
un sistema seguro es un intento de que este haga algo distinto de lo que se
espera que haga. Del mismo modo, un ataque adversario a un sistema de IA es un
intento de que haga algo distinto de lo que se espera que haga, como intentar
engañarlo para que genere una clasificación incorrecta. Aquí hay otro ejemplo:
Esta es una foto de una liebre con solo un pequeño cambio o pequeña
modificación del valor de los píxeles. La IA dice que se trata de un escritorio. El
hecho de que los ordenadores vean fotos de forma distinta a los seres humanos
tiene ventajas y desventajas. Por ejemplo, los sistemas informáticos son mucho
mejores que nosotros leyendo códigos de barras y de QR. Pero la forma en que
trabajan los sistemas de aprendizaje profundo también facilita estas formas
específicas de ataques que no engañarían a un humano. Hoy se usa la IA para
filtrar spam, para tratar de filtrar incitaciones al odio. Este tipo de ataques reducen
la eficacia de tales filtros. En los ataques a estas imágenes hace falta modificar
una imagen de forma directa. Por ejemplo, un "spammer" puede modificar
directamente una imagen antes de intentar subirla a un sitio web o enviarla en un
correo electrónico. Hay algunos ataques que funcionan cambiando el mundo físico
también. Por ejemplo, un grupo de la Universidad de Carnegie Mellon diseñó estas
gafas divertidas. Cuando un hombre se pone estas gafas puede engañar a un
sistema de IA haciéndole creer que es la actriz Milla Jovovich. Creo que es
extraordinario que solo con un par de gafas como estas se pueda engañar a un
sistema de IA y hacerle pensar que este hombre es una actriz conocida. Un grupo
diferente de investigadores de UC Berkeley, la Universidad de Michigan y otras
universidades demostró que si se colocan pegatinas como estas en una señal de
ALTO, se puede engañar a un sistema de IA y hacer que no vea la señal de ALTO.
Piensa que hay algo más que una señal de ALTO. Algo interesante de este
ejemplo es que en la señal de ALTO parece que solo hay un graffiti pintado. La
mayoría de la gente seguiría viendo fácilmente la señal de ALTO. Pero si tenemos
un sistema de visión artificial instalado en un vehículo autónomo, por ejemplo,
sería terrible que el vehículo no detectara la señal de alto por culpa de los
adhesivos sobre la señal. Un último ejemplo, esta vez de un grupo de
investigadores de Google: si muestras esta imagen a un sistema de IA, dirá que es
un plátano. Los investigadores diseñaron una etiqueta adhesiva que colocada en
la escena crearía un error de clasificación con el plátano. Déjame mostrarle el
vídeo que hicieron los investigadores. A la izquierda se muestra el clasificador de
entrada y a la derecha está la salida del clasificador, que muestra una alta
probabilidad de que sea un plátano y una pequeña posibilidad de que sea una
oruga. No está mal. Veamos qué sucede al poner una etiqueta adhesiva o una
pegatina pequeña en la escena. Cuando se coloca la etiqueta en la escena, el
sistema de IA está casi seguro de que esta foto es la foto de una tostadora. Un
aspecto interesante de este trabajo es que los autores de la investigación que se
citan en la parte inferior de esta diapositiva, publicaron en su artículo una imagen
de la etiqueta. Así que cualquier persona podría en principio, descargar el artículo,
imprimir la etiqueta, y pegarla en algún lugar si quisiera engañar a un sistema de
IA para que pensara que hay una tostadora donde no la hay. No estoy animando a
nadie a que ataque a sistemas de IA para engañarlos y que crean que hay
tostadoras donde no las hay, pero, por desgracia, esto demuestra lo fácil que
resulta atacar a los sistemas de IA. ¿Qué podemos hacer para defendernos de
estos ataque adversarios? Afortunadamente, el mundo de la IA ha estado
trabajando en nuevas tecnologías que dificultan los ataques. Las defensas suelen
ser muy técnicas, pero se pueden modificar las redes neuronales y otros sistemas
de IA de forma que sea más difícil atacarlos. Estas defensas tienen alguna
desventaja, por ejemplo, el sistema de IA puede ir un poco más lento. Pero es un
área en que se está investigando y aún estamos lejos de lograr defensas a los
ataques lo suficientemente buenas para todos los usos importantes que queremos
darle a la IA. Muchos sistemas de IA no son suficientemente atractivos para que
alguien intente atacarlos. Por ejemplo, si se ejecuta un sistema automático de
inspección visual para comprobar si las tazas de café de tu fábrica tienen rayas,
quizá no haya mucha gente interesada en engañar al sistema para que piense que
la taza de café no tiene desperfectos. Pero seguro que hay aplicaciones de IA que
sufrirán ataques. En este tipo de aplicaciones, como el caso del "spam" frente a
"anti-spam", en el que los "spammers" intentan que entre correo basura al correo y
los filtros de correo basura intentan detenerlos. Creo que habrá casos de
aplicaciones en los que nos encontraremos en una lucha constante. Habrá una
comunidad de IA que desarrolle defensas y una comunidad de atacantes que
intente engañar a nuestras defensas. Durante mi experiencia desarrollando
sistemas de IA, una de las pocas veces que sentí que estaba en guerra con otra
persona fue cuando lideraba equipos de lucha contra el fraude. Por desgracia hay
cierto tipo de fraude en Internet en el que hay gente que intenta robar dinero o
sistemas de pagos o de crear cuentas fraudulentas. Cuando trabajaba en sistemas
de lucha contra el fraude fue una de las pocas veces en que me sentí en un "juego
de suma cero": tenía un adversario, creábamos una defensa y el adversario
reaccionaba. Lanzaba un ataque, y mi equipo tenía que reaccionar a veces
durante horas para defendernos. Así que creo que los próximos años, a medida
que evolucionen las tecnologías de IA, se darán ataques como el correo basura o
el fraude, y los equipos estarán en guerra. Lo que llamo un "juego de suma cero"
contra adversarios. Dicho esto, tampoco quiero dar demasiada importancia al
daño potencial de los ataques a los sistemas de IA. Es muy importante para
algunas aplicaciones. Pero también hay muchas aplicaciones de IA que son
menos propensas a sufrir ataques adversarios. Además de los ataques
adversarios, por desgracia, también se puede usar la IA para algunos usos
negativos o adversos. Veamos algunos en el siguiente vídeo, así como lo que se
debe hacer para resolverlos. Continuemos con el siguiente vídeo.

También podría gustarte