Pocos, posiblemente ninguno, de los 2.000 millones de usuarios de Facebook saben que cada vez que se conectan a esta red social activan potencialmente unas 3.000 ´piezas` de información, entre las que los sistemas hacen una criba para clasificar y dar prioridad a unas 100 ó 150 que son las que un usuario típico tiene tiempo de digerir. Este ambicioso volumen de información es el campo sobre el que desarrolla sus investigaciones FAIR (Facebook Artificial Intelligence Research), una estructura que emplea 110 científicos e ingenieros en Menlo Alto, Nueva York, París y Montreal. Su director, YannLeCun, ha conversado durante tres horas con cuatro periodistas, entre ellos el autor de este blog.
Casualmente, los medios de prensa españoles coincidieron casi al unísono la semana pasada en titulares que podrían ser uno solo: «la inteligencia artificial ya puede prescindir de los humanos». La raíz de tanto entusiasmo periodístico no era otra que el programa AlphaGo, un desarrollo de DeepMind, empresa adquirida por Google en 2014 y que – según uno de esos titulares – sería nada menos que autodidacta (sic). Con el resultado de batir al campeón mundial del juego de Go. La afirmación no es tan distinta – excepto el supuesto autoaprendizaje – de lo dicho en 1997 cuando DeepBlue derrotó a Gary Kasparov.
Naturalmente, no hubo ocasión de preguntar a LeCun por esta noticia aún no publicada, pero de sus respuestas se deduce que, efectivamente, es factible entrenar a una máquina para ganar una partida de Go, pero la máquina sólo sabrá jugar al Go, mientras que al campeón de este deporte se le suponen otras habilidades que la máquina no posee. A menos que se la entrene para ellas.
Del encuentro con Yann LeCun participaron tres miembros de su equipo: Antoine Bordes, Marco Baroni y David López-Paz, que respondieron algunas respuestas. La reunión, en la sede parisina de Facebook, duró tres tres horas, por lo que el lector sabrá entender la dificultad de condensarla.
¿Cuándo empezó Facebook a investigar en IA?
Mark [Zuckerberg] decidió crear esta organización en noviembre de 2013. Facebook ya contaba con un pequeño grupo que experimentaba con deep learning y empezaba a obtener resultados interesantes; a través de un antiguo alumno, me contactó Shrep [apodo de Mike Schroepfer, CTO de Facebook] y luego me llamó Mark para proponerme esta responsabilidad que tengo ahora. Rehusé inicialmente porque no quería dejar mi trabajo en la New York University. Lo entendió, pero aprovechando que yo estaba en California volvió a llamarme para cenar en su casa. Fue cuando acepté, a condición de poder compaginar Facebook con mi vida académica. Todo fue muy rápido […]
Se habla tanto de Inteligencia Artificial y con tantas acepciones que me disculpará si le pido su propia definición.
Empecemos por reconocer que muchas acepciones, las más torpes, son fantasías originadas en el cine de ciencia ficción por guionistas que abusan del recurso de humanizar a las máquinas confiriéndoles actitudes humanas, por lo general negativas y sin base científica. Seriamente, no hay ninguna razón para que una máquina tenga un comportamiento que no le haya sido incorporado previamente. ¿Una máquina vengativa? Los seres humanos somos animales sociales, buscamos la compañía de otros semejantes – lo que no necesariamente es una condición de inteligencia – pero así somos. La IA es una ciencia cuyo fin es diseñar sistemas y máquinas inteligentes, que usan técnicas algorítmicas y se inspiran en lo poco que sabemos sobre el funcionamiento del cerebro humano.
¿Cuál es el papel de las redes neuronales dentro de la IA?
Lo que he querido decir es que la IA no es magia. Las redes neuronales simulan el funcionamiento de grandes redes conformadas por pequeñas unidades interconectadas, a imagen de lo que la biología nos dice que ocurre con las neuronas y las sinapsis cerebrales. Como los humanos, las máquinas pueden aprender de la experiencia si se les modifican las conexiones entre sus unidades. En concreto, las modernas redes neuronales pueden aprender a reconocer formas, traducir textos, identificar imágenes, crearlas, emplear razonamientos lógicos simples e incluso plantear preguntas nuevas. Este es el estado actual de la IA, que por supuesto es provisional.
La pregunta le sonará pueril: ¿por qué y para qué se interesa Facebook en la IA?
En primer lugar, para la comprensión de contenidos mediante machine learning y deep learning: de qué trata un post, en qué tono está escrito, y esto que vale para un texto también vale para una imagen o un vídeo. El sistema puede relacionar esa comprensión con los intereses del usuario. Además, hay un gran esfuerzo de filtrado, porque como es notorio muchos de los contenidos que circulan son objetables: terrorismo, racismo, mensajes de odio, acoso, noticias falsas […] La IA – combinada con la intervención de personas especializadas – nos ayuda a eliminarlos. No el 100%, lamentablemente.
[…] se pueden producir errores en el filtrado
Por ejemplo, si un activista de derechos civiles cita en un post palabras de un individuo u organización racista, la clasificación automática debería ser capaz de decidir por el contexto si el post en sí mismo es racista o no. Gracias a los usuarios que los etiquetan con banderas rojas, Facebook puede mejorar el entrenamiento de sus sistemas, pero el procedimiento dista de ser perfecto. Además, involucramos cada vez más a personas para evitar los errores que pudieran escaparse a la IA.
¿Cuál es la práctica de FAIR en machine learning?
Tenemos un equipo muy activo en los fundamentos de machine learning. Es el campo en el que trabaja David [López-Paz, matemático español], la generación de modelos de inferencia para la optimización distribuída.
¿El aprendizaje es supervisado o no supervisado?
Los dos. O los tres, porque también investigamos el aprendizaje reforzado. Con la salvedad de que el supervisado es lo que realmente funciona en la mayoría de las aplicaciones. En el aprendizaje no supervisado estamos avanzando muy rápido, y esperamos estar pronto en condiciones de reducir el número de muestras que una máquina necesita procesar para aprender. En este momento, el capítulo más conseguido es el aprendizaje supervisado, en el que la máquina es entrenada por seres humanos para responder correctamente a un cierto input. Por ejemplo, si se le muestra la foto de un coche, identifica que es un coche, pero no sabe para qué sirve ese objeto.
¿Qué es el aprendizaje reforzado?
Desafortunadamente, aunque sería utilísimo, no funciona hoy en el mundo real, por el elevadísimo número de muestras que exige […]
¿Cómo describiría los logros alcanzados por FAIR?
Creo que podemos estar orgullosos de nuestros resultados en visión computerizada, con un muy alto número de series de datos en lo que se denomina segmentación instantánea. La premisa es que si tenemos una imagen con varios objetos diferentes, la máquina tiene que reconocerlos como parte de un conjunto y dar nombre a cada uno.
¿Cuál es la frontera entre machine learning y deep learning?
No es una frontera, sino otro nivel de aprendizaje. Deep learning implica múltiples capas de procesamiento simultáneas, con el objetivo de que la máquina incorpore representaciones abstractas de la realidad. Si vamos por un parque, sabemos distinguir un collie de un chihuahua, a la vez que mentalmente los clasificamos como perros; un ordenador necesitará unas cuantas capas de procesamiento antes de detectar las combinaciones de partes que diferencian a un perro de otro perro.
¿Qué hacen en traducción automática?
La misión de Facebook es conectar personas que, en muchos casos, no comparten la misma lengua. Si una de ellas sube un post en un idioma que otra no entiende, Facebook lo traduce. Aquí se da un caso interesante: hace más o menos un año, decidimos cambiar los sistemas de traducción convencionales por otros basados en redes neuronales y deep learning. No sólo obtenemos mejores resultados sino que hemos multiplicado el número de idiomas que podemos cruzar.
Hace un momento, usted y yo conversábamos en francés y de pronto hemos pasado al inglés; es la lingua franca, ya sé, pero me pregunto si alguna lengua es más apropiada que otra para la IA.
No creo que la diferencia esté en las cualidades intrínsecas de una lengua sino en que sea comprensible para un mayor número de lectores de un paper o de personas capaces de entender un ejemplo. Marco [Baroni] ha probado con proyectos en ruso y en italiano, pero la barrera no ha sido lingüística sino metodológica.
Ha mencionado que en FAIR trabajan con chatbots.
Sí, es un trabajo que dirige Antoine [Bordes] como parte de sus investigaciones sobre lenguaje natural. Soy consciente del interés mediático que despiertan los asistentes virtuales, pero a mi modo de ver son muy imperfectos en su estado actual. A largo plazo, se pretende que sean capaces de dialogar con los humanos en lenguaje natural […] para que los asistentes virtuales sean realmente útiles, tendrán que superar esta fase en la que comprenden una frase o una sentencia preestablecida, […] Tareas tan sencillas como reservar mesa en un restaurante o comentar los resultados del fútbol, requieren una capacidad de diálogo muy superior. Pasa que los chatbots existentes han sido desarrollados manualmente, por lo que incorporan poco machine learning, razón por la que suelen resultar frustrantes para el usuario.
A veces son divertidos…
Y pueden ser muy útiles. Una de las áreas en las que les veo más futuro es la accesibilidad. En sentido amplio: si viajamos a China, podemos sentirnos inútiles por no poder comunicar con la gente corriente. El papel de la IA en la traducción es muy prometedor, y la industria tiene muchos proyectos en esta línea. El reconocimiento del habla es cada vez mejor, hay software que traduce de texto a voz… Son un paso adelante.
Ha mencionado que en FAIR trabajan con chatbots
Sí, es un trabajo que dirige Antoine [Bordes] como parte de sus investigaciones sobre lenguaje natural. Soy consciente del interés mediático que despiertan los asistentes virtuales, pero a mi modo de ver son muy imperfectos en su estado actual. A largo plazo, se pretende que sean capaces de dialogar con los humanos en lenguaje natural […] para que los asistentes virtuales sean realmente útiles, tendrán que superar esta fase en la que comprenden una frase o una sentencia preestablecida, […] Tareas tan sencillas como reservar mesa en un restaurante o comentar los resultados del fútbol, requieren una capacidad de diálogo muy superior. Pasa que los chatbots existentes han sido desarrollados manualmente, por lo que incorporan poco machine learning, razón por la que suelen resultar frustrantes para el usuario.
Hay una carrera en la industria por ser el campeón de los asistentes virtuales: Amazon, Google, Apple, Microsoft […] ¿Entrará Facebook en esa carrera?
No creo que sea una carrera. Aquí, en FAIR nos ocupamos de impulsar la tecnología y la ciencia en esa dirección, pero no me parece que ninguna de las compañías que ha nombrado esté significativamente por delante del resto. Luego, en fin… siempre está la cuestión de cuánto inviertes en el desarrollo de una tecnología que aún no está madura. Pero ese no es mi papel.
¿A qué distancia están las máquinas de una inteligencia comparable a la humana? ¿Qué piensa de lo que llaman singularidad?
No lo sé y quien diga que lo sabe es un charlatán. Ni siquiera podemos afirmar que dominamos los principios básicos del aprendizaje humano o animal. Lo que sí sabemos es que los humanos aprendemos más eficientemente, más rápido y con menos errores que cualquier máquina existente […] No podemos construir un robot que aprenda a saltar como un gato: son animales asombrosos, auténticos físicos intuitivos por su capacidad de construir un modelo físico del mundo que los rodea. Un gato puede saltar por encima de un florero para atrapar algo, y no romperlo… bueno, a veces sí lo rompe. Mientras no podamos resolver problemas como este, es temerario decir que construímos máquinas verdaderamente inteligentes.
¿Cuánto tiempo llevaría construirlas?
¡Quién sabe! En los próximos tres a cinco años, la IA alcanzará progresos tangibles; tal vez tarde diez años en alcanzarlos […] dependerá de los obstáculos que encontremos. Una incógnita es el hardware: ¿cuánta potencia debe tener para emular al cerebro humano, para procesar el altísimo número de sinapsis que conectan nuestras neuronas? Estas cambian a razón de entre 10 y 20 operaciones por segundo, se multiplican y ramifican pero en realidad sólo representan menos del 10% de la actividad cerebral. Emular esas sinapsis requeriría una capacidad de computación que hoy sencillamente no tenemos. Además, está el hecho de que el cerebro humano consume unos 25 vatios mientras que para conseguir 10 operaciones por segundo, un chip GPU consume 250 vatios.
¿Es alcanzable?
La ciencia encontrará el truco para crear máquinas tan inteligentes como un ser humano en ciertas áreas en las que no se necesite tanta capacidad de computación […] Respondiendo a su otra pregunta: la singularidad es un vocablo más propio de la ficción que de la ciencia […] La ciencia seguirá sus pautas de desarrollo, pero no será inventando palabras como vamos a acelerarla.
¿Se ratifica en la esperanza de resultados ´tangible` en los próximos tres años?
Si soy realista, me ratifico en que nos queda mucho que hacer para salvar la brecha que separa lo que querríamos hacer de lo que sabemos cómo hacer.