Los valets virtuales más famosos de la actualidad:siri, alexay Google Assistant, son mucho menos impresionantes que los últimos chatbots con tecnología de inteligencia artificial, como ChatGPT o Google Bard. Cuando los frutos del reciente auge de la IA generativa se integren adecuadamente en esos robots asistentes heredados, seguramente se volverán mucho más interesantes.
Para obtener una vista previa de lo que sigue, utilicé un asistente de voz experimental de IA llamado vimGPT para una prueba. Cuando le pedí que “suscribiera a WIRED”, se puso a trabajar con una habilidad impresionante, encontró la página web correcta y accedió al formulario en línea. Si tuviera acceso a los datos de mi tarjeta de crédito, estoy bastante seguro de que lo habría acertado.
Aunque no es una prueba de inteligencia para un ser humano, comprar algo en línea en la web abierta es mucho más complicado y desafiante que las tareas que normalmente realizan Siri, Alexa o el Asistente de Google. (Establecer recordatorios y obtener resultados deportivos está entonces 2010.) Requiere dar sentido a la solicitud, acceder a la web para encontrar el sitio correcto y luego interactuar correctamente con la página o los formularios relevantes. Mi ayudante navegó correctamente a la página de suscripción de WIRED e incluso encontró el formulario allí, presumiblemente impresionado por la perspectiva de recibir todo el periodismo entretenido y revelador de WIRED por sólo $1 al mes, pero cayó en el último obstáculo porque no tenía una tarjeta de crédito. VimGPT utiliza el navegador de código abierto Chromium de Google que no almacena información del usuario. Mis otros experimentos demostraron que el agente es, sin embargo, muy experto en buscar vídeos divertidos de gatos o encontrar vuelos baratos.
VimGPT es un programa experimental de código abierto creado por Ishan Shah, un desarrollador solitario, no un producto en desarrollo, pero puedes apostar que Apple, Google y otros están haciendo experimentos similares con miras a actualizar Siri y otros asistentes. VimGPT se basa en GPT-4V, la versión multimodal del famoso modelo de lenguaje de OpenAI. Al analizar una solicitud, puede determinar en qué hacer clic o escribir de manera más confiable que el software de sólo texto, que tiene que intentar darle sentido a la web desenredando HTML desordenado. “Dentro de un año, esperaría que la experiencia de usar una computadora fuera muy diferente”, dice Shah, quien dice que construyó vimGPT en sólo unos días. “La mayoría de las aplicaciones requerirán menos clics y más chat, y los agentes se convertirán en una parte integral de la navegación por la web”.
Shah no es la única persona que cree que el siguiente paso lógico después de los chatbots como ChatGPT son los agentes que usan computadoras y navegan por la Web. Ruslan Salakhutdinov, profesor de la Universidad Carnegie Mellon que fue director de investigación de IA de Apple de 2016 a 2020, cree que Siri y otros asistentes están en la fila para una poderosa actualización de IA. “La próxima evolución serán los agentes que puedan realizar tareas útiles”, afirma Salakhutdinov. Sería útil conectar a Siri a una IA que impulse ChatGPT, dice, “pero tendrá mucho más impacto si le pido a Siri que haga cosas y ella simplemente resuelve mis problemas por mí”.
Salakhutdinov y sus alumnos ha desarrollado varios entornos simulados diseñados para probar y perfeccionar las habilidades de los ayudantes de IA que pueden hacer las cosas. Incluyen un sitio web ficticio de comercio electrónico, una versión simulada de un tablero de mensajes similar a Reddit y un sitio web de anuncios clasificados. Este campo de pruebas virtual para poner a prueba a los agentes se llama VisualWebArena.