Cover Image for Anthropic aspira a que su inteligencia artificial gestione tu computadora y, al mismo tiempo, influya en el mercado.

Anthropic aspira a que su inteligencia artificial gestione tu computadora y, al mismo tiempo, influya en el mercado.

Claude se convierte en el primer modelo de inteligencia artificial que puede manejar una computadora para llevar a cabo tareas útiles.

A medida que la tecnología avanza, la adaptación de las personas a herramientas como los chatbots ha sido un proceso gradual. Sin embargo, la próxima evolución podría involucrar otorgar a la inteligencia artificial la capacidad de gestionar nuestras computadoras. Anthropic, un competidor de gran relevancia en el ámbito de la IA, ha presentado su modelo Claude, que no solo navega en internet, sino que también abre aplicaciones y utiliza el teclado y el ratón para realizar tareas habituales en un PC.

Jared Kaplan, director científico de Anthropic y profesor en la Universidad Johns Hopkins, afirma que estamos a punto de entrar en una era donde un modelo de IA puede emplear las mismas herramientas que los seres humanos para llevar a cabo diferentes tareas. Recientemente, el servicio de chatbots experimentó una caída simultánea, probablemente debido a la saturación de solicitudes.

En una demostración reciente, Kaplan ilustró las capacidades de Claude al mostrar cómo este ayudaba a planificar una salida para ver el amanecer desde el Puente Golden Gate. Claude abrió el navegador Chrome, buscó información pertinente y creó un evento en el calendario para coordinar la cita con un amigo, aunque no incluyó rutas para llegar al destino.

En otra presentación, se le solicitó a Claude crear un sitio web básico para su promoción. El modelo generó el código necesario a través de su propia interfaz y utilizó Visual Studio Code, un editor de código, para desarrollar el sitio, logrando incluso resolver un error al identificarse y eliminar el fragmento problemático.

La visión de Mike Krieger, jefe de producto de Anthropic, es que estos agentes de IA facilitarán la automatización de tareas rutinarias, permitiendo a las personas concentrarse en otras actividades. A partir de ahora, las funcionalidades 'agénticas' estarán disponibles para los usuarios mediante la API de Claude 3.5 Sonnet, además de una versión más pequeña llamada Claude 3.5 Haiku.

A pesar de lo impresionantes que son estas demostraciones, hacer que la tecnología funcione de manera constante y sin errores presenta retos significativos. Los modelos actuales, que pueden responder preguntas con una habilidad cercana a la humana, son fundamentales en chatbots como ChatGPT y Gemini, y son capaces de realizar tareas basadas en órdenes simples.

Anthropic sostiene que Claude ha superado a otros sistemas de IA en diversas métricas, como SWE-bench y OSWorld, aunque estas alegaciones aún no han sido verificadas de manera independiente. En OSWorld, se reporta que Claude tiene éxito en sus tareas el 14.9% de las veces, un porcentaje bajo si se compara con los humanos que rondan el 75%, pero que es superior al 7.7% de GPT-4.

Empresas como Canva y Replit ya están probando la versión 'agéntica' de Claude para automatizar tareas de diseño y codificación. Sin embargo, expertos como Ofir Press advierten que la IA 'agéntica' suele tener dificultades para planificar a largo plazo y recuperarse de errores, lo que plantea la necesidad de un rendimiento sólido en pruebas más complejas para demostrar su utilidad en aplicaciones prácticas.