
El CEO de Anthropic busca desentrañar el funcionamiento de los modelos de IA para 2027.
El director ejecutivo de Anthropic, Dario Amodei, estableció como objetivo que su empresa logre "detecta de manera confiable la mayoría de los problemas de los modelos de inteligencia artificial" para el año 2027.
Dario Amodei, CEO de Anthropic, publicó un ensayo en el que subraya la escasa comprensión que tienen los investigadores sobre el funcionamiento interno de los modelos de inteligencia artificial más avanzados. Amodei ha establecido un ambicioso objetivo para la compañía: lograr detectar la mayoría de los problemas relacionados con los modelos de IA de manera confiable para el año 2027. Reconoce que este reto es considerable.
En su ensayo titulado “The Urgency of Interpretability”, el CEO menciona que Anthropic ya ha realizado avances iniciales en la comprensión de cómo los modelos llegan a sus respuestas, pero subraya que se necesita realizar mucha más investigación para descifrar estos sistemas a medida que se vuelven más potentes. Amodei expresó su preocupación por desplegar estos sistemas sin un conocimiento más profundo de su interpretabilidad, argumentando que son cruciales para la economía, la tecnología y la seguridad nacional, y que su autonomía requiere que la humanidad esté al tanto de su funcionamiento.
Anthropic se destaca como una de las compañías pioneras en la interpretabilidad mecánica, una disciplina que busca desentrañar el funcionamiento de los modelos de IA y comprender las razones detrás de sus decisiones. A pesar de las mejoras rápidas en el rendimiento de los modelos de IA, todavía hay poco entendimiento sobre cómo toman decisiones. Por ejemplo, OpenAI lanzó recientemente nuevos modelos de razonamiento, o3 y o4-mini, que mejoran en ciertas tareas pero también generan respuestas erróneas en más ocasiones. La compañía no tiene claridad sobre las causas de estas fallas.
Amodei destaca una observación de Chris Olah, cofundador de Anthropic, donde se menciona que los modelos de IA son “cultivados más que construidos”. Esto implica que, a pesar de los avances en la inteligencia de los modelos, los investigadores no comprenden completamente los motivos detrás de estos avances. Amodei advierte que sería peligroso avanzar hacia una inteligencia artificial general (AGI), o como él la caracteriza, “un país de genios en un centro de datos”, sin tener claro cómo funcionan estos sistemas.
En un ensayo anterior, había sugerido que la industria tecnológica podría alcanzar dicho hito para 2026 o 2027, pero ahora considera que estamos aún lejos de entender completamente estos modelos de IA. A largo plazo, su aspiración es realizar lo que él describe como “escaneos cerebrales” o “resonancias magnéticas” de los modelos de IA más avanzados, lo cual ayudaría a identificar diversos problemas, incluyendo tendencias a falsear información o buscar poder. Reconoce que esto puede tomar de cinco a diez años, pero considera que será esencial para probar y desplegar los modelos futuros de Anthropic.
La compañía ha logrado varios avances en investigación que le han permitido comprender mejor el funcionamiento de sus modelos de IA. Recientemente, descubrieron formas de rastrear las vías de pensamiento de un modelo de IA a través de lo que denominan "circuitos". Identificaron un circuito específico que ayuda a los modelos de IA a entender qué ciudades de EE. UU. pertenecen a qué estados. Aunque han descubierto solo unos pocos de estos circuitos, estiman que hay millones dentro de los modelos de IA.
Anthropic ha estado invirtiendo en investigaciones sobre interpretabilidad y recientemente hizo su primera inversión en una startup enfocada en este tema. A pesar de que hoy en día la interpretabilidad se considera mayormente una área de investigación centrada en la seguridad, Amodei sugiere que explicar cómo los modelos de IA llegan a sus respuestas puede ofrecer una ventaja comercial. En su ensayo, también instó a OpenAI y Google DeepMind a intensificar sus esfuerzos de investigación en esta área.
Más allá de estas sugerencias, solicitó a los gobiernos que impongan regulaciones "ligeras" para fomentar la investigación en interpretabilidad, como la exigencia para que las empresas divulguen sus prácticas de seguridad. Además, propuso que Estados Unidos implemente controles de exportación sobre chips hacia China para limitar la probabilidad de una carrera global descontrolada en inteligencia artificial. Anthropic se ha diferenciado de OpenAI y Google por su énfasis en la seguridad y ha mostrado apoyo moderado a normas de seguridad para desarrolladores de modelos de IA avanzados. En este contexto, la empresa parece abogar por un esfuerzo colectivo en la industria para entender mejor los modelos de IA, en lugar de simplemente aumentar sus capacidades.