OpenAI busca que la inteligencia artificial ayude a los humanos a entrenar inteligencia artificial.
La incorporación de humanos para evaluar las respuestas de un modelo de lenguaje ha dado lugar a chatbots más ingeniosos. OpenAI afirma que al agregar inteligencia artificial al proceso, podrían volverse aún más inteligentes y confiables.
Uno de los ingredientes clave que contribuyó al gran éxito de ChatGPT fue un ejército de entrenadores humanos que brindaron orientación al modelo de inteligencia artificial detrás del bot sobre lo que constituye salidas buenas y malas. OpenAI ahora afirma que agregar aún más inteligencia artificial a la mezcla, para ayudar a los entrenadores humanos, podría hacer que los asistentes de IA sean más inteligentes y confiables.
En el desarrollo de ChatGPT, OpenAI fue pionera en el uso del aprendizaje por refuerzo con retroalimentación humana, o RLHF. Esta técnica utiliza la entrada de evaluadores humanos para ajustar un modelo de IA de manera que su salida sea juzgada como más coherente, menos objetable y más precisa. Las calificaciones que los entrenadores proporcionan se alimentan a un algoritmo que impulsa el comportamiento del modelo. La técnica ha demostrado ser crucial tanto para hacer que los chatbots sean más confiables y útiles como para prevenir que se comporten mal.
"RLHF funciona muy bien, pero tiene limitaciones clave", dice Nat McAleese, investigador de OpenAI involucrado en el nuevo trabajo. Por un lado, la retroalimentación humana puede ser inconsistente. Por otro lado, puede resultar difícil para incluso humanos expertos calificar salidas extremadamente complejas, como código de software sofisticado. El proceso también puede optimizar un modelo para producir una salida que parezca convincente en lugar de ser precisa en realidad.
OpenAI desarrolló un nuevo modelo ajustando su oferta más potente, GPT-4, para ayudar a los entrenadores humanos encargados de evaluar código. La compañía descubrió que el nuevo modelo, llamado CriticGPT, podía detectar errores que los humanos pasaron por alto, y que los jueces humanos encontraron que sus críticas al código eran mejores el 63 por ciento del tiempo. OpenAI planea extender el enfoque a áreas más allá del código en el futuro.
"Estamos empezando a trabajar para integrar esta técnica en nuestra plataforma de chat RLHF", dice McAleese. Señala que el enfoque es imperfecto, ya que CriticGPT también puede cometer errores al alucinar, pero agrega que la técnica podría ayudar a que los modelos de OpenAI, así como herramientas como ChatGPT, sean más precisos al reducir los errores en el entrenamiento humano. Añade que también podría resultar crucial para ayudar a que los modelos de IA se vuelvan mucho más inteligentes, ya que podría permitir que los humanos ayuden a entrenar a una IA que supere sus propias capacidades.
La nueva técnica es una de muchas que se están desarrollando actualmente para mejorar los grandes modelos de lenguaje y exprimir más habilidades de ellos. También forma parte de un esfuerzo para asegurar que la IA se comporte de formas aceptables incluso a medida que se vuelve más capaz.
A principios de este mes, Anthropic, un competidor de OpenAI fundado por ex empleados de OpenAI, anunció una versión más capaz de su propio chatbot, llamado Claude, gracias a mejoras en el régimen de entrenamiento del modelo y en los datos proporcionados. Tanto Anthropic como OpenAI también han destacado recientemente nuevas formas de inspeccionar los modelos de IA para comprender cómo llegan a sus salidas con el objetivo de prevenir mejor comportamientos no deseados, como la decepción.
La nueva técnica podría ayudar a OpenAI a entrenar modelos de IA cada vez más potentes al tiempo que asegura que su salida sea más confiable y alineada con los valores humanos, especialmente si la compañía logra implementarla con éxito en más áreas que solo el código. OpenAI ha dicho que está entrenando su próximo gran modelo de IA, y la compañía evidentemente quiere demostrar que se toma en serio el garantizar que se comporte correctamente. Esto sigue a la disolución de un destacado equipo dedicado a evaluar los riesgos a largo plazo planteados por la IA. El equipo fue copresidido por Ilya Sutskever, cofundador de la compañía y ex miembro de la junta directiva que brevemente apartó al CEO Sam Altman de la compañía antes de retractarse y ayudarlo a recuperar el control. Varios miembros de ese equipo han criticado a la compañía por avanzar de manera arriesgada mientras se apresura a desarrollar y comercializar algoritmos de IA potentes.
Dylan Hadfield-Menell, un profesor del MIT que investiga formas de alinear la IA, dice que la idea de tener modelos de IA que ayuden a entrenar a otros más potentes ha estado circulando desde hace un tiempo. "Este es un desarrollo bastante natural", señala.
Hadfield-Menell destaca que los investigadores que desarrollaron originalmente las técnicas utilizadas para RLHF discutieron ideas relacionadas hace varios años. Dice que aún está por verse cuán aplicable y poderosa es en general. "Podría llevar a grandes avances en capacidades individuales, y podría ser un paso hacia una retroalimentación más efectiva a largo plazo", comenta.