Violación de seguridad en OpenAI destaca la vulnerabilidad de las empresas de inteligencia artificial ante los hackers.
No hay razón para preocuparse de que las conversaciones secretas en ChatGPT hayan sido obtenidas en una brecha de seguridad reportada recientemente en los sistemas de OpenAI. El hackeo en sí, aunque
En la reciente brecha reportada en los sistemas de OpenAI, no es necesario preocuparse por si las conversaciones secretas en ChatGPT fueron obtenidas. Aunque el hack en sí mismo resulta inquietante, parece haber sido superficial, pero nos recuerda que las empresas de inteligencia artificial se han convertido rápidamente en uno de los objetivos más atractivos para los hackers. Según lo informado por The New York Times, el hack fue detallado después de que el ex empleado de OpenAI, Leopold Aschenbrenner, insinuara sobre este en un podcast. Aschenbrenner lo describió como un "importante incidente de seguridad", sin embargo, fuentes no identificadas de la compañía mencionaron que el hacker solo tuvo acceso a un foro de discusión de empleados. Aunque es cierto que ninguna violación de seguridad debe ser tomada a la ligera, el hecho de escuchar conversaciones internas de desarrollo en OpenAI tiene cierto valor. A pesar de esto, dista mucho de un hacker que accede a sistemas internos, modelos en progreso, mapas secretos, entre otros. Sin embargo, esta situación debería asustarnos de todas formas, no necesariamente por la amenaza de China u otros adversarios que nos superen en la carrera armamentística de la inteligencia artificial.
La realidad es que estas empresas de IA se han convertido en guardianes de una cantidad enorme de datos muy valiosos. En el caso de OpenAI y, en menor medida, otras empresas de IA, se crean o se accede a tres tipos de datos significativos: datos de entrenamiento de alta calidad, interacciones masivas de usuarios y datos de clientes. Aunque no se tiene certeza sobre qué datos de entrenamiento poseen exactamente, debido a la gran secretividad de las compañías sobre sus reservas, sería un error pensar que son simplemente grandes montones de datos web recopilados. Sí, emplean raspadores web o conjuntos de datos como Pile, pero dar forma a esos datos sin procesar en algo que pueda ser utilizado para entrenar un modelo como GPT-4o es una tarea gigantesca que requiere una gran cantidad de horas de trabajo humano, ya que no puede automatizarse completamente.
Algunos ingenieros de aprendizaje automático han especulado que, de todos los factores que intervienen en la creación de un gran modelo de lenguaje (o, quizás, cualquier sistema basado en transformers), el más importante es la calidad del conjunto de datos. Por eso, un modelo entrenado en Twitter y Reddit nunca será tan elocuente como uno entrenado en cada obra publicada en el último siglo. Por lo tanto, los conjuntos de datos de entrenamiento construidos por OpenAI son de un valor tremendo para competidores, otras compañías, estados adversarios y reguladores en los EE. UU.