Una técnica popular para aumentar la eficiencia de la inteligencia artificial presenta inconvenientes.
Una de las técnicas más comunes para optimizar la eficiencia de los modelos de inteligencia artificial, la cuantización, presenta ciertas limitaciones, y es posible que la industria esté cerca de alcanzarlas.
Una de las técnicas más utilizadas para aumentar la eficiencia de los modelos de inteligencia artificial es la cuantización, aunque esta tiene sus límites, y la industria podría estar acercándose a ellos. En el ámbito de la IA, la cuantización consiste en reducir el número de bits necesarios para representar información, similar a cómo uno podría responder a la pregunta de la hora. En lugar de una respuesta detallada, se opta por fórmulas más simples que, aunque son correctas, abarcan menos detalle. La necesidad de precisión varía según el contexto.
Los modelos de IA están compuestos de diferentes elementos que se pueden cuantizar, especialmente los parámetros, que son las variables internas que los modelos utilizan para hacer predicciones o decisiones. Esto resulta práctico, ya que los modelos realizan millones de cálculos al ser ejecutados. Los modelos cuantizados, que utilizan menos bits para representar sus parámetros, requieren menos demanda matemática y, por ende, menos recursos computacionales. Es relevante aclarar que este proceso se distingue del “destilado”, que implica una poda más específica de parámetros.
Sin embargo, la cuantización puede conllevar más inconvenientes de lo que se pensaba anteriormente. Un estudio realizado por investigadores de varias universidades de prestigio indica que los modelos cuantizados experimentan un rendimiento inferior si la versión original no cuantizada fue entrenada durante mucho tiempo con grandes volúmenes de datos. Lo que sugiere que, en ciertos casos, puede ser preferible entrenar un modelo más pequeño en vez de reducir uno mayor, lo que podría ser problemático para las compañías de IA que entrenan modelos extremadamente grandes con la esperanza de mejorar la calidad de las respuestas y que luego intentan cuantizarlos para reducir costos.
Ya se están comenzando a observar estos efectos. Recientemente, se informó que la cuantización del modelo Llama 3 de Meta resultaba “más perjudicial” en comparación con otros modelos, posiblemente debido a su proceso de entrenamiento. Tanishq Kumar, un estudiante de matemáticas de Harvard y autor principal del estudio, expresó que el costo principal en IA es el de la inferencia y que su investigación demuestra que una de las maneras para reducirlo podría no ser sostenible a largo plazo.
Contrario a lo que se podría pensar, el costo de inferencia de un modelo de IA, como cuando ChatGPT responde una pregunta, suele ser más alto que el costo de entrenamiento del modelo. Por ejemplo, se estima que Google gastó alrededor de 191 millones de dólares en el entrenamiento de uno de sus modelos más destacados, mientras que utilizar ese modelo para generar respuestas de 50 palabras a la mitad de las consultas de búsqueda les costaría cerca de 6 mil millones de dólares al año.
Los laboratorios de IA han adoptado la estrategia de entrenar modelos en conjuntos de datos masivos bajo la creencia de que “escalar” los datos y el poder computacional utilizados en el entrenamiento se traducirá en una IA más competente. Por ejemplo, Meta entrenó Llama 3 con un conjunto de 15 billones de tokens, en comparación con los 2 billones utilizados para entrenar la generación anterior, Llama 2. Sin embargo, hay evidencia que sugiere que escalar puede eventualmente traer rendimientos decrecientes, lo que se ha evidenciado en recientes modelos entrenados por Anthropic y Google que no alcanzaron las expectativas internas.
Ante la resistencia de los laboratorios a entrenar modelos con conjuntos de datos más pequeños, surge la pregunta de si hay formas de hacer que los modelos sean menos susceptibles a su degradación. Kumar sugiere que el entrenamiento de modelos en "baja precisión" podría hacerlos más robustos. El término “precisión” se refiere al número de dígitos que un tipo de dato numérico puede representar con exactitud. La mayoría de los modelos actuales se entrenan con una precisión de 16 bits, y luego se cuantizan a 8 bits. Esta conversión implica una pérdida de precisión en algunas de las componentes del modelo (como sus parámetros), parámetro que puede ser entendido como redondear ciertos cálculos.
Fabricantes de hardware, como Nvidia, promueven la utilización de menor precisión en la inferencia de modelos cuantizados, y su nuevo chip Blackwell soporta precisión de 4 bits. Sin embargo, Kumar advierte que, a menos que el modelo original tenga una cantidad de parámetros notablemente grande, utilizar precisiones menores a 7 o 8 bits puede ocasionar una disminución significativa en la calidad.
A pesar de la complejidad técnica del estudio, el mensaje subyacente es que los modelos de IA no están completamente comprendidos y que las soluciones comunes que funcionan en otros tipos de cálculos pueden no ser efectivas aquí. Kumar enfatiza que hay límites en las optimizaciones que se pueden realizar y que su trabajo pretende agregar matices a las conversaciones sobre el uso de precisiones cada vez más bajas para el entrenamiento y la inferencia de modelos. Aunque su estudio tiene un alcance relativamente pequeño, están planificando realizar más pruebas en el futuro, confiando en que el aprendizaje obtenido perdurará: no hay alternativas gratuitas cuando se trata de reducir los costos de inferencia.