MADRID, 6 Feb. (Portaltic/EP) -
Investigadores de dos universidades estadounidenses han desarrollado S1, un modelo de lenguaje (LM, por sus siglas en inglés) de razonamiento abierto que ofrece un rendimiento a la altura de o1 de OpenAI, a partir de una base de datos pequeña y de un gasto reducido en créditos de computación.
o1 de OpenAI, R1 de DeepSeek y Gemini 2.0 Flash Thinking de Google son tres ejemplos LM de razonamiento, es decir, aquellos que muestran un gran rendimiento para ofrecer mejores respuestas a problemas complejos, por ejemplo, en matemáticas y programación.
Estos son modelos que requieren una inversión costosa en datos y recursos informáticos para su entrenamiento, si bien DeepSeek he mostrado recientemente que puede conseguirse un resultado a la altura de la IA de vanguardia con una menor inversión.
Este enfoque lo ha seguido también un grupo de investigadores de las universidades de Stanford y de Washington (ambas en Estados Unidos), que asegura que en el entrenamiento de su modelo abierto S1 han empleado una base de datos con mil ejemplos de preguntas seleccionadas y un presupuesto reducido en créditos de computación a partir de forzar el tiempo de prueba.
Su trabajo parte del modelo Qwen2.5 32B-Instruct de Alibaba y una destilación de Gemini 2.0 Flash Thinking, una réplica del modelo desarrollado por Google para extraer su proceso de pensamiento, así como de la aplicación de un ajuste fino supervisado, que permite que un modelo preentrenado realice tareas concretas.
A ello le han sumado una técnica que forzaba al modelo a quedarse en espera cuando iba a terminar el proceso de pensamiento, lo que le llevaba a realizar una doble comprobación de su respuesta, corrigiendo así posibles errores.
Todo ello les ha permitido realizar un "escalado de tiempo de prueba simple en un pequeño conjunto de datos que requiere solo 26 minutos de entrenamiento en 16 GPU H100", y, con ello, "construir un modelo de razonamiento competitivo que coincide con o1-preview", aseguran los investigadores en el texto de su investigación, publicado en Arxiv.org y GitHub.
"Nuestro trabajo tiene como objetivo ampliar la frontera del razonamiento de una manera totalmente abierta, fomentando la innovación y la colaboración para acelerar los avances que, en última instancia, benefician a la sociedad", concluyen.