MADRID, 11 Mar. (Portaltic/EP) -
Hugging Face ha presentado EuroBERT, una familia de modelos de codificadores multilingües de nueva generación, diseñados para mejorar el rendimiento en todas las lenguas europeas y en las más habladas del mundo, que está optimizado para tareas a nivel de documento y destaca incluso en razonamiento matemático.
EuroBERT representa "un gran paso adelante" en este tipo de modelos y "establece nuevos puntos de referencia en múltiples tareas", según han señalado desde Hugging Face, que han adelantado que se puede utilizar en tareas de investigación y en aplicaciones industriales.
Esta familia de modelos está planteada para ampliar los límites del rendimiento en idiomas europeos y de uso generalizado en todo el mundo, así como para mejorar el rendimiento en todas las lenguas habladas en Europa y en las más habaldas del mundo. También introduce varias innovaciones en la arquitectura de modelos, la metodología de entrenamiento y la conservación de conjuntos de datos.
Asimismo, aprovecha los conocimientos de los modelos generativos modernos y ofrece "un rendimiento de vanguardia", conservando la eficiencia y la solidez de las arquitecturas basadas en codificadores; y se ha optimizado para tareas a nivel de documento.
De esta manera, admite secuencias de contexto largo de hasta 8.192 tokens y destaca en recuperación miltilingüe, clasificación, regresión e, incluso, razonamiento matemático y de código. También mejora los modelos de codificadores multilingües tradicionales, como XLM-RoBERTa y mGTE.
Hugging Face también ha avanzado que EuroBERT se ha entrenado con un conjunto de datos de 5 billones de tokens, que abarca 15 idiomas, e incorpora atención de consultas agrupadas y conjuntos de datos para matemáticas y lenguajes de programación, para mejorar las capacidades de razonamiento.
En cuanto a la metodología de formación, los responsables de este modelo han indicado que éste aprende estructuras lingüísticas utilizando un objetivo de modelado de lenguaje enmascarado (MLM) y aprovechando datos multilingües de alta calidad. Una vez superada esa fase, ajusta la combinación de datos y perfecciona el entrenamiento, para lograr un rendimiento óptimo en el futuro.
Gracias a eso, garantiza una alta adaptabilidad a múltiples tareas de procesamiento de lenguaje natural y "logra resultados de vanguardia" en un conjunto diverso de tareas de procesamiento de lenguaje natural (PNL) multilingües. De esta manera, "muestra sólidos resultados en la búsqueda de código (CodeSearchNet) y el razonamiento matemático (MathShepherd) y supera a modelos existentes en tareas de clasificación y búsqueda de documentos.
Cabe apuntar que esta familia se ha desarrollado gracias a la colaboración de diferentes instituciones de investigación y socios industriales, como MICS de CentraleSupélec, Diabolocom, Artefact y Unbabel, así como las tecnológicas AMD y CINES, según se ha expuesto en el comunicado.