Publicado 27/01/2025 14:21

Portaltic.-Este es DeepSeek, el asistente de IA chino que ocupa la primera posición en la App Store

App de asistente de IA DeepSeek
App de asistente de IA DeepSeek - DEEPSEEK

   MADRID, 27 Ene. (Portaltic/EP) -

   El asistente DeepSeek llegó a App Store el pasado 11 de enero y desde entonces, ha escalado hasta ocupar la primera posición en la tienda de Apple en Estados Unidos, por delante de ChatGPT, de OpenAI; un hito para una aplicación que apenas acaba de llegar al mercado y que compite con el 'chatbot' más popular desde hace más de dos años.

   DeepSeek es un asistente de inteligencia artificial (IA) genrativa que la firma china del mismo nombre lanzó el pasado 11 de enero en la App Store, donde se ofrece bajo una modalidad de uso gratuito. Además de responder preguntas en un formato conversacional, puede navegar por la web para ofrecer respuestas actualizadas, resumir documentos de texto de manera rápida y utilizar el razonamiento para resolver problemas complejos.

    En su base se encuentra el modelo DeepSeek V3, que se lanzó en diciembre. Este ha sido entrenado con 671.000 millones de parámetros con arquitectura Mixture of Experts (MoE), que divide un modelo de IA en pequeñas redes neuronales para que actúen de forma separada como si fueran distintos expertos.

   Dispone también de 37.000 millones de parámetros activados para cada token, como explican sus responsable en el repositorio de GitHub. Y sus responsables han recurrido al mecanismo de atención latente multicabezal (MLA) para "lograr una inferencia eficiente y una capacitación rentable".

   La compañía tecnológica ha empleado 14,8 billones de tokens "diversos y de alta calidad" junto con un ajuste supervisado y aprendizaje de refuerzo por fases. Aseguran, además, que cada token ha requerido para su entrenamiento 3,7 días con 2.048 GPU Nvidia H800, lo que hace que el entrenamiento total alcance los 2.788 millones de horas de GPU y un coste total de 5.576 millones de dólares.

    Según afirman, el modelo "supera a otros modelos de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado". Así, en la evaluación de la comprensión del lenguaje (MMLU Pro) en una variedad de tareas, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 405B.

    En la evaluación de la capacidad para responder preguntas complejas de nivel posgrado (GPAQ Diamond), DeepSeek V3 ha obtenido una puntuación de 59.1, por debajo de Claude 3.5 Sonnet (65.0), pero por encima de GPT 4o (49.9), Qwen 2.5 de 72B (49.0) y Llama 3.1 405B (51.1).

   También queda en segunda posición en el análisis de la capacidad para resolver problemas de software del mundo real (SWE), en el que alcanza una puntuación de 42.0, frente a los 50.8 de Claude 3.5 Sonnet, seguidos de GPT 4o (38.8), Llama 3.1 405B (24.5) y Qwen 2.5 de 72B (23.8).

   En cambio, sobre sale en las pruebas de resolución de desafíos (MATH 500), donde obtiene 90.2, mientras que Claude 3.5 Sonnet alcanza 78.9; Qwen 2.5 de 72B, 80.0; GPT 4o, 74.6, y Llama 3.1 405B, 73.8 puntos. También lo hace en la resolución de problemas matemáticos con AIME 2024, con una puntuación de 39.2, seguido de Qwen 2.5 de 72B y Llama 3.1 405B (ambos 23.3), Claude 3.5 Sonnet (16.0) y GPT 4o (9.3).

   En programación, en la prueba Codeforces, DeepSeek V3 alcanza 51.6 puntos, Qwen 2.5 de 72B , 24.8; Llama 3.1 405B, 25.3 puntos; GPT 4o23.6; y Claude 3.5 Sonnet, una puntuación de 20.3.

NUEVOS MODELOS DE RAZONAMIENTO

   La semana pasada, la compañía china presentó una nueva familia de modelos de razonamiento, DeepSeek-R1-Zero y DeepSeek-R1, el primero de ellos entrenado a través del aprendizaje de refuerzo a gran escala sin ajuste fino supervisado como paso preliminar, como explica en el texto de la investigación publicado en Arxiv.org.

    En el segundo, en cambio, se han empleado también un entrenamiento en múltiples fases y datos de inicio frío antes del aprendizaje de refuerzo para sortear los problemas de legibilidad y mezcla de idiomas. Gracias a ello, sus desarrolladores aseguran que alcanza un rendimiento en tareas de razonamiento comparable a OpenAI o1.

   "Nuestro objetivo es explorar el potencial de los LLM [modelos de lenguaje de gran tamaño] para desarrollar capacidades de razonamiento sin ningún dato supervisado, centrándonos en su autoevolución a través de un proceso de aprendizaje de refuerzo puro", explican.

Contador