Alibaba promete superar a DeepSeek con su nuevo modelo de IA Qwen2.5-Max

Alibaba promete superar a DeepSeek con su nuevo modelo de IA Qwen2.5-Max

Foto: Freepik

La compañía de origen chino, Alibaba, presentó Qwen2.5-Max, su nuevo modelo de inteligencia artificial basado en arquitectura MoE (Mezcla de Expertos) y desarrollado como una alternativa de código abierto. Según la compañía, este modelo demostró un rendimiento superior a DeepSeek V3 y GPT-4o en pruebas de conocimiento general, programación y resolución de problemas.

 

El modelo Qwen2.5-Max fue preentrenado con más de 20 billones de tokens y optimizado mediante Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo a Partir de Retroalimentación Humana (RLHF). Una de sus principales características es el uso de redes secundarias especializadas, que mejoran la eficiencia en el procesamiento de datos y reducen la demanda computacional.

 

Un modelo más eficiente con arquitectura MoE

 

La arquitectura MoE permite desarrollar modelos de IA de gran tamaño con menor consumo computacional, facilitando su adaptación a distintos tipos de datos y tareas. "El lanzamiento de DeepSeek V3 ha atraído la atención de toda la comunidad de IA hacia los modelos MoE. Sin embargo, los investigadores y la industria tienen una experiencia limitada para llevar a gran escala este tipo de algoritmos", señaló Alibaba.

 

Según la empresa, esta estructura permite que Qwen2.5-Max genere respuestas más precisas y mejore su capacidad para procesar solicitudes complejas. La técnica MoE también fue utilizada en diversos modelos recientes, incluido DeepSeek V3, lo que impulsó su adopción en la industria de la inteligencia artificial.

 

Evaluaron el rendimiento de Qwen2.5-Max en diferentes pruebas de referencia, como MMLU-Pro (que mide conocimientos a nivel universitario), LiveCodeBench (para evaluar capacidades de codificación). También lo evaluaron en LiveBench (para la calidad de respuestas generales) y Arena-Hard (para analizar preferencias humanas en interacciones de IA).

 

Los ingenieros compararon los resultados de Qwen2.5-Max con los obtenidos por DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B, GPT-4o y Claude-3.5-Sonnet, concluyendo que su modelo obtuvo los mejores puntajes en todas las métricas evaluadas.

 

Disponibilidad y acceso para desarrolladores

 

Qwen2.5-Max es un modelo de código abierto y su API está disponible para desarrolladores a través de Alibaba Cloud. Además, el público general puede probar sus capacidades mediante Qwen Chat, un bot conversacional que ofrece funciones de búsqueda en la web y generación de contenido multimedia, similar a ChatGPT y DeepSeek.

 

El lanzamiento de Qwen2.5-Max se da en un contexto de competencia creciente en la industria de la IA. DeepSeek captó gran atención en las últimas semanas tras el lanzamiento de DeepSeek-R1, un modelo diseñado para ofrecer costos significativamente más bajos en comparación con otros modelos de razonamiento avanzado.

 

Según estimaciones de expertos, el costo de entrenamiento de DeepSeek-R1 fue de aproximadamente 6 millones de dólares, una cifra considerablemente menor que los más de 60 millones de dólares invertidos por Meta en el desarrollo de Llama 3.1. Esta reducción de costos permitió que DeepSeek-R1 sea una alternativa más accesible para empresas y desarrolladores.

 

El crecimiento de DeepSeek llevó a sus competidores a ajustar sus estrategias. Recientemente, la división de servicios en la nube de Alibaba anunció recortes de hasta 97 % en los precios de múltiples modelos de IA, mientras que ByteDance presentó Doubao-1.5-pro, una versión mejorada de su modelo con mayores capacidades de razonamiento.

 

Liang Wenfeng, fundador de DeepSeek, declaró en 2023 que la intención de su empresa no es generar una guerra de precios. "Los grandes modelos fundacionales requieren innovación continua. Las capacidades de los gigantes tecnológicos tienen sus límites", aseguró. (Notipress)

Notas Relacionadas