Os novos M2.5 e M2.5 Lightning abertos do MiniMax são quase de última geração, custando 1/20 do Claude Opus 4.6

12/02/2026 by ComunicaNews

Inicialização de IA chinesa MiniMaxcom sede em Xangai, enviou ondas de choque pela indústria de IA hoje com o lançamento de seu novo Modelo de linguagem M2.5 em duas variantes, que prometem tornar a inteligência artificial de ponta tão barata que você pode parar de se preocupar totalmente com a conta.

Também é dito que “código aberto,” embora os pesos (configurações) e o código ainda não tenham sido publicados, nem o tipo ou os termos exatos da licença. Mas isso é quase irrelevante, dado o quão barato o MiniMax está servindo por meio de sua API e de parceiros.

Nos últimos anos, usar a IA mais poderosa do mundo era como contratar um consultor caro – era brilhante, mas você observava o relógio (e a contagem de tokens) constantemente. M2.5 muda essa matemática, reduzindo o custo da fronteira em até 95%.

Ao oferecer desempenho que rivaliza com os modelos de primeira linha do Google e da Anthropic por uma fração do custo, especialmente no uso de ferramentas de agente para tarefas empresariais, incluindo criação de arquivos Microsoft Word, Excel e PowerPointMiniMax está apostando que o futuro não depende apenas de quão inteligente é um modelo, mas de quantas vezes você pode usá-lo.

Na verdade, para este fim, a MiniMax diz que trabalhou “com profissionais seniores em áreas como finanças, direito e ciências sociais” para garantir que o modelo pudesse realizar um trabalho real de acordo com as suas especificações e padrões.

Esta versão é importante porque sinaliza uma mudança da IA como um “chatbot” para a IA como um “trabalhador”. Quando a inteligência se torna “muito barata para medir”, os desenvolvedores param de construir ferramentas simples de perguntas e respostas e começam a construir “agentes” – software que pode passar horas codificando, pesquisando e organizando projetos complexos de forma autônoma, sem gastar muito.

Na verdade, a MiniMax já implantou esse modelo em suas próprias operações. Atualmente, 30% de todas as tarefas na sede da MiniMax são concluídas até M2.5e uma impressionante 80% do código recém-comprometido é gerado pelo M2.5!

Como escreve a equipe MiniMax em seu blog de lançamento, “acreditamos que o M2.5 oferece possibilidades virtualmente ilimitadas para o desenvolvimento e operação de agentes na economia”.

Tecnologia: energia escassa e o avanço da CISPO

O segredo da eficiência do M2.5 está na sua arquitetura Mixture of Experts (MoE). Em vez de executar todos os seus 230 bilhões de parâmetros para cada palavra que gera, o modelo apenas “ativa” 10 bilhões. Isso permite manter a profundidade de raciocínio de um modelo enorme enquanto se move com a agilidade de um modelo muito menor.

Para treinar esse sistema complexo, a MiniMax desenvolveu uma estrutura proprietária de Reinforcement Learning (RL) chamada Forge. Engenheiro MiniMax Canção de Oliveira declarado no Podcast de quinta-feira AI no YouTube que esta técnica foi fundamental para dimensionar o desempenho mesmo usando um número relativamente pequeno de parâmetros, e que o modelo foi treinado durante um período de dois meses.

O Forge foi projetado para ajudar o modelo a aprender com “ambientes do mundo real” – essencialmente permitindo que a IA pratique a codificação e o uso de ferramentas em milhares de espaços de trabalho simulados.

“O que percebemos é que há muito potencial em um modelo pequeno como este se treinarmos nele o aprendizado por reforço com uma grande quantidade de ambientes e agentes”, disse Song. “Mas não é uma coisa muito fácil de fazer”, acrescentando que foi nisso que eles gastaram “muito tempo”.

Para manter o modelo estável durante esse treinamento intenso, eles usaram uma abordagem matemática chamada CISPO (Clipping Importance Sampling Policy Optimization) e compartilharam a fórmula em seu blog.

Esta fórmula garante que o modelo não corrija excessivamente durante o treinamento, permitindo-lhe desenvolver o que o MiniMax chama de “Mentalidade do Arquiteto”. Em vez de começar a escrever código, o M2.5 aprendeu primeiro a planejar proativamente a estrutura, os recursos e a interface de um projeto.

Benchmarks de última geração (e próximos)

Os resultados desta arquitetura são refletidos nos últimos rankings do setor. M2.5 não apenas melhorou; ele saltou para o nível superior de modelos de codificação, aproximando-se do modelo mais recente da Anthropic, Claude Opus 4.6, lançado há apenas uma semana, e mostrando que as empresas chinesas estão agora a poucos dias de alcançar laboratórios americanos com recursos muito melhores (em termos de GPUs).

Gráfico de linhas MiniMax M2.5 comparando o desempenho de diferentes modelos ao longo do tempo no benchmark SWE. Crédito: MiniMax

Aqui estão alguns dos novos destaques do benchmark MiniMax M2.5:

Banco SWE verificado: 80,2% – Corresponde às velocidades de Claude Opus 4,6
NavegarComp: 76,3% — Pesquisa e uso de ferramentas líderes do setor.
Banco Multi-SWE: 51,3% — SOTA em codificação multilíngue
BFCL (chamada de ferramenta): 76,8% — Fluxos de trabalho de agentes de alta precisão.

MiniMax M2.5 vários gráficos de barras de comparação de benchmarks. Crédito: MiniMax

No podcast ThursdAI, o apresentador Alex Volkov apontou que o MiniMax M2.5 opera extremamente rápido e, portanto, usa menos tokens para concluir tarefas, na ordem de US$ 0,15 por tarefa, em comparação com US$ 3,00 para Claude Opus 4.6.

Quebrando a barreira do custo

MiniMax está oferecendo duas versões do modelo por meio de sua API, ambas focadas no uso em produção de alto volume:

M2.5-Relâmpago: Otimizado para velocidade, entregando 100 tokens por segundo. Custa US$ 0,30 por 1 milhão de tokens de entrada e US$ 2,40 por 1 milhão de tokens de saída.
Padrão M2.5: Otimizado para custo, rodando a 50 tokens por segundo. Custa metade do preço da versão Lightning (US$ 0,15 por 1 milhão de tokens de entrada / US$ 1,20 por 1 milhão de tokens de saída).

Em linguagem simples: o MiniMax afirma que você pode administrar quatro “agentes” (trabalhadores de IA) continuamente durante um ano inteiro por cerca de US$ 10.000.

Para usuários corporativos, esse preço é aproximadamente 1/10 a 1/20 do custo de modelos proprietários concorrentes, como GPT-5 ou Claude 4.6 Opus.

Modelo	Entrada	Saída	Custo total	Fonte
Qwen3 Turbo	US$ 0,05	US$ 0,20	US$ 0,25	Nuvem Alibaba
deepseek-chat (V3.2-Exp)	US$ 0,28	US$ 0,42	US$ 0,70	DeepSeek
raciocinador de busca profunda (V3.2-Exp)	US$ 0,28	US$ 0,42	US$ 0,70	DeepSeek
Grok 4.1 Rápido (raciocínio)	US$ 0,20	US$ 0,50	US$ 0,70	xAI
Grok 4.1 Rápido (sem raciocínio)	US$ 0,20	US$ 0,50	US$ 0,70	xAI
MiniMax M2.5	US$ 0,15	US$ 1,20	US$ 1,35	MiniMax
MiniMax M2.5-Relâmpago	US$ 0,30	US$ 2,40	US$ 2,70	MiniMax
Pré-visualização em Flash do Gêmeos 3	US$ 0,50	US$ 3,00	US$ 3,50	Google
Kimi-k2.5	US$ 0,60	US$ 3,00	US$ 3,60	Tiro lunar
GLM-5	US$ 1,00	US$ 3,20	US$ 4,20	Z.ai
ERNIE 5.0	US$ 0,85	US$ 3,40	US$ 4,25	Baidu
Claude Haiku 4.5	US$ 1,00	US$ 5,00	US$ 6,00	Antrópico
Qwen3-Max (23/01/2026)	US$ 1,20	US$ 6,00	US$ 7,20	Nuvem Alibaba
Gêmeos 3 Pro (≤200K)	US$ 2,00	US$ 12,00	US$ 14,00	Google
GPT-5.2	US$ 1,75	US$ 14,00	US$ 15,75	OpenAI
Soneto de Claude 4.5	US$ 3,00	US$ 15,00	US$ 18,00	Antrópico
Gêmeos 3 Pro (>200K)	US$ 4,00	US$ 18,00	US$ 22,00	Google
Fechar Trabalho 4.6	US$ 5,00	US$ 25,00	US$ 30,00	Antrópico
GPT-5.2 Pró	US$ 21,00	US$ 168,00	US$ 189,00	OpenAI

Implicações estratégicas para empresas e líderes

Para os líderes técnicos, o M2.5 representa mais do que apenas uma API mais barata. Isso muda o manual operacional das empresas neste momento.

A pressão para “otimizar” os prompts para economizar dinheiro acabou. Agora você pode implantar modelos de alto contexto e raciocínio para tarefas rotineiras que antes tinham custos proibitivos.

A melhoria de 37% na velocidade na conclusão de tarefas de ponta a ponta significa que os pipelines “agentes” valorizados pelos orquestradores de IA – onde os modelos se comunicam com outros modelos – finalmente se movem com rapidez suficiente para aplicativos de usuário em tempo real.

Além disso, as pontuações elevadas do M2.5 em modelização financeira (74,4% no MEWC) sugerem que este pode lidar com o “conhecimento tácito” de indústrias especializadas, como o direito e as finanças, com supervisão mínima.

Como o M2.5 está posicionado como um modelo de código aberto, as organizações podem potencialmente executar auditorias de código intensivas e automatizadas em uma escala que antes era impossível sem intervenção humana massiva, ao mesmo tempo em que mantêm um melhor controle sobre a privacidade dos dados, mas até que os termos e pesos de licenciamento sejam publicados, isso permanece apenas um apelido.

O MiniMax M2.5 é um sinal de que a fronteira da IA não se trata mais apenas de quem pode construir o maior cérebro, mas de quem pode tornar esse cérebro o trabalhador mais útil – e acessível – da sala.

Fonte: Ventura Beat

Tecnologia: energia escassa e o avanço da CISPO

Benchmarks de última geração (e próximos)

Quebrando a barreira do custo

Implicações estratégicas para empresas e líderes

Deixe um comentário Cancelar resposta