Claude 3 Opus, o modelo de IA de próxima geração da Anthropic, ficou em primeiro lugar na tabela de classificação do Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo lugar pela primeira vez desde seu lançamento no ano passado.
As várias versões GPT-4 do OpenAI mantiveram o primeiro lugar por tanto tempo que qualquer outro modelo que se aproxime dos resultados de benchmark é conhecido como modelo da classe GPT-4. Talvez precisemos introduzir um novo modelo para a classe Claude-3 para classificações futuras.
É importante notar que a pontuação entre Claude 3 Opus e GPT-4 está muito próxima, e que o modelo OpenAI já foi lançado há um ano, com um GPT-5 “significativamente diferente” esperado para aparecer ainda este ano – então Anthropic pode não estar mantendo essa posição por muito tempo.
O que é uma arena de chatbot?
A Chatbot Arena é gerenciada pela LMSys, uma grande organização de sistemas de modelos, e apresenta uma ampla variedade de grandes modelos de linguagem lutando em batalhas aleatórias e anônimas.
Lançado pela primeira vez em maio do ano passado, ele coletou mais de 400.000 votos de usuários, com modelos da Anthropic, OpenAI e Google ocupando a maior parte dos 10 primeiros lugares durante esse período.
Recentemente, outros modelos da startup francesa de IA Mistral e de empresas chinesas como a Alibaba começaram a ocupar mais posições de destaque, e os modelos de código aberto estão cada vez mais presentes.
Arraste para rolar horizontalmente
Classificação
modelo
Elo
Votos
1
Claude-3 Opus
1253
33250
1
Pré-visualização do GPT-4-1106
1251
54141
1
Pré-visualização do GPT-4-0125
1248
34825
4
Gêmeos Profissional
1203
12476
4
Soneto Claude-3
1198
32761
6
GPT-4-0314
1185
33499
7
Nuvem-3 Haiku
1179
18776
8
GPT-4-0613
1158
51860
8
Mistral-Grande-2402
1157
26734
9
Qwen1.5-72B-Bate-papo
1148
20211
10
Cláudio-1
1146
21908
10
Mistral Médio
1145
26196
Ele usa o sistema de classificação Elo, amplamente utilizado em jogos como o xadrez, para calcular os níveis relativos de habilidade dos jogadores. Ao contrário do xadrez, desta vez a classificação é aplicada ao chatbot e não ao humano que utiliza o modelo.
Existem limitações para a arena, pois nem todos os modelos ou versões de modelos estão incluídos, às vezes os usuários descobrem que os modelos GPT-4 não carregam e modelos com acesso direto à Internet, como o Google Gemini Pro, podem ser preferidos.
A arena também está faltando alguns modelos notáveis, como o Google Gemini Pro 1.5 com a enorme janela de contexto e o Gemini Ultra.
Cloud 3 Haiku pode estar no nível GPT-4
Mais de 70.000 novos sons compõem a atualização mais recente que levou Claude 3 Opus ao topo da tabela de classificação, mas mesmo os menores modelos de Claude 3 tiveram um bom desempenho.
“O Claude-3 Haiku impressionou a todos, chegando até mesmo ao nível GPT-4 de acordo com as preferências do usuário! Sua velocidade, capacidades e extensão de contexto são agora incomparáveis no mercado”, explicou LMSYS.
O que torna isso ainda mais impressionante é que o Cloud 3 Haiku é um modelo de “tamanho local”, comparável ao Gemini Nano do Google. Ele alcança resultados impressionantes sem o enorme escalonamento de mais de um trilhão de parâmetros do Opus ou de qualquer um dos modelos da classe GPT-4.
Embora não seja tão inteligente quanto o Opus ou o Sonnet, o Haiku da Anthropic é muito mais barato, muito mais rápido e – como os resultados indicam – tão bom quanto modelos maiores em testes cegos.
Todos os três modelos Claude 3 estão entre os 10 primeiros com Opus em primeiro lugar, Sonnet em quarto lugar com Gemini Pro e Haiku em sexto lugar com uma versão anterior do GPT-4.
Uma vitória para modelos fechados de IA
Todos os 20 principais modelos de linguagem na tabela de classificação da Arena, exceto três, são proprietários, sugerindo que o código aberto tem algum trabalho a fazer para alcançar os grandes jogadores.
Meta, que é fortemente focada em IA de código aberto, deverá lançar o Llama 3 nos próximos meses, que provavelmente entrará no top 10, já que se espera que seja semelhante em capacidade ao Claude 3 – depois que Meta tiver todos os 300.000 + Nvidia H100 GPUs para treinar.
Também estamos vendo outras mudanças em direção à IA descentralizada e de código aberto, com o fundador da StabilityAI, Imad Mostafa, afastando-se das funções de CEO para se concentrar em uma IA mais distribuída e acessível. Ele disse que não é possível vencer a IA centralizada com uma IA mais centralizada.
Mais do guia do Tom