Claude 3 Opus, o modelo de IA de próxima geração da Anthropic, ficou em primeiro lugar na tabela de classificação do Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo lugar pela primeira vez desde seu lançamento no ano passado.
Ao contrário de outras formas de medição de desempenho para modelos de IA,… Arena de chatbot LMSYS É baseado em votos humanos, onde as pessoas avaliam os resultados de dois modelos diferentes do mesmo prompt.
As várias versões GPT-4 do OpenAI mantiveram o primeiro lugar por tanto tempo que qualquer outro modelo que se aproxime dos resultados de benchmark é conhecido como modelo da classe GPT-4. Talvez precisemos introduzir um novo modelo para a classe Claude-3 para classificações futuras.
É importante notar que a pontuação entre Claude 3 Opus e GPT-4 está muito próxima, e que o modelo OpenAI já foi lançado há um ano, com um GPT-5 “significativamente diferente” esperado para aparecer ainda este ano – então Anthropic pode não estar mantendo essa posição por muito tempo.
O que é uma arena de chatbot?
A Chatbot Arena é gerenciada pela LMSys, uma grande organização de sistemas de modelos, e apresenta uma ampla variedade de grandes modelos de linguagem lutando em batalhas aleatórias e anônimas.
Lançado pela primeira vez em maio do ano passado, ele coletou mais de 400.000 votos de usuários, com modelos da Anthropic, OpenAI e Google ocupando a maior parte dos 10 primeiros lugares durante esse período.
Recentemente, outros modelos da startup francesa de IA Mistral e de empresas chinesas como a Alibaba começaram a ocupar mais posições de destaque, e os modelos de código aberto estão cada vez mais presentes.
Classificação | modelo | Elo | Votos |
---|---|---|---|
1 | Claude-3 Opus | 1253 | 33250 |
1 | Pré-visualização do GPT-4-1106 | 1251 | 54141 |
1 | Pré-visualização do GPT-4-0125 | 1248 | 34825 |
4 | Gêmeos Profissional | 1203 | 12476 |
4 | Soneto Claude-3 | 1198 | 32761 |
6 | GPT-4-0314 | 1185 | 33499 |
7 | Nuvem-3 Haiku | 1179 | 18776 |
8 | GPT-4-0613 | 1158 | 51860 |
8 | Mistral-Grande-2402 | 1157 | 26734 |
9 | Qwen1.5-72B-Bate-papo | 1148 | 20211 |
10 | Cláudio-1 | 1146 | 21908 |
10 | Mistral Médio | 1145 | 26196 |
Ele usa o sistema de classificação Elo, amplamente utilizado em jogos como o xadrez, para calcular os níveis relativos de habilidade dos jogadores. Ao contrário do xadrez, desta vez a classificação é aplicada ao chatbot e não ao humano que utiliza o modelo.
Existem limitações para a arena, pois nem todos os modelos ou versões de modelos estão incluídos, às vezes os usuários descobrem que os modelos GPT-4 não carregam e modelos com acesso direto à Internet, como o Google Gemini Pro, podem ser preferidos.
A arena também está faltando alguns modelos notáveis, como o Google Gemini Pro 1.5 com a enorme janela de contexto e o Gemini Ultra.
Cloud 3 Haiku pode estar no nível GPT-4
[Arena Update]Mais de 70.000 novos votos foram introduzidos em cena! Cloud-3 Haiku impressionou a todos, chegando até ao nível GPT-4 de acordo com as preferências de nossos usuários! Sua velocidade, capacidades e extensão de contexto são agora incomparáveis no mercado🔥 Parabéns à AnthropicAI pelo incrível lançamento do Claude-3! Mais emoção… pic.twitter.com/p1Guuf0B3K26 de março de 2024
Mais de 70.000 novos sons compõem a atualização mais recente que levou Claude 3 Opus ao topo da tabela de classificação, mas mesmo os menores modelos de Claude 3 tiveram um bom desempenho.
“O Claude-3 Haiku impressionou a todos, chegando até mesmo ao nível GPT-4 de acordo com as preferências do usuário! Sua velocidade, capacidades e extensão de contexto são agora incomparáveis no mercado”, explicou LMSYS.
O que torna isso ainda mais impressionante é que o Cloud 3 Haiku é um modelo de “tamanho local”, comparável ao Gemini Nano do Google. Ele alcança resultados impressionantes sem o enorme escalonamento de mais de um trilhão de parâmetros do Opus ou de qualquer um dos modelos da classe GPT-4.
Embora não seja tão inteligente quanto o Opus ou o Sonnet, o Haiku da Anthropic é muito mais barato, muito mais rápido e – como os resultados indicam – tão bom quanto modelos maiores em testes cegos.
Todos os três modelos Claude 3 estão entre os 10 primeiros com Opus em primeiro lugar, Sonnet em quarto lugar com Gemini Pro e Haiku em sexto lugar com uma versão anterior do GPT-4.
Uma vitória para modelos fechados de IA
Você não vencerá a IA centralizada com uma IA mais centralizada. Tudo em #DecentralizedAI Muito mais 🔜 https://t.co/SbEF5zoo0523 de março de 2024
Todos os 20 principais modelos de linguagem na tabela de classificação da Arena, exceto três, são proprietários, sugerindo que o código aberto tem algum trabalho a fazer para alcançar os grandes jogadores.
Meta, que é fortemente focada em IA de código aberto, deverá lançar o Llama 3 nos próximos meses, que provavelmente entrará no top 10, já que se espera que seja semelhante em capacidade ao Claude 3 – depois que Meta tiver todos os 300.000 + Nvidia H100 GPUs para treinar.
Também estamos vendo outras mudanças em direção à IA descentralizada e de código aberto, com o fundador da StabilityAI, Imad Mostafa, afastando-se das funções de CEO para se concentrar em uma IA mais distribuída e acessível. Ele disse que não é possível vencer a IA centralizada com uma IA mais centralizada.
Mais do guia do Tom
“Entrepreneur. Professional music nerd. Beer evangelist. Avid tv aficionado. Social mediaholic.”