Claude ocupa o primeiro lugar no ranking do chatbot AI, finalmente derrubando o GPT-4 para o segundo lugar

Claude 3 Opus, o modelo de IA de próxima geração da Anthropic, ficou em primeiro lugar na tabela de classificação do Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo lugar pela primeira vez desde seu lançamento no ano passado.

Ao contrário de outras formas de medição de desempenho para modelos de IA,… Arena de chatbot LMSYS É baseado em votos humanos, onde as pessoas avaliam os resultados de dois modelos diferentes do mesmo prompt.

As várias versões GPT-4 do OpenAI mantiveram o primeiro lugar por tanto tempo que qualquer outro modelo que se aproxime dos resultados de benchmark é conhecido como modelo da classe GPT-4. Talvez precisemos introduzir um novo modelo para a classe Claude-3 para classificações futuras.

É importante notar que a pontuação entre Claude 3 Opus e GPT-4 está muito próxima, e que o modelo OpenAI já foi lançado há um ano, com um GPT-5 “significativamente diferente” esperado para aparecer ainda este ano – então Anthropic pode não estar mantendo essa posição por muito tempo.

O que é uma arena de chatbot?

A Chatbot Arena é gerenciada pela LMSys, uma grande organização de sistemas de modelos, e apresenta uma ampla variedade de grandes modelos de linguagem lutando em batalhas aleatórias e anônimas.

Lançado pela primeira vez em maio do ano passado, ele coletou mais de 400.000 votos de usuários, com modelos da Anthropic, OpenAI e Google ocupando a maior parte dos 10 primeiros lugares durante esse período.

Recentemente, outros modelos da startup francesa de IA Mistral e de empresas chinesas como a Alibaba começaram a ocupar mais posições de destaque, e os modelos de código aberto estão cada vez mais presentes.

Arraste para rolar horizontalmente

Classificação	modelo	Elo	Votos
1	Claude-3 Opus	1253	33250
1	Pré-visualização do GPT-4-1106	1251	54141
1	Pré-visualização do GPT-4-0125	1248	34825
4	Gêmeos Profissional	1203	12476
4	Soneto Claude-3	1198	32761
6	GPT-4-0314	1185	33499
7	Nuvem-3 Haiku	1179	18776
8	GPT-4-0613	1158	51860
8	Mistral-Grande-2402	1157	26734
9	Qwen1.5-72B-Bate-papo	1148	20211
10	Cláudio-1	1146	21908
10	Mistral Médio	1145	26196

Ele usa o sistema de classificação Elo, amplamente utilizado em jogos como o xadrez, para calcular os níveis relativos de habilidade dos jogadores. Ao contrário do xadrez, desta vez a classificação é aplicada ao chatbot e não ao humano que utiliza o modelo.

Existem limitações para a arena, pois nem todos os modelos ou versões de modelos estão incluídos, às vezes os usuários descobrem que os modelos GPT-4 não carregam e modelos com acesso direto à Internet, como o Google Gemini Pro, podem ser preferidos.

A arena também está faltando alguns modelos notáveis, como o Google Gemini Pro 1.5 com a enorme janela de contexto e o Gemini Ultra.

Cloud 3 Haiku pode estar no nível GPT-4

[Arena Update]Mais de 70.000 novos votos foram introduzidos em cena! Cloud-3 Haiku impressionou a todos, chegando até ao nível GPT-4 de acordo com as preferências de nossos usuários! Sua velocidade, capacidades e extensão de contexto são agora incomparáveis no mercado🔥 Parabéns à AnthropicAI pelo incrível lançamento do Claude-3! Mais emoção… pic.twitter.com/p1Guuf0B3K26 de março de 2024

Ver mais

Mais de 70.000 novos sons compõem a atualização mais recente que levou Claude 3 Opus ao topo da tabela de classificação, mas mesmo os menores modelos de Claude 3 tiveram um bom desempenho.

READ As melhores ofertas do Mario Day da Nintendo

“O Claude-3 Haiku impressionou a todos, chegando até mesmo ao nível GPT-4 de acordo com as preferências do usuário! Sua velocidade, capacidades e extensão de contexto são agora incomparáveis no mercado”, explicou LMSYS.

O que torna isso ainda mais impressionante é que o Cloud 3 Haiku é um modelo de “tamanho local”, comparável ao Gemini Nano do Google. Ele alcança resultados impressionantes sem o enorme escalonamento de mais de um trilhão de parâmetros do Opus ou de qualquer um dos modelos da classe GPT-4.

Embora não seja tão inteligente quanto o Opus ou o Sonnet, o Haiku da Anthropic é muito mais barato, muito mais rápido e – como os resultados indicam – tão bom quanto modelos maiores em testes cegos.

Todos os três modelos Claude 3 estão entre os 10 primeiros com Opus em primeiro lugar, Sonnet em quarto lugar com Gemini Pro e Haiku em sexto lugar com uma versão anterior do GPT-4.

Uma vitória para modelos fechados de IA

Você não vencerá a IA centralizada com uma IA mais centralizada. Tudo em #DecentralizedAI Muito mais 🔜 https://t.co/SbEF5zoo0523 de março de 2024

Ver mais

Todos os 20 principais modelos de linguagem na tabela de classificação da Arena, exceto três, são proprietários, sugerindo que o código aberto tem algum trabalho a fazer para alcançar os grandes jogadores.

Meta, que é fortemente focada em IA de código aberto, deverá lançar o Llama 3 nos próximos meses, que provavelmente entrará no top 10, já que se espera que seja semelhante em capacidade ao Claude 3 – depois que Meta tiver todos os 300.000 + Nvidia H100 GPUs para treinar.

READ Round Up: Os comentários voltam para Monkey Island

Também estamos vendo outras mudanças em direção à IA descentralizada e de código aberto, com o fundador da StabilityAI, Imad Mostafa, afastando-se das funções de CEO para se concentrar em uma IA mais distribuída e acessível. Ele disse que não é possível vencer a IA centralizada com uma IA mais centralizada.

Mais do guia do Tom

Benedicto Cabral

“Entrepreneur. Professional music nerd. Beer evangelist. Avid tv aficionado. Social mediaholic.”

bps.pt

Claude ocupa o primeiro lugar no ranking do chatbot AI, finalmente derrubando o GPT-4 para o segundo lugar

Deixe um comentário Cancelar resposta

Os Patriots escolheram Jacoby Brissett como quarterback titular em vez de Drake May

Black Myth: a atualização 1.0.8.14860 do Wukong inclui algumas correções importantes e enfraquece um chefe em particular

Japão: Tufão Shanshan: Milhões de pessoas são instruídas a evacuar depois que um dos tufões mais fortes em décadas atinge o Japão

Kamala Harris dá primeira entrevista importante como indicada em grande teste de autenticidade | Eleições dos EUA 2024