Arena Elo基准测试：谷歌Gemini 1.5 Pro性能媲美OpenAI GPT-4o

IT之家5月30日消息，谷歌在I/O2024开发者大会上，宣布将上下文窗口增加至200万个tokens，那么性能究竟有多强悍？

根据LMSYSOrg公布的总排行榜对比，通过ArenaElo系统的测量，和Gemini-Advanced-0514都接近GPT-4o。

上述两款模型在中文方面的表现也非常游戏，在“hardprompts”类别中也非常接近。

IT之家注：ArenaElo系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型（LLMs）的技能，并像国际象棋中的Elo系统一样更新用户的评分，整体而言更加客观。