Исследование обвиняет LM Arena в манипуляции AI-бенчмарками в пользу крупнейших компаний

Новое исследование от Cohere, Стэнфорда, MIT и AI2 обвинило LM Arena — оператора Chatbot Arena — в предоставлении привилегий крупнейшим AI-компаниям, включая Meta, Google, OpenAI и Amazon. По данным авторов, этим компаниям разрешили проводить обширное приватное тестирование своих моделей (например, Meta протестировала 27 вариантов Llama 4), при этом результаты худших версий не публиковались. Это дало им преимущество в публичных лидербордах.

Chatbot Arena — crowdsourced-бенчмарк, где пользователи сравнивают ответы двух моделей в "баттлах". Однако выбор моделей для участия и частота появления в баттлах существенно влияют на итоговый рейтинг. Исследователи проанализировали 2,8 млн таких сессий и обнаружили повышенную представленность моделей от ведущих компаний, что могло улучшить их результаты на сопутствующем бенчмарке Arena Hard на 112%.

LM Arena отвергла обвинения, сославшись на "неточности" в методологии и подчеркнув, что публиковала информацию о предпродакшн-тестах с марта 2024 года. Организация также заявила, что готова изменить алгоритм сэмплирования, чтобы уравнять шансы моделей. На фоне растущей критики LM Arena недавно объявила о запуске коммерческой компании и планах по привлечению инвестиций, что усиливает обеспокоенность по поводу её независимости.

← Назад в лентуЧитать оригинал →