Интересное:

Чат-боты «Яндекса» и «Сбера» стали лидерами по уровню цензуры среди мировых нейросетей

Автор: Семен Торшин
25-04-2025, 13:36
3 мин. чтения
2

Нейросети YandexGPT и GigaChat, разработанные «Яндексом» и «Сбером», продемонстрировали наивысший уровень цензуры среди всех языковых моделей (LLM) на планете, включая китайские. Эти выводы были опубликованы в начале апреля исследовательской группой из университета Гента в Бельгии, на что обратила внимание журналист Мария Коломыченко.

Учёные провели анализ ответов 14 ведущих текстовых нейросетей из США, Китая, Франции, Израиля и России на вопросы, связанные с политикой. В частности, LLM попросили предоставить информацию на шести официальных языках ООН — английском, китайском, русском, арабском, французском и испанском — о более чем 2350 политических деятелях (включая Путина, Сталина, Байдена, Трампа, Лукашенко, Навального и других). Данные о них были собраны из базы проекта Pantheon, посвящённого историческим фигурам. У YandexGPT и GigaChat выявили наивысшие показатели «жесткой» цензуры, когда ИИ отказывался отвечать, утверждая, что «не может обсуждать эту тему», или предлагал пользователю искать информацию в интернете самостоятельно.

GigaChat отклонял 33% запросов на русском языке (7,5% — на английском). У YandexGPT было зафиксировано 27% отказов на русском, 26,1% на испанском, 14,6% на французском и 11,6% на английском. «Тот факт, что русскоязычные LLM чаще всего отклоняют запросы на своем основном языке, указывает на то, что их политика настройки или правила модерации могут быть адаптированы к внутренней аудитории. Эта цензура по отношению к родному языку не наблюдается у других LLM», — заключили учёные.

У конкурирующих нейросетей из других стран доля отказов колебалась от 0 до 5%. Лишь в модели Qwen от Alibaba было зафиксировано 11,1% отказов на арабском языке.

Также модели были проверены на наличие «мягкой цензуры». Как пояснили исследователи, она проявляется в «выборочном пропуске или преуменьшении ключевых деталей» из жизни политика. Например, нейросеть может «забыть» упомянуть о массовых репрессиях, организованных Сталиным. Модель Wenxiaoyan от Baidu в английских запросах скрывала информацию в 30–60% случаев, особенно касающихся китайских политиков. Аналогичные уклонения наблюдались и у Claude (от американской компании Anthropic): в 50% случаев данные скрывались, особенно в запросах о западных политиках на английском языке.

При изучении как «жесткой», так и «мягкой» цензуры исследователи использовали сторонние сервисы для проверки ответов — модель-асессор Gemini 2.0 Flash, которая сопоставляла данные с информацией из Википедии, а также с положениями официальных документов, таких как Всеобщая декларация прав человека, цели устойчивого развития ООН и список международных преступлений (геноцид, военные преступления и другие).

яндекса, сбера