Forklog
2025-03-27 10:22:38

Утечка данных продемонстрировала масштабы цензуры в Китае

В сеть утекла база данных, которая загружена в сложную большую языковую модель (LLM) для автоматической фильтрации «чувствительного» для китайского правительства контента. С ней ознакомились в TechCrunch. Китай разработал ИИ-систему для «усиления и без того мощной машины цензуры», пишет издание. Затронутые темы выходят далеко за пределы традиционных табу вроде событий на площади Тяньаньмэнь и охватывают 133 000 примеров. Среди них: жалобы на бедность в сельских районах страны; новостной репортаж о подкупленном члене коммунистической партии; коррумпированные полицейские, преследующие предпринимателей. Система в первую очередь направлена на фильтрацию информации среди китайцев в интернете, но может применяться и для других целей. TechCrunch привел в пример усиление цензурных возможностей отечественных ИИ-моделей. Исследователь из Калифорнийского университета в Беркли Сяо Цян после ознакомления с документом подчеркнул желание властей применять LLM для усиления репрессий. «В отличие от традиционных механизмов цензуры, которые полагаются на человеческий труд для фильтрации по ключевым словам и ручной проверки, обученный таким инструкциям LLM значительно повысит эффективность и детализацию государственного контроля информации», — сказал он. Ситуация в очередной раз подчеркивает, что авторитарные режимы быстро осваивают новейшие технологии, отметили журналисты TechCrunch. LLM для выявления инакомыслия Документ обнаружил исследователь по безопасности под ником NetAskari в незащищенной базе данных Elasticsearch, размещенной на сервере Baidu. Нет точной информации о том, кто создал набор. Известно, что последние записи датируются декабрем 2024 года. Создатель системы поручил неназванной LLM выяснить, имеет ли контент отношение к чувствительным политическим темам, общественной жизни или армии. Он должен считаться самым приоритетным и быть немедленно помечен. Среди тем — скандалы, связанные с загрязнением окружающей среды и безопасностью продуктов питания, финансовые махинации и трудовые споры, которые могут привести к общественным протестам. Любая форма «политической сатиры» подвергается прямому преследованию. Например, если кто-то использует исторические аналогии для выражения мнения о «текущих политических деятелях», это должно быть немедленно помечено. Аналогично с «политикой Тайваня» и военной тематикой, в том числе передвижениях военных, учениях, вооружении. Китайское слово 台湾 (Тайвань) упоминается в базе более 15 000 раз. Фрагмент набора данных. Код в нем ссылается на маркеры подсказок и LLM. Это подтверждает, что система использует ИИ-модель для выполнения своих задач. Данные: TechCrunch. В одном из фрагментов упоминается анекдот о быстротечности власти — тема особенно чувствительная для Китая из-за его авторитарной политической системы, отмечает TechCrunch. Создано для «работы с общественным мнением» В документе нет информации о его создателе, однако в нем говорится о предназначении «для работы с общественным мнением». Это дает серьезный намек на то, что база системы служит целям китайского правительства, отметил руководитель азиатской программы правозащитной организации Article 19 Майкл Кастер. Он подчеркнул, что «работа с общественным мнением» контролируется мощным китайским государственным регулятором — Администрацией киберпространства Китая (CAC) — и обычно относится к цензуре и пропаганде. Конечная цель — обеспечить защиту нарративов китайского правительства в интернете и вытеснить любые альтернативные взгляды. Репрессии становятся умнее В феврале OpenAI опубликовала отчет, в котором говорится о неизвестном субъекте, вероятно, действующем из Китая, который использовал генеративный искусственный интеллект для мониторинга разговоров в социальных сетях. Анализировались беседы тех, кто выступает за протесты из-за нарушения прав человека в стране. Он пересылал их китайскому правительству. OpenAI также обнаружила, что технология используется для генерации комментариев, весьма критичных по отношению к известной китайской диссидентке Цай Ся. Традиционные методы цензуры опираются на базовые алгоритмы, которые автоматически блокируют контент с упоминанием терминов из черного списка вроде «бойня на Тяньаньмэнь» или «Си Цзиньпин». С этим многие пользователи столкнулись, впервые используя DeepSeek. Но новые ИИ-технологии могут сделать цензуру более эффективной, считают в TechCrunch. Они способы найти даже тонкую критику и регулярно совершенствоваться. «Я думаю, очень важно подчеркнуть, как развивается цензура, управляемая ИИ, делая государственный контроль над общественным мнением еще более изощренным, особенно в то время, когда китайские модели вроде DeepSeek набирают обороты», — сказал Цян. После резкого взлета популярности ИИ-моделей DeepSeek на компанию обратили внимание власти Китая. Сотрудники работают в новых, более жестких условиях, у некоторых изъяли паспорта. Напомним, в марте OpenAI рекомендовала правительству США запретить ИИ-модели китайской лаборатории, поскольку проект «субсидируется государством» и «контролируется им».