Нейроскомнагляд. Чим користується РКН, щоб стежити за інтернетом — і хто йому в цьому допомагає

 



Нейроскомнагляд. Чим користується РКН, щоб стежити за інтернетом — і хто йому в цьому допомагає

zona.media
13 хв

Знайти та заборонити. «Яндекс» та «Чистий інтернет»

В отриманому нами архіві міститься більше 680 листів із згадкою корпоративної пошти «Яндекса» у період з 2014 до 2022 року. Більше половини з них — це листування всередині самого Роскомнагляду: наприклад, співробітники ГРЧЦ у листах один одному обговорювали, яку контактну адресу «Яндекса» вказувати під час заповнення карток для реєстру.

Інша частина – це листування між «Яндексом» та ГРЧЦ. Більшість цих листів — стандартна кореспонденція між російською IT-компанією та державою, де компанія пояснює, чому не варто блокувати ті чи інші сторінки. Наприклад, Роскомнагляд кілька разів вносив у реєстр пошукову видачу "Яндекса", сервіс зі скорочення посилань click.ru або кілька сторінок "Яндекс.Турбо".

Деякі зустрічі з представниками Яндекса проходили офлайн. Вріо начальника управління з роботи з автоматизацією відділу засобів масової комунікації ДРЧЦ Анастасія Волкова у листуванні з колегами згадує дві з них: наприкінці 2019 року та на початку 2020 року.

На одній із них, за словами Волкової, представники Яндекса «консультували нас [ГРЧЦ] з питань нейромереж». Згадок про те, що йшлося про якусь адресну консультацію, знайти не вдалося; ймовірно, представниця ГРЧЦ має на увазі спільну участь в одній із конференцій.

Волкова також писала, що на цих зустрічах співробітники IT- компанії розповідали про свій API для пошуку в інтернеті – йдеться про Яндекс. XML - і нібито пообіцяли зняти ліміт на запити для потреб Роскомнагляду.

Ця обіцянка була дуже доречною. 2020 року ГРЧЦ почав розробляти для Роскомнагляду систему «Чистий інтернет». Вона була задумана як заміна вже існуючим автоматизаціям пошуку «забороненого» контенту — але з упором використання нейронних мереж, а чи не на словники ключових слів.

Керівник департаменту ведення реєстрів забороненої інформації Іван Зуєв у травні 2020 року в описі стратегії розвитку ГРЧЦ писав: «ефективність діяльності ГРЧЦ у соцмережах низька», автоматизовано лише пошук дитячої порнографії та «суїцидального контенту».

«Чистий інтернет» — або АС ЧІ — мала збирати матеріали за пріоритетним списком джерел та за соцмережами та за допомогою нейромереж знаходити порушення за широким списком: екстремізм, тероризм, заклики до участі у масових заходах, «пропаганда нетрадиційних відносин» та образу держсимволів.

У презентаціях про систему ГРЧЦ обіцяла, що після виходу на проектну потужність «Чистий інтернет» покриватиме 100% рунета — за винятком стрімінгових сервісів, якими має займатись інша система — АС МАВР .

Головна проблема, що стояла перед ГРЧЦ при розробці цієї системи, — як шукати дані по всьому інтернету. Її неможливо було вирішити без співпраці з пошуковими системами.

У травні 2020 року Анастасія Волкова вирішила нагадати "Яндексу" про доступ до API пошуку. Вона пише директору з розвитку технологій штучного інтелекту «Яндекса» Олександру Крайнову і скаржиться на обмеження сервісу — лише тисяча запитів на день:

«Олександре, добрий день!

Мене звуть Анастасія, начальник управління розвитку автоматизації засобів масових комунікацій ФГУП ГРЧЦ.

У тому році восени Ви з колегами консультували нас з питань нейромереж.

Ми потихеньку плануємо роботи з АПІ Яндекса, до кінця року маємо реалізувати. Є одне питання, чи не знаю, до Вас він чи ні, але Григорій [Бакунов] підказав саме Вас. Якщо не до Вас, будь ласка підкажіть, кому його можна задати.

За доступною API зараз є суттєві обмеження, для нас це дуже мало. Наскільки я пам'ятаю, на перших зустрічах Ви або Ваші колеги згадували, що по необхідності можете допомогти у знятті обмежень.

Обмеження зараз 1000 запитів на добу, 50 запитів на годину.

А хотілося б хоча б 100К на добу.

Підкажіть, чи можна розширити для нас обмеження?

У наступному листі Волкова уточнює: Роскомнагляд планує використовувати API , щоб «моніторити інтернет щодо порушень Федерального Закону».

На цьому етапі "Яндекс" відмовляє. Колегам Волкова пише, що компанія послалася на те, що не може дати розширений доступ безкоштовно, а комерційне розширення доступу передбачає не лише оплату, а й обмін трафіком — а трафіку на власних ресурсах Роскомнагляд не має.

З листування також можна зрозуміти, що в ГРЧЦ розглядали й інші пошукові системи, наприклад, Rambler , Google або «Супутник», але міли їх. У звіті про запуск АС ЧІ пояснюється: Google - платний, Rambler - це той самий пошук "Яндекса", а "Супутник" не індексувався вже кілька років.

Подальшого листування з Яндексом з приводу API в отриманому нами архіві немає. Найімовірніше, спілкування він узяв безпосередньо Роскомнадзор. У грудні 2020 року Волкова через начальника Управління контролю та нагляду у сфері електронних комунікацій РКН Євгена Зайцева знову пише у «Яндекс». І якщо раніше йшлося про збільшення ліміту з тисячі до ста тисяч на добу, то тепер просять дати триста тисяч запитів на два облікові записи:

«Просимо від Яндекса збільшити ліміти для світового пошуку до 300 тисяч запитів на день для двох облікових записів:

Поточні ліміти: 10 тисяч запитів до світового пошуку на добу на обліковий запис.

Якщо виникне питання, чому два облікові записи: забезпечить стабільність і відмовостійкість у частині розподілу навантаження між двома нодами (групами серверів)».

У 2021 році — точну дату «Медіазоні» встановити не вдалося — «Яндекс» все ж таки піддався на тиск Роскомнагляду. Компанія збільшила для облікових записів РКН ліміт запитів на 300 тисяч на добу — це згадується у звітах ГРЧЦ про розгортання системи.

Пошук "Яндекса" - це ключовий компонент збору даних для "Чистого інтернету". Друга частина цього збору — краулер для соцмереж, розроблений ТОВ «Вектор Ікс». Він шукає пости у «ВКонтакті», Однокласниках, Моєму Світі, «Відповідях.Мейл.Ру», «Живому журналі» та частково — у телеграмі та ютубі. У 2023 році, згідно з планами ГРЧЦ, до списку додадуть фейсбук, інстаграм, твіттер, тикток, Яндекс.Дзен і рутьюб.

API "Яндекса" згадується у звітах про розгортання "Чистого інтернету" до січня 2022 року - і, ймовірно, використовується досі. Додавання пошуку від Mail.ru заплановано на 2023 рік, а Google - на 2024 рік.

25 лютого 2022 року, через добу після початку війни, «Чистий інтернет» підключили до пошуку постів та коментарів із «закликами до незаконних мітингів щодо ситуації в Україні».

Ще один продукт "Яндекса", який використовував Роскомнагляд - це "Толока". Це краудсорсинговий сервіс, що допомагає готувати набори даних для машинного навчання.

«Толока» працює так: замовник укладає договір з «Яндексом» та завантажує у сервіс прості завдання — наприклад, класифікувати зображення, які будуть використані для навчання моделей. Завдання розподіляються між людьми, які реєструються у сервісі; вони виконують їх і одержують за це невелику грошову винагороду з бюджету замовника.

Згадка «Толоки» у пошті ГРЧЦ зустрічається з осені 2021 по лютий 2022 року. Слідів будь-яких переговорів із «Яндексом» щодо використання цього сервісу в архіві немає.

Приблизно півроку використав ГРЧЦ «Толоку» для того, щоб його співробітники розмічали зображення на тему «суїцидальний контент». Так відомство готувало дані для моделі, яка мала стати частиною Єдиного модуля аналізу — ІІ «Чистого інтернету».

В останньому доступному звіті, підготовленому 24 лютого 2022 року, зазначається, що за весь час роботи оператори СМК розмітили понад 120 тисяч зображень, а до закінчення робіт потрібно було розмітити ще 150 тисяч. У листуванні можна знайти і складання «графіків чергувань» — у них ГРЧЦ планував, хто працюватиме з «Толокою» наступного місяця, особливо у вихідні та святкові дні.

Ступінь кооперації «Яндекса» з Роскомнаглядом та ГРЧЦ по «Толоці» неясна. Головне питання — чи домовлявся Роскомнагляд з Яндексом про те, щоб Толоку можна було використовувати для розподілу завдань тільки між своїми співробітниками, а не між випадковими виконавцями.

Залучення власних виконавців доступне у версії Toloka In-House , яку "Яндекс" запустив восени 2022 року. У прес-службі "Яндекса" "Медіазон" повідомили, що компанія ніколи не надавала Роскомнагляду доступ до режиму in-house в "Толоку".

Співрозмовник «Медіазони», який працював з «Толокою», розповів, що платформа мала можливість видавати завдання лише перевіреній категорії користувачів, які мали більший досвід у системі та уклали додаткові договори з «Яндексом».

За його словами, така опція використовувалася у внутрішніх проектах IT- компанії. Співрозмовник «Медіазони» припустив, що у такий же спосіб завдання у «Толоці» могли передавати співробітникам ГРЧЦ — наприклад, відібравши «перевірених користувачів» виключно серед своїх співробітників за їх email -адресами.

Ще одна частина проекту «Чистий інтернет» – це бот-ферма. Її розробляють усередині самого ГРЧЦ; фінальну версію, згідно з згаданими у листах планами, мають подати у травні 2023 року.

Мета такої бот-ферми відрізняється від звичної: фальшиві облікові записи служать не для того, щоб публікувати якісь повідомлення, а для того, щоб збирати пости в соцмережах — у тому числі із закритих груп та спільнот.

«Точки інформаційної напруженості»: «Депрь», «Окулус» та МФТІ

Назвати «Яндекс» компанією, яка допомагала будувати систему контролю за російським інтернетом, досить важко: IT-гігант дав ГРЧЦ до двох сервісів — і, наскільки можна судити з листування, зробив це не на першу вимогу. Але є й ті, хто повноцінно співпрацював із Роскомнаглядом та розробляв для них цілі продукти.

У вересні 2021 року журналісти знайшли на держзакупівлях два опубліковані ДРЧЦ контракти: один — на концепцію системи для аналізу зображень та відео «Окулус», а другий — на концепцію більшої системи «Вепр». Обидва тендери виграв Московський фізико-технологічний інститут (МФТІ): концепцію «Вепря» оцінили в 10 млн. рублів, а концепцію «Окулуса» - в 14 млн. рублів.

У десятках звітів та різноманітних планах розвитку ГРЧЦ називає «Вепр» ключовим напрямом. Система потрібна для того, щоб моніторити і навіть прогнозувати так звані точки інформаційної напруженості.

Опис «Вепря» загалом схожий на «Чистий інтернет»: це збір постів та публікацій в інтернеті та їх аналіз за допомогою штучного інтелекту. Однак у «Вепрі» акцент робиться не на пошук контенту для реєстру, а на його глибокий аналіз — наприклад, відпрацювання деяких сценаріїв, які оператори ГРЧЦ зможуть вносити до системи. Як аналог наводиться розробка АТ «РТІ» для Міноборони вартістю 1.5 млрд рублів - вона «багато в чому схожа на ІС Вепр в рамках протидії інформаційним атакам».

Наукове обґрунтування «Вепря» виконала кафедра машинного навчання та цифрової гуманітаристики МФТІ. Над документом працювали десятки працівників; він складається з посилань до філософів Макіавеллі та Ортеге-і-Гассету та мемов, наприклад, з Путіним та Геббельсом, а також математичних принципів роботи мовних моделей.

Величезну увагу в МФТІ при розробці приділили й класифікації цих самих «точок інформаційної напруженості»: у підготовленому ними 500-сторінковому погано структурованому документі всі можливі загрози наводяться в різнобій: тероризм і екстремізм, критика влади та несистемна опозиція, «пропаганда ЛГБТ», «пропаганда ЛГБТ» , ухилення від армії, «групи смерті», «образливі арт-акції», методи Джина Шарпа і навіть «колекція власних козявок чи підстрижених нігтів».

При цьому самою розробкою "Вепря" МФТІ займатися не дали - контракт отримала компанія "НеоБІТ" з Петербурга.

Ще одна розроблена в МФТІ концепція – це «Окулус», система штучного інтелекту для розпізнавання забороненої інформації у відео та на картинках. В обґрунтуванні проекту ГРЧЦ скаржиться, що зараз співробітники відомства змушені все переглядати вручну, що неможливо через величезний поток інформації.

МФТІ розповіли ГРЧЦ про можливості розпізнавання осіб на зображеннях (окремо підкреслено можливість розпізнавання осіб у масках), перетворення написів на зображеннях у текст, а також класифікацію зображень та відео за категоріями: мітинги, суїцидальний контент, руфери та зачепери, заборонені логотипи та символіка. У наведеному у звіті прикладі нейромережа розпізнала емблему НАТО як символіку АУЄ.

В одному з документів перераховуються аналогічні системи, які можна було б купити для «підстрахування»: наприклад, систему пошуку «забороненого контенту» було розроблено ТОВ «ОКАС» для Центру вивчення та мережевого моніторингу молодіжного середовища, а для розпізнавання осіб МФТІ рекомендує аналоги від тієї ж ТОВ «ОКАС», NtechLab , VisionsLabs , ФГУП «ДержНДІАС» та ДІТ Москви.

У серпні 2022 року тендер на розробку «Окулуса» вартістю 57,7 млн ​​рублів виграла ТОВ «Ексік'юшн Ер Ді Сі». Дедлайн виконання – грудень 2022 року. Як зазначав "Комерсант", раніше ця компанія не виступала підрядником у держзакупівлях.

Brand Analytics та тисячі сторінок звітів

Ще одна велика компанія, послугами якої активно користується ГРЧЦ - це Brand Analytics .

На своєму сайті BA називає себе лідером моніторингу та аналізу соцмедіа та ЗМІ. Напрямки роботи - аналіз бренду, пошук згадок, робота з аудиторією та реагування на відгуки користувачів. Серед клієнтів Brand Analytics – великі російські компанії, банки, а також «органи державного управління, міністерства та відомства».

Запити ГРЧЦ до Brand Analytics також схожі на те, що планує Роскомнагляд у «Чистому інтернеті». Клієнти BA можуть шукати публікації за ключовими словами - а на виході отримувати звіти з детальною статистикою, індексами цитування, аналізом аудиторії та тональною оцінкою публікації. Окрім соцмереж, аналізуються й ЗМІ, зокрема скани газет, розшифрування ефірів та закриті стрічки інформагентств.

Вперше використання Brand Analytics згадується у листуванні ГРЧЦ у грудні 2021 року, а за місяць ГРЧЦ випускає перший докладний звіт про використання системи.

У звіті йдеться про те, що ГРЧЦ купили максимальний тариф, який дозволяє вивантажувати до 5 млн матеріалів на місяць. Серед тем, які цікавили ГРЧЦ — аналіз щоденних протестних настроїв на федеральному та регіональному рівнях, пошук негативу до Володимира Путіна, ШОС, ЄАЕС та БРІКС, звіти щодо «козаків» та «Еху Москви», «спотворення історії ВВВ», «пропаганда ЛГБТ» .

Окремо у звіті згадані термінові теми, запити на які виникали в чатах Telegram - але їх зміст не розкривається.

Після початку російського вторгнення в Україну ГРЧЦ починає використовувати Brand Analytics , щоб шукати заклики до антивоєнних мітингів та «фейки» про дії російської армії — наприклад, про вбивства мирного населення та знищення соціальної інфраструктури.

Окремо заводяться теми «Фейк арешт Путіна» та «Фейк Патріарх Кирило закликав зупинити війну».

У жовтні 2022 року до тем додалися військовополонені, мобілізація, «конспірологічні теорії, пов'язані з забобонами та прогнозами», ядерна війна, «критичний стан здоров'я Президента РФ В.В. Путіна», «загальна криза російської економіки».

У листуванні можна знайти і кілька тисяч прикладів підсумкових звітів з тем, у тому числі щоденних. Вони являють собою ексель-таблички, в які зібрані всі знайдені за темами публікації та їхня статистика. Наводяться повністю тексти постів, їх аналіз — наприклад, тональність і наявність агресії, кількість ріпостів і лайків, а також аналіз автора публікації — ім'я, місто або регіон, зазначений у віковому профілі.

«Дуалізм» та «МАВР»

ГРЧЦ має ще два скромніші за завданнями та масштабами проекти, які пов'язані зі штучним інтелектом. Перший – це автоматизована система моніторингу аудіовізуальних ресурсів (АС МАВР).

АС МАВР має відповідати за пошук забороненої інформації у фільмах та серіалах на стрімінгових сервісах. Систему 2021 року розробив давній підрядник ГРЧЦ, компанія «Е.Софт». Докладніше про «Е.Софт» та мільярдні контракти з РКН можна почитати на «Медузі».

У проектних документах для розробки МАВР зазначено, що зараз співробітники ГРЧЦ дивляться серіали та ефіри телеканалів самі, сподіваючись знайти якісь порушення. АС МАВР має звільнити їх від цієї роботи, але чи функціонує вона, досі незрозуміло.

У 2021 році АС МАВР була здатна лише збирати метадані до фільмів за допомогою публічних API IMDB та «Кінопошуку». У 2022 році її почали доопрацьовувати; одним з основних завдань називали якраз повну автоматизацію та передачу контенту в Єдиний модуль аналіз, де заборонену інформацію шукатиме ІІ. Слідів роботи нової версії цієї системи «Медіазон» знайти не вдалося.

Ще один пов'язаний із відеоконтентом проект ГРЧЦ називається «Дуалізм». Відомство хоче шукати "дипфейки" за допомогою нейромереж; цю розробку профінансовано Фондом перспективних досліджень.

У проектних документах співробітники наголошують на небезпеці «дипфейків» та перспективності спрямування протидії їм. Сама система ще не розроблена.

"Медіазону" продовжує вивчати архів пошти ГРЧЦ. У наступних публікаціях ми розповімо про інші напрямки роботи Роскомнагляду. Підписуйтесь на наш Telegram щоб нічого не пропустити.

Редактор: Дмитрий Трещанин 



Neuroskomnadzor. What does the RKN use to monitor the Internet - and who helps him with this

zona.media
13 min

Find and ban. "Yandex" and "Clean Internet"

The archive we received contains more than 680 letters mentioning Yandex corporate mail from 2014 to 2022. More than half of them are correspondence within Roskomnadzor itself: for example, employees of the GRChTs discussed in letters to each other which Yandex contact address to indicate when filling out cards for the registry.

The other part is the correspondence between Yandex and the GRFC. Most of these letters are standard correspondence between a Russian IT company and the state, in which the company explains why certain pages should not be blocked. For example, Roskomnadzor several times entered the Yandex search results, the click.ru link shortening service, or several Yandex.Turbo pages into the registry.

Some meetings with Yandex representatives were held offline. Anastasia Volkova, Acting Head of the Department for Work with Automation of the Mass Communications Department of the GRFC, mentions two of them in correspondence with colleagues: at the end of 2019 and at the beginning of 2020.

At one of them, according to Volkova, Yandex representatives "advised us [GRCHTS] on neural networks." It was not possible to find any references to the fact that it was some kind of targeted consultation; probably, the representative of the GRFC means joint participation in one of the conferences.

Volkova also wrote that at these meetings, employees of the IT company talked about their API for searching the Internet - we are talking about Yandex. XML - and allegedly promised to remove the limit on requests for the needs of Roskomnadzor.

This promise came in very handy. In 2020, the GRFC began developing the Clean Internet system for Roskomnadzor. It was conceived as a replacement for the already existing “forbidden” content search automation, but with an emphasis on the use of neural networks rather than keyword dictionaries.

In May 2020, the head of the department for maintaining registers of prohibited information, Ivan Zuev, wrote in a description of the development strategy of the GRFC: “the effectiveness of the GRFC in social networks is low”, only the search for child pornography and “suicidal content” is automated.

"Clean Internet" - or AS CHI - was supposed to collect materials on a priority list of sources and social networks and, using neural networks, find violations on a wide list: extremism, terrorism, calls for participation in mass events, "propaganda of non-traditional relations" and insulting state symbols.

In presentations about the system, the GRCHTs promised that after reaching its design capacity, Clean Internet would cover 100% of the RuNet - with the exception of streaming services, which should be handled by another system - AS MAVR .

The main problem that the GRFC faced when developing this system was how to search for data all over the Internet. It was impossible to solve it without cooperation with the search engines.

In May 2020, Anastasia Volkova decided to remind Yandex about access to the search API . She writes to Alexander Krainov, director of development of artificial intelligence technologies at Yandex, and complains about the limitations of the service - only a thousand requests a day:

“Alexander, good afternoon!

My name is Anastasia, Head of the Department for the Development of Automation of Mass Communications of the Federal State Unitary Enterprise GRChTs.

That autumn, you and your colleagues advised us on neural networks.

We are slowly planning work with the Yandex API, and should implement it by the end of the year. There is one question, I don’t know if it’s for you or not, but Grigory [Bakunov] prompted you. If not to you, tell me please, to whom it can be asked.

There are now significant limitations on the available API, for us it is very small. As far as I remember, at the first meetings you or your colleagues mentioned that, if necessary, you can help in lifting the restrictions.

The limit is now 1000 requests per day, 50 requests per hour.

And I would like at least 100K per day.

Tell me, is it possible to expand the restrictions for us?

In the next letter, Volkova elaborates: Roskomnadzor plans to use the API to “monitor the Internet for violations of the Federal Law.”

At this stage, Yandex fails. Volkova writes to her colleagues that the company referred to the fact that it cannot give extended access for free, and the commercial expansion of access implies not only payment, but also the exchange of traffic - and Roskomnadzor does not have traffic on its own resources.

From the correspondence, one can also understand that other search engines were also considered in the GRFC - for example, Rambler , Google or Sputnik - but brushed them aside. The report on the launch of AS CHI explains: Google is paid, Rambler is the same Yandex search, and Sputnik has not been indexed for several years.

There is no further correspondence with Yandex regarding the API in the archive we received. Most likely, Roskomnadzor directly took over the communication. In December 2020, Volkov, through the head of the Department for Control and Supervision in the Sphere of Electronic Communications of the RKN, Yevgeny Zaitsev, again writes to Yandex. And if earlier it was about increasing the limit from a thousand to a hundred thousand a day, now they are asking for three hundred thousand requests for two accounts:

“We ask Yandex to increase global search limits to 300,000 queries per day for two accounts:

Current limits: 10,000 global search requests per day per account.

If the question arises, why two accounts: it will provide stability and fault tolerance in terms of load distribution between two nodes (groups of servers)."

In 2021 - the exact date was not established by Mediazona - Yandex nevertheless succumbed to the pressure of Roskomnadzor. The company has increased the request limit for RKN accounts by 300 thousand per day - this is mentioned in the GRFC reports on the deployment of the system.

Yandex search is a key component of data collection for the Clean Internet. The second part of this collection is a crawler for social networks, which was developed by Vector X LLC. He searches for posts on VKontakte, Odnoklassniki, My World, Answers.Mail.Ru, LiveJournal, and partially in Telegram and YouTube. In 2023, according to the plans of the GRFC, Facebook, Instagram, Twitter, Tiktok, Yandex.Zen and Rutube will be added to the list.

The Yandex API is mentioned in Clean Internet deployment reports until January 2022, and is likely still in use. Adding search from Mail.ru is scheduled for 2023, and Google for 2024.

On February 25, 2022, a day after the start of the war, Clean Internet was connected to a search for posts and comments with “calls for illegal rallies on the situation in Ukraine.”

Another Yandex product used by Roskomnadzor is Toloka. It is a crowdsourced service that helps prepare machine learning datasets.

Toloka works like this: the customer enters into an agreement with Yandex and uploads simple tasks to the service — for example, to classify images that will be used to train models. Tasks are distributed among people who register in the service; they fulfill them and receive a small monetary reward from the customer's budget for this.

The mention of Toloka in the mail of the GRFC occurs from the fall of 2021 to February 2022. There are no traces of any negotiations with Yandex regarding the use of this service in the archive.

For about half a year, he used Toloka GRCHTS to have its employees mark up images on the topic “suicidal content”. So the department prepared data for the model, which was supposed to become part of the Unified Analysis Module - AI of the Clean Internet.

The latest available report, prepared on February 24, 2022, states that over the entire period of work, QMS operators have marked up more than 120 thousand images, and before the end of the work it was necessary to mark up another 150 thousand. In the correspondence, one can also find the compilation of "duty schedules" - in them, the GRCHTS planned who would work with Toloka next month, especially on weekends and holidays.

The extent of Yandex's cooperation with Roskomnadzor and the GRCHTS on Toloka is unclear. The main question is whether Roskomnadzor agreed with Yandex that Toloka could be used to distribute tasks only among its employees, and not between random performers.

Attracting your own performers is available in the Toloka In-House version , which Yandex launched in the fall of 2022. The press service of Yandex told Mediazone that the company had never provided Roskomnadzor with access to the in-house mode in Toloka.

Mediazona's interlocutor, who worked with Toloka, said that the platform had the ability to issue tasks only to a verified category of users who had more experience in the system and entered into additional agreements with Yandex.

According to him, this option was used in the internal projects of the IT company. The interlocutor of "Mediazona" admitted that in the same way tasks in "Toloka" could be transferred to the employees of the GRFC - for example, by selecting "verified users" exclusively among their employees by their email addresses.

Another part of the Clean Internet project is the bot farm. It is being developed within the GRFC itself; the final version, according to the plans mentioned in the letters, should be submitted in May 2023.

The purpose of such a bot farm is different from the usual one: fake accounts are used not to publish any messages, but to collect posts on social networks, including those from closed groups and communities.

"Points of information tension": "Vepr", "Oculus" and MIPT

It is rather difficult to call Yandex the company that helped build the control system for the Russian Internet: the IT giant gave the GRFC to two services - and, as far as can be judged from the correspondence, did not do it on demand. But there are those who fully cooperated with Roskomnadzor and developed entire products for them.

In September 2021, journalists found two public procurement contracts published by the GRFC: one for the concept of the Oculus image and video analysis system, and the second for the concept of the more extensive Vepr system. Both tenders were won by the Moscow Institute of Physics and Technology (MIPT): the Vepr concept was valued at 10 million rubles, and the Oculus concept at 14 million.

In dozens of reports and various development plans, the GRFC calls Vepr a key area. The system is needed in order to monitor and even predict the so-called "points of information tension".

The description of Vepr is generally similar to the Clean Internet: it is the collection of posts and publications on the Internet and their analysis using artificial intelligence. However, in Vepr, the emphasis is not on searching for content for the registry, but on its in-depth analysis - for example, working out some scenarios that GRFC operators can enter into the system. As an analogue, the development of RTI JSC for the Ministry of Defense worth 1.5 billion rubles is given - it is "in many ways similar to the Vepr information system in the framework of countering information attacks."

The scientific substantiation of Vepr was carried out by the Department of Machine Learning and Digital Humanities of the Moscow Institute of Physics and Technology. Dozens of employees worked on the document; it consists of references to the philosophers Machiavelli and Ortega y Gasset and memes, for example, with Putin and Goebbels, as well as the mathematical principles of how language models work.

During development, the MIPT paid great attention to the classification of these very “points of information tension”: in the 500-page poorly structured document prepared by them, all possible threats are given separately: terrorism and extremism, criticism of the authorities and non-systemic opposition, “LGBT propaganda”, childfree, drug addiction , army evasion, "death groups", "abusive art acts", Gene Sharp's methods, and even "collecting one's own boogers or clipped nails".

At the same time, the MIPT was not allowed to engage in the development of Vepr itself - the contract was received by the NeoBIT company from St. Petersburg.

Another concept developed at MIPT is Oculus, an artificial intelligence system for recognizing prohibited information in videos and pictures. In the rationale for the project, the GRFC complains that now the employees of the department are forced to look at everything manually, which is impossible due to the huge flow of information.

MIPT told the GRCHTS about the possibilities of recognizing faces in images (the possibility of recognizing faces in masks was emphasized separately), converting captions on images into text, and classifying images and videos into categories: rallies, suicidal content, roofers and hooks, prohibited logos and symbolism. In the example given in the report, the neural network recognized the NATO emblem as AUE symbols.

One of the documents lists similar systems that could be bought for “insurance”: for example, the “prohibited content” search system was developed by OKAS LLC for the Center for the Study and Network Monitoring of the Youth Environment, and for face recognition, MIPT recommends analogues from that the same LLC OKAS, NtechLab , VisionsLabs , FSUE GosNIIAS and DIT Moscow.

In August 2022, the tender for the development of Oculus worth 57.7 million rubles was won by Access RDC LLC. Deadline for completion is December 2022. As noted by Kommersant, this company has not previously acted as a contractor in public procurement.

Brand Analytics and thousands of pages of reports

Another large company, whose services are actively used by the GRFC, is Brand Analytics .

On its website , BA calls itself a leader in social media and media monitoring and analysis. Areas of work - brand analysis, search for mentions, working with the audience and responding to user reviews. Among the clients of Brand Analytics are large Russian companies, banks, as well as "government bodies, ministries and departments."

The GRFC requests to Brand Analytics are also similar to what Roskomnadzor plans in the Clean Internet. BA clients can search for publications by keywords and receive reports with detailed statistics, citation indexes, audience analysis and tone assessment of the publication. In addition to social networks, the media are also analyzed, including scans of newspapers, transcripts of broadcasts and closed feeds of news agencies.

The use of Brand Analytics is mentioned for the first time in GRFC correspondence in December 2021, and a month later GRFC releases the first detailed report on the use of the system.

The report says that the GRFC bought the maximum tariff, which allows you to upload up to 5 million materials per month. Among the topics that were of interest to the GRFC were the analysis of daily protest moods at the federal and regional levels, the search for negativity towards Vladimir Putin, the SCO, the EAEU and BRICS, reports on the Cossacks and Ekho Moskvy, "distortion of the history of the Second World War", "LGBT propaganda" .

Separately, the report mentions “urgent” topics, “requests for which arose in Telegram chats ” - but their content is not disclosed.

After the start of the Russian invasion of Ukraine, the GRChTs starts using Brand Analytics to look for calls for anti-war rallies and “fake” about the actions of the Russian army, such as killing civilians and destroying social infrastructure.

Separately, the topics “Fake arrest of Putin” and “Fake Patriarch Kirill urged to stop the war” are started.

In October 2022, prisoners of war, mobilization, “conspiracy theories related to superstitions and predictions”, nuclear war, “the critical state of health of the President of the Russian Federation V.V. Putin”, “the general crisis of the Russian economy”.

In the correspondence, you can also find several thousand examples of final reports on topics, including daily ones. They are excel tables, which contain all the publications found by topic and their statistics. The full texts of the posts are given, their analysis - for example, the tone and the presence of aggression, the number of reposts and likes, as well as the analysis of the author of the publication - the name, city or region, age indicated in the profile.

"Dualism" and "MAVR"

The GRCHTS has two more modest projects in terms of tasks and scale, which are related to artificial intelligence. The first is an automated monitoring system for audiovisual resources (AS MAVR).

AC MAVR should be responsible for searching for prohibited information in films and series on streaming services. The system was developed in 2021 by the longtime contractor of the GRFC, the E.Soft company. You can read more about E.Soft and billion-dollar contracts with the RKN on Meduza.

The project documents for the development of the MAVR indicate that now the employees of the GRFC watch TV series and broadcasts of TV channels themselves, hoping to find any violations. AC MAVR should release them from this work - but whether it functions is still unclear.

In 2021, AS MAVR was only able to collect metadata for films using the IMDB and Kinopoisk public APIs . In 2022, they began to refine it; one of the main tasks was called just full automation and transfer of content to the Unified Analysis Module, where AI will search for prohibited information. Traces of the work of the new version of this system "Mediazone" could not be found.

Another video-related project of the HRCC is called “Dualism”. The agency wants to search for "deepfakes" using neural networks; this development was funded by the Advanced Research Foundation.

In project documents, employees emphasize the danger of "deepfakes" and the prospects for countering them. The system itself has not yet been developed.

"Mediazona" continues to study the mail archive of the GRCHTS. In the following publications, we will talk about other areas of work of Roskomnadzor. Subscribe to our Telegram so as not to miss anything.

Editor: Dmitry Treshchanin

Просмотры:

Коментарі

Популярні публікації