DOI/Bellingcat-OSINT-Ukraine :: Збережіть важливий онлайн-контент за допомогою автоматичного архіватора Bellingcat

Зберігайте важливий онлайн-контент за допомогою автоматичного архіватора Bellingcat

Автор: Мігель Рамальо 
bellingcat.com
хв
22 вересня 2022 р
Дослідження відкритих джерел часто спираються на публікації в соціальних мережах, які містять відео та зображення. Однак ці публікації можуть бути видалені платформами або видалені тими, хто їх публікує. Ось чому ми в Bellingcat створили інструмент — Auto Archiver — щоб допомогти спільноті відкритих джерел, а також журналістам і дослідникам легко архівувати онлайн-контент. Інструмент дозволяє архівувати публікації та їх відео чи візуальні вкладення, просто ввівши посилання в документ Google Sheets. 

Раніше ми вже писали про те, як вручну архівувати відкриті матеріали , а також, зокрема, контент Telegram . Ці методи є особливо актуальними в умовах триваючого вторгнення Росії в Україну. Наш автоматичний архіватор доповнює ці методи, створюючи уніфікований та спрощений процес архівування незалежно від платформи чи типу носія. 

Auto Archiver — це поточний проект, який уперше створив дослідник даних Bellingcat, Логан Вільямс, спільно з дослідницькою технічною групою Bellingcat і нашими співавторами спільноти, які тепер регулярно працюють над покращенням програмного забезпечення. Наразі ми використовували його для зйомки вмісту, що зображує випадки ураження цивільного населення під час вторгнення Росії в Україну, а також в інших ситуаціях, що швидко розвиваються, як-от таджицько-киргизький прикордонний конфлікт у вересні 2022 року.

Знімок екрана автоархіватора страти таджицько-киргизького прикордонного конфлікту.
Знімок екрана автоархіватора страти таджицько-киргизького прикордонного конфлікту.

Але не лише Bellingcat використовує Auto Archiver — такі організації, як Center for Information Resilience та OSR 4 Rights, також використовували його, щоб допомогти своїм дослідникам систематично архівувати вміст із поточних конфліктних ситуацій. OSR 4 Rights навіть надає онлайн-форму для тестування архіватора за посиланням на своєму веб-сайті . 

Залежно від вашого рівня технічних знань, спочатку налаштування автоархіватора може здатися страшним. Але не хвилюйтеся — до кінця цієї статті ми пояснимо, як розпочати роботу з автоархіватором.

Що може зробити автоархіватор?

Перш ніж ми заглибимося в те, як його налаштувати, давайте розглянемо основи роботи автоархіватора. 

Інструмент, по суті, є єдиним магазином для ваших потреб архівування. Скажімо, в Інтернеті є частина вмісту, яку ви хочете заархівувати, веб-сторінка чи публікація в соціальних мережах із відео та зображеннями: все, що вам потрібно зробити, це взяти її URL-адресу та ввести її в новий рядок електронної таблиці Google, де Auto Archiver отримав вказівку шукати посилання. Коли автоархіватор бачить посилання, яке ще не заархівовано — або, іншими словами, має порожній статус у відповідній комірці на аркуші — він запрограмований на пошук найкращої стратегії архівування. Це залежить від введеної платформи та типу вмісту. Оскільки платформи мають різні формати та бар’єри, Auto Archiver об’єднує існуючі інструменти для завантаження відео, як-от yt-dlp — інструмент командного рядка, який дозволяє завантажувати відео YouTube — за допомогою окремих інструментів архівування соціальних мереж. 

На момент написання статті вони існують для Telegram, Tiktok, Twitter і ВКонтакте. Якщо все це не вдається, посилання надсилається на Wayback Machine. Однак це означає, що будь-який відеоконтент, швидше за все, не буде архівовано (одне з обмежень використання лише Wayback Machine для онлайн-збереження), і його слід розглядати як обмежений резервний механізм. Автоматичний архіватор завжди робить знімок екрана вмісту та додає його до рядка посилання, якщо на це налаштовано, разом із самим архівованим вмістом та іншими метаданими, що стосуються архівованого вмісту. 

Початок роботи з інструментом

Хоча автоматичний архіватор дуже простий у використанні після того, як його налаштовано, потрібно виконати кілька кроків, які вимагають невеликих технічних знань, перш ніж ви зможете ним користуватися. 

У нашому сховищі коду GitHub ми докладніше розповімо, як налаштувати Auto Archiver Але ми розглянемо деякі основи нижче. Не забудьте також переглянути відео, вбудоване нижче.

Все, що вам потрібно для початку, це комп’ютер — будь-який комп’ютер, від вашого персонального ноутбука до громіздкого ігрового комп’ютера — з доступом до Інтернету. Звідти вам знадобиться ще кілька речей:

  • Файл конфігурації, що описує, як і де архівувати вміст (обговорюється в наступному розділі)
  • Обліковий запис служби Google — це єдина конфігурація служби, суворо необхідна для роботи архіватора; це особливий тип облікового запису Google для користувачів, які не є людьми (тобто автоматизована програма). У цьому випадку архіватор — це нелюдський користувач, який взаємодіє з Google Sheet. Під час розгортання архіватора на новому аркуші завжди необхідно надавати права редагування адреси електронної пошти, створеної для облікового запису служби. За цим посиланням пояснюється, як його можна налаштувати. 
  • Встановлення Python 3.8 або вище
  • ffmpeg (для відеооперацій, таких як захоплення мініатюр)
  • Firefox і Geckodriver (для створення скріншотів веб-сторінок)

Налаштувавши це, ви можете викликати архіватор із командного рядка , який підключиться до налаштованої електронної таблиці Google і розпочне архівування. Цей крок по суті складається з вставлення правильних інструкцій у командний рядок, доступ до якого можна отримати, натиснувши команду + пробіл на Mac, а потім ввівши «термінал». На комп’ютері з ОС Windows натисніть клавішу Windows + X, перш ніж натиснути параметр «Командний рядок» або «Powershell». У цьому випадку інструкція для введення в командний рядок така:

python auto_archive.py --config your-config-file.yaml

Тепер ваш комп’ютер приступить до роботи та знайде рядок заголовка з двома обов’язковими стовпцями у відповідній електронній таблиці: один для читання посилань, інший для відображення статусу архівування. Інші стовпці необов’язкові, але надають функції, які покращують зручність використання заархівованого вмісту, зокрема:

  • Посилання на архівний вміст
  • Посилання на скріншот веб-сторінки
  • Назва веб-сторінки або повідомлення
  • Час завантаження поста
  • Мітка часу процесу архівування
  • Криптографічний хеш вмісту – корисно для подальшої перевірки на підробку. Однак зауважте, що просте збереження цього значення в таблиці Google не обов’язково відповідає всім вимогам криміналістики для подальшого використання відео в судових процесах
  • Якщо є відео
    • Мініатюра відео
    • Встановіть мініатюри вздовж відео
    • Тривалість відео
Знімок екрана виконання автоматичного архіватора над різними типами URL-адрес.
Знімок екрана виконання автоматичного архіватора над різними типами URL-адрес.
Знімок екрана виведення HTML після архівування публікації Twitter з одним зображенням.
Знімок екрана виведення HTML після архівування публікації Twitter з одним зображенням.

Ключі конфігурації та послуг

У нашому репозиторії GitHub доступний приклад файлу конфігурації , який можна використовувати як відправну точку для нових розгортань Auto Archiver. У цьому файлі налаштовується виконання — іншими словами, деталі того, як налаштовано архіватор — де ви можете вибрати параметр зберігання (обговорюється нижче), де зберігаються ключі API та секрети для таких служб, як Wayback Machine, і також де можна вказати альтернативні назви для стовпців, якщо користувач бажає перейменувати власні стовпці.

Знімок екрана зі сторінки GitHub Bellingcat із детальним кодом конфігурації та службами, які він використовує.
Знімок екрана зі сторінки GitHub Bellingcat із детальним кодом конфігурації та службами, які він використовує.

Зміна назв стовпців виявилася корисною, коли автоархіватор додається до аркуша після того, як люди почали над ним працювати, і назви стовпців уже визначено заздалегідь. Якщо ви хочете почати з порожнього аркуша, ви можете скористатися цим шаблоном; його вже узгоджено з назвами стовпців за замовчуванням у прикладі файлу конфігурації Для забезпечення збереження вмісту завжди потрібна конфігурація сховища, але для швидкого запуску тестування інструменту можна використовувати локальне сховище. Додаткові відомості про параметри зберігання, доступні за допомогою Auto Archiver, детально описано в наступних розділах цієї статті.

Щоб скористатися спеціальними архіваторами соціальних мереж, вам також потрібно буде зробити кілька інших речей. Вам знадобляться дійсне ім’я користувача та пароль «ВКонтакте» , ключі API Telegram і маркер бота , а також маркер носія Twitter API V2 . Уникайте використання особистих облікових записів як з міркувань безпеки, так і з практичних міркувань, оскільки вони можуть бути призупинені через автоматичні системи керування та завжди піддаються підвищеному ризику зчитування файлів конфігурації. 

Для резервного архіватора необхідний обліковий запис в Інтернет-архіві перед отриманням секретів для Wayback Machine API. 

Хоча надання вищевказаних облікових даних є необов’язковим і необов’язковим для роботи автоматичного архіватора, це крок, який збільшує тип вмісту, який можна отримати та зберегти. Знову ж таки, це може бути процес, який більш актуальний для більш технічно досвідчених користувачів і може випливати з ваших конкретних потреб архівування.

Також можна заархівувати кілька аркушів з тим самим файлом конфігурації та ключами зовнішніх служб: замінивши ім’я аркуша, який потрібно шукати, за допомогою параметрів командного рядка (за допомогою цієї команди: python auto_archive.py –config your-config-file . yaml –sheet «назва мого аркуша» ) або шляхом створення нового файлу конфігурації, якщо використовуються інші сховища чи секрети. 

Як захищено вміст?

Вміст, знайдений архіватором, буде скопійовано до налаштованого сховища — тобто місця для зберігання, яке ви налаштуєте у файлі конфігурації. Наразі існує три варіанти зберігання: папка Google Drive, зовнішнє онлайн-сховище об’єктів, як-от відро S3 (наприклад, Digital Ocean Spaces або Amazon S3) або локальне сховище на машині, де запущено архіватор. 

Доступ до архівних матеріалів можна обмежити, зробивши місце зберігання приватним або обмеженим. Якщо використовується сховище S3, установіть параметр приватної конфігурації у файлі конфігурації. Якщо ви використовуєте Диск Google, керуйте доступом так само, як і до будь-якої іншої папки Диска. 

За замовчуванням файли зберігаються з передбачуваним шляхом і назвою, але використовуючи параметр «випадкового» іменування у файлі конфігурації, ви отримаєте довгий і непередбачуваний рядок. Цей параметр можна використовувати для обміну архівним вмістом в Інтернеті, оскільки лише люди, які мають доступ до посилань, можуть переглядати його.

Автоматизація та продуктивність

Щойно автоархіватор завершить перегляд аркуша, він зупинить його виконання, тому будь-які посилання, додані пізніше, не будуть архівовані. Найпростіший спосіб вирішити це – запланувати завдання на комп’ютері. У Windows це можна зробити через «Заплановані завдання» на панелі керування. На комп’ютерах Mac або Linux ви можете використовувати cron — інструмент командного рядка для планування повторюваних завдань — щоб запускати його так часто, як вам потрібно. Приклад запису crontab для запуску архіватора кожні 10 хвилин виглядатиме так:

10 * * * * python auto_archive.py --config your-config-file.yaml

Відколи Росія вторглася в Україну в лютому 2022 року, ми заархівували тисячі онлайн-сторінок, відео та зображень війни, що триває. Цей зростаючий архів використовується для поточних і продовжених розслідувань, але він також слугуватиме довготривалим архівом звірств цієї війни. Це підхід, який ми заохочуємо ширшу спільноту з відкритим кодом відтворювати в інших конфліктах і ситуаціях, особливо в тих, де наразі існує обмежений суспільний інтерес. Це гарантує, що майбутні процеси підзвітності матимуть достатньо матеріалів із відкритих джерел для документування та дослідження. 

Наша інтерактивна функція TimeMap, яка вбудована нижче та реєструє випадки шкоди цивільному населенню, що сталися під час війни в Україні, використовує Auto Archiver – хоча слід зазначити, що ми не показуємо весь архівний вміст публічно, щоб захистити конфіденційність деяких завантажувачів, а також тому, що нашим слідчим ще потрібно перевірити інциденти, записані на аркуші, перш ніж їх можна буде додати на карту.

Повну інструкцію зі встановлення та розгортання можна знайти в сховищі коду , і ми вітаємо відгуки та запитання, які ви можете надіслати як проблеми з GitHub або зв’язатися з технічної командою Bellingcat за допомогою цієї контактної форми . 


Bellingcat є некомерційною організацією, і здатність виконувати нашу роботу залежить від люб’язної підтримки окремих донорів. Якщо ви хочете підтримати нашу роботу, ви можете зробити це  тут Ви також можете підписатися на наш канал Patreon  тут Підпишіться на нашу  розсилку  та слідкуйте за нами у Twitter  тут .

Просмотры:

Коментарі

Популярні публікації