2026/02/02

Способи поширення даних різні

  • Завантажувати як додаткові матеріали до публікації в журналі (якщо журнал має політики щодо поширення даних);
  • Депонувати в репозитарії даних (тематичні, інституційні чи мультидисциплінарні);
  • Розміщувати на сайтах (персональних, проекту, лабораторії);
  • Публікувати у журналах для даних;
  • Неофіційне поширення (персонально, на запит інших дослідників).

Цифрове старіння

Під час проєкту ваше дослідження може генерувати різні типи даних дослідження в різних форматах цифрових файлів. Формат файлу, який ви обираєте для своїх даних, є основним чинником, який дозволить іншим отримати до них доступ у майбутньому. Уважно подумайте, який формат файлу буде найкращим для керування, спільного використання та збереження ваших даних. Технології постійно змінюються, і можна очікувати, що всі сучасні апаратні та програмні засоби застаріють. Подумайте, як ваші дані будуть читатися, якщо програмне забезпечення, яке використовується для їх створення, стане недоступним. Хоча будь-який формат файлу, який ви виберете сьогодні, може стати нечитабельним у майбутньому, деякі формати, швидше за все, будуть читабельними, ніж інші.

Видавці надають перевагу тому, щоб дані досліджень поширювалися у відкритих форматах файлів, для доступу до яких не потрібне пропрієтарне програмне забезпечення, де це можливо. Наприклад, табличні дані мають надаватися як файли CSV, а не як файли XLS.

Щоб вирішити, у яких саме форматах краще зберігати дані, треба розібратися, які формати бувають.

Файли у пропрієтарних форматах зазвичай потрібно відкривати за допомогою спеціального програмного забезпечення, у якому вони були створені. Отже, це означає, що хтось без ліцензії на це програмне забезпечення не завжди може відкрити ці файли.

Навпаки, відкриті формати – це формати, у яких компанія-виробник програмного забезпечення або колектив, який створив це програмне забезпечення, зробив його відкрито доступним. І зазвичай це означає, що було розроблено низку програм, які можуть відкривати такі типи файлів. Існує безліч відкритих форматів файлів, включаючи jpeg, png, flac, mp3, csv, html, json, gzip та zip. PDF є хорошим прикладом відкритого формату, бо його можна відкрити кількома програмами, а не лише продуктами Adobe.

Бінарні файли можна відкрити лише за допомогою програмного забезпечення, призначеного для читання та обробки відповідного формату файлів. Текстові файли зручні для людини, сумісні з усіма операційними системами і можуть бути легко прочитані в різних програмних пакетах. Тому дані, збережені у форматах текстових файлів, з найменшою ймовірністю застаріють з часом і є ідеальним форматом для спільного використання та довгострокового зберігання. Деякі розширення файлів, що часто використовуються, для збереження простого тексту це: .txt, .csv, .html, .json, .xml.

Більшість програмних пакетів дозволяють експортувати та обмінюватися форматами, Наприклад, у Microsoft Excel ви можете зберегти свою електронну таблицю як файл .csv. Формати файлів, які є відкритими, незапатентованими та широко поширеними, мають найкращі шанси бути читабельними в майбутньому.

Приклади бажаних варіантів формату:
  • Зображення: JPEG, JPG-2000, PNG, TIFF
  • Текст: звичайний текст (TXT), HTML, XML, PDF/A
  • Аудіо: AIFF, WAVE
  • Контейнери: TAR, GZIP, ZIP
  • Бази даних: віддайте перевагу XML або CSV 
Навпаки, пропрієтарні формати, особливо ті, які є нестандартними, які потребують певних програмних програм або певних версій цього програмного забезпечення, ймовірно, створять проблеми для майбутнього використання. Швидкі зміни технологій на ринку означають, що формати файлів можуть дуже швидко застаріти. Це, очевидно, погано для тривалого зберігання та повторного використання.

Що таке формат файлу?

Формат файлу — це «мова», якою записана інформація всередині документа. Щоб ви могли побачити текст або зображення, програма повинна «вміти читати» цю мову. Якщо програма (наприклад, веббраузер) не розпізнає код, вона або шукає помічника (плагін), або просто пропонує вам завантажити файл, щоб ви відкрили його чимось іншим.

Як розпізнати формат?

Найпростіший спосіб дізнатися формат — подивитися на розширення. Це суфікс із 3–4 літер після крапки в кінці назви файлу.

  • .jpg — вказує комп'ютеру, що це фото.

  • .docx — сигналізує, що це документ Word.

  • .html — підказує браузеру, що це вебсторінка.

Пастка прихованих розширень

У різних операційних системах розширення поводяться по-різному, що іноді створює проблеми:

  • Windows: дозволяє приховувати розширення для «краси», але це може заплутати користувача.

  • macOS: часто взагалі не показує розширення. Якщо ви передасте такий файл із Mac на Windows, інший комп’ютер може просто не зрозуміти, чим його відкрити.

Формати в науці та обмін даними

Для дослідників вибір формату — це питання виживання даних у майбутньому. Видавці та наукова спільнота наполегливо радять використовувати загальноприйняті стандарти. Це гарантує, що ваші дані зможуть відкрити колеги по всьому світу через багато років.

Порада: Якщо ви хочете перевірити, які формати є стандартом у вашій галузі, скористайтеся ресурсом FAIRsharing.org. Там зібрано базу стандартів для обміну даними.

4-й етап життєвого циклу дослідження : публікація і поширення

На етапі публікації та поширення дослідник повинен:
  • Підготувати свій набір даних
  • Перевірити вимоги грантонадавачів щодо поширення даних
  • Вибрати репозитарій
  • Вирішити, чи потрібно обмежити доступ до даних, чи накласти ембарго
  • Завантажити свої дані та вибрати ліцензію 
  • Додати до свого документа/публікації заяву про доступ до даних 

Етичні принципи роботи з персональними даними

Для того, щоб дотримуватися етичних вимог, пов'язаних з проведенням досліджень за участю людей, дослідники повинні дотримуватися певних етичних принципів під час набору учасників, отримання їх інформованої згоди та управління даними, які збирають.

Зокрема, персональні дані слід обробляти 1) прозоро та справедливо та законно (Lowfullness, fairness and transparency), можна 2) обробляти лише для явно вказаних законних цілей (Purpose Limitation), 3) збирати та зберігати слід лише мінімальну кількість персональних даних, достатніх для зазначеної мети дослідження (Data minamisation), 4) треба забезпечувати точність ПД та можливості їх редагування/видалення (Accuracy), тобто неточні дані повинні бути "стерті або виправлені без затримки", 5) персональні дані мають обмежений термін зберігання, не більше ніж це необхідно для певної мети (Storage limatation), а ще - 6) дослідник  має забезпечити безпеку, цілісність та конфіденційність ПД (Integrity and confidentiality) - дані повинні бути захищені відповідними заходами безпеки.

3-й етап життєвого циклу даних : обробка даних

3й етап - етап підготовки та аналізу даних. Після збору даних вони можуть бути не у формі, яку можна легко проаналізувати. Дослідникам може знадобитися:
  • очистити, 
  • маніпулювати 
  • чи обробити вихідні дані. 
Навички обробки даних можна вдосконалювати в одному з чотирьох програмних середовищ: 
R, SPSS, NVivo або ArcGIS. 

В курсі МАНТРА є навчальні посібники з обробки даних (помаранчева кнопка) передбачають певний досвід роботи з кожним програмним середовищем і містять вправи у форматі PDF разом із відкритими наборами даних для завантаження та роботи за допомогою встановленого програмного забезпечення. 

Після підготовки основної версії даних можна починати аналіз даних. Аналіз даних може приймати різні форми в різних дисциплінах. Найважливіше, що слід враховувати на цьому етапі, — це задокументувати процедури аналізу, такі як додаткові модифікації даних, використана модель, код, який використовується для виконання аналізу, а також специфікації апаратного та програмного забезпечення. Наявність цієї детальної інформації допоможе і вам, як первинним, і вторинним дослідникам.

На цьому етапі важливо задокументувати зміни в необроблених даних і створити головну версію для аналізу та, зрештою, архівації. Загальна порада тут — зробити остаточну версію даних лише для читання. Тому її не можна буде ненавмисно змінити.

Принципи резервного копіювання

1. Основний принцип резервного копіювання 3-2-1 полягає в тому, що у вас є три копії ваших файлів принаймні на двох різних носіях, при цьому одна копія віддалена на випадок локальних проблем. Ви також повинні регулярно тестувати свої резервні копії, щоб переконатися, що ви можете відновити їх за потреби.

2. За схемою “дідусь, батько, син” файли можуть бути доступними лише протягом двох-трьох місяців, перш ніж простір для зберігання буде перезаписано. Тобто повне резервне копіювання виконується в один і той же день кожного місяця (наприклад, в останній день кожного місяця. Або в четверту п’ятницю кожного місяця - обирайте самі). Це дідусів цикл. Рекомендується зберігати цю резервну копію поза офісом або в облаці. Це також допомагає задовольнити вимоги стратегії 3-2-1 про зберігання поза офісом (треба мати три копії принаймні у двох місцях: оригінал + зовнішня/локальна резервна копія + зовнішня/віддалена резервна копія).

Потім налаштовується більш часте виконання ще одного повного резервного копіювання, наприклад, щотижня. Знову таки, ви можете визначити, коли саме має виконуватися це повне резервне копіювання, враховуючи вимоги вашого дослідження. (Оскільки процес створення повної резервної копії обов’язково зв’яже ваш набір на якийсь час!). Це «батьківський» цикл, і в ідеалі ваша резервна копія повинна зберігатися локально та/або в «гарячому» хмарному сховищі, де вона може бути швидко й легко доступна за необхідності. Географічно поширюйте свої локальні та віддалені копії, щоб зменшити ризик лиха в одному місці (відключення електроенергії, повінь, пожежа тощо).

Зрештою, плануйте закривати свої бази щоденними додатковими резервними копіями. Це резервні копії «сина», і вони повинні зберігатися в тому ж місці, що і резервні копії «батька».

Чи завжди треба дотримуватися цих підходів? 

Ні, все залежить від вартості ваших даних, з одного боку, і критичності (вартості потенційної шкоди) та ймовірності загроз даних, з іншого боку. Будь-який захист не повинен перевищувати за вартістю об’єкт, що захищається. Тому, якщо у вас зберігаються не надто цінні дані, чи загрози низько критичні чи малоймовірні, можна реалізовувати правило «3-2-1» частково. Головне — все ж таки скласти матрицю загроз даним (тобто скласти список усіх можливих загроз, оцінити їхню ймовірність і критичність) і провести процес їхньої деактуалізації (тобто у кожної загрози або написати в таблиці “деактуалізовано таким-то технічним заходом”. або “визнати не актуальною з погляду характеру дослідження”). Після опрацювання матриці небезпек, буде зрозуміло якою мірою слід використовувати правило 3-2-1, і який бюджет в результаті буде потрібний.