2026/02/02

3-й етап життєвого циклу даних : обробка даних

3й етап - етап підготовки та аналізу даних. Після збору даних вони можуть бути не у формі, яку можна легко проаналізувати. Дослідникам може знадобитися:
  • очистити, 
  • маніпулювати 
  • чи обробити вихідні дані. 
Навички обробки даних можна вдосконалювати в одному з чотирьох програмних середовищ: 
R, SPSS, NVivo або ArcGIS. 

В курсі МАНТРА є навчальні посібники з обробки даних (помаранчева кнопка) передбачають певний досвід роботи з кожним програмним середовищем і містять вправи у форматі PDF разом із відкритими наборами даних для завантаження та роботи за допомогою встановленого програмного забезпечення. 

Після підготовки основної версії даних можна починати аналіз даних. Аналіз даних може приймати різні форми в різних дисциплінах. Найважливіше, що слід враховувати на цьому етапі, — це задокументувати процедури аналізу, такі як додаткові модифікації даних, використана модель, код, який використовується для виконання аналізу, а також специфікації апаратного та програмного забезпечення. Наявність цієї детальної інформації допоможе і вам, як первинним, і вторинним дослідникам.

На цьому етапі важливо задокументувати зміни в необроблених даних і створити головну версію для аналізу та, зрештою, архівації. Загальна порада тут — зробити остаточну версію даних лише для читання. Тому її не можна буде ненавмисно змінити.

Принципи резервного копіювання

1. Основний принцип резервного копіювання 3-2-1 полягає в тому, що у вас є три копії ваших файлів принаймні на двох різних носіях, при цьому одна копія віддалена на випадок локальних проблем. Ви також повинні регулярно тестувати свої резервні копії, щоб переконатися, що ви можете відновити їх за потреби.

2. За схемою “дідусь, батько, син” файли можуть бути доступними лише протягом двох-трьох місяців, перш ніж простір для зберігання буде перезаписано. Тобто повне резервне копіювання виконується в один і той же день кожного місяця (наприклад, в останній день кожного місяця. Або в четверту п’ятницю кожного місяця - обирайте самі). Це дідусів цикл. Рекомендується зберігати цю резервну копію поза офісом або в облаці. Це також допомагає задовольнити вимоги стратегії 3-2-1 про зберігання поза офісом (треба мати три копії принаймні у двох місцях: оригінал + зовнішня/локальна резервна копія + зовнішня/віддалена резервна копія).

Потім налаштовується більш часте виконання ще одного повного резервного копіювання, наприклад, щотижня. Знову таки, ви можете визначити, коли саме має виконуватися це повне резервне копіювання, враховуючи вимоги вашого дослідження. (Оскільки процес створення повної резервної копії обов’язково зв’яже ваш набір на якийсь час!). Це «батьківський» цикл, і в ідеалі ваша резервна копія повинна зберігатися локально та/або в «гарячому» хмарному сховищі, де вона може бути швидко й легко доступна за необхідності. Географічно поширюйте свої локальні та віддалені копії, щоб зменшити ризик лиха в одному місці (відключення електроенергії, повінь, пожежа тощо).

Зрештою, плануйте закривати свої бази щоденними додатковими резервними копіями. Це резервні копії «сина», і вони повинні зберігатися в тому ж місці, що і резервні копії «батька».

Чи завжди треба дотримуватися цих підходів? 

Ні, все залежить від вартості ваших даних, з одного боку, і критичності (вартості потенційної шкоди) та ймовірності загроз даних, з іншого боку. Будь-який захист не повинен перевищувати за вартістю об’єкт, що захищається. Тому, якщо у вас зберігаються не надто цінні дані, чи загрози низько критичні чи малоймовірні, можна реалізовувати правило «3-2-1» частково. Головне — все ж таки скласти матрицю загроз даним (тобто скласти список усіх можливих загроз, оцінити їхню ймовірність і критичність) і провести процес їхньої деактуалізації (тобто у кожної загрози або написати в таблиці “деактуалізовано таким-то технічним заходом”. або “визнати не актуальною з погляду характеру дослідження”). Після опрацювання матриці небезпек, буде зрозуміло якою мірою слід використовувати правило 3-2-1, і який бюджет в результаті буде потрібний.

Безпека даних

Безпека даних означає убезпечення ваших дослідницьких даних від пошкодження та належний контроль доступу. 

Як ми знаємо, техніка не завжди надійна на 100%. Якщо дослідник має відповідні стратегії резервного копіювання та зберігання, це допоможе захистити дані від втрати з самого початку проєкту. Найкраще обговорити варіанти безпечного резервного копіювання та зберігання з ІТ-відділом закладу.

Якщо дані конфіденційні, необхідно вжити відповідних заходів, щоб забезпечити їх безпечне зберігання та доступ до них лише авторизованих осіб.

Принципи організації файлів

Файли та папки з дослідницькими даними мають бути унікально позначені й упорядковані систематично, щоб їх можна було ідентифікувати та отримати доступ для поточних і майбутніх користувачів. Хороша стратегія іменування файлів і папок допоможе вам швидко знайти потрібні файли, легко зрозуміти, що це за файл даних і що він містить, а також розрізняти різні файли і різні версії одного і того ж файлу.

Слід продумати, як назвати та позначити файли даних досліджень:

  • По-перше, це логічно організовану файлову структуру, певну систему папок і файлів. Це важливо для майбутнього доступу та пошуку. 

  • По-друге, ви маєте враховувати будь-які обмеження імен файлів, які застосовуються системою, де ви зберігаєте свої дані.

  • І третє, це контекст. Він включає специфічну для вмісту або описову інформацію, незалежно від того, де зберігаються дані.

  • Останнє, але не за важливістю – послідовність. Ви повинні вибрати єдину угоду про іменування файлів і застосовувати її послідовно, додаючи ту саму інформацію в тому самому порядку.

2-й етап життєвого циклу даних : збір даних

Збір даних – це процес збору та імпорту інформації з різних джерел. 

Первинні дані — це дані, які збираються дослідником для визначеної цілі (наприклад, для відповіді на певні дослідницькі питання).

Дослідники можуть створювати дані за допомогою власної генерації чи повторного використання:


Первинні дані 

(щойно згенеровані) 


Вторинні дані 

(повторно використані дані)

  • Тематичні дослідження

  • Експеримент

  • Інтерв'ю

  • Спостереження

  • Моделювання

  • Опитування

  • Репозитарії даних

  • Література та інші публікації

  • Усна історія

  • Статистика та джерела даних



На етапі збору даних дослідницька група використовує найкращі практики керування даними (див. Мітки):
  • організацію файлів:
    • шаблон імені файлів, 
    • домовленості про правила іменування,
    • політику версій файлів, 
    • систему папок і файлів,
  • стратегії резервного копіювання та зберігання,
  • засоби контролю доступу,
  • безпеку даних тощо.


1-й етап життєвого циклу даних : планування

На початковому етапі життєвого циклу дослідження, тобто на етапі відкриття та планування, дослідникам потрібно визначити, який тип і формат даних вони збираються збирати. Це може бути:

  • збір нових даних,
  • або об’єднання існуючих наборів даних,
  • або просто аналіз існуючих даних.

Якщо в проєкті беруть участь люди, дослідники повинні враховувати конфіденційність та інші етичні питання.


Крім того, дослідники повинні розглянути, які типи документації вони створюватимуть, і стандарти метаданих, які вони використовуватимуть для опису своїх даних.


Крім того, дослідникам потрібно буде визначити потенційних вторинних користувачів даних проєкту та відповісти на питання:

  • Хто використовуватиме ці дані?
  • Для чого вони можуть це використовувати?
  • Чи будуть дані, позбавлені будь-якої потенційно ідентифікаційної інформації, корисними для повторного використання?
  • Які обмеження доступу будуть накладені на дані?

На всі ці питання дослідники повинні відповісти ще до початку проєкту.


NB! Звернення до спеціалістів на початку життєвого циклу дослідження може допомогти дослідникам відповісти на ці запитання.


Треба визначити відповідне сховище даних для архівування своїх даних. Не всі дані, що створюються під  час дослідження, потребують поширення, бо дані можуть бути як відкритого, так і закритого чи обмеженого доступу.  На етапі планування це потрібно врахувати заздалегідь.


Нарешті, на цьому етапі дослідникам важливо визначити можливі витрати, пов’язані з керуванням даними. Це включатиме документування даних, їх форматування, зберігання, очищення та анонімізацію та, нарешті, архівування.


5й етап життєвого циклу даних : довготермінове зберігання

Якщо ви дотримувалися найкращих практик управління даними протягом усього життєвого циклу дослідження, ви можете бути впевнені, що ваші дані будуть доступними протягом тривалого періоду. Деякі ключові функції репозитарію, які забезпечують довгострокове управління даними, включають забезпечення:
  • цілісності даних
  • захист від втрати даних
  • надання доступу до даних.
На цьому етапі ваші дані безпечно зберігаються в репозитарії даних, яке забезпечує повторне використання ДД та відповідність принципам FAIR. І ви можете почати планувати свій наступний проєкт.