Показ дописів із міткою цикл УДД. Показати всі дописи
Показ дописів із міткою цикл УДД. Показати всі дописи

2026/02/05

Динаміка даних протягом життєвого циклу

 Дані можна фіксувати або змінювати протягом проєкту (і, можливо, після його завершення).

  • Фіксовані набори даних: ніколи не змінюються після збору чи створення.
  • Зростання наборів даних: можна додавати нові дані, але старі дані ніколи не змінюються та не видаляються.
  • Набори даних, які можна переглядати: можна додавати нові дані, а старі дані можна змінювати або видаляти.
Те, як набір даних поводиться з часом, визначає, як нам потрібно робити резервні копії (бекапи) та як забезпечити довіру до результатів.


1. Фіксовані набори даних (Fixed Data Sets)

Це дані, які "застигли в часі". Щойно вони зібрані або згенеровані — процес завершено. Жодна цифра в них більше не змінить свого значення.

  • Як це працює: Це як фотографія. Ви зробили знімок, і він залишається незмінним.

  • Чому це важливо для захисту: Це найпростіший тип для зберігання. Ви робите одну ідеальну копію, фіксуєте її "контрольну суму" (цифровий відбиток), щоб ніхто нічого не підправив, і кладете в архів.

  • Приклад: Результати перепису населення за 2001 рік; дані завершеного лабораторного експерименту.

2. Зростальні набори даних (Growing Data Sets)

Тут дані тільки додаються. Це "історія", яка постійно пишеться, але минуле в ній залишається недоторканним.

  • Як це працює: Це як щоденник або стрічка новин. Ви дописуєте новий день, але не вириваєте сторінки за минулий місяць і не виправляєте там помилки.

  • Чому це важливо для захисту: Тут потрібна система, яка вміє "дозаписувати" нове, не пошкоджуючи старе. Це ідеально для доведення чесності дослідження — можна простежити, як накопичувалися дані день за днем.

  • Приклад: Показники метеостанції (щогодини додається новий запис); лог-файли сервера.

3. Набори даних, які можна переглядати (Revisable Data Sets)

Це "живий" організм. Тут можна все: додавати нове, виправляти знайдені помилки в старих записах або видаляти зайве.

  • Як це працює: Це як стаття у Вікіпедії. Вона постійно оновлюється, і вчорашня інформація сьогодні може виглядати інакше.

  • Чому це важливо для захисту: Це найскладніший тип. Тут критично важливо мати версійність. Якщо ви змінили дані сьогодні, ви повинні мати можливість "відкотитися" до того стану, який був тиждень тому, щоб зрозуміти, чому змінилися ваші висновки.

  • Приклад: База даних пацієнтів у лікарні (адреса або прізвище можуть змінитися); список літератури до статті, який ви постійно редагуєте.

Як це впливає на вибір стратегії:

Тип динамікиОсновний ризикЩо робити?
ФіксованіВипадкове видаленняОдин раз зробити надійний архів ("Read Only").
ЗростаючіВтрата останніх сегментівНалаштувати регулярне автоматичне додавання копій.
Для переглядуНепомітна зміна данихВикористовувати системи контролю версій, щоб бачити хто, коли і що змінив.

Цікаво, що для вирішення кризи відтворюваності науковці зараз намагаються перетворити "дані для перегляду" на "фіксовані". Тобто, на момент публікації статті ви "заморожуєте" версію даних, щоб інші могли перевірити саме той набір, на основі якого ви зробили висновки.

2026/02/02

4-й етап життєвого циклу дослідження : публікація і поширення

На етапі публікації та поширення дослідник повинен:
  • Підготувати свій набір даних
  • Перевірити вимоги грантонадавачів щодо поширення даних
  • Вибрати репозитарій
  • Вирішити, чи потрібно обмежити доступ до даних, чи накласти ембарго
  • Завантажити свої дані та вибрати ліцензію 
  • Додати до свого документа/публікації заяву про доступ до даних 

3-й етап життєвого циклу даних : обробка даних

3й етап - етап підготовки та аналізу даних. Після збору даних вони можуть бути не у формі, яку можна легко проаналізувати. Дослідникам може знадобитися:
  • очистити, 
  • маніпулювати 
  • чи обробити вихідні дані. 
Навички обробки даних можна вдосконалювати в одному з чотирьох програмних середовищ: 
R, SPSS, NVivo або ArcGIS. 

В курсі МАНТРА є навчальні посібники з обробки даних (помаранчева кнопка) передбачають певний досвід роботи з кожним програмним середовищем і містять вправи у форматі PDF разом із відкритими наборами даних для завантаження та роботи за допомогою встановленого програмного забезпечення. 

Після підготовки основної версії даних можна починати аналіз даних. Аналіз даних може приймати різні форми в різних дисциплінах. Найважливіше, що слід враховувати на цьому етапі, — це задокументувати процедури аналізу, такі як додаткові модифікації даних, використана модель, код, який використовується для виконання аналізу, а також специфікації апаратного та програмного забезпечення. Наявність цієї детальної інформації допоможе і вам, як первинним, і вторинним дослідникам.

На цьому етапі важливо задокументувати зміни в необроблених даних і створити головну версію для аналізу та, зрештою, архівації. Загальна порада тут — зробити остаточну версію даних лише для читання. Тому її не можна буде ненавмисно змінити.

2-й етап життєвого циклу даних : збір даних

Збір даних – це процес збору та імпорту інформації з різних джерел. 

Первинні дані — це дані, які збираються дослідником для визначеної цілі (наприклад, для відповіді на певні дослідницькі питання).

Дослідники можуть створювати дані за допомогою власної генерації чи повторного використання:


Первинні дані 

(щойно згенеровані) 


Вторинні дані 

(повторно використані дані)

  • Тематичні дослідження

  • Експеримент

  • Інтерв'ю

  • Спостереження

  • Моделювання

  • Опитування

  • Репозитарії даних

  • Література та інші публікації

  • Усна історія

  • Статистика та джерела даних



На етапі збору даних дослідницька група використовує найкращі практики керування даними (див. Мітки):
  • організацію файлів:
    • шаблон імені файлів, 
    • домовленості про правила іменування,
    • політику версій файлів, 
    • систему папок і файлів,
  • стратегії резервного копіювання та зберігання,
  • засоби контролю доступу,
  • безпеку даних тощо.


1-й етап життєвого циклу даних : планування

На початковому етапі життєвого циклу дослідження, тобто на етапі відкриття та планування, дослідникам потрібно визначити, який тип і формат даних вони збираються збирати. Це може бути:

  • збір нових даних,
  • або об’єднання існуючих наборів даних,
  • або просто аналіз існуючих даних.

Якщо в проєкті беруть участь люди, дослідники повинні враховувати конфіденційність та інші етичні питання.


Крім того, дослідники повинні розглянути, які типи документації вони створюватимуть, і стандарти метаданих, які вони використовуватимуть для опису своїх даних.


Крім того, дослідникам потрібно буде визначити потенційних вторинних користувачів даних проєкту та відповісти на питання:

  • Хто використовуватиме ці дані?
  • Для чого вони можуть це використовувати?
  • Чи будуть дані, позбавлені будь-якої потенційно ідентифікаційної інформації, корисними для повторного використання?
  • Які обмеження доступу будуть накладені на дані?

На всі ці питання дослідники повинні відповісти ще до початку проєкту.


NB! Звернення до спеціалістів на початку життєвого циклу дослідження може допомогти дослідникам відповісти на ці запитання.


Треба визначити відповідне сховище даних для архівування своїх даних. Не всі дані, що створюються під  час дослідження, потребують поширення, бо дані можуть бути як відкритого, так і закритого чи обмеженого доступу.  На етапі планування це потрібно врахувати заздалегідь.


Нарешті, на цьому етапі дослідникам важливо визначити можливі витрати, пов’язані з керуванням даними. Це включатиме документування даних, їх форматування, зберігання, очищення та анонімізацію та, нарешті, архівування.


5й етап життєвого циклу даних : довготермінове зберігання

Якщо ви дотримувалися найкращих практик управління даними протягом усього життєвого циклу дослідження, ви можете бути впевнені, що ваші дані будуть доступними протягом тривалого періоду. Деякі ключові функції репозитарію, які забезпечують довгострокове управління даними, включають забезпечення:
  • цілісності даних
  • захист від втрати даних
  • надання доступу до даних.
На цьому етапі ваші дані безпечно зберігаються в репозитарії даних, яке забезпечує повторне використання ДД та відповідність принципам FAIR. І ви можете почати планувати свій наступний проєкт.

2026/01/26

Цикл управління дослідницькими даними

Управління дослідницькими даними, УДД (англ. Research Data Management, RDM) – діяльність та практики, які сприяють ефективному збору, організації, збереженню, захисту, використанню та поширенню дослідницьких даних протягом життєвого циклу дослідження.

Тобто, УДД включає різні дії до, під час та після дослідницького проєкту, який генерує дані.На кожному етапі життєвого циклу дослідження створюються чи певним чином видозмінюються дані - це вимагає різноманітних міркувань, обов’язків і дій від дослідника.

Життєвий цикл дослідницьких даних, показаний нижче, визначає ключові етапи в УДД: планування, збір, організація, обробка, документування, збереження, обмін та повторне використання (дивись мітки).

 

Джерело: https://libguides.lb.polyu.edu.hk/rdm/home

Управління дослідницькими даними не завжди є лінійним процесом, і вам може знадобитися переглянути певні етапи та деякі процеси протягом вашого проєкту.


Місія Бібліотеки - допомогти користувачам в організації процесу збору/поширення даних, допомогти знайти та оцінити, використати дані для створення нових знань в процесі аналізу.