2026/02/05

Динаміка даних протягом життєвого циклу

 Дані можна фіксувати або змінювати протягом проєкту (і, можливо, після його завершення).

  • Фіксовані набори даних: ніколи не змінюються після збору чи створення.
  • Зростання наборів даних: можна додавати нові дані, але старі дані ніколи не змінюються та не видаляються.
  • Набори даних, які можна переглядати: можна додавати нові дані, а старі дані можна змінювати або видаляти.
Те, як набір даних поводиться з часом, визначає, як нам потрібно робити резервні копії (бекапи) та як забезпечити довіру до результатів.


1. Фіксовані набори даних (Fixed Data Sets)

Це дані, які "застигли в часі". Щойно вони зібрані або згенеровані — процес завершено. Жодна цифра в них більше не змінить свого значення.

  • Як це працює: Це як фотографія. Ви зробили знімок, і він залишається незмінним.

  • Чому це важливо для захисту: Це найпростіший тип для зберігання. Ви робите одну ідеальну копію, фіксуєте її "контрольну суму" (цифровий відбиток), щоб ніхто нічого не підправив, і кладете в архів.

  • Приклад: Результати перепису населення за 2001 рік; дані завершеного лабораторного експерименту.

2. Зростальні набори даних (Growing Data Sets)

Тут дані тільки додаються. Це "історія", яка постійно пишеться, але минуле в ній залишається недоторканним.

  • Як це працює: Це як щоденник або стрічка новин. Ви дописуєте новий день, але не вириваєте сторінки за минулий місяць і не виправляєте там помилки.

  • Чому це важливо для захисту: Тут потрібна система, яка вміє "дозаписувати" нове, не пошкоджуючи старе. Це ідеально для доведення чесності дослідження — можна простежити, як накопичувалися дані день за днем.

  • Приклад: Показники метеостанції (щогодини додається новий запис); лог-файли сервера.

3. Набори даних, які можна переглядати (Revisable Data Sets)

Це "живий" організм. Тут можна все: додавати нове, виправляти знайдені помилки в старих записах або видаляти зайве.

  • Як це працює: Це як стаття у Вікіпедії. Вона постійно оновлюється, і вчорашня інформація сьогодні може виглядати інакше.

  • Чому це важливо для захисту: Це найскладніший тип. Тут критично важливо мати версійність. Якщо ви змінили дані сьогодні, ви повинні мати можливість "відкотитися" до того стану, який був тиждень тому, щоб зрозуміти, чому змінилися ваші висновки.

  • Приклад: База даних пацієнтів у лікарні (адреса або прізвище можуть змінитися); список літератури до статті, який ви постійно редагуєте.

Як це впливає на вибір стратегії:

Тип динамікиОсновний ризикЩо робити?
ФіксованіВипадкове видаленняОдин раз зробити надійний архів ("Read Only").
ЗростаючіВтрата останніх сегментівНалаштувати регулярне автоматичне додавання копій.
Для переглядуНепомітна зміна данихВикористовувати системи контролю версій, щоб бачити хто, коли і що змінив.

Цікаво, що для вирішення кризи відтворюваності науковці зараз намагаються перетворити "дані для перегляду" на "фіксовані". Тобто, на момент публікації статті ви "заморожуєте" версію даних, щоб інші могли перевірити саме той набір, на основі якого ви зробили висновки.

Табличні дані

Табличні дані заслуговують на особливу згадку, оскільки вони дуже поширені в різних дисциплінах, переважно як електронні таблиці Excel. Якщо ви виконуєте аналіз у Excel, вам слід скористатися командою «Зберегти як...», щоб експортувати свою роботу у формат .csv, коли ви закінчите. Ваші електронні таблиці буде легше зрозуміти та експортувати, якщо ви, наприклад:
  • Не розміщуєте більше однієї таблиці на аркуші
  • Додаєте рядок заголовка зі зрозумілою назвою для кожного стовпця
  • Створюєте діаграми на нових аркушах – не вставляєте їх у робочий аркуш із даними

Супровідна інформація

Самі по собі цифри — це "німі" свідки. Щоб вони заговорили і щоб їм можна було вірити, навколо них має бути побудована ціла екосистема супровідної інформації.

Уявіть, що ви знайшли на вулиці флешку з таблицею чисел. Без назв колонок, без дати, без опису — ці дані для вас не мають жодної цінності. Вони стають значущими лише тоді, коли ви знаєте контекст.

Ось як розподіляються ці "супутники" даних за функціями:

1. Інструкція до розуміння (Метадані та документація)

Це продукти, які пояснюють структуру ваших даних. Без них первинні дані — це просто набір символів.
  • Анкети: Пояснюють, які саме запитання ставили людям (адже формулювання питання на 90% визначає відповідь).
  • Книги кодів (Codebooks): Словник, який розшифровує позначення. Наприклад, що в колонці "Стать" цифра 1 — це жіноча, а 2 — чоловіча.
  • Описи методологій: Технічний паспорт дослідження. Хто, де, коли і яким приладом робив заміри.
2. Фонові дані (Contextual/Background Data)

Як зазначають Волліс, Роландо та Боргман, дані переднього плану (те, що ви безпосередньо вивчаєте) не існують у вакуумі.

Чому це важливо: Якщо ви досліджуєте точність роботи лазера, то вологість повітря в лабораторії — це "фонова" інформація. Вона не є предметом дослідження, але вона може пояснити, чому лазер раптом почав "хибити".

Критичність: Без фонових даних ми часто отримуємо хибні висновки, плутаючи випадкову зовнішню перешкоду з науковим відкриттям.

3. Продукти дослідження, вихідні продукти (Output Products)

Це те, у що перетворюються дані після того, як їх "перетравив" мозок науковця. Вони необхідні для вторинного аналізу (коли інші вчені хочуть перевірити ваші висновки) та комунікації.
  • Науковий рівень: Статті, доповіді, офіційні документи (White papers). Це "стисла витяжка" сенсів із тисяч сторінок сирих даних.
  • Публічний рівень: Постери, сайти, блоги. Це спосіб донести складні дані до суспільства зрозумілою мовою.
Це важливо для подолання "кризи відтворюваності", оскільки значну частину досліджень неможливо відтворити саме тому, що вчені публікують лише статтю, але забувають додати:
  • Фонові дані (що відбувалося навколо).
  • Книги кодів (як рахували).
  • Методологію (детальний "рецепт" приготування результату).
Отже, для захисту та зберігання даних ви повинні ставитися до анкети чи опису методології так само дбайливо, як і до самих цифр. Якщо зникне "словник" (кодбук), сама "книга" (дані) стане нечитабельною.

Вплив типу даних на вибір стратегії захисту

Стратегія керування даними безпосередньо залежить від того, наскільки важко або неможливо їх «воскресити» у разі втрати. Уявіть, що дані — це інгредієнти на кухні. Те, звідки вони взялися, визначає, як ми повинні їх зберігати (у холодильнику чи в шафі) та наскільки сильно ми будемо хвилюватися, якщо вони зіпсуються.

Ось просте пояснення цих чотирьох категорій:

1. Спостережні дані (Observational)

Це те, що ми «спіймали» у реальному світі. Ви просто спостерігаєте за подією і записуєте її.

  • Чому це важливо: Якщо ви не записали сонячне затемнення 2024 року в момент, коли воно відбувалося — ви втратили шанс назавжди. Ці дані неможливо відтворити, бо час не повернеш назад.

  • Приклади: Запис температури сьогодні вранці, відео з камер спостереження, результати соцопитування людей на вулиці.

2. Експериментальні дані (Experimental)

Це те, що ви отримали в лабораторії, де ви «господар» ситуації. Ви самі створили умови й записали результат.

  • Чому це важливо: Їх зазвичай можна отримати знову, якщо повторити експеримент. Але це може коштувати купу грошей або зайняти роки роботи.

  • Приклади: Результати випробування нових ліків, реакція хімічних речовин у колбі, дослідження ДНК.

3. Симуляція (Simulation)

Це дані, які згенерував комп’ютер за допомогою математичної моделі. Це «цифрове передбачення».

  • Чому це важливо: Якщо у вас є код (модель) і початкові цифри, які ви туди ввели, ви можете натиснути кнопку «Старт» і отримати той самий результат знову. Головне — не загубити саму програму.

  • Приклади: Прогноз погоди на тиждень, моделювання того, як розбивається авто при зіткненні (краш-тест на комп'ютері).

4. Виведені або Складені дані (Derived / Compiled)

Це «дані з даних». Ви берете вже готову інформацію і переробляєте її на щось нове (аналізуєте, групуєте, чистите).

  • Чому це важливо: Ви завжди можете зробити це знову, якщо у вас є першоджерела. Проте, якщо ви витратили 100 годин на аналіз тисяч документів, то втрата цього результату буде дуже болючою через втрачений час.

  • Приклади: Зведені графіки продажів за рік (зроблені з тисяч чеків), 3D-модель будівлі, побудована на основі сотень фотографій.

Коротке порівняння для вибору стратегії:

Тип данихЧи можна відтворити?Пріоритет захисту
СпостережніНі (ніколи)🔴 Найвищий (якщо втратимо — не повернемо)
ЕкспериментальніТак, але дорого🟠 Високий (через вартість повтору)
СимуляціяТак (якщо є модель)🟡 Середній (захищаємо код і вхідні дані)
ВиведеніТак (якщо є джерело)🟢 Нижчий (але бережемо робочий час)

Що таке криза відтворюваності?

Термін replication crisis увійшов у широкий вжиток після 2010 року. Спочатку занепокоєння охопило соціальні науки, зокрема психологію, де класичні експерименти минулих десятиліть раптом не вдалося підтвердити в сучасних лабораторіях.

Однак згодом стало зрозуміло, що проблема значно масштабніша. Згідно зі звітом експертної групи Єврокомісії (2016), лише 50% наукових даних є відтворюваними. Однією з головних причин є недоброчесність: на жаль, деякі науковці вдаються до фальсифікації даних заради гучних публікацій.

Економічна наука також опинилася під ударом. Масштабні перевірки показали тривожні результати:
  • Дослідження 2016 року в журналі Science виявило, що третину з 18 експериментів, опублікованих у топових виданнях (American Economic Review та Quarterly Journal of Economics), не вдалося повторити.
  • Дослідження 2017 року в Economic Journal свідчить, що більшість середніх ефектів в емпіричній економіці перебільшені щонайменше вдвічі, а третина з них — у чотири рази або більше.
Криза виникла не на порожньому місці. Серед головних причин:
  • Тиск "Publish or Perish" (Публікуйся або зникни): Науковці змушені ганятися за сенсаційними результатами.
  • Вибіркове звітування: Публікуються лише "вдалі" експерименти, тоді як ті, що не показали результату, йдуть "у стіл".
  • Недостатня відкритість: Відсутність доступу до сирих даних заважає іншим вченим перевірити розрахунки.
Рішенням має стати концепція Відкритої науки (Open Science). Створення таких ініціатив, як European Open Science Cloud (EOSC), має на меті зробити дані прозорими, доступними та такими, що піддаються перевірці.

Джерела:
  1. Realising the European Open Science Cloud. First report and recommendations of the Commission High Level Expert Group on the European Open Science Cloud (2016). [Online resource]. Available at:https://op.europa.eu/en/publication-detail/-/publication/2ec2eced-9ac5-11e6-868c-01aa75ed71a1
  2. Camerer, C. F., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433-1436. Available at: https://www.science.org/doi/10.1126/science.aaf0918
  3. Ioannidis, J. P. A, Stanley, T. D., & Doucouliagos, H. (2017). The Power of Bias in Economics Research. The Economic Journal, 127(605), F236-F265. Available at: https://ideas.repec.org/a/wly/econjl/v127y2017i605pf236-f265.html 

2026/02/03

Етичні та правові питання роботи з даними

MIT : Етичні та правові питання
Питання конфіденційності, питання інтелектуальної власності (з посиланнями на Creative Commons та контактними даними кампусу щодо авторських прав)
Архів даних Великої Британії: згода та етика
Архів даних Великої Британії щодо згоди та етики збору даних. Як захистити конфіденційну інформацію, рекомендації щодо інформованої згоди та анонімізації.
Університет Міннесоти: Управління конфіденційними даними
Керівні принципи роботи з людьми, етичні та правові міркування.
Університет Орегону: Суб'єкти дослідження
Чудовий список тематичних, асоціаційних та суспільних рекомендацій щодо етичних міркувань.

Як вказати ідентифікатор в Заяві про доступність даних

Якщо дані дослідження будуть оприлюднені, тоді Заява про доступ до даних повинна містити інформацію про те, де і як можна отримати доступ до даних. 

Ідентифікатор - один з обов'язкових елементів метаданих. Якщо ваші дані будуть відкрито доступні за кількома DOI/URL, виберіть відповідне твердження та додайте DOI/URL, розділені крапками з комами. Зверніть увагу! Заява не може бути змінена після публікації статті.

Якщо ви збираєтеся зробити дані відкрито доступними в майбутньому, але не маєте попередньо зареєстрованого DOI/URL, коли надсилаєте свій рукопис, зазначте, що дані не є загальнодоступними, а потім надайте додаткові відомості в розділі Заяв про доступність даних у формі подання про те, коли та як дані стануть доступними.

Якщо дані дослідження не будуть загальнодоступними та без  DOI/URL, треба вказати причину в Заяві. Не хвилюйтеся, існує ряд об'єктивних перешкод для відкритого обміну конфіденційною інформацією, чутливими даними досліджень тощо, тому вказана вами причина не буде підставою для відхилення вашої статті за умови наведення вагомих аргументів для обмеження доступу.