DataSteward@LibraryKPI: відтворюваність

Показ дописів із міткою відтворюваність. Показати всі дописи

2026/02/05

Динаміка даних протягом життєвого циклу

Дані можна фіксувати або змінювати протягом проєкту (і, можливо, після його завершення).

Фіксовані набори даних: ніколи не змінюються після збору чи створення.
Зростання наборів даних: можна додавати нові дані, але старі дані ніколи не змінюються та не видаляються.
Набори даних, які можна переглядати: можна додавати нові дані, а старі дані можна змінювати або видаляти.

Те, як набір даних поводиться з часом, визначає, як нам потрібно робити резервні копії (бекапи) та як забезпечити довіру до результатів.

1. Фіксовані набори даних (Fixed Data Sets)

Це дані, які "застигли в часі". Щойно вони зібрані або згенеровані — процес завершено. Жодна цифра в них більше не змінить свого значення.

Як це працює: Це як фотографія. Ви зробили знімок, і він залишається незмінним.
Чому це важливо для захисту: Це найпростіший тип для зберігання. Ви робите одну ідеальну копію, фіксуєте її "контрольну суму" (цифровий відбиток), щоб ніхто нічого не підправив, і кладете в архів.
Приклад: Результати перепису населення за 2001 рік; дані завершеного лабораторного експерименту.

2. Зростальні набори даних (Growing Data Sets)

Тут дані тільки додаються. Це "історія", яка постійно пишеться, але минуле в ній залишається недоторканним.

Як це працює: Це як щоденник або стрічка новин. Ви дописуєте новий день, але не вириваєте сторінки за минулий місяць і не виправляєте там помилки.
Чому це важливо для захисту: Тут потрібна система, яка вміє "дозаписувати" нове, не пошкоджуючи старе. Це ідеально для доведення чесності дослідження — можна простежити, як накопичувалися дані день за днем.
Приклад: Показники метеостанції (щогодини додається новий запис); лог-файли сервера.

3. Набори даних, які можна переглядати (Revisable Data Sets)

Це "живий" організм. Тут можна все: додавати нове, виправляти знайдені помилки в старих записах або видаляти зайве.

Як це працює: Це як стаття у Вікіпедії. Вона постійно оновлюється, і вчорашня інформація сьогодні може виглядати інакше.
Чому це важливо для захисту: Це найскладніший тип. Тут критично важливо мати версійність. Якщо ви змінили дані сьогодні, ви повинні мати можливість "відкотитися" до того стану, який був тиждень тому, щоб зрозуміти, чому змінилися ваші висновки.
Приклад: База даних пацієнтів у лікарні (адреса або прізвище можуть змінитися); список літератури до статті, який ви постійно редагуєте.

Як це впливає на вибір стратегії:

Тип динаміки	Основний ризик	Що робити?
Фіксовані	Випадкове видалення	Один раз зробити надійний архів ("Read Only").
Зростаючі	Втрата останніх сегментів	Налаштувати регулярне автоматичне додавання копій.
Для перегляду	Непомітна зміна даних	Використовувати системи контролю версій, щоб бачити хто, коли і що змінив.

Цікаво, що для вирішення кризи відтворюваності науковці зараз намагаються перетворити "дані для перегляду" на "фіксовані". Тобто, на момент публікації статті ви "заморожуєте" версію даних, щоб інші могли перевірити саме той набір, на основі якого ви зробили висновки.

Супровідна інформація

Самі по собі цифри — це "німі" свідки. Щоб вони заговорили і щоб їм можна було вірити, навколо них має бути побудована ціла екосистема супровідної інформації.

Уявіть, що ви знайшли на вулиці флешку з таблицею чисел. Без назв колонок, без дати, без опису — ці дані для вас не мають жодної цінності. Вони стають значущими лише тоді, коли ви знаєте контекст.

Ось як розподіляються ці "супутники" даних за функціями:

1. Інструкція до розуміння (Метадані та документація)

Це продукти, які пояснюють структуру ваших даних. Без них первинні дані — це просто набір символів.

Анкети: Пояснюють, які саме запитання ставили людям (адже формулювання питання на 90% визначає відповідь).
Книги кодів (Codebooks): Словник, який розшифровує позначення. Наприклад, що в колонці "Стать" цифра 1 — це жіноча, а 2 — чоловіча.
Описи методологій: Технічний паспорт дослідження. Хто, де, коли і яким приладом робив заміри.

2. Фонові дані (Contextual/Background Data)

Як зазначають Волліс, Роландо та Боргман, дані переднього плану (те, що ви безпосередньо вивчаєте) не існують у вакуумі.

Чому це важливо: Якщо ви досліджуєте точність роботи лазера, то вологість повітря в лабораторії — це "фонова" інформація. Вона не є предметом дослідження, але вона може пояснити, чому лазер раптом почав "хибити".

Критичність: Без фонових даних ми часто отримуємо хибні висновки, плутаючи випадкову зовнішню перешкоду з науковим відкриттям.

3. Продукти дослідження, вихідні продукти (Output Products)

Це те, у що перетворюються дані після того, як їх "перетравив" мозок науковця. Вони необхідні для вторинного аналізу (коли інші вчені хочуть перевірити ваші висновки) та комунікації.

Науковий рівень: Статті, доповіді, офіційні документи (White papers). Це "стисла витяжка" сенсів із тисяч сторінок сирих даних.
Публічний рівень: Постери, сайти, блоги. Це спосіб донести складні дані до суспільства зрозумілою мовою.

Це важливо для подолання "кризи відтворюваності", оскільки значну частину досліджень неможливо відтворити саме тому, що вчені публікують лише статтю, але забувають додати:

Фонові дані (що відбувалося навколо).
Книги кодів (як рахували).
Методологію (детальний "рецепт" приготування результату).

Отже, для захисту та зберігання даних ви повинні ставитися до анкети чи опису методології так само дбайливо, як і до самих цифр. Якщо зникне "словник" (кодбук), сама "книга" (дані) стане нечитабельною.

Що таке криза відтворюваності?

Термін replication crisis увійшов у широкий вжиток після 2010 року. Спочатку занепокоєння охопило соціальні науки, зокрема психологію, де класичні експерименти минулих десятиліть раптом не вдалося підтвердити в сучасних лабораторіях.

Однак згодом стало зрозуміло, що проблема значно масштабніша. Згідно зі звітом експертної групи Єврокомісії (2016), лише 50% наукових даних є відтворюваними. Однією з головних причин є недоброчесність: на жаль, деякі науковці вдаються до фальсифікації даних заради гучних публікацій.

Економічна наука також опинилася під ударом. Масштабні перевірки показали тривожні результати:

Дослідження 2016 року в журналі Science виявило, що третину з 18 експериментів, опублікованих у топових виданнях (American Economic Review та Quarterly Journal of Economics), не вдалося повторити.
Дослідження 2017 року в Economic Journal свідчить, що більшість середніх ефектів в емпіричній економіці перебільшені щонайменше вдвічі, а третина з них — у чотири рази або більше.

Криза виникла не на порожньому місці. Серед головних причин:

Тиск "Publish or Perish" (Публікуйся або зникни): Науковці змушені ганятися за сенсаційними результатами.
Вибіркове звітування: Публікуються лише "вдалі" експерименти, тоді як ті, що не показали результату, йдуть "у стіл".
Недостатня відкритість: Відсутність доступу до сирих даних заважає іншим вченим перевірити розрахунки.

Рішенням має стати концепція Відкритої науки (Open Science). Створення таких ініціатив, як European Open Science Cloud (EOSC), має на меті зробити дані прозорими, доступними та такими, що піддаються перевірці.

Джерела:

Realising the European Open Science Cloud. First report and recommendations of the Commission High Level Expert Group on the European Open Science Cloud (2016). [Online resource]. Available at:https://op.europa.eu/en/publication-detail/-/publication/2ec2eced-9ac5-11e6-868c-01aa75ed71a1
Camerer, C. F., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433-1436. Available at: https://www.science.org/doi/10.1126/science.aaf0918
Ioannidis, J. P. A, Stanley, T. D., & Doucouliagos, H. (2017). The Power of Bias in Economics Research. The Economic Journal, 127(605), F236-F265. Available at: https://ideas.repec.org/a/wly/econjl/v127y2017i605pf236-f265.html

DataSteward@LibraryKPI

Сторінки