2026/02/05

Супровідна інформація

Самі по собі цифри — це "німі" свідки. Щоб вони заговорили і щоб їм можна було вірити, навколо них має бути побудована ціла екосистема супровідної інформації.

Уявіть, що ви знайшли на вулиці флешку з таблицею чисел. Без назв колонок, без дати, без опису — ці дані для вас не мають жодної цінності. Вони стають значущими лише тоді, коли ви знаєте контекст.

Ось як розподіляються ці "супутники" даних за функціями:

1. Інструкція до розуміння (Метадані та документація)

Це продукти, які пояснюють структуру ваших даних. Без них первинні дані — це просто набір символів.
  • Анкети: Пояснюють, які саме запитання ставили людям (адже формулювання питання на 90% визначає відповідь).
  • Книги кодів (Codebooks): Словник, який розшифровує позначення. Наприклад, що в колонці "Стать" цифра 1 — це жіноча, а 2 — чоловіча.
  • Описи методологій: Технічний паспорт дослідження. Хто, де, коли і яким приладом робив заміри.
2. Фонові дані (Contextual/Background Data)

Як зазначають Волліс, Роландо та Боргман, дані переднього плану (те, що ви безпосередньо вивчаєте) не існують у вакуумі.

Чому це важливо: Якщо ви досліджуєте точність роботи лазера, то вологість повітря в лабораторії — це "фонова" інформація. Вона не є предметом дослідження, але вона може пояснити, чому лазер раптом почав "хибити".

Критичність: Без фонових даних ми часто отримуємо хибні висновки, плутаючи випадкову зовнішню перешкоду з науковим відкриттям.

3. Продукти дослідження, вихідні продукти (Output Products)

Це те, у що перетворюються дані після того, як їх "перетравив" мозок науковця. Вони необхідні для вторинного аналізу (коли інші вчені хочуть перевірити ваші висновки) та комунікації.
  • Науковий рівень: Статті, доповіді, офіційні документи (White papers). Це "стисла витяжка" сенсів із тисяч сторінок сирих даних.
  • Публічний рівень: Постери, сайти, блоги. Це спосіб донести складні дані до суспільства зрозумілою мовою.
Це важливо для подолання "кризи відтворюваності", оскільки значну частину досліджень неможливо відтворити саме тому, що вчені публікують лише статтю, але забувають додати:
  • Фонові дані (що відбувалося навколо).
  • Книги кодів (як рахували).
  • Методологію (детальний "рецепт" приготування результату).
Отже, для захисту та зберігання даних ви повинні ставитися до анкети чи опису методології так само дбайливо, як і до самих цифр. Якщо зникне "словник" (кодбук), сама "книга" (дані) стане нечитабельною.

Вплив типу даних на вибір стратегії захисту

Стратегія керування даними безпосередньо залежить від того, наскільки важко або неможливо їх «воскресити» у разі втрати. Уявіть, що дані — це інгредієнти на кухні. Те, звідки вони взялися, визначає, як ми повинні їх зберігати (у холодильнику чи в шафі) та наскільки сильно ми будемо хвилюватися, якщо вони зіпсуються.

Ось просте пояснення цих чотирьох категорій:

1. Спостережні дані (Observational)

Це те, що ми «спіймали» у реальному світі. Ви просто спостерігаєте за подією і записуєте її.

  • Чому це важливо: Якщо ви не записали сонячне затемнення 2024 року в момент, коли воно відбувалося — ви втратили шанс назавжди. Ці дані неможливо відтворити, бо час не повернеш назад.

  • Приклади: Запис температури сьогодні вранці, відео з камер спостереження, результати соцопитування людей на вулиці.

2. Експериментальні дані (Experimental)

Це те, що ви отримали в лабораторії, де ви «господар» ситуації. Ви самі створили умови й записали результат.

  • Чому це важливо: Їх зазвичай можна отримати знову, якщо повторити експеримент. Але це може коштувати купу грошей або зайняти роки роботи.

  • Приклади: Результати випробування нових ліків, реакція хімічних речовин у колбі, дослідження ДНК.

3. Симуляція (Simulation)

Це дані, які згенерував комп’ютер за допомогою математичної моделі. Це «цифрове передбачення».

  • Чому це важливо: Якщо у вас є код (модель) і початкові цифри, які ви туди ввели, ви можете натиснути кнопку «Старт» і отримати той самий результат знову. Головне — не загубити саму програму.

  • Приклади: Прогноз погоди на тиждень, моделювання того, як розбивається авто при зіткненні (краш-тест на комп'ютері).

4. Виведені або Складені дані (Derived / Compiled)

Це «дані з даних». Ви берете вже готову інформацію і переробляєте її на щось нове (аналізуєте, групуєте, чистите).

  • Чому це важливо: Ви завжди можете зробити це знову, якщо у вас є першоджерела. Проте, якщо ви витратили 100 годин на аналіз тисяч документів, то втрата цього результату буде дуже болючою через втрачений час.

  • Приклади: Зведені графіки продажів за рік (зроблені з тисяч чеків), 3D-модель будівлі, побудована на основі сотень фотографій.

Коротке порівняння для вибору стратегії:

Тип данихЧи можна відтворити?Пріоритет захисту
СпостережніНі (ніколи)🔴 Найвищий (якщо втратимо — не повернемо)
ЕкспериментальніТак, але дорого🟠 Високий (через вартість повтору)
СимуляціяТак (якщо є модель)🟡 Середній (захищаємо код і вхідні дані)
ВиведеніТак (якщо є джерело)🟢 Нижчий (але бережемо робочий час)

Що таке криза відтворюваності?

Термін replication crisis увійшов у широкий вжиток після 2010 року. Спочатку занепокоєння охопило соціальні науки, зокрема психологію, де класичні експерименти минулих десятиліть раптом не вдалося підтвердити в сучасних лабораторіях.

Однак згодом стало зрозуміло, що проблема значно масштабніша. Згідно зі звітом експертної групи Єврокомісії (2016), лише 50% наукових даних є відтворюваними. Однією з головних причин є недоброчесність: на жаль, деякі науковці вдаються до фальсифікації даних заради гучних публікацій.

Економічна наука також опинилася під ударом. Масштабні перевірки показали тривожні результати:
  • Дослідження 2016 року в журналі Science виявило, що третину з 18 експериментів, опублікованих у топових виданнях (American Economic Review та Quarterly Journal of Economics), не вдалося повторити.
  • Дослідження 2017 року в Economic Journal свідчить, що більшість середніх ефектів в емпіричній економіці перебільшені щонайменше вдвічі, а третина з них — у чотири рази або більше.
Криза виникла не на порожньому місці. Серед головних причин:
  • Тиск "Publish or Perish" (Публікуйся або зникни): Науковці змушені ганятися за сенсаційними результатами.
  • Вибіркове звітування: Публікуються лише "вдалі" експерименти, тоді як ті, що не показали результату, йдуть "у стіл".
  • Недостатня відкритість: Відсутність доступу до сирих даних заважає іншим вченим перевірити розрахунки.
Рішенням має стати концепція Відкритої науки (Open Science). Створення таких ініціатив, як European Open Science Cloud (EOSC), має на меті зробити дані прозорими, доступними та такими, що піддаються перевірці.

Джерела:
  1. Realising the European Open Science Cloud. First report and recommendations of the Commission High Level Expert Group on the European Open Science Cloud (2016). [Online resource]. Available at:https://op.europa.eu/en/publication-detail/-/publication/2ec2eced-9ac5-11e6-868c-01aa75ed71a1
  2. Camerer, C. F., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433-1436. Available at: https://www.science.org/doi/10.1126/science.aaf0918
  3. Ioannidis, J. P. A, Stanley, T. D., & Doucouliagos, H. (2017). The Power of Bias in Economics Research. The Economic Journal, 127(605), F236-F265. Available at: https://ideas.repec.org/a/wly/econjl/v127y2017i605pf236-f265.html 

2026/02/03

Етичні та правові питання роботи з даними

MIT : Етичні та правові питання
Питання конфіденційності, питання інтелектуальної власності (з посиланнями на Creative Commons та контактними даними кампусу щодо авторських прав)
Архів даних Великої Британії: згода та етика
Архів даних Великої Британії щодо згоди та етики збору даних. Як захистити конфіденційну інформацію, рекомендації щодо інформованої згоди та анонімізації.
Університет Міннесоти: Управління конфіденційними даними
Керівні принципи роботи з людьми, етичні та правові міркування.
Університет Орегону: Суб'єкти дослідження
Чудовий список тематичних, асоціаційних та суспільних рекомендацій щодо етичних міркувань.

Як вказати ідентифікатор в Заяві про доступність даних

Якщо дані дослідження будуть оприлюднені, тоді Заява про доступ до даних повинна містити інформацію про те, де і як можна отримати доступ до даних. 

Ідентифікатор - один з обов'язкових елементів метаданих. Якщо ваші дані будуть відкрито доступні за кількома DOI/URL, виберіть відповідне твердження та додайте DOI/URL, розділені крапками з комами. Зверніть увагу! Заява не може бути змінена після публікації статті.

Якщо ви збираєтеся зробити дані відкрито доступними в майбутньому, але не маєте попередньо зареєстрованого DOI/URL, коли надсилаєте свій рукопис, зазначте, що дані не є загальнодоступними, а потім надайте додаткові відомості в розділі Заяв про доступність даних у формі подання про те, коли та як дані стануть доступними.

Якщо дані дослідження не будуть загальнодоступними та без  DOI/URL, треба вказати причину в Заяві. Не хвилюйтеся, існує ряд об'єктивних перешкод для відкритого обміну конфіденційною інформацією, чутливими даними досліджень тощо, тому вказана вами причина не буде підставою для відхилення вашої статті за умови наведення вагомих аргументів для обмеження доступу.

2026/02/02

Як вибрати репозитарій?

Найкращі методи керування даними передбачають, що дані повинні зберігатися та бути доступними для спільного використання в надійному сховищі даних. 

Зорієнтуватися у виборі найкращого репозитарію для розміщення конкретних наборів даних допоможуть Рекомендації OpenAIRE (фінансованої Європейським Союзом ініціативи, яка підтримує впровадження політики відкритого доступу та розвиток Європейської хмари відкритої науки). Послідовність кроків наступна:

  • завантажуйте дослідницькі дані у надійні тематичні сховища

  • якщо тематичний репозитарій недоступний, виберіть інституційний науковий репозитарій

  • якщо в установі відсутній власний архів даних, розгляньте перелік репозитаріїв, рекомендований установою, видавцем, грантонадавачем. Наприклад, список репозитаріїв даних від PLOS ONE https://journals.plos.org/plosone/s/recommended-repositories 

  • якщо жоден із попередніх варіантів недоступний, виберіть універсальний репозитарій, наприклад Zenodo https://zenodo.org/, Figshare https://figshare.com/ або Harvard Dataverse https://dataverse.harvard.edu/

  • знайдіть архів за допомогою реєстру Re3data https://www.re3data.org/, що пропонує понад 3500 зареєстрованих репозитаріїв даних із різних галузей знань. Можна здійснювати пошук за темою, типом контенту, країною тощо.

Використовувати реєстр Re3data також радять у «Рекомендаціях щодо відкритого доступу до наукових публікацій і дослідницьких даних у програмі Horizon 2020» Європейської комісії https://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf 


Журнал даних

Data journals, наприклад, SCIENTIFIC DATA JOURNAL - рецензований журнал, що публікує описи та аналіз науково важливих наборів даних. Статті називаються Data Descriptors, поєднують наративну частину та структуровану (метадані), містить опис методології збору даних та технічного аналізу.

Чому це важливо для науковця?

Публікація в таких журналах, як Scientific Data (Nature), Data in Brief (Elsevier) або GigaScience, значно підвищує ваш h-index, оскільки на якісні набори даних зазвичай посилаються частіше, ніж на вузькоспеціалізовані теоретичні статті.