DataSteward@LibraryKPI: багаторазовість

Показ дописів із міткою багаторазовість. Показати всі дописи

2026/02/05

Вторинні дані

Вторинні дані — це дані, зібрані для однієї цілі, які надаються для використання іншими особами для іншої цілі.

Чому вторинні дані — це круто?

Головна причина — масштаб. Як окремий дослідник або студент, ви навряд чи зможете опитати 50 000 людей у 10 країнах. У вас просто не вистачить грошей та часу. А великі організації (державні служби статистики, міжнародні фонди) мають для цього колосальні ресурси.

Вища якість: Дані від великих інституцій часто набагато точніші та професійніші, ніж ті, що ви зберете "на колінці".
Швидкість: Ви можете завантажити величезний масив інформації з інтернету за лічені хвилини, замість того, щоб збирати його місяцями.

У чому "пастка"? (Два головні мінуси)

1. "Це майже те, що мені треба"

Оскільки дані збирав хтось інший, вони навряд чи ідеально підходять під ваше запитання.

Ризик: Виникає велика спокуса "підтягнути за вуха" чужі цифри до своєї теорії. Ви починаєте вдавати, що ці дані вимірюють саме те, що вам потрібно, хоча насправді це не зовсім так. Ви не контролювали процес збору, тому маєте те, що маємо.

2. Довга "інструкція"

Хоча самі дані ви отримуєте миттєво, підготовка до роботи з ними займає купу часу.

Проблема: Ви не можете просто відкрити файл і почати рахувати. Вам потрібно "проковтнути" гігантські обсяги документації.
Ви повинні розібратися: як саме обирали людей для опитування? Які були фонові умови? Що означає кожен код у таблиці? Без цього розуміння ваші висновки будуть помилковими.

Отже, вторинні дані — це потужний інструмент, який дає вам доступ до ресурсів рівня цілих міністерств. Але це вимагає від вас чесності (чи дійсно ці дані підходять для моєї теми?) та терпіння (вивчити всі описи та методології, які йдуть у комплекті).

Супровідна інформація

Самі по собі цифри — це "німі" свідки. Щоб вони заговорили і щоб їм можна було вірити, навколо них має бути побудована ціла екосистема супровідної інформації.

Уявіть, що ви знайшли на вулиці флешку з таблицею чисел. Без назв колонок, без дати, без опису — ці дані для вас не мають жодної цінності. Вони стають значущими лише тоді, коли ви знаєте контекст.

Ось як розподіляються ці "супутники" даних за функціями:

1. Інструкція до розуміння (Метадані та документація)

Це продукти, які пояснюють структуру ваших даних. Без них первинні дані — це просто набір символів.

Анкети: Пояснюють, які саме запитання ставили людям (адже формулювання питання на 90% визначає відповідь).
Книги кодів (Codebooks): Словник, який розшифровує позначення. Наприклад, що в колонці "Стать" цифра 1 — це жіноча, а 2 — чоловіча.
Описи методологій: Технічний паспорт дослідження. Хто, де, коли і яким приладом робив заміри.

2. Фонові дані (Contextual/Background Data)

Як зазначають Волліс, Роландо та Боргман, дані переднього плану (те, що ви безпосередньо вивчаєте) не існують у вакуумі.

Чому це важливо: Якщо ви досліджуєте точність роботи лазера, то вологість повітря в лабораторії — це "фонова" інформація. Вона не є предметом дослідження, але вона може пояснити, чому лазер раптом почав "хибити".

Критичність: Без фонових даних ми часто отримуємо хибні висновки, плутаючи випадкову зовнішню перешкоду з науковим відкриттям.

3. Продукти дослідження, вихідні продукти (Output Products)

Це те, у що перетворюються дані після того, як їх "перетравив" мозок науковця. Вони необхідні для вторинного аналізу (коли інші вчені хочуть перевірити ваші висновки) та комунікації.

Науковий рівень: Статті, доповіді, офіційні документи (White papers). Це "стисла витяжка" сенсів із тисяч сторінок сирих даних.
Публічний рівень: Постери, сайти, блоги. Це спосіб донести складні дані до суспільства зрозумілою мовою.

Це важливо для подолання "кризи відтворюваності", оскільки значну частину досліджень неможливо відтворити саме тому, що вчені публікують лише статтю, але забувають додати:

Фонові дані (що відбувалося навколо).
Книги кодів (як рахували).
Методологію (детальний "рецепт" приготування результату).

Отже, для захисту та зберігання даних ви повинні ставитися до анкети чи опису методології так само дбайливо, як і до самих цифр. Якщо зникне "словник" (кодбук), сама "книга" (дані) стане нечитабельною.

Що таке криза відтворюваності?

Термін replication crisis увійшов у широкий вжиток після 2010 року. Спочатку занепокоєння охопило соціальні науки, зокрема психологію, де класичні експерименти минулих десятиліть раптом не вдалося підтвердити в сучасних лабораторіях.

Однак згодом стало зрозуміло, що проблема значно масштабніша. Згідно зі звітом експертної групи Єврокомісії (2016), лише 50% наукових даних є відтворюваними. Однією з головних причин є недоброчесність: на жаль, деякі науковці вдаються до фальсифікації даних заради гучних публікацій.

Економічна наука також опинилася під ударом. Масштабні перевірки показали тривожні результати:

Дослідження 2016 року в журналі Science виявило, що третину з 18 експериментів, опублікованих у топових виданнях (American Economic Review та Quarterly Journal of Economics), не вдалося повторити.
Дослідження 2017 року в Economic Journal свідчить, що більшість середніх ефектів в емпіричній економіці перебільшені щонайменше вдвічі, а третина з них — у чотири рази або більше.

Криза виникла не на порожньому місці. Серед головних причин:

Тиск "Publish or Perish" (Публікуйся або зникни): Науковці змушені ганятися за сенсаційними результатами.
Вибіркове звітування: Публікуються лише "вдалі" експерименти, тоді як ті, що не показали результату, йдуть "у стіл".
Недостатня відкритість: Відсутність доступу до сирих даних заважає іншим вченим перевірити розрахунки.

Рішенням має стати концепція Відкритої науки (Open Science). Створення таких ініціатив, як European Open Science Cloud (EOSC), має на меті зробити дані прозорими, доступними та такими, що піддаються перевірці.

Джерела:

Realising the European Open Science Cloud. First report and recommendations of the Commission High Level Expert Group on the European Open Science Cloud (2016). [Online resource]. Available at:https://op.europa.eu/en/publication-detail/-/publication/2ec2eced-9ac5-11e6-868c-01aa75ed71a1
Camerer, C. F., et al. (2016). Evaluating replicability of laboratory experiments in economics. Science, 351(6280), 1433-1436. Available at: https://www.science.org/doi/10.1126/science.aaf0918
Ioannidis, J. P. A, Stanley, T. D., & Doucouliagos, H. (2017). The Power of Bias in Economics Research. The Economic Journal, 127(605), F236-F265. Available at: https://ideas.repec.org/a/wly/econjl/v127y2017i605pf236-f265.html

2026/01/26

Як ліцензувати відкриті дані?

Нагадаємо, дані є відкритими, якщо виконуються такі умови:
✓ відкрита ліцензія Creative Commons;
✓ відкритий доступ;

✓ відкритий машиночитний формат.

Застосування відповідної ліцензії до ваших даних має вирішальне значення для того, щоб зробити їх придатними для повторного використання. Видавці заохочують надавати дослідницькі дані за відкритими ліцензіями, які дозволяють вільне повторне використання (наприклад, CC0). Але видавці не накладають жодних ліцензій на дослідницькі дані, якщо дослідницькі дані зберігаються в сторонніх сховищах. Видавець журналу також не претендує на авторські права на дані досліджень. Вибір ліцензії залишається за дослідником.

Деякі з найбільш поширених ліцензій для повторного використання:

CC0 (No Rights Reserved) - права не захищені, суспільне надбання. CC0 може бути особливо важливим для обміну даними та базами даних, оскільки в протилежному випадку може бути неясно, обмежено дані та бази даних, засновані на фактах, авторським правом чи іншими правами. Бази даних можуть містити факти, які самі по собі не захищені законом про авторське право. CC0 рекомендується для табличних даних і баз даних і використовується сотнями організацій. Особливо рекомендується для наукових даних. Хоча CC0 за законом не вимагає від користувачів даних посилань на джерело, це не знімає моральної відповідальності в зазначені авторства, як заведено в наукових дослідженнях.

CC-BY (Attribution) - зазначення авторства. Ця ліцензія дозволяє іншим поширювати, мікшувати, створювати та використовувати вашу роботу (також у комерційних цілях) за умови, що вони вказують вам авторство оригінального твору. Це сама зручна пропонована ліцензія. Рекомендується для максимального поширення та використання ліцензійних матеріалів.

CC BY-SA (Attribution-ShareAlike) - ця ліцензія дозволяє іншим мікширувати, створювати та використовувати вашу роботу навіть у комерційних цілях, за умови, що вони посилаються на вас, і ліцензують свої нові твори на тих же умовах. Цю ліцензію часто зрівнюють з ліцензіями на безплатне та відкрите програмне забезпечення з авторським правом. Усі нові роботи, засновані на вашій, будуть мати ту ж ліцензію, тому будь-які виробничі також дозволяють комерційне використання. Це ліцензія, яка використовується у Вікіпедії, і вона рекомендована для матеріалів, які відтворюються від включення контенту з Вікіпедії та проєктів з аналогічною ліцензією.

CC BY-NC (Attribution-NonCommercial). Ця ліцензія дозволяє іншим мікширувати, створювати та використовувати вашу роботу в некомерційних цілях, і, хоча їх нові роботи також повинні визнавати вас і бути некомерційними, вони не зобов’язані ліцензувати свої продуктивні роботи на таких умовах.

Для отримання додаткової інформації про ліцензування відкрийте Ліцензування.

Принципи FAIR

Принципи FAIR – це міжнародно визнані принципи управління науковими даними, створених з метою зробити дані та інші результати доступнішими та більш придатними для повторного використання іншими, вони забезпечують Відшукуваність (Findable), Доступність (Accessible), Інтероперабельність (Interoperable) та Багаторазовість (Reusable). Визначені у 2016 році, принципи FAIR зараз вважаються стандартом у відкритості дослідницьких даних і дедалі частіше вимагаються для дослідницьких проєктів. Варто зазначити, що дані або вихідний код можуть бути FAIR більшою чи меншою мірою, але будь-який рух у напрямку FAIR є позитивним.

Практичні кроки для впровадження принципів FAIR в управлінні даними

Findability (Відшукуваність)

Має унікальний, постійний ідентифікатор, наприклад, DOI.
Має багато описових метаданих (даних про дані).
Індексується в ресурсі, доступному для пошуку, наприклад, у репозитарії даних.

Щоб зробити дані/код доступними для пошуку:

Зберігайте дані в репозиторії, що надає їм DOI.
Цитуйте це в публікаціях (використовуючи DOI).
Переконайтеся, що це повністю задокументовано — заповніть усі відповідні поля під час депонування та додайте файл README.

Accessibility (Доступність)

Можна отримати за допомогою стандартного, безплатного та відкритого протоколу, який дозволяє автентифікацію, де це необхідно.
Метадані доступні навіть там, де немає даних.

Щоб зробити дані/ код доступними:

Використовуйте відповідний репозиторій для ваших даних/коду
Якщо ви не можете поділитися своїми даними/кодом, створіть запис лише з метаданими.

Interoperability (Сумісність)

Може бути інтегрований з іншими даними, програмами та робочими процесами.
Використання відкритих або загальновживаних форматів файлів.

Щоб зробити дані/ код сумісними:

Перевірте, чи використовуються стандартні або відкриті формати файлів
Використовуйте стандартну та доступну лексику.

Reusability (Багаторазовість)

Опубліковано з ліцензією, яка вказує, як її можна використовувати повторно, наприклад, ліцензія CC.
Відповідно до громадських стандартів.
Чітко задокументовано.

Щоб зробити дані/ код придатними для повторного використання:

Використовуйте ліцензію Creative Commons для даних
Для програмного забезпечення з відкритим кодом виберіть відповідну ліцензію тут
Надайте якомога більше інформації (метаданих) про дані під час надсилання до репозитарію
Додайте файл README для пояснення та контекстуалізації даних.

Додатково:
FAIR Principles
FAIR для різних типів даних
Застосування FAIR для свого дослідження
How to FAIR: Practical Guide
Серія гайдів від GO FAIR для науковців, бібліотекарів, ІТ-фахівців.
FAIRsharing
Каталог стандартів, баз даних, політик і моделей метаданих.(Незамінний ресурс для вибору відповідного формату даних у певній дисципліні.)

НТБ ім. Г.І. Денисенка КПІ ім. Ігоря Сікорського. (2024). Інструменти оцінювання даних на відповідність принципам FAIR [Відео]. YouTube.

2026/01/23

Метадані

Метадані означають дані про дані. Це структурована інформація, яка описує, пояснює, визначає місцезнаходження або іншим чином представляє щось інше.

Вони забезпечують структурований спосіб опису наборів даних стандартизованим чином, що читається машиною. Тобто це дозволяє різним комп'ютерам автоматично інтерпретувати вміст.

Без надійних метаданих неможливо шукати, ідентифікувати чи інтерпретувати дані. Метадані забезпечують відповідність принципам FAIR, а саме відшукуваності, доступності та багаторазовості.

Нижче наведено загальні елементи метаданих:

Типи	Функції	Приклади
Описові метадані	Дозволяє здійснювати відшукування, індексування та пошук	Назва Творець Спонсори Тема Мова Дати Розташування Постійний ідентифікатор
Технічні метадані	Описує, як було створено та структуровано набір даних	Методи Обробка Імена файлів Формат файлу Змінні Коди Версії
Адміністративні метадані	Описує права користувачів та керування набором даних	Права та ліцензія на повторне використання Доступ до інформації, такої як обмеження та період ембарго

Додатково: Стандарти метаданих, Readme

Інструмент EUDAT B2SHARE містить вбудований майстер ліцензування, який спрощує вибір відповідної ліцензії для дослідницьких даних.

Файл Readme

Файл Readme містить інформацію про файл даних. Він допомагає іншим дослідникам та вам самим зрозуміти та повторно використовувати дані в майбутньому. Типовий файл Readme зазвичай зберігається у звичайному текстовому файлі, а не у власних форматах (наприклад, MS Word) для довгострокового доступу.

Нижче наведено деякі загальні аспекти ваших даних, які ви повинні задокументувати, незалежно від вашої дисципліни.

Загальний огляд

Назва: назва набору даних або дослідницького проєкту, який його створив.
Творець: назви та адреси організацій або людей, які створили дані; бажаний формат для особистих імен – прізвище спочатку (наприклад Сміт, Джейн).
Ідентифікатор: унікальний номер, який використовується для ідентифікації даних, навіть якщо це лише внутрішній номер проєкту.
Дата: ключові дати, пов’язані з даними, зокрема: дата початку та завершення проєкту; дата випуску; період часу, охоплений даними; та інші дати, пов’язані зі строком служби даних, такі як цикл обслуговування, графік оновлення; бажаний формат РРРР-ММ-ДД або РРРР.ММ.ДД-РРРР.ММ.ДД для діапазону.
Метод: як були згенеровані дані, перелік використовуваного обладнання та програмного забезпечення (включаючи номери моделі та версії), формули, алгоритми, експериментальні протоколи та інша інформація, яку можна включити в лабораторний блокнот.
Обробка: як дані були змінені чи оброблені (наприклад нормалізовані).
Джерело: посилання на дані, отримані з інших джерел, у тому числі відомості про те, де зберігаються вихідні дані та як до них здійснюється доступ.
Фінансувальник: організації чи установи, які фінансували дослідження.

Опис вмісту

Тема: ключові слова або фрази, що описують тему чи зміст даних.
Місце: усі відповідні фізичні місця.
Мова: усі мови, які використовуються в наборі даних.
Список змінних: усі змінні у файлах даних, де це можливо.
Список кодів: пояснення кодів або скорочень, які використовуються або в назвах файлів, або в змінних у файлах даних (наприклад «999 вказує на відсутнє значення в даних»).

Технічний опис

Інвентаризація файлів: усі файли, пов’язані з проєктом, включаючи розширення (наприклад NWPalaceTR.WRL, stone.mov).
Формати файлів: формати даних, наприклад FITS, SPSS, HTML, JPEG тощо.
Структура файлу: організація файлу(ів) даних і розташування змінних, де це можливо.
Версія: унікальна позначка дати/часу та ідентифікатор для кожної версії.
Контрольна сума: значення, обчислене для кожного файлу, яке можна використовувати для виявлення змін.
Необхідне програмне забезпечення: назви будь-яких програмних пакетів спеціального призначення, необхідних для створення, перегляду, аналізу або іншого використання даних.

Доступ

Права: будь-які відомі права інтелектуальної власності, законні права, ліцензії або обмеження на використання даних.
Інформація про доступ: де та як інші дослідники можуть отримати доступ до ваших даних.
Інформація про походження похідних чи оцифрованих даних.

Writing READMEs for Research Data

https://data.research.cornell.edu/data-management/sharing/readme/

AUTHOR_DATASET_ReadmeTemplate.txt https://cornell.app.box.com/v/ReadmeTemplate

DataSteward@LibraryKPI

Сторінки