Показ дописів із міткою відшукуваність. Показати всі дописи
Показ дописів із міткою відшукуваність. Показати всі дописи

2026/02/05

Ідентифікатор як постійна адреса

From International Studies Quarterly, King and Zeng, 2006, p. 209:

Gary King; Langche Zeng, 2006, “Replication data for: When Can History be Our Guide? The Pitfalls of Counterfactual Inference”, Harvard Dataverse, V2, http://hdl.handle.net/1902.1/DXRXCFAWPK
UNF:3:DaYlT6QSX9r0D50ye+tXpA==

Це приклад сучасного наукового цитування даних, яке гарантує, що посилання не «зламається» з часом. Головним елементом тут є унікальний глобальний ідентифікатор (наприклад, DOI або HANDLE), який працює як постійна адреса об'єкта в цифровому світі. На відміну від звичайних посилань (URL), які можуть перестати працювати, якщо сайт змінить структуру або переїде на інший домен, ці ідентифікатори залишаються незмінними. Вони автоматично перенаправляють користувача на актуальне місцезнаходження даних, забезпечуючи зв'язок між друкованою статтею та цифровим архівом навіть через десятиліття.

Окрім посилання на місце зберігання (Harvard Dataverse), цитата містить спеціальний код — UNF (Universal Numeric Fingerprint). Це «цифровий відбиток» самого набору даних, який дозволяє машині або досліднику миттєво перевірити, чи не були дані змінені. Якщо в наборі даних зміниться хоча б одна цифра, код UNF стане іншим. Таким чином, поєднання постійного ідентифікатора та цифрового відбитка створює надійну систему, яка підтримує цілісність науки та дозволяє іншим вченим точно знайти й перевірити результати дослідження.

2026/01/26

Принципи FAIR

Принципи FAIR –  це міжнародно визнані принципи управління науковими даними, створених з метою зробити дані та інші результати доступнішими та більш придатними для повторного використання іншими, вони забезпечують Відшукуваність (Findable), Доступність (Accessible), Інтероперабельність (Interoperable) та Багаторазовість (Reusable). Визначені у 2016 році, принципи FAIR зараз вважаються стандартом у відкритості дослідницьких даних і дедалі частіше вимагаються для дослідницьких проєктів. Варто зазначити, що дані або вихідний код можуть бути FAIR більшою чи меншою мірою, але будь-який рух у напрямку FAIR є позитивним. 

Практичні кроки для впровадження принципів FAIR в управлінні даними

Findability (Відшукуваність)

  • Має унікальний, постійний ідентифікатор, наприклад, DOI.
  • Має багато описових метаданих (даних про дані).
  • Індексується в ресурсі, доступному для пошуку, наприклад, у репозитарії даних.
Щоб зробити дані/код доступними для пошуку:
  • Зберігайте дані в репозиторії, що надає їм DOI.
  • Цитуйте це в публікаціях (використовуючи DOI).
  • Переконайтеся, що це повністю задокументовано — заповніть усі відповідні поля під час депонування та додайте файл README.

Accessibility (Доступність)

  • Можна отримати за допомогою стандартного, безплатного та відкритого протоколу, який дозволяє автентифікацію, де це необхідно.
  • Метадані доступні навіть там, де немає даних.
Щоб зробити дані/ код доступними:
  • Використовуйте відповідний репозиторій для ваших даних/коду
  • Якщо ви не можете поділитися своїми даними/кодом, створіть запис лише з метаданими.

Interoperability (Сумісність)

  • Може бути інтегрований з іншими даними, програмами та робочими процесами.
  • Використання відкритих або загальновживаних форматів файлів.
Щоб зробити дані/ код сумісними:
  • Перевірте, чи використовуються стандартні або відкриті формати файлів
  • Використовуйте стандартну та доступну лексику.

Reusability (Багаторазовість)

  • Опубліковано з ліцензією, яка вказує, як її можна використовувати повторно, наприклад, ліцензія CC.
  • Відповідно до громадських стандартів.
  • Чітко задокументовано.
Щоб зробити дані/ код придатними для повторного використання:

  • Використовуйте ліцензію Creative Commons для даних
  • Для програмного забезпечення з відкритим кодом виберіть відповідну ліцензію тут
  • Надайте якомога більше інформації (метаданих) про дані під час надсилання до репозитарію
  • Додайте файл README для пояснення та контекстуалізації даних.

2026/01/23

Метадані

Метадані означають дані про дані. Це структурована інформація, яка описує, пояснює, визначає місцезнаходження або іншим чином представляє щось інше.

Вони забезпечують  структурований спосіб опису наборів даних стандартизованим чином, що читається машиною. Тобто це дозволяє різним комп'ютерам автоматично інтерпретувати вміст.

Без надійних метаданих неможливо шукати, ідентифікувати чи інтерпретувати дані. Метадані забезпечують відповідність принципам FAIR, а саме відшукуваності, доступності та багаторазовості.

Нижче наведено загальні елементи метаданих:

Типи

Функції

Приклади


Описові метадані

Дозволяє здійснювати відшукування, індексування та пошук
  • Назва
  • Творець
  • Спонсори
  • Тема
  • Мова
  • Дати
  • Розташування
  • Постійний ідентифікатор


Технічні метадані

Описує, як було створено та структуровано набір даних
  • Методи
  • Обробка
  • Імена файлів
  • Формат файлу
  • Змінні
  • Коди
  • Версії


Адміністративні метадані

Описує права користувачів та керування набором данихПрава та ліцензія на повторне використання

Доступ до інформації, такої як обмеження та період ембарго


Інструмент EUDAT B2SHARE містить вбудований майстер ліцензування, який спрощує вибір відповідної ліцензії для дослідницьких даних.

Файл Readme

Файл Readme містить інформацію про файл даних. Він допомагає іншим дослідникам та вам самим зрозуміти та повторно використовувати дані в майбутньому. Типовий файл Readme зазвичай зберігається у звичайному текстовому файлі, а не у власних форматах (наприклад, MS Word) для довгострокового доступу.

Нижче наведено деякі загальні аспекти ваших даних, які ви повинні задокументувати, незалежно від вашої дисципліни. 

Загальний огляд

  • Назва: назва набору даних або дослідницького проєкту, який його створив.

  • Творець: назви та адреси організацій або людей, які створили дані; бажаний формат для особистих імен – прізвище спочатку (наприклад Сміт, Джейн).

  • Ідентифікатор: унікальний номер, який використовується для ідентифікації даних, навіть якщо це лише внутрішній номер проєкту.

  • Дата: ключові дати, пов’язані з даними, зокрема: дата початку та завершення проєкту; дата випуску; період часу, охоплений даними; та інші дати, пов’язані зі строком служби даних, такі як цикл обслуговування, графік оновлення; бажаний формат РРРР-ММ-ДД або РРРР.ММ.ДД-РРРР.ММ.ДД для діапазону.

  • Метод: як були згенеровані дані, перелік використовуваного обладнання та програмного забезпечення (включаючи номери моделі та версії), формули, алгоритми, експериментальні протоколи та інша  інформація, яку можна включити в лабораторний блокнот.

  • Обробка: як дані були змінені чи оброблені (наприклад нормалізовані).

  • Джерело: посилання на дані, отримані з інших джерел, у тому числі відомості про те, де зберігаються вихідні дані та як до них здійснюється  доступ.

  • Фінансувальник: організації чи установи, які фінансували дослідження.


Опис вмісту

  • Тема: ключові слова або фрази, що описують тему чи зміст даних.

  • Місце: усі відповідні фізичні місця.

  • Мова: усі мови, які використовуються в наборі даних.

  • Список змінних: усі змінні у файлах даних, де це можливо.

  • Список кодів: пояснення кодів або скорочень, які використовуються або в назвах файлів, або в змінних у файлах даних (наприклад «999 вказує на відсутнє значення в даних»).

Технічний опис

  • Інвентаризація файлів: усі файли, пов’язані з проєктом, включаючи розширення (наприклад NWPalaceTR.WRL, stone.mov).

  • Формати файлів: формати даних, наприклад FITS, SPSS, HTML, JPEG тощо.

  • Структура файлу: організація файлу(ів) даних і розташування змінних, де це можливо.

  • Версія: унікальна позначка дати/часу та ідентифікатор для кожної версії.

  • Контрольна сума: значення, обчислене для кожного файлу, яке можна використовувати для виявлення змін.

  • Необхідне програмне забезпечення: назви будь-яких програмних пакетів спеціального призначення, необхідних для створення, перегляду, аналізу або іншого використання даних.

Доступ

  • Права: будь-які відомі права інтелектуальної власності, законні права, ліцензії або обмеження на використання даних.

  • Інформація про доступ: де та як інші дослідники можуть отримати доступ до ваших даних.

  • Інформація про походження похідних чи оцифрованих даних.


Writing READMEs for Research Data

https://data.research.cornell.edu/data-management/sharing/readme/

AUTHOR_DATASET_ReadmeTemplate.txt https://cornell.app.box.com/v/ReadmeTemplate