DataSteward@LibraryKPI: ідентифікатор

Показ дописів із міткою ідентифікатор. Показати всі дописи

2026/02/05

Ідентифікатор як постійна адреса

From International Studies Quarterly, King and Zeng, 2006, p. 209:

Gary King; Langche Zeng, 2006, “Replication data for: When Can History be Our Guide? The Pitfalls of Counterfactual Inference”, Harvard Dataverse, V2, http://hdl.handle.net/1902.1/DXRXCFAWPK
UNF:3:DaYlT6QSX9r0D50ye+tXpA==

Це приклад сучасного наукового цитування даних, яке гарантує, що посилання не «зламається» з часом. Головним елементом тут є унікальний глобальний ідентифікатор (наприклад, DOI або HANDLE), який працює як постійна адреса об'єкта в цифровому світі. На відміну від звичайних посилань (URL), які можуть перестати працювати, якщо сайт змінить структуру або переїде на інший домен, ці ідентифікатори залишаються незмінними. Вони автоматично перенаправляють користувача на актуальне місцезнаходження даних, забезпечуючи зв'язок між друкованою статтею та цифровим архівом навіть через десятиліття.

Окрім посилання на місце зберігання (Harvard Dataverse), цитата містить спеціальний код — UNF (Universal Numeric Fingerprint). Це «цифровий відбиток» самого набору даних, який дозволяє машині або досліднику миттєво перевірити, чи не були дані змінені. Якщо в наборі даних зміниться хоча б одна цифра, код UNF стане іншим. Таким чином, поєднання постійного ідентифікатора та цифрового відбитка створює надійну систему, яка підтримує цілісність науки та дозволяє іншим вченим точно знайти й перевірити результати дослідження.

2026/02/03

Як вказати ідентифікатор в Заяві про доступність даних

Якщо дані дослідження будуть оприлюднені, тоді Заява про доступ до даних повинна містити інформацію про те, де і як можна отримати доступ до даних.

Ідентифікатор - один з обов'язкових елементів метаданих. Якщо ваші дані будуть відкрито доступні за кількома DOI/URL, виберіть відповідне твердження та додайте DOI/URL, розділені крапками з комами. Зверніть увагу! Заява не може бути змінена після публікації статті.

Якщо ви збираєтеся зробити дані відкрито доступними в майбутньому, але не маєте попередньо зареєстрованого DOI/URL, коли надсилаєте свій рукопис, зазначте, що дані не є загальнодоступними, а потім надайте додаткові відомості в розділі Заяв про доступність даних у формі подання про те, коли та як дані стануть доступними.

Якщо дані дослідження не будуть загальнодоступними та без DOI/URL, треба вказати причину в Заяві. Не хвилюйтеся, існує ряд об'єктивних перешкод для відкритого обміну конфіденційною інформацією, чутливими даними досліджень тощо, тому вказана вами причина не буде підставою для відхилення вашої статті за умови наведення вагомих аргументів для обмеження доступу.

2026/01/29

Як заповнити метадані DataCite для підвищення цитованості даних?

Правильні метадані — це не просто «технічний опис», а спосіб зробити ваші дані видимими для пошукових систем (Google Dataset Search, OpenAIRE) та зручними для цитування іншими вченими.

1. Обов'язкові поля (Mandatory Properties)

Без них ви не зможете отримати DOI. Заповнюйте їх максимально повно:

Identifier (DOI): Генерується автоматично системою репозитарію.
Creator (Автор): Вказуйте ПІБ повністю. Важливо: обов’язково додавайте свій ORCID (наприклад, 0000-0002-1234-5678). Це гарантує, що цитування автоматично підтягнеться до вашого профілю.
Title (Назва): Має бути інформативною. Замість "Дані експерименту", пишіть "Результати вимірювання електропровідності графену при температурах 100-300К".
Publisher (Видавець): Зазвичай це назва репозитарію [Автор(и). (Рік). Назва набору даних [Data set]. Zenodo. DOI: 10.5281/zenodo.XXXXXXX]. КПІ ім. Ігоря Сікорського буде вказаний як установа (Affiliation) автора. Зверніть увагу: навіть якщо дані публікуються як додаток до статті у журналі (наприклад, Elsevier чи Springer), то видавцем самої статті буде журнал, але видавцем набору даних усе одно залишиться Zenodo.
Publication Year (Рік): Рік оприлюднення даних.
Resource Type (Тип ресурсу): Завжди обирайте Dataset (Набір даних).

2. Поля, що підвищують «видимість» (Recommended Properties)

Саме ці поля відповідають за те, чи знайдуть ваші дані колеги:

Анонімізація персональних даних

Анонімізація персональних даних – спосіб введення надмірної персональної інформації. Тобто дані обробляються інструментами з відкритим кодом у спосіб, який неможливий для ідентифікації конкретної особи. Немає єдиної методики анонімізації, придатної для всіх типів даних.

Псевдонімізовані дані (якщо інформаційні поля, які ідентифікують особу, в записі даних замінено одним або кількома штучними ідентифікаторами), можуть бути відновлені до початкового стану з додаванням інформації, яка надалі дозволяє повторну ідентифікацію особи, тоді як анонімні дані ніколи не можуть бути відновлені до початкового стану. Анонімізація – це незворотний процес.

Шаблон плану анонімізації FSD

Ось переклад тексту українською мовою:

Версія 1.0 (12.4.2019) Фінський архів даних із соціальних наук (FSD)

Розробник(и) плану: Особа(и), що здійснюють анонімізацію:

Нижче наведено фактори, що впливають на прийняття рішень щодо анонімізації.

1. Популяція та вибірка:

Хто був цільовою групою дослідження та як здійснювався відбір? Скільки осіб із популяції потрапило до вибірки? Що заздалегідь відомо про популяцію (наприклад, розподіл за статтю та віком)? Чи притаманне особам із цієї популяції якесь рідкісне явище?

2. Зміст даних:

а) Які типи прямих та непрямих ідентифікаторів містять дані? Які комбінації відомостей у даних можуть бути використані для ідентифікації особи?
б) Чи містить набір даних інформацію про третіх осіб і чи можна ідентифікувати суб'єктів на основі цієї інформації?
в) Чи містить набір даних виняткову або унікальну інформацію?
г) Чи містить набір даних конфіденційну (чутливу) інформацію?

3. Вік набору даних:

Чи змінилися дані про популяцію в наборі даних з плином часу?

4. Інформація про респондентів, доступна з інших джерел:

Чи можливо зіставити інформацію в даних з інформацією з інших джерел? Чи можливо ідентифікувати осіб на основі інформації, доступної в інших джерелах?

5. Корисність проти анонімності:

Які типи інформації в даних є найбільш значущими з точки зору дослідження, тобто яку інформацію необхідно зберегти під час анонімізації, а яку можна видалити?

Рішення щодо анонімізації: Що саме видаляється, категоризується або узагальнюється? Кількісні набори даних: Як обробляються відкриті відповіді?

Примітка: будь-які документи, що стосуються анонімізації, не можуть містити псевдонімізовану інформацію або інші дані, на основі яких все ще можна ідентифікувати осіб. Наприклад, списки псевдонімів, використаних замість справжніх імен, мають бути знищені, коли вони більше не потрібні.

Обґрунтування анонімізації та оцінка ризику розкриття даних після анонімізації: Надайте обґрунтування рішень та політик щодо анонімізації. Оцініть можливість ідентифікації осіб у даних зараз і в майбутньому. Поміркуйте, коли слід повторно переглянути рівень анонімності даних (оцінка залишкового ризику).

Ви також можете надати додаткову інформацію, наприклад, про процес анонімізації, спосіб маркування анонімізованих даних та можливі помилки, які слід враховувати вторинним користувачам даних.

________________________________________________________________

Чи відкриті дані = даним FAIR?

Хоча дані можна зробити відкритими, вони не завжди можуть бути FAIR.

Відкриті дані дозволяють кожному отримувати доступ, використовувати та поширювати дані без обмежень, що виникають з ліцензій, авторських прав та патентів. Однак нам потрібно зробити більше, якщо ми хочемо, щоб люди могли отримувати вигоду від наших спільних даних. Наприклад, присвоєння нашим даним постійних ідентифікаторів, таких як DOI, надання належних метаданих, представлення даних у стандартизованому вигляді та встановлення умов повторного використання даних.

Щоб максимізувати цінність спільних даних, дані мають бути FAIR. З іншого боку, дані FAIR не означають, що вони мають бути відкритими.

Обмеження можуть бути вжиті, коли це стосується комерційних інтересів, конфіденційності особистої інформації, національної безпеки та суспільних інтересів. У цих випадках метадані даних все ще будуть загальнодоступними разом з інформацією про умови доступу до даних.

Оскільки даними необхідно добре керувати, перш ніж вони стануть FAIR та ефективно поширюватимуться, рекомендується планувати їх на початку вашого дослідницького проєкту, якщо ви бажаєте або зобов’язані поділитися дослідницькими даними.

Ви можете переглянути це 5-хвилинне відео, яке пояснює, чому добре керовані дані необхідні для ефективного обміну даними.

2026/01/25

Угода про іменування файлів

File Naming Convention, FNC

«Імена файлів» — це імена, які перераховані в каталозі файлів і присвоєні новим файлам при їх першому збереженні. Угода про іменування файлів (File Naming Convention, FNC) — це система іменування файлів у спосіб, який описує, що вони містять і як вони пов’язані з іншими файлами. File Naming Convention, FNC, включає: принципи для імен файлів, логічну структуру каталогів, правила іменування та шаблони іменування файлів.

Принципи для імен файлів

Машиночитаність
Людиночитаність
Системно сортуються

Приклад правил

Перевірте, чи встановлені правила іменування файлів у вашій дисципліні чи групі. Правила іменування мають бути задокументовані, щоб інші працівники вашої лабораторії чи відділу могли дотримуватися цього стандарту.
Імена файлів мають бути описовими та надавати достатньо контекстної інформації.
Використовуйте заголовні букви для розділення слів, а не пробіли або символи підкреслення
Намагайтеся не робити імена файлів занадто довгими. Операційні системи мають різні обмеження на кількість символів. Як правило, намагайтеся мати ліміт 40-50 символів.
Розмістіть найважливішу інформацію спочатку. Комп’ютер упорядковує файли за назвою, символ за символом. При включенні особистого імені в ім'я файлу спочатку вкажіть прізвище, а потім ініціали.
Якщо ви плануєте знайти файл за датою, спочатку вставте дату. Для дати використовуйте стандарт ISO 8601 (YYYYMMDD). Щоб додати мітку часу до імені файлу, використовуйте формат YYYYMMDDThhmm. Використовуйте 24-годинний час, щоб уникнути будь-якої плутанини щодо ранку/полудня.
Номер версії запису повинен бути вказаний в імені файлу шляхом включення «V», номеру версії і, де це доречно, «Чернетка». Під час використання системи послідовної нумерації, використовуйте початкові нулі, щоб переконатися, що файли сортуються в послідовному порядку, наприклад: 001, 002, ...010, 011 ... 100, 101 ... Позначте фінальну версію.
Використовуйте керування версіями, щоб вказати найновішу версію файлу. Приклад: filename_v2.xxx
Уникайте спеціальних символів, таких як: ~ ! @ # $ % ^ & * ( ) ` ; : < > ? . , [ ] { } ' " |
Не використовуйте пробіли, оскільки деяке програмне забезпечення не розпізнає назви файлів із пробілами. Інші варіанти включають підкреслення, тире, без розділення або регістр (перша літера кожної частини тексту велика).

Приклади шаблонів іменування:

20220104_ProjectA_Ex1Test1_SmithE_v01.xlsx

20220104_ProjectA_MeetingNotes_SmithE_v02.docx

Checklist-File-Names-Form чеклист від Гарварда (див. Контрольний список угоди про імена файлів)

Метадані

Метадані означають дані про дані. Це структурована інформація, яка описує, пояснює, визначає місцезнаходження або іншим чином представляє щось інше.

Вони забезпечують структурований спосіб опису наборів даних стандартизованим чином, що читається машиною. Тобто це дозволяє різним комп'ютерам автоматично інтерпретувати вміст.

Без надійних метаданих неможливо шукати, ідентифікувати чи інтерпретувати дані. Метадані забезпечують відповідність принципам FAIR, а саме відшукуваності, доступності та багаторазовості.

Нижче наведено загальні елементи метаданих:

Типи	Функції	Приклади
Описові метадані	Дозволяє здійснювати відшукування, індексування та пошук	Назва Творець Спонсори Тема Мова Дати Розташування Постійний ідентифікатор
Технічні метадані	Описує, як було створено та структуровано набір даних	Методи Обробка Імена файлів Формат файлу Змінні Коди Версії
Адміністративні метадані	Описує права користувачів та керування набором даних	Права та ліцензія на повторне використання Доступ до інформації, такої як обмеження та період ембарго

Додатково: Стандарти метаданих, Readme

Інструмент EUDAT B2SHARE містить вбудований майстер ліцензування, який спрощує вибір відповідної ліцензії для дослідницьких даних.

Цитування даних

«Дані дослідження» – це незалежна наукова робота, на яку можна посилатися. Якщо ви повторно використали будь-які дослідницькі дані у своєму дослідженні, від вас очікується посилання на джерело, як у типовій дослідницькій статті. Правильне посилання на дані вказує на автора та допомагає нашим читачам знайти оригінальне джерело даних. Правильне цитування даних, які ви використовуєте, та отримуєте, коли інші цитують ваші власні дані, є важливою частиною академічної успішності.

Формат та елементи цитування даних різняться залежно від дисципліни. Рекомендовані елементи цитування даних включають:

Автор : Творець(и) набору даних.
Рік публікації : Дата, коли набір даних став доступним.
Заголовок : Назва цитованого набору даних.
Видавець/Розповсюджувач : Організація, яка розміщує дані.
Версія / Видання (якщо є)
Тип ресурсу : наприклад, набір даних, файл даних, кодова книга або база даних.
Постійна URL-адреса/ідентифікатор : наприклад, DOI, дескриптор, ARK, PURL.

Формат АPА 7:

Загальна структура

Власник прав. (Рік). Назва набору даних. (Номер версії) [Опис форми]. Видавець. DOI або URL

Приклад

O’Donohue, W. (2017). Content analysis of undergraduate psychology textbooks. (ICPSR 36966; Version V1) [Data set]. ICPSR. https://doi.org/10.3886/ICPSR36966.v1

Набір даних має бути цитований у списку посилань статті, а не лише неоформально в тексті.

!!! Створити цитату у потрібному стилі можна за допомогою онлайн-інструменту цитування DOI Citation Formatter https://citation.crosscite.org/ – вкажіть пакет даних DOI, які необхідно процитувати, оберіть незвичайний стиль цитування, мову та країну та згенеруйте посилання.

Корисні ресурси

APA Style: Data Set References

https://apastyle.apa.org/style-grammar-guidelines/references/examples/data-set-references

DCC: How to Cite Datasets and Link to Publications

http://www.dcc.ac.uk/resources/how-guides/cite-datasets

Онлайн-довідник з множинними стилями цитування, створений Digital Curation Centre

DOI Citation Formatter

https://citation.crosscite.org/

Автоматичний генератор цитувань на основі DOI у різних форматах

DataSteward@LibraryKPI

Сторінки