DataSteward@LibraryKPI

2026/04/23

Майбутнє української науки: FAIR-дані, цифрові хмари та нова професія Data Steward

31 грудня 2025 року Міністерство освіти і науки України затвердило Дорожню карту інтеграції до Європейського дослідницького простору (ЄДП) до 2027 року.

Як фахівці з управління дослідницькими даними (RDM), ми бачимо в цьому документі не просто бюрократичний план, а справжню дорожню карту цифрової трансформації нашої науки. Що саме зміниться для дослідників та установ? Розбираємо ключові аспекти УДД.

1. FAIR-дані: новий стандарт якості

Відтепер дані — це не просто «додаток» до статті. Україна офіційно впроваджує принципи FAIR (Findable, Accessible, Interoperable, Reusable). Це означає, що результати досліджень, які фінансуються державою, мають бути:

Відшукуваними (з постійними ідентифікаторами);
Доступними (відкритими за замовчуванням);
Сумісними (в уніфікованих форматах);
Придатними для повторного використання.

2. Інтеграція з EOSC та розвиток інфраструктури

Україна не будує ізольовану систему. Головна мета — повна інтеграція з Європейською хмарою відкритої науки (EOSC). Для цього планується:

Удосконалення Національного репозитарію дослідницьких даних (НРДД).
Розвиток сервісів для автоматичного імпорту та пошуку даних (Харвестер відкритої науки).
Створення мережі локальних репозитаріїв у ЗВО та наукових установах.

3. Хто такий Data Steward? Поява нової професії

Одним із найцікавіших пунктів Дорожньої карти є легалізація ролі куратора даних (Data Steward). Це фахівець, який допомагає вченим правильно описувати, зберігати та поширювати дані. У планах:

Затвердження офіційного професійного стандарту.
Запуск програм навчання для підготовки таких спеціалістів.
Створення центрів компетенцій на базі університетів.

4. Моніторинг та відкритість

Наукова діяльність тепер оцінюватиметься крізь призму Відкритої науки. Будуть впроваджені нові індикатори, які враховуватимуть не лише кількість публікацій, а й те, наскільки відкрито та якісно вчений ділиться своїми даними.

Чому це важливо? Без належного управління даними українська наука залишатиметься «невидимою» для світової спільноти. Впровадження цієї Дорожньої карти дозволить нашим вченим бути повноправними учасниками міжнародних консорціумів, отримувати більше грантів та забезпечувати прозорість наукових результатів.

Відкрита наука та ліцензії Creative Commons: Відповіді на найпоширеніші запитання

Сьогодні перехід до відкритої науки — це не просто тренд, а необхідність для інтеграції у світовий дослідницький простір. Проте навколо авторського права та ліцензування досі існує чимало міфів. Ми зібрали найважливіші відповіді на питання, які допоможуть розібратися в нюансах використання ліцензій Creative Commons (CC).

1. Як «отримати» ліцензію на статтю? Хто її видає?

Відповідь: Це найпоширеніша помилка. Ліцензію Creative Commons не «видає» жодна організація. Це інструмент, який обирає сам автор або правовласник. Ви просто вирішуєте, на яких умовах хочете поширювати працю, і зазначаєте це під час публікації. Користувачам же не потрібно просити окремий дозвіл — вони просто дотримуються тих умов, які ви вже вказали.

2. Чи можна заробляти на дослідженнях з ліцензією CC?

Відповідь: Так, але все залежить від обраного типу:

CC BY: дозволяє комерційне використання (найкращий варіант для інновацій).
CC BY-NC: прямо забороняє використання з комерційною метою.

Важливо: Якщо ваше дослідження фінансується державою, краще обирати максимально відкриті ліцензії. Обмеження «NC» (некомерційно) може відлякати бізнес-партнерів, які не зможуть легально впровадити ваші результати у виробництво.

3. Що робити з базами даних, де змішані різні права власності?

Відповідь: У Creative Commons немає єдиної «змішаної» ліцензії. Якщо ваш набір даних складається з частин, що належать різним людям, ви не можете ліцензувати все «одним махом». Рішення: Чітко маркуйте кожен елемент окремо або застосовуйте ліцензію лише до тих фрагментів, на які маєте авторське право. Супроводжуйте такі бази детальними юридичними коментарями.

4. Як відкриті ліцензії взаємодіють зі Штучним Інтелектом?

Відповідь: Стандартні ліцензії (як-от CC BY) загалом дозволяють використовувати дані для навчання нейромереж. Якщо ви хочете обмежити це, можна використовувати умови NC (некомерційно) або ND (без похідних творів). Проте варто бути реалістами: у глобальному цифровому середовищі контроль над ШІ-тренінгом лише формується, і стовідсоткових гарантій захисту поки немає.

5. Яку ліцензію обрати для наукового журналу (наприклад, категорії «Б»)?

Відповідь: Світовий стандарт та «золоте правило» — це CC BY. Вона забезпечує:

Найвищий рівень цитування.
Відповідність вимогам міжнародних наукометричних баз.
Виконання умов більшості міжнародних грантодавців.

6. Чи можуть українські видавці легально використовувати CC?

Відповідь: Безумовно. Жодних спеціальних дозволів від державних органів не потрібно. Достатньо скористатися офіційним конструктором на сайті Creative Commons, обрати ліцензію та розмістити відповідний маркер на сайті чи у верстці видання.

7. Чи не скасовує ліцензія CC моє авторське право?

Відповідь: Навпаки! Creative Commons працює виключно в межах авторського права. Це лише стандартизований спосіб сказати світу: «Я залишаюся автором, але дозволяю вам копіювати мою працю без зайвих запитів, якщо ви виконаєте мої умови».

8. Чи можна використовувати матеріали з позначкою «NC» (некомерційно) у приватних університетах?

Відповідь: Тут є тонка межа:

Можна: якщо це внутрішня освітня діяльність (лекції для студентів у межах програми).
Ризиковано: якщо ці матеріали стають частиною платного продукту (наприклад, окремих комерційних курсів). У такому разі краще звернутися до автора за індивідуальним дозволом.

Отже, відкриті ліцензії не створюють ризиків самі по собі — їх створює юридична необізнаність. Грамотний вибір ліцензії — це ваш внесок у розвиток науки та підвищення власної видимості у світі.

Див. семінар “Ліцензії Creative Commons: шлях до відкритої науки для українських авторів та видавців”, організований спільно з фахівцями Creative Commons:

2026/04/14

Управління даними в епоху ШІ: що змінилося і чому це важливо

Дані — це фундамент штучного інтелекту. Але сам цей фундамент тріщить і переосмислюється прямо зараз.

Більшість дискусій про регулювання ШІ зосереджені на моделях: їхній упередженості, прозорості, ризиках. Але є щось фундаментальніше, що лишається поза увагою — дані. Стефан Ферхулст у своєму есе описує 10 ключових зрушень, які прямо зараз переосмислюють те, як суспільство збирає, зберігає та використовує дані у світі ШІ.

Що вважати даними?

Таблиці і записи поступаються місцем тексту, відео, аудіо — і навіть даним, згенерованим самим ШІ.

FAIR → FAIR-R

Принципи відкритих даних доповнюються вимогою «готовності до ШІ»: метадані, походження, аудит упередженості.

Контекст як інфраструктура

Дані без контексту марні. Нові протоколи (MCP) стандартизують передачу контексту до ШІ-систем.

Стратегічне управління

Від контролю якості — до стратегічного орієнтування: узгодження даних із суспільною цінністю.

Нові ліцензії

Creative Commons не розрахований на ШІ. З'являються механізми, що вказують: чи можна ці дані використовувати для навчання моделі.

Соціальна ліцензія

Згода — це не транзакція, а процес. Громади повинні мати голос у тому, як їхні дані використовуються.

Нові інституції

Кооперативи і трасти даних протистоять монополізації — і перерозподіляють вигоду на користь спільноти.

Синтетичні дані

Штучно згенеровані дані вирішують проблеми конфіденційності, але самі стають новим об'єктом регулювання.

ШІ для управління

ШІ все частіше сам здійснює управління даними: класифікація, моніторинг, аудит — автоматично.

ШІ-агенти

Автономні агенти починають управляти потоками даних. Хто тоді несе відповідальність?

Управління даними формує ШІ. Штучний інтелект змінює управління даними. І обидва вони розвиваються разом — у безперервному циклі зворотного зв'язку.

Головна теза Ферхульста проста і важлива: управління даними — це не бюрократична надбудова над ШІ, це його основа. І якщо ми хочемо, щоб ШІ служив суспільному благу, а не лише ефективності корпорацій, нам потрібно перестати розглядати дані як технічне питання і почати сприймати їх як питання влади, справедливості та демократії.

Натисніть Enter або клацніть, щоб переглянути зображення в повному розмірі

Натисніть Enter або клацніть, щоб переглянути зображення в повному розмір

2026/04/09

Положення про УДД

Управління дослідницькими даними (УДД) є важливою частиною будь-якого дослідницького проєкту та включає збір, обробку та аналіз, збереження, обмін, довгострокове зберігання даних досліджень.

Вперше в Україні — Положення про управління дослідницькими даними в Національному технічному університеті України «Київський політехнічний інститут імені Ігоря Сікорського» (2026).

Положення про УДД включає розділи:

ЗАГАЛЬНІ ПОЛОЖЕННЯ
ТЕРМІНИ ТА ВИЗНАЧЕННЯ
ПЛАНУВАННЯ УПРАВЛІННЯ ДОСЛІДНИЦЬКИМИ ДАНИМИ
ЗАБЕЗПЕЧЕННЯ ДОСТУПУ ДО ДАНИХ ПІД ЧАС ДОСЛІДЖЕННЯ
ОРГАНІЗАЦІЯ ФАЙЛІВ ТА ДОКУМЕНТУВАННЯ ДОСЛІДНИЦЬКИХ ДАНИХ
ДОВГОСТРОКОВЕ ЗБЕРІГАННЯ ТА ПОШИРЕННЯ ДАНИХ
ТЕРМІН ЗБЕРІГАННЯ ДОСЛІДНИЦЬКИХ ДАНИХ
ВІДПОВІДАЛЬНІСТЬ УЧАСНИКІВ ПРОЦЕСУ УДД

Додаток 1. ПЛАН УПРАВЛІННЯ ДОСЛІДНИЦЬКИМИ ДАНИМИ: Шаблон для науково-дослідної роботи

Додаток 2. ПЛАН УПРАВЛІННЯ ДОСЛІДНИЦЬКИМИ ДАНИМИ: Шаблон для дисертаційного дослідження

2026/02/18

Короткострокова обробка даних: формати файлів для зручності роботи

Вибір формату файлу залежить від фази вашого дослідження. Варіанти короткострокової обробки даних можуть відрізнятися від варіантів довгострокового зберігання даних.

З міркувань короткострокової працездатності доцільно вибрати формат файлу, який пов'язаний з конкретним програмним забезпеченням, яке ви плануєте використовувати для аналізу даних. Зазвичай найкращим рішенням є дотримання стандартів та звичаїв конкретної дисципліни. Однак слід враховувати, наскільки поширені ці стандарти та якою мірою вони дозволять обробляти дані не лише колегами у вашій дисципліні.

Власні формати файлів належать певній компанії та захищені авторським правом. Їхні специфікації зазвичай не є загальнодоступними, а їхній майбутній розвиток залежить від рішень та ситуації їхнього власника. Таким чином, ризик застаріння є високим. Однак деякі власницькі формати, такі як Rich Text Format (*.rtf), MP3, MPEG, JPG, MS Excel (*.xls), SPSS (*.sav, *.por), STATA (*.dta), широко використовуються, і можна припустити, що вони будуть корисними протягом розумного часу.

Дізнайтеся більше про відповідні формати файлів для короткострокової обробки даних

Вагові коефіцієнти

Вагові коефіцієнти — це інструмент «справедливості» у статистиці. Простими словами: якщо ви опитали 100 студентів КПІ, але серед них виявилося 90 хлопців і лише 10 дівчат (хоча на факультеті їх 50/50), результати будуть викривленими. Зважування дозволяє надати голосам дівчат більшої "ваги", щоб вибірка стала схожою на реальність.

1. Навіщо потрібні ваги: Компенсація реальності

У ідеальному світі вибірка точно копіює структуру населення. У реальності ж дослідники часто стикаються з упередженістю вибірки: одні групи людей охочіше йдуть на контакт, інші — ігнорують опитування.

Зважування вирішує чотири завдання:

Балансування: Коригує відхилення від характеристик реальної популяції (наприклад, за статтю, віком чи регіоном).
Врахування дизайну: Якщо ви навмисно опитали більше людей у маленькому місті, щоб почути їхню думку, вага допоможе повернути їхню частку до реальних масштабів при підрахунку загального результату.
Компенсація невідповідей: Якщо певна група (наприклад, молодь) масово проігнорувала опитування, вага «підсилює» голоси тих небагатьох молодих людей, які все ж відповіли.
Математична корекція: Кожному анкетному випадку присвоюється коефіцієнт (наприклад, 1.5 або 0.8), на який множаться всі відповіді цього респондента.

2. Типи ваг та їхнє призначення (на прикладі ESS)

Різні ситуації вимагають різних "окулярів" для аналізу даних. Європейське соціальне опитування (ESS) виділяє три основні типи:

Дизайн-вага (Design weight): Виправляє помилки, які виникли ще на етапі планування. Якщо у мешканця великого будинку було менше шансів потрапити у вибірку, ніж у мешканця приватного сектора, ця вага це виправить.
Постстратифікаційна вага: Використовується вже після збору даних. Вона підтягує вибірку до офіційної статистики (наприклад, даних перепису населення).
Вага чисельності населення: Критично важлива при порівнянні країн. Без неї голос одного респондента з маленької Естонії важив би стільки ж, скільки голос респондента з величезної Німеччини, що неправильно для загальноєвропейських висновків.

Важливо про значення ваги:

Якщо вага = 1, дані ідеальні та не коригуються.
Бажано, щоб більшість ваг були близькими до 1. Дуже високі або низькі значення свідчать про те, що вибірка була неякісною, або ви занадто сильно її «підганяєте».

3. Практичне застосування: Коли і що використовувати

Вибір ваги залежить від вашого дослідницького запитання. Подивіться на логіку використання ваг у міжнародних дослідженнях:

Масштаб аналізу	Що аналізуємо	Яку вагу застосувати?
Одна країна	Явка виборців лише в Україні	Дизайн-вага або Постстратифікаційна
Порівняння країн	Порівняти явку в Україні та Польщі (окремо)	Дизайн-вага або Постстратифікаційна
Об'єднання країн	Загальна явка виборців у всьому ЄС	Дизайн + Постстратифікаційна + Вага населення

Порада для дослідника: Якщо ви використовуєте чужий файл даних (наприклад, з архіву КПІ чи міжнародного репозиторію) і бачите там змінну "weight" — ніколи не вмикайте її наосліп. Спершу знайдіть у документації опис її розрахунку. Використання неправильної ваги може призвести до хибних наукових висновків.

https://dmeg.cessda.eu/Data-Management-Expert-Guide/3.-Process/Weights-of-survey-data

Що таке «дисперсія кодера»?

Коли над дослідженням працює не одна людина, а ціла команда (наприклад, декілька студентів чи аспірантів кафедри), виникає серйозна проблема: суб'єктивність.

Навіть якщо у вас є чітка інструкція, різні люди можуть розуміти її по-своєму. У науці це називають «дисперсією кодера» або «відхиленням кодера».

Уявіть, що ви аналізуєте відгуки студентів КПІ про нову систему реєстрації на курси. У вас є код «Складнощі з інтерфейсом».

Кодер А (досвідчений програміст) вважає, що «складно» — це лише коли сайт «падає».
Кодер Б (гуманітарій) вважає, що «складно» — це навіть якщо колір кнопки не подобається.

Результат: Ваша база даних перетворюється на вінегрет. Статистика буде показувати не реальну картину, а те, наскільки суворим або лояльним був той чи інший кодер. Це і є систематична помилка, яка псує все дослідження.

Чому це складно?

Кодування тексту — це не механічна робота, а когнітивний процес. Дослідник має «влізти в голову» респонденту, зрозуміти контекст, сарказм чи прихований зміст. Без підготовки кожен кодер додає до бази частинку свого світогляду, викривляючи оригінальну інформацію.

Як запобігти відхиленню? (Стратегія захисту даних)

Щоб ваше дослідження в КПІ було валідним, потрібно впровадити три кроки:

1. Спеціальне навчання (Training)

Кодери не повинні просто отримати список кодів. Вони мають пройти «тренування» на невеликій частині даних (наприклад, прокодувати 10 анкет разом), щоб узгодити спільне розуміння кожного терміну.

2. Пілотне тестування

Дайте всім кодерам один і той самий текст. Якщо вони закодували його по-різному — ваша інструкція (Codebook) погана. Її треба уточнити, поки всі не почнуть видавати однаковий результат.

3. Перевірка надійності (Inter-coder reliability)

Це математичний спосіб перевірити, чи можна довіряти вашій команді. Зазвичай використовується Коефіцієнт Каппа Коена.

Якщо Каппа > 0.8 — ваша команда працює як один злагоджений механізм.
Якщо Каппа < 0.6 — дані не можна використовувати для серйозного аналізу, кодерів треба переучувати.

Поради для дослідника

Регулярні збори: Раз на тиждень обговорюйте "спірні випадки". Це допомагає команді не «розпливатися» у своїх оцінках з часом.
Технічний контроль: Використовуйте софт (як-от NVivo), який автоматично порівнює роботу різних кодерів.

Висновок: Якість вашого дослідження залежить не від того, скільки людей ви опитали, а від того, наскільки однаково ваша команда обробила ці відповіді.

DataSteward@LibraryKPI

Сторінки

2026/04/23

Майбутнє української науки: FAIR-дані, цифрові хмари та нова професія Data Steward

1. FAIR-дані: новий стандарт якості

2. Інтеграція з EOSC та розвиток інфраструктури

3. Хто такий Data Steward? Поява нової професії

4. Моніторинг та відкритість

Відкрита наука та ліцензії Creative Commons: Відповіді на найпоширеніші запитання

1. Як «отримати» ліцензію на статтю? Хто її видає?

2. Чи можна заробляти на дослідженнях з ліцензією CC?

3. Що робити з базами даних, де змішані різні права власності?

4. Як відкриті ліцензії взаємодіють зі Штучним Інтелектом?

5. Яку ліцензію обрати для наукового журналу (наприклад, категорії «Б»)?

6. Чи можуть українські видавці легально використовувати CC?

7. Чи не скасовує ліцензія CC моє авторське право?

8. Чи можна використовувати матеріали з позначкою «NC» (некомерційно) у приватних університетах?

2026/04/14

Управління даними в епоху ШІ: що змінилося і чому це важливо

2026/04/09

Положення про УДД

2026/02/18

Короткострокова обробка даних: формати файлів для зручності роботи

Вагові коефіцієнти

1. Навіщо потрібні ваги: Компенсація реальності

2. Типи ваг та їхнє призначення (на прикладі ESS)

3. Практичне застосування: Коли і що використовувати

Що таке «дисперсія кодера»?

Уявіть, що ви аналізуєте відгуки студентів КПІ про нову систему реєстрації на курси. У вас є код «Складнощі з інтерфейсом».

Чому це складно?

Як запобігти відхиленню? (Стратегія захисту даних)

1. Спеціальне навчання (Training)

2. Пілотне тестування

3. Перевірка надійності (Inter-coder reliability)

Поради для дослідника

Загальна кількість переглядів сторінки

Архів блогу