2026/05/28

Робота над помилками: Чому Плани УДД в КПІ повертають на доопрацювання?

План управління дослідницькими даними (УДД або DMP) — це вже не просто формальність для галочки, а обов'язкова умова сучасних грантових проєктів, зокрема в рамках Horizon Europe. Проте аналіз свіжих планів, що надходять на перевірку до Науково-технічної бібліотеки КПІ у 2026 році, показує: автори часто сприймають цей документ як анкету, а не як реальний управлінський інструмент.

Результат? Загальні декларації замість конкретики та закономірне повернення документа на доопрацювання.

Ми зібрали та систематизували найпоширеніші помилки дослідників — від критичних пропусків до глибинних системних прорахунків. Перевірте свій план перед подачею!

🔴 Топ-3 критичних помилок (є майже у всіх планах)

  1. Відсутній або «іграшковий» розділ «Забезпечення якості» (QA) Жоден із розглянутих планів не містив повноцінного QA-розділу. Дослідники забувають описати версіонування файлів, перевірку цілісності даних (наприклад, через контрольні суми) та правила збереження незмінної головної копії (master copy) окремо від щоденних робочих матеріалів.

  2. Архівування плутають із поточним зберіганням Поточна робота з файлами в хмарі та довгострокове архівування — це різні процеси. Типова помилка — не вказувати конкретний науковий репозитарій з DOI на початку (як-от Zenodo, що вимагається п.6.3 Положення КПІ).

  3. «Обмін даними» без конкретики У планах катастрофічно бракує деталей: як саме отримуватиметься DOI, які точні терміни публікації даних після завершення ембарго, і чому ліцензія CC BY 4.0 не прив’язана безпосередньо до умов обміну.

🟡 Важливі деталі, про які забувають

  • Пропрієтарні формати без виправдання: Повсюдне використання XLSX та DOCX. Натомість Положення (п.4.2) вимагає відкритих форматів (.csv, .odt, .txt) або чіткого обґрунтування, чому залишено закритий формат, із описом відкритої альтернативи.

  • Де ліцензія? Ліцензія CC BY 4.0 для самих даних і CC0 для метаданих мають фігурувати у розділі про обмін даними. Натомість посилання на них або відсутнє, або з'являється аж наприкінці — в архівуванні.

  • Анонімні ролі: Розподіл обов'язків є, але без конкретних імен, матриці задач за етапами проєкту та без дати першого обов'язкового перегляду плану (а його треба переглядати щопівроку!).

🔵 Системні прогалини (паспортна частина та метадані)

  • Адміністративний вакуум: Дослідники забувають вказати номер теми/договору, версію самого DMP, джерело фінансування та контакти особи, відповідальної за запити щодо даних.

  • Винахід велосипеда: Шаблон вимагає зафіксувати, чи перевіряв автор наявність вже існуючих схожих наборів даних (у Re3data, Zenodo тощо) для їх повторного використання. Цей пункт зазвичай просто ігнорують.

  • Загальний Dublin Core: Стандарти метаданих або не згадуються взагалі, або копіюється загальна фраза «Dublin Core» без жодної прив'язки до конкретних полів.

🧠 4 типи мислення, які псують ваш DMP

Ці помилки виникають не через некомпетентність. Це наслідок неправильного сприйняття документу. Зазвичай автори потрапляють в одну з чотирьох пасток:

Тип 1. Декларативність без механізму

Симптом: Писати що буде зроблено, але не писати як.

  • Приклад: Вказати стандарт EngMeta, але без URI/версії. Згадати DataCite, але не написати, хто, коли і через який інтерфейс заповнює метадані. Згадати Nextcloud, але не уточнити, чиї це сервери.

  • Причина: Сприйняття DMP як форми для відписки, а не як інструкції для команди.

Тип 2. Ігнорування масштабу

Симптом: Технічні параметри проєкту суперечать обраним інструментам.

  • Приклад: Вказати загальний обсяг даних у 500 ГБ – 1 ТБ і обрати основним репозитарієм Zenodo, де безкоштовний ліміт становить 50 ГБ на датасет, і не пояснити, як дані будуть секціонуватися.

  • Причина: DMP заповнюється ізольовано від реального технічного планування та розрахунку бюджету.

Тип 3. Відсутність інституційного контексту

Симптом: Документ пишеться так, наче дослідник перебуває у вакуумі.

  • Приклад: Роль Data Steward прописана як абстрактна «відповідальна особа» без ПІБ та посади. Бібліотека КПІ (яка є офіційним RDM-центром університету - див. Положення про УДД) взагалі не згадується, а її послуги не включені як безпосередній нефінансовий внесок (non-financial contribution) у проєкт.

  • Причина: Брак інформованості про те, що в університеті вже є готова RDM-інфраструктура підтримки.

Тип 4. Плутання «подати DMP» з «вести DMP»

Симптом: Переконання, що план пишеться один раз на початку проєкту.

  • Приклад: Відсутність графіка планових оновлень (наприклад, на місяцях M6, M18, M30 для тривалих проєктів), повне ігнорування спеціалізованих платформ (DMPonline або ARGOS) та відсутність умов для позапланового апдейту (зміна складу партнерів, форс-мажори, нові умови ембарго).

  • Причина: Освітня прогалина щодо концепції Living DMP (живого документа), яка є базовою для Horizon Europe.

💡 Висновок для авторів та експертів: Найслабші місця планів — це точки конкретних зобов'язань: назва репозитарію, чітка ліцензія, терміни, імена. Фрази типу «дані будуть доступні» або «проєкт відповідає принципам FAIR» без операційного підтвердження більше не приймаються.

Як вирішити цю проблему системно?

В університеті розроблено деталізований університетський шаблон (див. додатки до Положення про УДД), рекомендації з інструктивними підказками для кожного поля. Це допоможе авторам проходити валідацію з першого разу.

У разі виникнення питань щодо ліцензування метаданих (CC0), вибору відкритих форматів чи інтеграції інфраструктури бібліотеки у ваш грант — звертайтеся за консультацією до Бібліотеки  КПІ ім. Ігоря Сікорського!

Опитування про обізнаність науковців університету з управління дослідницькими даними

Бібліотека КПІ запускає опитування про обізнаність науковців університету з управління дослідницькими даними (УДД).
Це важливо: ми прагнемо, щоб сервіси КПІ ім. Ігоря Сікорського допомагали вам ефективно працювати з даними та без проблем отримувати міжнародні гранти.
На основі ваших відповідей упродовж 2026–2027 років Бібліотека КПІ створить нові інструменти підтримки, адаптовані саме під потреби наших дослідників.
Пройдіть опитування самі та поділіться з колегами - https://tinyurl.com/3pr7nbwx
Ваша думка і досвід важливі для розвитку відкритої науки в КПІ ім. Ігоря Сікорського!

Відкрита наука в Україні: від декларацій до дій

 

Yaroshenko, T. (2026, May 21). Відкрита наука в Україні: від декларацій до дій. Zenodo. https://doi.org/10.5281/zenodo.20327352


Представлено ключові досягнення України у впровадженні відкритої науки у 2022–2026 рр.: 

  • Національний план відкритої науки з обов'язковими вимогами FAIR для держбюджетних проєктів; 
  • законодавче закріплення понять «відкрита наука», «дослідницькі дані» та «управління дослідницькими даними»; 
  • Дорожня карта інтеграції до Європейського дослідницького простору (2026–2027);
  • запровадження показників відкритого доступу до методології державної атестації ЗВО та НУ;
  • створення Координаційної ради МОН України з питань відкритої науки; 
  • розробка професійного стандарту «Фахівець з управління даними»; 
  • пілотні проєкти НАН та ДНТБ України зі створення репозитаріїв дослідницьких даних та ін. 

Окрему увагу приділено результатам всеукраїнського соціологічного дослідження ДНТБ України (2025, n=702), яке виявило, що 86% дослідників публікують праці у відкритому доступі, проте лише 34% поширюють дослідницькі дані, а серед головних бар'єрів — брак технічних знань та невпевненість у правових аспектах. 

Представлено комплекс методичних матеріалів і вебінарів ДНТБ України, розроблених для дослідників, бібліотекарів, адміністраторів та видавців.

Вебінар: FAIR-дані як норма: формуємо культуру належного управління дослідницькими даними

 



🟦Переваги відкритості для даних та науки;🟦Управління дослідницькими даними як міжнародний стандарт; 🟦Положення про УДД: структура, вимоги, відповідальність принципи FAIR (відшукуваність, доступність, сумісність, багаторазовість) у повсякденній науковій практиці; 🟦План управління дослідницькими даними: як скласти покроково; 🟦Інструменти та ресурси: DMPonline, Zenodo, re3data; 🟦Роль бібліотеки ЗВО у підтримці дослідників.

Як ліцензувати відкритий освітній ресурс

Гарний приклад вичерпного інформування щодо ліцензії та прав користувача:

chrome-extension:
//efaidnbmnnnibpcajpcglclefindmkaj/
https://books.openbookpublishers.com/
10.11647/obp.0235.pdf

Ця робота ліцензована за міжнародною ліцензією Creative Commons Attribution 4.0 (CC BY 4.0). 

Ця ліцензія дозволяє вам ділитися, копіювати, розповсюджувати та передавати текст; адаптувати текст та використовувати його в комерційних цілях за умови зазначення авторства (але не таким чином, щоб це натякало на те, що вони схвалюють вас чи ваше використання роботи). 

Посилання повинно містити таку інформацію: Gábor L. Lövei, Writing and Publishing Scientific Papers: A Primer for the Non-English Speaker. Cambridge, UK: Open Book Publishers, 2021, https://doi.org/10.11647/OBP.0235. 

Авторські права та дозволи на повторне використання багатьох зображень, включених до цієї публікації, відрізняються від вищезазначених. Ця інформація надається в підписах та у списку ілюстрацій. 

Щоб отримати доступ до детальної та оновленої інформації про ліцензію, відвідайте https://doi.org/10.11647/OBP.0235#copyright. 

Додаткову інформацію про ліцензії CC BY можна знайти за адресою https://creativecommons.org/licenses/by/4.0/. 

Усі зовнішні посилання були активними на момент публікації, якщо не зазначено інше, та були архівовані через Internet Archive Wayback Machine за адресою https://archive.org/web. 

Оновлені цифрові матеріали та ресурси, пов’язані з цим томом, доступні за адресою https://doi.org/10.11647/OBP.0235#resources. 

Було докладено всіх зусиль для ідентифікації та зв’язку з власниками авторських прав, а будь-які упущення чи помилки будуть виправлені, якщо видавець буде повідомлений.

2026/05/13

Методичні матеріали для закладів вищої освіти і наукових установ

 ДНТБ України підготувала серію методичних матеріалів з відкритого доступу та відкритої науки: практичні інструменти для університетів та наукових установ України.

Методичні матеріали для закладів вищої освіти і наукових установ щодо розроблення та імплементації стратегії впровадження відкритого доступу

https://doi.org/10.5281/zenodo.19436232

Матеріали допоможуть закладам вищої освіти і науковим установам України створити і впровадити власні стратегії відкритого доступу до наукових здобутків науковців установи. Видання охоплює як теоретичні засади формування інституційної політики, так і практичні кроки з її реалізації.

Методичні рекомендації для закладів вищої освіти та наукових установ України щодо моніторингу ефективності впровадження принципів відкритого доступу, відкритої науки та належного управління дослідницькими даними

https://zenodo.org/records/19398011

Видання присвячене питанню, яке часто залишається поза увагою: як виміряти результативність уже впроваджених принципів відкритої науки. Матеріали містять підходи до оцінки інституційних репозитаріїв, аналізу дотримання принципів FAIR для дослідницьких даних та моніторингу показників відкритого доступу на рівні установи.

Методичні матеріали для закладів вищої освіти і наукових установ щодо розміщення монографій дослідників України у відкритому доступі

https://zenodo.org/doi/10.5281/zenodo.19398294

Мета цих методичних рекомендацій — надати українським дослідникам практичний інструментарій для розміщення монографій у відкритому доступі. Рекомендації охоплюють увесь спектр питань: від розуміння переваг і викликів відкритого доступу до конкретних кроків щодо вибору платформи, укладення видавничих договорів, застосування відповідних ліцензій та забезпечення довгострокового збереження й видимості публікацій. Видання стане у нагоді дослідникам, які планують публікацію монографій, а також бібліотечним фахівцям, що консультують науковців із питань відкритих публікацій.

Рекомендації щодо використання ліцензій відкритого доступу під час розміщення наукових результатів та науково-технічної інформації в Інтернеті

https://doi.org/10.5281/zenodo.19398672

Мета рекомендацій — забезпечити дослідникам України уніфікований підхід до використання ліцензій відкритого доступу для розміщення наукових результатів, зокрема публікацій (статей, монографій, препринтів), даних, програмного забезпечення, навчальних матеріалів і науково-технічної інформації в Інтернеті. Це сприятиме підвищенню доступності, видимості та впливу української науки, відповідності принципам відкритої науки, інтеграції України до Європейського дослідницького простору (ERA) та глобальної екосистеми відкритої науки

Автори: Т. О. Ярошенко, С. О. Чуканова, О. А. Крамаренко, О. І. Рачинська (Київ: ДНТБ України, 2025).

Усі матеріали безкоштовно доступні на платформі Zenodo за ліцензією Creative Commons CC-BY 4.0  

Видання розраховані на широке коло фахівців: адміністраторів, проректорів з наукової роботи, бібліотечних працівників, науковців та дослідників, а також на всіх, хто займається реалізацією інституційної політики відкритого доступу та відкритої науки та рівні установи.

ДНТБ України https://dntb.gov.ua/news/recom

2026/04/24

Інтелектуальна власність у наукових публікаціях і дослідницьких даних в умовах відкритої науки

В контексті відкритої науки інтелектуальна власність у наукових публікаціях і дослідницьких даних набуває особливого значення, оскільки поєднує необхідність відкритого доступу з належним захистом прав авторів. Використання ліцензій Creative Commons дозволяє дослідникам чітко визначати умови використання, поширення та повторного застосування результатів наукової діяльності. Ліцензії Creative Commons (зокрема CC BY, CC BY-SA, CC BY-NC тощо) забезпечують баланс між відкритістю та контролем, сприяють прозорості, відтворюваності досліджень і ширшому розповсюдженню знань. Водночас вони вимагають належного цитування, збереження авторства та дотримання встановлених обмежень, що є ключовими принципами етики наукової комунікації в умовах відкритої науки.

2026/04/23

Майбутнє української науки: FAIR-дані, цифрові хмари та нова професія Data Steward

31 грудня 2025 року Міністерство освіти і науки України затвердило Дорожню карту інтеграції до Європейського дослідницького простору (ЄДП) до 2027 року.

Як фахівці з управління дослідницькими даними (RDM), ми бачимо в цьому документі не просто бюрократичний план, а справжню дорожню карту цифрової трансформації нашої науки. Що саме зміниться для дослідників та установ? Розбираємо ключові аспекти УДД.

1. FAIR-дані: новий стандарт якості

Відтепер дані — це не просто «додаток» до статті. Україна офіційно впроваджує принципи FAIR (Findable, Accessible, Interoperable, Reusable). Це означає, що результати досліджень, які фінансуються державою, мають бути:

  • Відшукуваними (з постійними ідентифікаторами);

  • Доступними (відкритими за замовчуванням);

  • Сумісними (в уніфікованих форматах);

  • Придатними для повторного використання.

2. Інтеграція з EOSC та розвиток інфраструктури

Україна не будує ізольовану систему. Головна мета — повна інтеграція з Європейською хмарою відкритої науки (EOSC). Для цього планується:

  • Удосконалення Національного репозитарію дослідницьких даних (НРДД).

  • Розвиток сервісів для автоматичного імпорту та пошуку даних (Харвестер відкритої науки).

  • Створення мережі локальних репозитаріїв у ЗВО та наукових установах.

3. Хто такий Data Steward? Поява нової професії

Одним із найцікавіших пунктів Дорожньої карти є легалізація ролі куратора даних (Data Steward). Це фахівець, який допомагає вченим правильно описувати, зберігати та поширювати дані. У планах:

  • Затвердження офіційного професійного стандарту.

  • Запуск програм навчання для підготовки таких спеціалістів.

  • Створення центрів компетенцій на базі університетів.

4. Моніторинг та відкритість

Наукова діяльність тепер оцінюватиметься крізь призму Відкритої науки. Будуть впроваджені нові індикатори, які враховуватимуть не лише кількість публікацій, а й те, наскільки відкрито та якісно вчений ділиться своїми даними.

Чому це важливо? Без належного управління даними українська наука залишатиметься «невидимою» для світової спільноти. Впровадження цієї Дорожньої карти дозволить нашим вченим бути повноправними учасниками міжнародних консорціумів, отримувати більше грантів та забезпечувати прозорість наукових результатів.

Відкрита наука та ліцензії Creative Commons: Відповіді на найпоширеніші запитання

Сьогодні перехід до відкритої науки — це не просто тренд, а необхідність для інтеграції у світовий дослідницький простір. Проте навколо авторського права та ліцензування досі існує чимало міфів. Ми зібрали найважливіші відповіді на питання, які допоможуть розібратися в нюансах використання ліцензій Creative Commons (CC).

1. Як «отримати» ліцензію на статтю? Хто її видає?

Відповідь: Це найпоширеніша помилка. Ліцензію Creative Commons не «видає» жодна організація. Це інструмент, який обирає сам автор або правовласник. Ви просто вирішуєте, на яких умовах хочете поширювати працю, і зазначаєте це під час публікації. Користувачам же не потрібно просити окремий дозвіл —  вони просто дотримуються тих умов, які ви вже вказали.

2. Чи можна заробляти на дослідженнях з ліцензією CC?

Відповідь: Так, але все залежить від обраного типу:

  • CC BY: дозволяє комерційне використання (найкращий варіант для інновацій).

  • CC BY-NC: прямо забороняє використання з комерційною метою.

Важливо: Якщо ваше дослідження фінансується державою, краще обирати максимально відкриті ліцензії. Обмеження «NC» (некомерційно) може відлякати бізнес-партнерів, які не зможуть легально впровадити ваші результати у виробництво.

3. Що робити з базами даних, де змішані різні права власності?

Відповідь: У Creative Commons немає єдиної «змішаної» ліцензії. Якщо ваш набір даних складається з частин, що належать різним людям, ви не можете ліцензувати все «одним махом». Рішення: Чітко маркуйте кожен елемент окремо або застосовуйте ліцензію лише до тих фрагментів, на які маєте авторське право. Супроводжуйте такі бази детальними юридичними коментарями.

4. Як відкриті ліцензії взаємодіють зі Штучним Інтелектом?

Відповідь: Стандартні ліцензії (як-от CC BY) загалом дозволяють використовувати дані для навчання нейромереж. Якщо ви хочете обмежити це, можна використовувати умови NC (некомерційно) або ND (без похідних творів). Проте варто бути реалістами: у глобальному цифровому середовищі контроль над ШІ-тренінгом лише формується, і стовідсоткових гарантій захисту поки немає.

5. Яку ліцензію обрати для наукового журналу (наприклад, категорії «Б»)?

Відповідь: Світовий стандарт та «золоте правило» — це CC BY. Вона забезпечує:

  • Найвищий рівень цитування.

  • Відповідність вимогам міжнародних наукометричних баз.

  • Виконання умов більшості міжнародних грантодавців.

6. Чи можуть українські видавці легально використовувати CC?

Відповідь: Безумовно. Жодних спеціальних дозволів від державних органів не потрібно. Достатньо скористатися офіційним конструктором на сайті Creative Commons, обрати ліцензію та розмістити відповідний маркер на сайті чи у верстці видання.

7. Чи не скасовує ліцензія CC моє авторське право?

Відповідь: Навпаки! Creative Commons працює виключно в межах авторського права. Це лише стандартизований спосіб сказати світу: «Я залишаюся автором, але дозволяю вам копіювати мою працю без зайвих запитів, якщо ви виконаєте мої умови».

8. Чи можна використовувати матеріали з позначкою «NC» (некомерційно) у приватних університетах?

Відповідь: Тут є тонка межа:

  • Можна: якщо це внутрішня освітня діяльність (лекції для студентів у межах програми).

  • Ризиковано: якщо ці матеріали стають частиною платного продукту (наприклад, окремих комерційних курсів). У такому разі краще звернутися до автора за індивідуальним дозволом.

Отже, відкриті ліцензії не створюють ризиків самі по собі — їх створює юридична необізнаність. Грамотний вибір ліцензії — це ваш внесок у розвиток науки та підвищення власної видимості у світі.

Див.  семінар “Ліцензії Creative Commons: шлях до відкритої науки для українських авторів та видавців”, організований спільно з фахівцями Creative Commons: 

2026/04/14

Управління даними в епоху ШІ: що змінилося і чому це важливо

Дані — це фундамент штучного інтелекту. Але сам цей фундамент тріщить і переосмислюється прямо зараз.

Більшість дискусій про регулювання ШІ зосереджені на моделях: їхній упередженості, прозорості, ризиках. Але є щось фундаментальніше, що лишається поза увагою — дані. Стефан Ферхулст у своєму есе описує 10 ключових зрушень, які прямо зараз переосмислюють те, як суспільство збирає, зберігає та використовує дані у світі ШІ.

01

Що вважати даними?

Таблиці і записи поступаються місцем тексту, відео, аудіо — і навіть даним, згенерованим самим ШІ.

02

FAIR → FAIR-R

Принципи відкритих даних доповнюються вимогою «готовності до ШІ»: метадані, походження, аудит упередженості.

03

Контекст як інфраструктура

Дані без контексту марні. Нові протоколи (MCP) стандартизують передачу контексту до ШІ-систем.

04

Стратегічне управління

Від контролю якості — до стратегічного орієнтування: узгодження даних із суспільною цінністю.

05

Нові ліцензії

Creative Commons не розрахований на ШІ. З'являються механізми, що вказують: чи можна ці дані використовувати для навчання моделі.

06

Соціальна ліцензія

Згода — це не транзакція, а процес. Громади повинні мати голос у тому, як їхні дані використовуються.

07

Нові інституції

Кооперативи і трасти даних протистоять монополізації — і перерозподіляють вигоду на користь спільноти.

08

Синтетичні дані

Штучно згенеровані дані вирішують проблеми конфіденційності, але самі стають новим об'єктом регулювання.

09

ШІ для управління

ШІ все частіше сам здійснює управління даними: класифікація, моніторинг, аудит — автоматично.

10

ШІ-агенти

Автономні агенти починають управляти потоками даних. Хто тоді несе відповідальність?

Управління даними формує ШІ. Штучний інтелект змінює управління даними. І обидва вони розвиваються разом — у безперервному циклі зворотного зв'язку.

Головна теза Ферхульста проста і важлива: управління даними — це не бюрократична надбудова над ШІ, це його основа. І якщо ми хочемо, щоб ШІ служив суспільному благу, а не лише ефективності корпорацій, нам потрібно перестати розглядати дані як технічне питання і почати сприймати їх як питання влади, справедливості та демократії.

Натисніть Enter або клацніть, щоб переглянути зображення в повному розмірі
Натисніть Enter або клацніть, щоб переглянути зображення в повному розмір

2026/04/09

Положення про УДД

Управління дослідницькими даними (УДД) є важливою частиною будь-якого дослідницького проєкту  та включає збір, обробку та аналіз, збереження, обмін, довгострокове зберігання даних досліджень.

Вперше в Україні — Положення про управління дослідницькими даними в Національному технічному університеті України «Київський політехнічний інститут імені Ігоря Сікорського» (2026).

Положення про УДД включає розділи:

  1. ЗАГАЛЬНІ ПОЛОЖЕННЯ  
  2. ТЕРМІНИ ТА ВИЗНАЧЕННЯ  
  3. ПЛАНУВАННЯ УПРАВЛІННЯ ДОСЛІДНИЦЬКИМИ ДАНИМИ  
  4. ЗАБЕЗПЕЧЕННЯ ДОСТУПУ ДО ДАНИХ ПІД ЧАС ДОСЛІДЖЕННЯ  
  5. ОРГАНІЗАЦІЯ ФАЙЛІВ ТА ДОКУМЕНТУВАННЯ ДОСЛІДНИЦЬКИХ ДАНИХ  
  6. ДОВГОСТРОКОВЕ ЗБЕРІГАННЯ ТА ПОШИРЕННЯ ДАНИХ  
  7. ТЕРМІН ЗБЕРІГАННЯ ДОСЛІДНИЦЬКИХ ДАНИХ  
  8. ВІДПОВІДАЛЬНІСТЬ УЧАСНИКІВ ПРОЦЕСУ УДД


Додаток 1.  ПЛАН УПРАВЛІННЯ ДОСЛІДНИЦЬКИМИ ДАНИМИ: Шаблон для науково-дослідної роботи

Додаток 2. ПЛАН УПРАВЛІННЯ ДОСЛІДНИЦЬКИМИ ДАНИМИ: Шаблон для дисертаційного дослідження

2026/02/18

Короткострокова обробка даних: формати файлів для зручності роботи

Вибір формату файлу залежить від фази вашого дослідження. Варіанти короткострокової обробки даних можуть відрізнятися від варіантів довгострокового зберігання даних.

З міркувань короткострокової працездатності доцільно вибрати формат файлу, який пов'язаний з конкретним програмним забезпеченням, яке ви плануєте використовувати для аналізу даних. Зазвичай найкращим рішенням є дотримання стандартів та звичаїв конкретної дисципліни. Однак слід враховувати, наскільки поширені ці стандарти та якою мірою вони дозволять обробляти дані не лише колегами у вашій дисципліні.

Власні формати файлів належать певній компанії та захищені авторським правом. Їхні специфікації зазвичай не є загальнодоступними, а їхній майбутній розвиток залежить від рішень та ситуації їхнього власника. Таким чином, ризик застаріння є високим. Однак деякі власницькі формати, такі як Rich Text Format (*.rtf), MP3, MPEG, JPG, MS Excel (*.xls), SPSS (*.sav, *.por), STATA (*.dta), широко використовуються, і можна припустити, що вони будуть корисними протягом розумного часу.

Дізнайтеся більше про відповідні формати файлів для короткострокової обробки даних

Вагові коефіцієнти

Вагові коефіцієнти — це інструмент «справедливості» у статистиці. Простими словами: якщо ви опитали 100 студентів КПІ, але серед них виявилося 90 хлопців і лише 10 дівчат (хоча на факультеті їх 50/50), результати будуть викривленими. Зважування дозволяє надати голосам дівчат більшої "ваги", щоб вибірка стала схожою на реальність.

1. Навіщо потрібні ваги: Компенсація реальності

У ідеальному світі вибірка точно копіює структуру населення. У реальності ж дослідники часто стикаються з упередженістю вибірки: одні групи людей охочіше йдуть на контакт, інші — ігнорують опитування.

Зважування вирішує чотири завдання:

  1. Балансування: Коригує відхилення від характеристик реальної популяції (наприклад, за статтю, віком чи регіоном).

  2. Врахування дизайну: Якщо ви навмисно опитали більше людей у маленькому місті, щоб почути їхню думку, вага допоможе повернути їхню частку до реальних масштабів при підрахунку загального результату.

  3. Компенсація невідповідей: Якщо певна група (наприклад, молодь) масово проігнорувала опитування, вага «підсилює» голоси тих небагатьох молодих людей, які все ж відповіли.

  4. Математична корекція: Кожному анкетному випадку присвоюється коефіцієнт (наприклад, 1.5 або 0.8), на який множаться всі відповіді цього респондента.

2. Типи ваг та їхнє призначення (на прикладі ESS)

Різні ситуації вимагають різних "окулярів" для аналізу даних. Європейське соціальне опитування (ESS) виділяє три основні типи:

  • Дизайн-вага (Design weight): Виправляє помилки, які виникли ще на етапі планування. Якщо у мешканця великого будинку було менше шансів потрапити у вибірку, ніж у мешканця приватного сектора, ця вага це виправить.

  • Постстратифікаційна вага: Використовується вже після збору даних. Вона підтягує вибірку до офіційної статистики (наприклад, даних перепису населення).

  • Вага чисельності населення: Критично важлива при порівнянні країн. Без неї голос одного респондента з маленької Естонії важив би стільки ж, скільки голос респондента з величезної Німеччини, що неправильно для загальноєвропейських висновків.

Важливо про значення ваги:

  • Якщо вага = 1, дані ідеальні та не коригуються.

  • Бажано, щоб більшість ваг були близькими до 1. Дуже високі або низькі значення свідчать про те, що вибірка була неякісною, або ви занадто сильно її «підганяєте».

3. Практичне застосування: Коли і що використовувати

Вибір ваги залежить від вашого дослідницького запитання. Подивіться на логіку використання ваг у міжнародних дослідженнях:

Масштаб аналізуЩо аналізуємоЯку вагу застосувати?
Одна країнаЯвка виборців лише в УкраїніДизайн-вага або Постстратифікаційна
Порівняння країнПорівняти явку в Україні та Польщі (окремо)Дизайн-вага або Постстратифікаційна
Об'єднання країнЗагальна явка виборців у всьому ЄСДизайн + Постстратифікаційна + Вага населення

Порада для дослідника: Якщо ви використовуєте чужий файл даних (наприклад, з архіву КПІ чи міжнародного репозиторію) і бачите там змінну "weight" — ніколи не вмикайте її наосліп. Спершу знайдіть у документації опис її розрахунку. Використання неправильної ваги може призвести до хибних наукових висновків.

 https://dmeg.cessda.eu/Data-Management-Expert-Guide/3.-Process/Weights-of-survey-data


Що таке «дисперсія кодера»?

Коли над дослідженням працює не одна людина, а ціла команда (наприклад, декілька студентів чи аспірантів кафедри), виникає серйозна проблема: суб'єктивність.

Навіть якщо у вас є чітка інструкція, різні люди можуть розуміти її по-своєму. У науці це називають «дисперсією кодера» або «відхиленням кодера».

Уявіть, що ви аналізуєте відгуки студентів КПІ про нову систему реєстрації на курси. У вас є код «Складнощі з інтерфейсом».

  • Кодер А (досвідчений програміст) вважає, що «складно» — це лише коли сайт «падає».

  • Кодер Б (гуманітарій) вважає, що «складно» — це навіть якщо колір кнопки не подобається.

Результат: Ваша база даних перетворюється на вінегрет. Статистика буде показувати не реальну картину, а те, наскільки суворим або лояльним був той чи інший кодер. Це і є систематична помилка, яка псує все дослідження.

Чому це складно?

Кодування тексту — це не механічна робота, а когнітивний процес. Дослідник має «влізти в голову» респонденту, зрозуміти контекст, сарказм чи прихований зміст. Без підготовки кожен кодер додає до бази частинку свого світогляду, викривляючи оригінальну інформацію.

Як запобігти відхиленню? (Стратегія захисту даних)

Щоб ваше дослідження в КПІ було валідним, потрібно впровадити три кроки:

1. Спеціальне навчання (Training)

Кодери не повинні просто отримати список кодів. Вони мають пройти «тренування» на невеликій частині даних (наприклад, прокодувати 10 анкет разом), щоб узгодити спільне розуміння кожного терміну.

2. Пілотне тестування

Дайте всім кодерам один і той самий текст. Якщо вони закодували його по-різному — ваша інструкція (Codebook) погана. Її треба уточнити, поки всі не почнуть видавати однаковий результат.

3. Перевірка надійності (Inter-coder reliability)

Це математичний спосіб перевірити, чи можна довіряти вашій команді. Зазвичай використовується Коефіцієнт Каппа Коена.

  • Якщо Каппа > 0.8 — ваша команда працює як один злагоджений механізм.

  • Якщо Каппа < 0.6 — дані не можна використовувати для серйозного аналізу, кодерів треба переучувати.

Поради для дослідника

  • Регулярні збори: Раз на тиждень обговорюйте "спірні випадки". Це допомагає команді не «розпливатися» у своїх оцінках з часом.

  • Технічний контроль: Використовуйте софт (як-от NVivo), який автоматично порівнює роботу різних кодерів.

Висновок: Якість вашого дослідження залежить не від того, скільки людей ви опитали, а від того, наскільки однаково ваша команда обробила ці відповіді.

Відсутні значення

Відсутні значення — це не просто «порожні місця» в таблиці, а важлива аналітична інформація. Простими словами, ви повинні пояснити комп'ютеру, чому у клітинці немає даних. Якщо ви просто залишите її пустою, статистична програма може сприйняти це як збій або помилку, що викривить результати всього дослідження.

Ось логічний розбір того, як професійно працювати з "дірками" в даних.


1. Чому дані можуть бути відсутні?

Важливо розрізняти причини, адже вони мають різну наукову вагу:

  • Змінна не застосовується (Not Applicable): Наприклад, ви запитали: "Скільки пального споживає ваше авто?", а респондент відповів раніше, що в нього немає машини. Це не помилка, а логічний пропуск.

  • Респондент не знає (Don't Know): Людина готова відповідати, але не володіє інформацією (наприклад, про точний бюджет університету).

  • Відмова від відповіді (Refusal): Питання було занадто чутливим (наприклад, про розмір зарплати або політичні погляди).

  • Технічна помилка (System Missing): Сторінка анкети склеїлася, зник інтернет або датчик вийшов з ладу.


2. Система "магічних чисел" (Кодування)

Щоб програма відрізняла реальну відповідь від пропуску, дослідники використовують спеціальні коди. Головне правило: код не повинен збігатися з реальною відповіддю.

Приклади правильного кодування:

  • Нуль (0) — це не пропуск! Ніколи не використовуйте 0 для позначення відсутності даних, якщо відповіддю може бути число (дохід, кількість дітей, температура).

  • Від'ємні числа: Часто використовують -9 (немає відповіді) або -8 (не застосовується). Це зручно, бо реальні значення в багатьох тестах лише додатні.

  • Крайні значення (9, 99, 999): Якщо ваша шкала від 1 до 5, то 9 може бути кодом пропуску. Якщо шкала від 1 до 80 (вік), то кодом пропуску має бути 99 або 999.


3. Приклад для бази даних Університету

Уявіть, що ви проводите опитування про використання наукової бази даних.

РеспондентСкільки годин на тиждень працюєте в базі? (Валідне значення: 0-168)Чому пропуск? (Для документації)Код у файлі даних
Студент А5 годин5
Студент БНе має доступу до базиНе застосовується-8
Студент В"Не рахував, не знаю"Не знає-7
Студент ГПропустив запитанняВідмова/пропуск-9

4. Обмеження програмного забезпечення

Пам'ятайте, що такі програми як SPSS або Stata мають спеціальні інструменти для "оголошення" цих кодів як відсутніх (User-defined missing values).

  • Ви кажете програмі: "Число -9 — це не мінус дев'ять годин роботи, це просто відсутність даних".

  • Після цього програма автоматично виключить ці кейси з розрахунку середнього значення, щоб вони не псували вам статистику.


Поради експерта:

  1. Будьте послідовними: Використовуйте однакові коди (наприклад, завжди -9 для відмови) у всій базі даних.

  2. Документуйте: Обов'язково вкажіть у своєму Codebook, що означає кожне "магічне число".

  3. Перевіряйте формат: Якщо стовпець налаштований лише для однієї цифри, ви не зможете вписати туди 99.

Codebook: приклад оформлення

Ось приклад того, як має виглядати професійно оформлений Codebook (Книга кодів) для вашого дослідження. Такий документ зазвичай створюється у форматі Excel або як окремий додаток до плану управління даними (DMP).


Codebook: Дослідження цифрової грамотності студентів КПІ

Дата останнього оновлення: 18.02.2026

Відповідальний дослідник: [Ваше Прізвище]

Файл даних, до якого відноситься: survey_results_v1.csv


1. Загальна інформація про файл даних

  • Кількість спостережень (рядків): 150

  • Кількість змінних (стовпців): 8

  • Формат файлу: CSV (UTF-8)

  • Пропущене значення: За замовчуванням використовується -9 (для всіх типів змінних).


2. Специфікація змінних

Ім'я змінної (Variable Name)Мітка (Label / Питання)Тип данихКоди та значення (Value Labels)Примітки
RESP_IDІдентифікатор респондентаЧисловийПорядковий номер (001-150)Унікальний ключ, анонімізовано
FACULTYФакультет респондентаКатегоріальний

1 = ФІОТ


2 = ІПСА


3 = ФБМІ


4 = Інший

Якщо 4, див. змінну FAC_OTHER
YEAR_STUDYКурс навчанняЧисловий1, 2, 3, 4, 5 (магістр 1), 6 (магістр 2)Тільки цілі числа
AI_USAGEЯк часто ви використовуєте ШІ у навчанні?Категоріальний (шкала Лікерта)

1 = Ніколи


2 = Рідко


3 = Іноді


4 = Часто


5 = Щодня


-9 = Відмова

Обов'язкове питання
AI_TOOLЯкому інструменту ШІ ви надаєте перевагу?ТекстовийВідкрита відповідь (до 50 симв.)Вимагає якісного кодування пізніше
SKILL_SCOREСамооцінка навичок програмуванняІнтервальний0...100 (слайдер)0 - зовсім не вмію, 100 - експерт
CONSENTНадана згода на обробку ПДБінарний

1 = Так


0 = Ні

Якщо 0, дані мають бути видалені

3. Схема кодування відсутніх значень (Missing Values)

Щоб статистичні програми не плутали відсутність відповіді з нулем, ми використовуємо спеціальні коди:

  • -9: Респондент свідомо пропустив питання.

  • -8: Питання не було показане через логіку анкети (наприклад, якщо вказав, що не використовує ШІ).

  • -7: Технічна помилка під час запису даних.


Поради щодо оформлення:

  1. Назви змінних (Variable Names): Робіть їх короткими, латиницею, без пробілів (наприклад, USE_FREQ замість Як часто ви використовуєте). Це стандарт для SPSS та мови R.

  2. Мітки (Labels): Тут пишіть повний текст питання з анкети. Це допоможе вам через рік згадати точне формулювання.

  3. Ексклюзивність: Переконайтеся, що коди не дублюються (наприклад, не можна призначити 1 одночасно для "Так" і для "Чоловік" у межах однієї змінної).