DataSteward@LibraryKPI

2026/02/18

Принципи обробки даних відповідно до GDPR

З 25 травня 2018 року Загальний регламент про захист даних (GDPR, Європейський Союз, 2016a) застосовується до будь-якого дослідника ЄС або дослідника в Європейській економічній зоні (ЄЕЗ), який збирає персональні дані, та будь-якого дослідника в усьому світі, який збирає персональні дані громадян ЄС. GDPR застосовується лише до даних живих осіб. Дані, які не вважаються персональними даними, не підпадають під законодавство про захист даних, хоча все ще можуть бути етичні причини для захисту цієї інформації.

Щоб ваше дослідження було законним, воно має відповідати цим шести принципам:

Законність і прозорість: Людина має точно знати, хто, як і навіщо збирає її дані.
Обмеження мети: Ви не можете зібрати мейли для опитування про фізику, а потім розсилати на них рекламу свого стартапу.
Мінімізація даних: Збирайте лише те, що реально потрібно. Якщо для дослідження алгоритму не потрібна домашня адреса користувача — не запитуйте її.
Точність: Якщо людина каже, що її дані застаріли, ви маєте їх оновити або видалити.
Обмеження зберігання: Не тримайте дані вічно. Як тільки дослідження завершене і результати опубліковані (або пройшов термін зберігання за грантом) — дані мають бути видалені.
Цілісність і конфіденційність: Захист від хакерів, випадкової втрати або «зливу» інформації через недбалість.

Додатково: https://dmeg.cessda.eu/Data-Management-Expert-Guide/5.-Protect/Processing-personal-data

Єврорегламент GDPR вимагає, щоб захист даних не був «додатком», який ви вмикаєте в кінці. Він має бути закладений у саму структуру вашого дослідження:

Псевдонімізація: Заміна імен кодами. Ви тримаєте список «Код = Прізвище» у зашифрованому файлі окремо від самих відповідей.
Анонімізація: Повне видалення зв'язку між даними та людиною.
Доступ: Ваші бази даних не повинні бути публічними «за замовчуванням». Доступ має бути лише у вас і вашої команди.
Технічні заходи: Використовуйте двофакторну автентифікацію для хмарних сховищ та не обмінюйтесь файлами з ПД через месенджери.
Інформована згода: Це не просто папірець. Це підтвердження того, що ви діяли справедливо

Наукова етика

Наукова етика — це «кодекс честі» дослідника. Це правила гри, які гарантують, що ваша робота не зашкодить людям, тваринам чи репутації науки. Якщо їх порушити, це призведе не просто до зауваження, а до офіційного розслідування (адміністративного розгляду).

Ось як це працює на практиці, розкладено «по поличках»:

1. Що саме ми маємо захищати?

Етичні вимоги охоплюють усе, що є «живим» або «чутливим»:

Люди: Обов'язкова інформована згода (людина має знати, що з нею роблять і навіщо). Особлива увага до вразливих верств населення (діти, біженці, хворі).
Тварини: Дослідження мають бути гуманними.
Дані: Недопущення методів, що порушують права людини або розкривають конфіденційну інформацію.
Бізнес-практики: Чесність у відносинах із замовниками та маркетингових дослідженнях.

2. На що впливає етика в ході дослідження?

Це не просто формальність у кінці роботи, етика пронизує весь процес:

Мета: Чи є дослідження корисним і чи не шкодить воно суспільству?
Документи: Як ви реєструєте згоду людей (паперові анкети, цифрові підписи)?
Захист: Які саме дані ви шифруєте під час аналізу?
Фінал: Як ви знищуєте дані після використання, щоб вони не потрапили до чужих рук?

3. Етика = Право (Закони, які ми виконуємо)

Наукова етика сьогодні тісно переплетена з міжнародним правом:

GDPR: Європейський стандарт, який диктує, як збирати та зберігати персональні дані. Якщо ви працюєте з колегами з ЄС, ви зобов'язані його дотримуватися.
AI Ethical Guidelines: Правила від Єврокомісії, які вчать, як використовувати Штучний Інтелект так, щоб він був «доброчесним» і прозорим.

4. Вимоги наукових журналів (на прикладі Педагогічна освіта: теорія і практика http://pedosv.kpnu.edu.ua/etich_polog)

Редакції журналів — це головні «контролери» етики. Вони вимагають:

Відкритість: Дані мають бути в репозиторіях або додані до статті як «Супровідні файли».
Прозорість коду: Якщо ви написали софт, викладіть його у відкритий доступ і детально опишіть алгоритм.
Право на перевірку: Якщо в читача виникне сумнів, він може через редакцію вимагати перевірки ваших даних.
Доступ за запитом: Ви зобов’язані надати дані редакції (крім випадків, коли це загрожує анонімності людей).

5. Хто за цим наглядає?

У кожній країні та університеті є свої «вартові етики»:

В Україні та Європі: Комітети з етики при університетах (Ethics Committees).
У США: IRB (Institutional Review Boards) — наглядові ради, без схвалення яких ви не отримаєте грант і не почнете роботу з людьми.
Спеціалізовані організації: Наприклад, Міжуніверситетський консорціум політичних і соціальних досліджень прийме ваші дані лише тоді, коли ви доведете, що учасники дали на це добровільну згоду.

Висновок для дослідника: Етика — це ваша страховка. Дотримуючись її, ви захищаєте не лише учасників, а й себе від судових позовів та анулювання наукових ступенів.

Приватність vs Конфіденційність

Терміни Приватність та Конфіденційність часто плутають, але в науці вони мають різні «точки відповідальності»:

Приватність (Privacy): Це право учасника. Його право вирішувати, чи хоче він ділитися своїми показниками серцевого ритму або політичними поглядами. Це «кордон», який ви не маєте права перетинати без згоди.
Конфіденційність (Confidentiality): Це обов'язок дослідника. Коли учасник уже переступив свій поріг приватності й надав вам дані, ви обіцяєте тримати їх у таємниці.

Простими словами: Приватність — це замок на дверях учасника. Конфіденційність — це ваш сейф, куди ви поклали ключ, який він вам довірив.

Чому це важливо для якості науки?

Наука тримається на довірі. Якщо учасник дослідження (наприклад, студент КПІ, що бере участь в опитуванні про психологічний клімат у групі) не впевнений у безпеці, він буде:

Приховувати правду.
Надавати неповні дані.
Відмовлятися від участі.

Наслідок для дослідника: Дані стають поверхневими, а результати — недостовірними. Якісна наука можлива лише тоді, коли респондент почувається в безпеці.

Приклад із життя дослідника

Уявіть, що ви працюєте на ФБМІ (Факультет біомедичної інженерії) над системою моніторингу реабілітації ветеранів.

Ризик: Ви випадково залишили таблицю з результатами (ПІБ + діагноз) у відкритому доступі на Google Drive.
Порушення приватності: Ви втрутилися в особисте життя людини без її контролю.
Порушення конфіденційності: Ви не дотримали слова захищати ці дані.
Результат: Людина більше ніколи не візьме участь у ваших тестах, а університет може отримати судовий позов та етичну догану.

Як захиститися? (Золоті правила)

Анонімізація: Видаляйте імена та ідентифікатори одразу після збору, замінюючи їх кодами (наприклад, "Учасник №102").
Шифрування: Зберігайте дані на захищених серверах Університету або у зашифрованих архівах, а не на звичайних флешках.
Чітка інструкція: На етапі вебінарів та планування чітко прописуйте, як і де будуть зберігатися дані.

Витоки даних

Управління науковими даними в сучасних умовах — це не лише питання технічного порядку, а передусім етична та безпекова відповідальність. Коли ми говоримо про захист інформації, мова йде не про абстрактні цифри, а про життєздатність цілих інфраструктур та репутацію дослідників.

Контекст загроз: Від глобальної статистики до локальних криз

Сьогодення переповнене історіями про масштабні витоки даних. Візуалізація проєкту Information is Beautiful, яка аналізує найбільші хакерські атаки з 2012 по 2022 роки, демонструє лякаючу тенденцію: обсяги викраденої інформації зростають експоненціально.

Source: McCandless, D., Evans, T. and Barton, P. (2022) World's biggest data breaches & hacks, Information is Beautiful. Information is Beautiful. Available at: https://www.informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-hacks/ (Accessed: January 27, 2023)

Реальний кейс: Атака на «Київстар» (12.12.2023) Найяскравішим прикладом того, як вразливість однієї системи може паралізувати країну, стала атака на українського оператора «Київстар».

Причина: Зловмисне використання доступу до облікового запису одного співробітника.
Наслідки: Відсутність зв'язку та інтернету тривала майже десять днів (до 21.12.2023). Це спричинило ланцюгову реакцію: припинили роботу системи вуличного освітлення, банківські термінали, а також критично важливі сервіси — Уклон, Тabletki.ua, Нова пошта.

Цей випадок доводить: людський фактор та недбале управління доступом є найслабшою ланкою в ланцюгу безпеки.

Ризики для дослідника: Чому «авось» не працює?

Недбале ставлення до конфіденційності в науковій діяльності тягне за собою реальні та болючі наслідки:

Руйнація кар’єри: Втрата довіри колег та грантодавців після витоку персональних даних піддослідних може поставити крапку на професійному майбутньому.
Удар по інституції: Університет або дослідницький центр втрачають акредитацію, фінансування або міжнародне партнерство.
Юридичні та фінансові санкції: Порушення регламентів (наприклад, GDPR в ЄС) передбачає величезні штрафи та навіть кримінальну відповідальність.

Етична дилема: Опублікувати чи приховати?

Через страх перед витоками дослідники часто обирають шлях найменшого опору — повне виключення конфіденційних даних з публікації.

Аналіз заяв до інституційних комісій з етичного схвалення (IRB — Institutional Review Boards) показує, що вчені часто керуються такими мотивами:

Переконання, що публікація таких даних апріорі є неетичною.
Впевненість, що це прямо заборонено законодавством.
Уявлення про те, що забезпечити безпеку даних «надто складно».

Наслідок: Величезні масиви цінної інформації стають «мертвим вантажем». Вони недоступні для перевірки, повторного аналізу або використання в нових дослідженнях, що сповільнює науковий прогрес.

Як діяти? Планування як засіб захисту

Щоб не обирати між безпекою та науковою цінністю, планування управління даними (DMP) має починатися ще до початку збору інформації.

Ідентифікація: Чітко визначте, які дані є дійсно конфіденційними (ПІБ, геолокація, медичні показники).
Анонімізація: Використовуйте методи деідентифікації, щоб дані можна було публікувати без ризику для осіб.
Контроль доступу: Як показує досвід «Київстару», доступ повинен бути суворо обмеженим та захищеним (двофакторна автентифікація, шифрування).

Висновок: Безпека даних — це не лише технічна задача ІТ-відділу, а професійна гігієна кожного дослідника.

Класифікація наукових даних

Для того, щоб наукові дані були придатними для обміну та аналізу, їх класифікують за структурою та форматом. У таблиці наведено систематизацію основних восьми типів даних за їхнім видом, класом та типовими форматами.

Таблиця класифікації наукових даних

Тип даних	Вид даних (за походженням)	Клас даних (структура)	Типові формати файлів
Експериментальні	Первинні (сирі)	Структуровані / Неструктуровані	`.dat`, `.csv`, `.bin`, `.txt`
Спостережні	Первинні (унікальні)	Потокові / Просторові	`.tiff`, `.fits` (астрономія), `.netcdf`
Симуляційні	Згенеровані (модельні)	Математичні описи	`.hdf5`, `.json`, `.xml`, `.log`
Аналітичні	Вторинні (похідні)	Статистичні / Агреговані	`.xlsx`, `.sav` (SPSS), `.rdata`, `.stata`
Соціальні/Гуманітарні	Текстові / Описові	Якісні / Кількісні	`.docx`, `.pdf`, `.rtf`, `.mp3` (інтерв'ю)
Геномні	Секвеновані (великі дані)	Послідовності	`.fasta`, `.fastq`, `.bam`, `.vcf`
Візуальні	Графічні / Растрові	Медіа-дані	`.jpg`, `.png`, `.dicom` (Медицина), `.mp4`
Метадані	Контекстуальні	Описові (схеми)	`.xml`, `.json-ld`, `.rdf`, `Dublin Core`

Деталізація за категоріями

1. Експериментальні та Спостережні

Ці дані часто належать до класу "Сирих даних" (Raw Data). Вони мають найвищу наукову цінність, оскільки є першоджерелом. Формати зазвичай залежать від обладнання (спектрометрів, мікроскопів, супутників).

2. Симуляційні та Аналітичні

Це клас "Оброблених даних" (Processed Data). Вони компактніші за сирі дані, оскільки пройшли етап фільтрації та розрахунків. Основний формат тут — таблиці або бази даних.

3. Соціальні та Гуманітарні

Тут домінує клас "Неструктурованих даних". Це можуть бути транскрипти інтерв'ю, оцифровані архіви або результати фокус-груп. Основним форматом є текст або мультимедіа.

4. Геномні та Біоінформатичні

Клас "Високопродуктивних даних" (High-throughput data). Через гігантські обсяги вони зберігаються у специфічних стиснутих текстових форматах (наприклад, FASTA для літерних кодів ДНК).

5. Візуальні

Клас "Образних даних" (Imaging Data). У науці, на відміну від побуту, важливою є глибина кольору та відсутність стиснення (Lossless), тому замість JPEG часто використовують TIFF або спеціалізовані медичні стандарти як DICOM.

6. Метадані

Це клас "Службових даних". Вони існують як "паспорт" до будь-якого з вищеперерахованих типів. Формати XML та JSON є стандартами, оскільки вони легко зчитуються і людиною, і машиною.

2026/02/10

Конфіденційна інформація vs Комерційна таємниця

Для дослідника важливо розуміти різницю між цими двома поняттями, щоб не наразити на ризик бізнес-партнерів та не порушити умови контрактів.

1. Конфіденційна інформація vs Комерційна таємниця

Уявіть два кола: велике — це конфіденційна інформація, а всередині нього менше — це комерційна таємниця.

Конфіденційна інформація — це будь-які дані, доступ до яких обмежила сама особа (фізична або юридична). Це найширше поняття (ст. 21 ЗУ «Про інформацію»).
Комерційна таємниця — це вужчий, професійний тип інформації. Це секрети, які мають комерційну цінність: технічні розробки, списки клієнтів, стратегії (ст. 505 Цивільного кодексу України).

2. Що саме є комерційною таємницею?

Закон не дає вичерпного списку, але бізнес сам вирішує, що «ховати». Верховний Суд підтвердив, що до цього списку входять:

Повні списки постачальників та клієнтів з контактами.
Розміри торговельних націнок та знижок.
Обсяги закупівель та плани продажів.

Головна умова: Юридична особа має вжити заходів для захисту цієї інформації (наприклад, підписати з працівниками та дослідниками договір про нерозголошення — NDA).

3. Що НЕ МОЖЕ бути таємницею?

Існують дані, які закон забороняє приховувати, навіть якщо керівник дуже цього хоче.

Згідно з Постановою КМУ №611: не є таємницею кількість працівників, їхня зарплата (загалом та за посадами) та наявність вільних вакансій.
- Цікавий нюанс: Хоча зарплата не є комерційною таємницею, вона все одно залишається конфіденційною інформацією про конкретну людину.
Згідно зі ст. 21 ЗУ «Про інформацію»: не можна обмежувати доступ до інформації про:
- стан довкілля (екологію);
- якість продуктів і товарів;
- аварії, катастрофи та стан здоров'я населення;
- порушення прав людини або незаконні дії влади.

Що це означає для дослідника?

Право власності на секрети: Якщо ви проводите дослідження на базі підприємства, пам'ятайте: бізнес-процеси, які ви бачите (собівартість, умови договорів), — це комерційна таємниця. Їх не можна публікувати без дозволу.
Договірна робота: Завжди перевіряйте, чи підписували ви зобов'язання про конфіденційність. Якщо ви розголосите комерційну таємницю, яка завдасть збитків компанії (наприклад, її використають конкуренти), це може призвести до судових позовів.
Зарплати в звітах: Ви можете вказувати в дослідженні середні зарплати в компанії (це не таємниця), але не можете вказувати ПІБ та конкретну суму окремого працівника без його згоди (це конфіденційні дані особи).

Резюме: Конфіденційність — це про приватність, а комерційна таємниця — про гроші та конкуренцію. Як дослідник, ви маєте поважати обидва рівні захисту.

Неперсоніфікована конфіденційна інформація

Це поняття на перший погляд здається суперечливим: як дані можуть бути конфіденційними, якщо вони неперсоніфіковані (тобто анонімні)?

Насправді все просто: навіть якщо в даних немає вашого імені, вони все одно описують чиєсь життя, гроші чи звички. Якщо ці цифри потраплять не в ті руки, вони можуть стати зброєю.

Ось як це працює в деталях:

Що таке неперсоніфікована конфіденційна інформація?

Це дані, з яких видалили імена, але залишили цінний зміст. Вони не підпадають під закон про персональні дані (бо особи не видно), але їх все одно треба ховати від сторонніх, бо вони «чутливі».

1. Дані про фінанси

Це цифри про суми, час та напрямки платежів.

Чому це конфіденційно? Навіть без ПІБ клієнта, знаючи графік великих переказів, шахраї можуть підробити квитанцію або вирахувати «жирну» ціль для кібератаки.

2. Дані про геолокацію

Ваші маршрути, координати та час перебування в певних точках.

Чому це конфіденційно? Якщо дослідник бачить, що «Користувач №45» щодня о 08:00 виходить з однієї точки, а о 18:00 повертається — йому не треба знати прізвище, щоб зрозуміти, де людина живе і коли її немає вдома. Це ідеальна інформація для стеження.

3. Дані про поведінку

Історія браузера, покупки в магазинах, використання додатків.

Чому це конфіденційно? Це ваш «цифровий портрет». Навіть анонімно ці дані дозволяють маніпулювати вашим вибором через рекламу або створювати профілі для шантажу.

Що це означає для дослідника?

Для вас це означає, що анонімізація — це не фініш, а лише початок захисту.

Ризик повторної ідентифікації: Пам'ятайте, що неперсоніфіковані дані можна «деанонімізувати». Якщо ви об'єднаєте анонімну геолокацію з відкритим реєстром нерухомості, ви отримаєте ім'я. Це великий ризик для безпеки учасників.
Етична відповідальність: Навіть якщо закон дозволяє вільно працювати з анонімними даними, ви як дослідник відповідаєте за те, щоб ці масиви не стали інструментом шкоди (наприклад, щоб дані про покупки певної групи людей не використали для їх дискримінації).
Режим доступу: Такі дані не можна викладати у відкритий доступ «як є». Ви повинні використовувати:
- Агрегацію: показувати не окремі маршрути, а середні показники по району.
- Захищені сховища: доступ до сирих неперсоніфікованих даних мають мати лише перевірені колеги.
Специфіка об'єктів:
- Юридичні особи: Інформація про їхні фінанси може бути комерційною таємницею.
- Померлі особи: Хоча закон про ПД на них не діє, їхні дані можуть зашкодити репутації або безпеці живих родичів.

Неперсоніфіковані дані — це «заряджена зброя». Імен немає, але небезпека залишається.

Сторінки

2026/02/18

1. Що саме ми маємо захищати?

2. На що впливає етика в ході дослідження?

3. Етика = Право (Закони, які ми виконуємо)

4. Вимоги наукових журналів (на прикладі Педагогічна освіта: теорія і практика http://pedosv.kpnu.edu.ua/etich_polog)

5. Хто за цим наглядає?

Чому це важливо для якості науки?

Приклад із життя дослідника

Як захиститися? (Золоті правила)

Контекст загроз: Від глобальної статистики до локальних криз

Ризики для дослідника: Чому «авось» не працює?

Етична дилема: Опублікувати чи приховати?

Як діяти? Планування як засіб захисту

Таблиця класифікації наукових даних

Деталізація за категоріями

1. Експериментальні та Спостережні

2. Симуляційні та Аналітичні

3. Соціальні та Гуманітарні

4. Геномні та Біоінформатичні

5. Візуальні

6. Метадані

2026/02/10

1. Конфіденційна інформація vs Комерційна таємниця

2. Що саме є комерційною таємницею?

3. Що НЕ МОЖЕ бути таємницею?

Що це означає для дослідника?

Що таке неперсоніфікована конфіденційна інформація?

1. Дані про фінанси

2. Дані про геолокацію

3. Дані про поведінку

Що це означає для дослідника?

Загальна кількість переглядів сторінки

Архів блогу