DataSteward@LibraryKPI: анонімізація

Показ дописів із міткою анонімізація. Показати всі дописи

2026/02/18

Приватність vs Конфіденційність

Терміни Приватність та Конфіденційність часто плутають, але в науці вони мають різні «точки відповідальності»:

Приватність (Privacy): Це право учасника. Його право вирішувати, чи хоче він ділитися своїми показниками серцевого ритму або політичними поглядами. Це «кордон», який ви не маєте права перетинати без згоди.
Конфіденційність (Confidentiality): Це обов'язок дослідника. Коли учасник уже переступив свій поріг приватності й надав вам дані, ви обіцяєте тримати їх у таємниці.

Простими словами: Приватність — це замок на дверях учасника. Конфіденційність — це ваш сейф, куди ви поклали ключ, який він вам довірив.

Чому це важливо для якості науки?

Наука тримається на довірі. Якщо учасник дослідження (наприклад, студент КПІ, що бере участь в опитуванні про психологічний клімат у групі) не впевнений у безпеці, він буде:

Приховувати правду.
Надавати неповні дані.
Відмовлятися від участі.

Наслідок для дослідника: Дані стають поверхневими, а результати — недостовірними. Якісна наука можлива лише тоді, коли респондент почувається в безпеці.

Приклад із життя дослідника

Уявіть, що ви працюєте на ФБМІ (Факультет біомедичної інженерії) над системою моніторингу реабілітації ветеранів.

Ризик: Ви випадково залишили таблицю з результатами (ПІБ + діагноз) у відкритому доступі на Google Drive.
Порушення приватності: Ви втрутилися в особисте життя людини без її контролю.
Порушення конфіденційності: Ви не дотримали слова захищати ці дані.
Результат: Людина більше ніколи не візьме участь у ваших тестах, а університет може отримати судовий позов та етичну догану.

Як захиститися? (Золоті правила)

Анонімізація: Видаляйте імена та ідентифікатори одразу після збору, замінюючи їх кодами (наприклад, "Учасник №102").
Шифрування: Зберігайте дані на захищених серверах Університету або у зашифрованих архівах, а не на звичайних флешках.
Чітка інструкція: На етапі вебінарів та планування чітко прописуйте, як і де будуть зберігатися дані.

Витоки даних

Управління науковими даними в сучасних умовах — це не лише питання технічного порядку, а передусім етична та безпекова відповідальність. Коли ми говоримо про захист інформації, мова йде не про абстрактні цифри, а про життєздатність цілих інфраструктур та репутацію дослідників.

Контекст загроз: Від глобальної статистики до локальних криз

Сьогодення переповнене історіями про масштабні витоки даних. Візуалізація проєкту Information is Beautiful, яка аналізує найбільші хакерські атаки з 2012 по 2022 роки, демонструє лякаючу тенденцію: обсяги викраденої інформації зростають експоненціально.

Source: McCandless, D., Evans, T. and Barton, P. (2022) World's biggest data breaches & hacks, Information is Beautiful. Information is Beautiful. Available at: https://www.informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-hacks/ (Accessed: January 27, 2023)

Реальний кейс: Атака на «Київстар» (12.12.2023) Найяскравішим прикладом того, як вразливість однієї системи може паралізувати країну, стала атака на українського оператора «Київстар».

Причина: Зловмисне використання доступу до облікового запису одного співробітника.
Наслідки: Відсутність зв'язку та інтернету тривала майже десять днів (до 21.12.2023). Це спричинило ланцюгову реакцію: припинили роботу системи вуличного освітлення, банківські термінали, а також критично важливі сервіси — Уклон, Тabletki.ua, Нова пошта.

Цей випадок доводить: людський фактор та недбале управління доступом є найслабшою ланкою в ланцюгу безпеки.

Ризики для дослідника: Чому «авось» не працює?

Недбале ставлення до конфіденційності в науковій діяльності тягне за собою реальні та болючі наслідки:

Руйнація кар’єри: Втрата довіри колег та грантодавців після витоку персональних даних піддослідних може поставити крапку на професійному майбутньому.
Удар по інституції: Університет або дослідницький центр втрачають акредитацію, фінансування або міжнародне партнерство.
Юридичні та фінансові санкції: Порушення регламентів (наприклад, GDPR в ЄС) передбачає величезні штрафи та навіть кримінальну відповідальність.

Етична дилема: Опублікувати чи приховати?

Через страх перед витоками дослідники часто обирають шлях найменшого опору — повне виключення конфіденційних даних з публікації.

Аналіз заяв до інституційних комісій з етичного схвалення (IRB — Institutional Review Boards) показує, що вчені часто керуються такими мотивами:

Переконання, що публікація таких даних апріорі є неетичною.
Впевненість, що це прямо заборонено законодавством.
Уявлення про те, що забезпечити безпеку даних «надто складно».

Наслідок: Величезні масиви цінної інформації стають «мертвим вантажем». Вони недоступні для перевірки, повторного аналізу або використання в нових дослідженнях, що сповільнює науковий прогрес.

Як діяти? Планування як засіб захисту

Щоб не обирати між безпекою та науковою цінністю, планування управління даними (DMP) має починатися ще до початку збору інформації.

Ідентифікація: Чітко визначте, які дані є дійсно конфіденційними (ПІБ, геолокація, медичні показники).
Анонімізація: Використовуйте методи деідентифікації, щоб дані можна було публікувати без ризику для осіб.
Контроль доступу: Як показує досвід «Київстару», доступ повинен бути суворо обмеженим та захищеним (двофакторна автентифікація, шифрування).

Висновок: Безпека даних — це не лише технічна задача ІТ-відділу, а професійна гігієна кожного дослідника.

2026/02/09

Перетворення даних

На відміну від переміщення файлів з одного формату в інший, перетворення даних передбачає зміну фактичних даних.

Є кілька причин, чому ви можете захотіти перетворити свої дані під час проєкту або після нього.
Наприклад, у даних опитування, зібраних з анкет, відповіді з множинним вибором та інші типи відповідей зазвичай кодуються цифрами, а не рядками символів. Перевага цього простого типу перетворення полягає в тому, що він полегшує введення даних, якщо ви вводите відповіді на папері, а також дозволяє уникнути невідповідностей, таких як друкарські помилки в значеннях даних. Такі якісні дані, як стенограми інтерв’ю, можна перетворити на кількісні дані шляхом застосування методів текстового кодування та категоризації.

Іншою причиною для перетворення даних може бути більш ефективна візуалізація даних. Простим прикладом є перетворення даних, із співвідношень (чисельник і знаменник) у відсотки, щоб ви могли відобразити їх на гістограмі чи секторній діаграмі.

Для перетворення конфіденційних даних, щоб ними можна було ділитися з іншими дослідниками, можна використовувати ряд методів. До них належать агрегація та анонімізація. Нагадаю, агрегація — процес укрупнення показників. Анонімізація - процес видалення даних (з документів, баз даних тощо) з метою приховування джерела інформації, дійової особи тощо. Типові приклади класичної анонімізації, які ми бачимо на слайді, - це узагальнення, придушення атрибутів, стирання, перестановка даних, маскування символів.

https://www.syntho.ai/uk/classic-anonymization/

2026/01/26

Анонімізація персональних даних

Анонімізація персональних даних – спосіб введення надмірної персональної інформації. Тобто дані обробляються інструментами з відкритим кодом у спосіб, який неможливий для ідентифікації конкретної особи. Немає єдиної методики анонімізації, придатної для всіх типів даних.

Псевдонімізовані дані (якщо інформаційні поля, які ідентифікують особу, в записі даних замінено одним або кількома штучними ідентифікаторами), можуть бути відновлені до початкового стану з додаванням інформації, яка надалі дозволяє повторну ідентифікацію особи, тоді як анонімні дані ніколи не можуть бути відновлені до початкового стану. Анонімізація – це незворотний процес.

Шаблон плану анонімізації FSD

Ось переклад тексту українською мовою:

Версія 1.0 (12.4.2019) Фінський архів даних із соціальних наук (FSD)

Розробник(и) плану: Особа(и), що здійснюють анонімізацію:

Нижче наведено фактори, що впливають на прийняття рішень щодо анонімізації.

1. Популяція та вибірка:

Хто був цільовою групою дослідження та як здійснювався відбір? Скільки осіб із популяції потрапило до вибірки? Що заздалегідь відомо про популяцію (наприклад, розподіл за статтю та віком)? Чи притаманне особам із цієї популяції якесь рідкісне явище?

2. Зміст даних:

а) Які типи прямих та непрямих ідентифікаторів містять дані? Які комбінації відомостей у даних можуть бути використані для ідентифікації особи?
б) Чи містить набір даних інформацію про третіх осіб і чи можна ідентифікувати суб'єктів на основі цієї інформації?
в) Чи містить набір даних виняткову або унікальну інформацію?
г) Чи містить набір даних конфіденційну (чутливу) інформацію?

3. Вік набору даних:

Чи змінилися дані про популяцію в наборі даних з плином часу?

4. Інформація про респондентів, доступна з інших джерел:

Чи можливо зіставити інформацію в даних з інформацією з інших джерел? Чи можливо ідентифікувати осіб на основі інформації, доступної в інших джерелах?

5. Корисність проти анонімності:

Які типи інформації в даних є найбільш значущими з точки зору дослідження, тобто яку інформацію необхідно зберегти під час анонімізації, а яку можна видалити?

Рішення щодо анонімізації: Що саме видаляється, категоризується або узагальнюється? Кількісні набори даних: Як обробляються відкриті відповіді?

Примітка: будь-які документи, що стосуються анонімізації, не можуть містити псевдонімізовану інформацію або інші дані, на основі яких все ще можна ідентифікувати осіб. Наприклад, списки псевдонімів, використаних замість справжніх імен, мають бути знищені, коли вони більше не потрібні.

Обґрунтування анонімізації та оцінка ризику розкриття даних після анонімізації: Надайте обґрунтування рішень та політик щодо анонімізації. Оцініть можливість ідентифікації осіб у даних зараз і в майбутньому. Поміркуйте, коли слід повторно переглянути рівень анонімності даних (оцінка залишкового ризику).

Ви також можете надати додаткову інформацію, наприклад, про процес анонімізації, спосіб маркування анонімізованих даних та можливі помилки, які слід враховувати вторинним користувачам даних.

________________________________________________________________

Конфіденційність і етичні проблеми

Дослідники повинні регулювати протиріччя між вимогами конфіденційності та забезпеченості архівування та публікації даних. Конфіденційною інформацією є: розкриття расового або етнічного походження, політичних поглядів, релігійних чи ідеологічних переконань, членства в профспілці, генетичних чи біометричних даних (користуються для однозначної ідентифікації фізичної особи), дані про здоров’я, сексуальну приналежність чи сексуальну орієнтацію тощо.

Більшість досліджень конфіденційності даних можна етично поділити за допомогою підключення інформаційної згоди, анонімізації та контролю доступу до даних.

2026/01/23

Інструменти анонімізації даних

Інструменти анонімізації даних – це програмні додатки, які захищають конфіденційні дані, видаляючи ідентифікаційну інформацію з наборів даних. Ці інструменти зазвичай використовуються організаціями, яким потрібно ділитися даними або публікувати їх, але також захищати конфіденційність та безпеку осіб, представлених у даних.

ARX — це програмне забезпечення з відкритим кодом для анонімізації конфіденційної особистої інформації. Програмне забезпечення використовувалося в широкому спектрі застосувань, включаючи дослідницькі проєкти та обмін даними клінічних випробувань.

DataSteward@LibraryKPI

Сторінки