DataSteward@LibraryKPI: непрямі ідентифікатори

2026/02/10

Ідентифікатори персональних даних

Персональні дані — це будь-яка інформація, яка дозволяє прямо чи опосередковано ідентифікувати живу людину. У дослідницькій діяльності важливо розрізняти типи ідентифікаторів, щоб не порушити закон та не нашкодити учасникам.

Три типи ідентифікаторів

Прямі ідентифікатори Це дані, які явно вказують на конкретну особу. Для досліджень це означає, що такі дані підпадатимуть під дію законів про захист даних.
До них належать:

Повне ім'я та прізвище.
Номери паспорта, ідентифікаційної картки або телефону.
Домашня та електронна адреси.
Дані про місцезнаходження, IP-адреса, відбитки пальців або записи з камер відеоспостереження.

Важливо розуміти: саме по собі ім'я «Джон Сміт» може не бути персональним даним, якщо людей з таким іменем багато. Але в поєднанні з місцем роботи чи поштою (johnsmith@companyN.com) воно стає прямим ідентифікатором.

Непрямі ідентифікатори Це характеристики, які самі по собі не називають особу, але описують її. Приклади:

Стать та етнічна приналежність.
Рідкісні захворювання або специфічний досвід.
Соціально-економічні дані та параметри тіла.

Важливо пам'ятати, що навіть якщо дослідницькі дані містять непрямі ідентифікатори, людину все одно можна ідентифікувати за допомогою комбінації непрямих ідентифікаторів, і тому закони про захист даних теж будуть застосовуватися.

Географічні ідентифікатори Вони можуть бути як непрямими (поштовий індекс), так і прямими (повна фізична адреса).

Пастка «тріангуляції»: чому видалення імен не гарантує анонімності

Дослідники часто припускають, що видалення імен та телефонів робить дані безпечними. Проте існує ризик тріангуляції — коли комбінація кількох непрямих ідентифікаторів дозволяє вирахувати людину.

Приклад дослідження науковців США (1991 рік): Розглянемо приклад набору даних, у якому видалено прямі ідентифікатори, з онлайн курсу від Університету Північної Кароліни Чаппел-Гілл (США) та Единбурзького Університету (Велика Британія) Research data management and sharing https://www.coursera.org/learn/data-management.

Набір даних представляє популяцію громадян США, які здобули докторський ступінь у 1991 році.

Початковий набір даних — 25 000 осіб без імен. Змінні включають основну галузь навчання, расу, стать і географічний регіон навчального закладу, у якому було здобуто ступінь. Без прямих ідентифікаторів, таких як ім’я, номер телефону, поштова адреса, номер соціального страхування та іншої інформації, яка безпосередньо пов’язує особу особи, здавалося б, що було б неможливо відрізнити будь-яку особу, представлену в цьому наборі даних, який включає понад 25 000 чоловік.
Звужуємо до галузі (наука і техніка) — 14 000 осіб.
Обираємо лише фізичні науки — 2 119 осіб.
Додаємо стать (чоловіки) та расу (чорношкірі) — залишається 20 осіб.
Обираємо спеціальність (астрономи) — лише 8 осіб.
Додаємо регіон (Нью-Йорк) — особу ідентифіковано.

Це демонструє, що навіть за відсутності імен, сукупність ознак (стать + раса + професія + місто) робить людину впізнаваною.

Як убезпечити дані?

Щоб мінімізувати ризики (як у трагічному випадку з розголошенням даних студента Максима Глєбова), простого видалення прямих ідентифікаторів недостатньо. Необхідно враховувати ризики при об'єднанні різних наборів даних та застосовувати методи глибокої анонімізації.

DataSteward@LibraryKPI

Сторінки

2026/02/10

Ідентифікатори персональних даних

Три типи ідентифікаторів

Пастка «тріангуляції»: чому видалення імен не гарантує анонімності

Як убезпечити дані?

Загальна кількість переглядів сторінки

Архів блогу