2026/02/18

Цілісність даних під час введення

Цілісність даних — це «здоров’я» вашого дослідження. Якщо дані пошкоджені, неповні або змінені без вашого відома, будь-які висновки (навіть найгеніальніші) втрачають сенс.

Що таке цілісність та автентичність?

Це два боки однієї медалі:

  • Цілісність (Data Integrity): Гарантія того, що дані є точними (немає помилок), узгодженими (не суперечать один одному) та повними (нічого не зникло).

  • Автентичність (Authenticity): Доказ того, що дані — справжні. Це підтвердження того, що вони походять саме від того джерела, яке вказано, і не були підмінені.

Приклад: Якщо ви вимірюєте температуру в лабораторії КПІ, цілісність — це впевненість, що цифра «36.6» не перетворилася на «3.66» через збій програми. Автентичність — це доказ, що це дані саме з вашого датчика, а не випадкові цифри з інтернету.

Чому цілісність завжди під загрозою?

Як тільки ви починаєте працювати з даними, вони стають вразливими. Раніше дані проходили три чіткі етапи: збір → введення → перевірка. Сьогодні ці етапи часто зливаються в один через автоматизацію.

Автоматизація: Нові можливості — нові проблеми

Перехід від ручного введення до автоматизованого (скрипти, датчики, онлайн-опитування) змінив характер помилок:

1. Епоха ручного введення (Старий підхід)

  • Типові помилки: Друкарські огріхи (опечатки), пропуск рядка, переплутані стовпці.

  • Як виявляли: Подвійне введення даних двома різними людьми та порівняння результатів.

2. Епоха автоматизації (Сучасний підхід)

Автоматизація прибирає людський фактор (опечатки), але додає технологічні ризики:

  • Систематичні зсуви: Якщо в коді вашої анкети (скрипті) є маленька помилка, вона спотворить не одну відповідь, а всі 1000 відповідей однаковим чином.

  • Приклад: Ви проводите комп'ютерне інтерв'ю, і через помилку в логіці програми питання про дохід пропускається для всіх жінок. Це систематична помилка, яка робить дослідження нерелевантним.

Як захистити цілісність у цифрову епоху?

Оскільки помилки стали «розумнішими» та масштабнішими, методи перевірки теж мають змінитися:

  1. Технічні перевірки (Validation): Встановлення правил на рівні софту. Наприклад, поле «Вік» не може приймати значення «200» або «-5».

  2. Контрольні суми (Checksums): Спеціальні цифрові відбитки файлів. Якщо у файлі зміниться хоча б одна кома, контрольна сума стане іншою, і ви дізнаєтесь про пошкодження.

  3. Логування (Audit Trails): Програма має записувати: хто, коли і яку зміну вніс у базу даних. Це дозволяє відкотитися до «автентичного» стану, якщо щось пішло не так.

  4. Тестування сценаріїв: Перед запуском автоматизованого збору даних (наприклад, бота для збору даних у Telegram), його треба протестувати на «краш-тестах», щоб виявити приховані баги в логіці.


Висновки для дослідника: Цілісність — це не статичний стан, а процес. Автоматизація — це чудово, але вона потребує «цифрового нагляду». Помилка в одному рядку коду сьогодні може коштувати вам цілого року досліджень.


Мінімізація помилок під час введення даних опитування

Нижче наведено короткий виклад рекомендацій щодо мінімізації помилок під час введення даних опитувань (Groves et al., 2004; ICPSR , 2012; UK Data Service).

Перевірте повноту записів

Зменште навантаження ручного введення даних

Мінімізуйте кількість кроків

Введіть дані двічі

Виконайте поглиблену перевірку вибраних записів

Виконайте логічну перевірку та перевірку узгодженості

Автоматизуйте перевірки, коли це можливо

Організація якісних даних

Якісні файли даних виникають з багатьох різних типів дослідницьких матеріалів. Такі файли даних – це тексти (транскрибовані інтерв'ю або сесії фокус-груп, різні типи письмових текстів, такі як газетні та журнальні матеріали, щоденники тощо) або фотографії, аудіофайли (записи мовлення) або відеофайли. На відміну від кількісних даних, якісні дані не представлені у вигляді змінних, чисел, матриць даних тощо. Однак їх також необхідно організувати та зберігати у точній формі, щоб ними було легко керувати та вони були доступні для використання.

Коли ви працюєте з великим обсягом наукової інформації, особливо якісної (тексти, інтерв'ю, фото), хаос — ваш головний ворог. Щоб дані не перетворилися на «цифрове звалище», дослідники використовують два основні підходи до їх організації.

Розберімося, як це працює, на простих прикладах.


1. Файлово-ієрархічна структура («Один об’єкт — один файл»)

Це найбільш природний спосіб організації. Ви створюєте окремий файл для кожної події збору даних. Це дозволяє легко знайти конкретний запис та забезпечує цілісність даних.

Як це виглядає:

  • Інтерв’ю: Кожна розмова з респондентом — це окремий текстовий файл (interview_01.docx).

  • Медіа: Кожне фото чи аудіозапис — окремий файл (photo_participant_A.jpg, audio_session_5.mp3).

Ці файли потім групуються в логічні папки. Наприклад:

Проєкт_КПІ / Дані / Інтерв'ю / Жовтень_2024 / ...


2. Матрична структура (Таблична організація)

Іноді для аналізу зручніше «розрізати» дані на дрібні фрагменти та зібрати їх у єдину таблицю (матрицю). Це дозволяє порівнювати різні джерела між собою в одному вікні.

Як це працює:

Ви створюєте прямокутну матрицю (наприклад, в Excel або в спеціальному софті як NVivo), де:

  • Рядок: Окремий запис (уривок із газети, запис у щоденнику, цитата з інтерв'ю).

  • Стовпці: Додаткові дані про цей уривок (метадані) та аналітичні мітки (кодування).

Приклад матриці для аналізу газетних статей:

Текстовий уривок (цитата)Джерело (газета)Дата публікаціїКод (тема)Тон (позитив/негатив)
"Новий закон змінить систему..."Голос України12.02.2024ЗаконодавствоНейтральний
"Студенти КПІ розробили..."КПІ Телеком15.02.2024ІнноваціїПозитивний

Який метод обрати?

  1. Оберіть файлову структуру, якщо вам важливо зберегти контекст цілої події (наприклад, важливо прочитати все інтерв'ю від початку до кінця).

  2. Оберіть матричну структуру, якщо ви шукаєте спільні теми у сотнях різних джерел (наприклад, як різні ЗМІ висвітлювали одну й ту саму подію).

Порада для дослідника: Навіть якщо ви використовуєте матрицю, завжди зберігайте «сирі» вихідні файли в окремих папках. Це золотий стандарт безпеки та відтворюваності даних.

Принципи обробки даних відповідно до GDPR

З 25 травня 2018 року Загальний регламент про захист даних (GDPR, Європейський Союз, 2016a) застосовується до будь-якого дослідника ЄС або дослідника в Європейській економічній зоні (ЄЕЗ), який збирає персональні дані, та будь-якого дослідника в усьому світі, який збирає персональні дані громадян ЄС. GDPR застосовується лише до даних живих осіб. Дані, які не вважаються персональними даними, не підпадають під законодавство про захист даних, хоча все ще можуть бути етичні причини для захисту цієї інформації.

Щоб ваше дослідження було законним, воно має відповідати цим шести принципам:

  1. Законність і прозорість: Людина має точно знати, хто, як і навіщо збирає її дані.

  2. Обмеження мети: Ви не можете зібрати мейли для опитування про фізику, а потім розсилати на них рекламу свого стартапу.

  3. Мінімізація даних: Збирайте лише те, що реально потрібно. Якщо для дослідження алгоритму не потрібна домашня адреса користувача — не запитуйте її.

  4. Точність: Якщо людина каже, що її дані застаріли, ви маєте їх оновити або видалити.

  5. Обмеження зберігання: Не тримайте дані вічно. Як тільки дослідження завершене і результати опубліковані (або пройшов термін зберігання за грантом) — дані мають бути видалені.

  6. Цілісність і конфіденційність: Захист від хакерів, випадкової втрати або «зливу» інформації через недбалість.

Додатково: https://dmeg.cessda.eu/Data-Management-Expert-Guide/5.-Protect/Processing-personal-data

Єврорегламент GDPR вимагає, щоб захист даних не був «додатком», який ви вмикаєте в кінці. Він має бути закладений у саму структуру вашого дослідження:

  • Псевдонімізація: Заміна імен кодами. Ви тримаєте список «Код = Прізвище» у зашифрованому файлі окремо від самих відповідей.

  • Анонімізація: Повне видалення зв'язку між даними та людиною.

  • Доступ: Ваші бази даних не повинні бути публічними «за замовчуванням». Доступ має бути лише у вас і вашої команди.

  • Технічні заходи: Використовуйте двофакторну автентифікацію для хмарних сховищ та не обмінюйтесь файлами з ПД через месенджери.

  • Інформована згода: Це не просто папірець. Це підтвердження того, що ви діяли справедливо

Наукова етика

Наукова етика — це «кодекс честі» дослідника. Це правила гри, які гарантують, що ваша робота не зашкодить людям, тваринам чи репутації науки. Якщо їх порушити, це призведе не просто до зауваження, а до офіційного розслідування (адміністративного розгляду).

Ось як це працює на практиці, розкладено «по поличках»:


1. Що саме ми маємо захищати?

Етичні вимоги охоплюють усе, що є «живим» або «чутливим»:

  • Люди: Обов'язкова інформована згода (людина має знати, що з нею роблять і навіщо). Особлива увага до вразливих верств населення (діти, біженці, хворі).

  • Тварини: Дослідження мають бути гуманними.

  • Дані: Недопущення методів, що порушують права людини або розкривають конфіденційну інформацію.

  • Бізнес-практики: Чесність у відносинах із замовниками та маркетингових дослідженнях.


2. На що впливає етика в ході дослідження?

Це не просто формальність у кінці роботи, етика пронизує весь процес:

  1. Мета: Чи є дослідження корисним і чи не шкодить воно суспільству?

  2. Документи: Як ви реєструєте згоду людей (паперові анкети, цифрові підписи)?

  3. Захист: Які саме дані ви шифруєте під час аналізу?

  4. Фінал: Як ви знищуєте дані після використання, щоб вони не потрапили до чужих рук?


3. Етика = Право (Закони, які ми виконуємо)

Наукова етика сьогодні тісно переплетена з міжнародним правом:

  • GDPR: Європейський стандарт, який диктує, як збирати та зберігати персональні дані. Якщо ви працюєте з колегами з ЄС, ви зобов'язані його дотримуватися.

  • AI Ethical Guidelines: Правила від Єврокомісії, які вчать, як використовувати Штучний Інтелект так, щоб він був «доброчесним» і прозорим.


4. Вимоги наукових журналів (на прикладі Педагогічна освіта: теорія і практика http://pedosv.kpnu.edu.ua/etich_polog)

Редакції журналів — це головні «контролери» етики. Вони вимагають:

  • Відкритість: Дані мають бути в репозиторіях або додані до статті як «Супровідні файли».

  • Прозорість коду: Якщо ви написали софт, викладіть його у відкритий доступ і детально опишіть алгоритм.

  • Право на перевірку: Якщо в читача виникне сумнів, він може через редакцію вимагати перевірки ваших даних.

  • Доступ за запитом: Ви зобов’язані надати дані редакції (крім випадків, коли це загрожує анонімності людей).


5. Хто за цим наглядає?

У кожній країні та університеті є свої «вартові етики»:

  • В Україні та Європі: Комітети з етики при університетах (Ethics Committees).

  • У США: IRB (Institutional Review Boards) — наглядові ради, без схвалення яких ви не отримаєте грант і не почнете роботу з людьми.

  • Спеціалізовані організації: Наприклад, Міжуніверситетський консорціум політичних і соціальних досліджень прийме ваші дані лише тоді, коли ви доведете, що учасники дали на це добровільну згоду.

Висновок для дослідника: Етика — це ваша страховка. Дотримуючись її, ви захищаєте не лише учасників, а й себе від судових позовів та анулювання наукових ступенів.

Приватність vs Конфіденційність

Терміни Приватність та  Конфіденційність часто плутають, але в науці вони мають різні «точки відповідальності»:

  1. Приватність (Privacy): Це право учасника. Його право вирішувати, чи хоче він ділитися своїми показниками серцевого ритму або політичними поглядами. Це «кордон», який ви не маєте права перетинати без згоди.

  2. Конфіденційність (Confidentiality): Це обов'язок дослідника. Коли учасник уже переступив свій поріг приватності й надав вам дані, ви обіцяєте тримати їх у таємниці.

Простими словами: Приватність — це замок на дверях учасника. Конфіденційність — це ваш сейф, куди ви поклали ключ, який він вам довірив.

Чому це важливо для якості науки?

Наука тримається на довірі. Якщо учасник дослідження (наприклад, студент КПІ, що бере участь в опитуванні про психологічний клімат у групі) не впевнений у безпеці, він буде:

  • Приховувати правду.

  • Надавати неповні дані.

  • Відмовлятися від участі.

Наслідок для дослідника: Дані стають поверхневими, а результати — недостовірними. Якісна наука можлива лише тоді, коли респондент почувається в безпеці.

Приклад із життя дослідника 

Уявіть, що ви працюєте на ФБМІ (Факультет біомедичної інженерії) над системою моніторингу реабілітації ветеранів.

  • Ризик: Ви випадково залишили таблицю з результатами (ПІБ + діагноз) у відкритому доступі на Google Drive.

  • Порушення приватності: Ви втрутилися в особисте життя людини без її контролю.

  • Порушення конфіденційності: Ви не дотримали слова захищати ці дані.

  • Результат: Людина більше ніколи не візьме участь у ваших тестах, а університет може отримати судовий позов та етичну догану.

Як захиститися? (Золоті правила)

  1. Анонімізація: Видаляйте імена та ідентифікатори одразу після збору, замінюючи їх кодами (наприклад, "Учасник №102").

  2. Шифрування: Зберігайте дані на захищених серверах Університету або у зашифрованих архівах, а не на звичайних флешках.

  3. Чітка інструкція: На етапі вебінарів та планування чітко прописуйте, як і де будуть зберігатися дані.

Витоки даних

Управління науковими даними в сучасних умовах — це не лише питання технічного порядку, а передусім етична та безпекова відповідальність. Коли ми говоримо про захист інформації, мова йде не про абстрактні цифри, а про життєздатність цілих інфраструктур та репутацію дослідників.

Контекст загроз: Від глобальної статистики до локальних криз

Сьогодення переповнене історіями про масштабні витоки даних. Візуалізація проєкту Information is Beautiful, яка аналізує найбільші хакерські атаки з 2012 по 2022 роки, демонструє лякаючу тенденцію: обсяги викраденої інформації зростають експоненціально.

Source: McCandless, D., Evans, T. and Barton, P. (2022) World's biggest data breaches & hacks, Information is Beautiful. Information is Beautiful. Available at: https://www.informationisbeautiful.net/visualizations/worlds-biggest-data-breaches-hacks/ (Accessed: January 27, 2023)
Реальний кейс: Атака на «Київстар» (12.12.2023) Найяскравішим прикладом того, як вразливість однієї системи може паралізувати країну, стала атака на українського оператора «Київстар».

  • Причина: Зловмисне використання доступу до облікового запису одного співробітника.

  • Наслідки: Відсутність зв'язку та інтернету тривала майже десять днів (до 21.12.2023). Це спричинило ланцюгову реакцію: припинили роботу системи вуличного освітлення, банківські термінали, а також критично важливі сервіси — Уклон, Тabletki.ua, Нова пошта.

Цей випадок доводить: людський фактор та недбале управління доступом є найслабшою ланкою в ланцюгу безпеки.


Ризики для дослідника: Чому «авось» не працює?

Недбале ставлення до конфіденційності в науковій діяльності тягне за собою реальні та болючі наслідки:

  1. Руйнація кар’єри: Втрата довіри колег та грантодавців після витоку персональних даних піддослідних може поставити крапку на професійному майбутньому.

  2. Удар по інституції: Університет або дослідницький центр втрачають акредитацію, фінансування або міжнародне партнерство.

  3. Юридичні та фінансові санкції: Порушення регламентів (наприклад, GDPR в ЄС) передбачає величезні штрафи та навіть кримінальну відповідальність.


Етична дилема: Опублікувати чи приховати?

Через страх перед витоками дослідники часто обирають шлях найменшого опору — повне виключення конфіденційних даних з публікації.

Аналіз заяв до інституційних комісій з етичного схвалення (IRB — Institutional Review Boards) показує, що вчені часто керуються такими мотивами:

  • Переконання, що публікація таких даних апріорі є неетичною.

  • Впевненість, що це прямо заборонено законодавством.

  • Уявлення про те, що забезпечити безпеку даних «надто складно».

Наслідок: Величезні масиви цінної інформації стають «мертвим вантажем». Вони недоступні для перевірки, повторного аналізу або використання в нових дослідженнях, що сповільнює науковий прогрес.


Як діяти? Планування як засіб захисту

Щоб не обирати між безпекою та науковою цінністю, планування управління даними (DMP) має починатися ще до початку збору інформації.

  1. Ідентифікація: Чітко визначте, які дані є дійсно конфіденційними (ПІБ, геолокація, медичні показники).

  2. Анонімізація: Використовуйте методи деідентифікації, щоб дані можна було публікувати без ризику для осіб.

  3. Контроль доступу: Як показує досвід «Київстару», доступ повинен бути суворо обмеженим та захищеним (двофакторна автентифікація, шифрування).

Висновок: Безпека даних — це не лише технічна задача ІТ-відділу, а професійна гігієна кожного дослідника.

Класифікація наукових даних

Для того, щоб наукові дані були придатними для обміну та аналізу, їх класифікують за структурою та форматом. У таблиці наведено систематизацію основних восьми типів даних за їхнім видом, класом та типовими форматами.

Таблиця класифікації наукових даних

Тип данихВид даних (за походженням)Клас даних (структура)Типові формати файлів
ЕкспериментальніПервинні (сирі)Структуровані / Неструктуровані.dat, .csv, .bin, .txt
СпостережніПервинні (унікальні)Потокові / Просторові.tiff, .fits (астрономія), .netcdf
СимуляційніЗгенеровані (модельні)Математичні описи.hdf5, .json, .xml, .log
АналітичніВторинні (похідні)Статистичні / Агреговані.xlsx, .sav (SPSS), .rdata, .stata
Соціальні/ГуманітарніТекстові / ОписовіЯкісні / Кількісні.docx, .pdf, .rtf, .mp3 (інтерв'ю)
ГеномніСеквеновані (великі дані)Послідовності.fasta, .fastq, .bam, .vcf
ВізуальніГрафічні / РастровіМедіа-дані.jpg, .png, .dicom (Медицина), .mp4
МетаданіКонтекстуальніОписові (схеми).xml, .json-ld, .rdf, Dublin Core

Деталізація за категоріями

1. Експериментальні та Спостережні

Ці дані часто належать до класу "Сирих даних" (Raw Data). Вони мають найвищу наукову цінність, оскільки є першоджерелом. Формати зазвичай залежать від обладнання (спектрометрів, мікроскопів, супутників).

2. Симуляційні та Аналітичні

Це клас "Оброблених даних" (Processed Data). Вони компактніші за сирі дані, оскільки пройшли етап фільтрації та розрахунків. Основний формат тут — таблиці або бази даних.

3. Соціальні та Гуманітарні

Тут домінує клас "Неструктурованих даних". Це можуть бути транскрипти інтерв'ю, оцифровані архіви або результати фокус-груп. Основним форматом є текст або мультимедіа.

4. Геномні та Біоінформатичні

Клас "Високопродуктивних даних" (High-throughput data). Через гігантські обсяги вони зберігаються у специфічних стиснутих текстових форматах (наприклад, FASTA для літерних кодів ДНК).

5. Візуальні

Клас "Образних даних" (Imaging Data). У науці, на відміну від побуту, важливою є глибина кольору та відсутність стиснення (Lossless), тому замість JPEG часто використовують TIFF або спеціалізовані медичні стандарти як DICOM.

6. Метадані

Це клас "Службових даних". Вони існують як "паспорт" до будь-якого з вищеперерахованих типів. Формати XML та JSON є стандартами, оскільки вони легко зчитуються і людиною, і машиною.