Показ дописів із міткою збереження даних. Показати всі дописи
Показ дописів із міткою збереження даних. Показати всі дописи

2026/02/18

Приватність vs Конфіденційність

Терміни Приватність та  Конфіденційність часто плутають, але в науці вони мають різні «точки відповідальності»:

  1. Приватність (Privacy): Це право учасника. Його право вирішувати, чи хоче він ділитися своїми показниками серцевого ритму або політичними поглядами. Це «кордон», який ви не маєте права перетинати без згоди.

  2. Конфіденційність (Confidentiality): Це обов'язок дослідника. Коли учасник уже переступив свій поріг приватності й надав вам дані, ви обіцяєте тримати їх у таємниці.

Простими словами: Приватність — це замок на дверях учасника. Конфіденційність — це ваш сейф, куди ви поклали ключ, який він вам довірив.

Чому це важливо для якості науки?

Наука тримається на довірі. Якщо учасник дослідження (наприклад, студент КПІ, що бере участь в опитуванні про психологічний клімат у групі) не впевнений у безпеці, він буде:

  • Приховувати правду.

  • Надавати неповні дані.

  • Відмовлятися від участі.

Наслідок для дослідника: Дані стають поверхневими, а результати — недостовірними. Якісна наука можлива лише тоді, коли респондент почувається в безпеці.

Приклад із життя дослідника 

Уявіть, що ви працюєте на ФБМІ (Факультет біомедичної інженерії) над системою моніторингу реабілітації ветеранів.

  • Ризик: Ви випадково залишили таблицю з результатами (ПІБ + діагноз) у відкритому доступі на Google Drive.

  • Порушення приватності: Ви втрутилися в особисте життя людини без її контролю.

  • Порушення конфіденційності: Ви не дотримали слова захищати ці дані.

  • Результат: Людина більше ніколи не візьме участь у ваших тестах, а університет може отримати судовий позов та етичну догану.

Як захиститися? (Золоті правила)

  1. Анонімізація: Видаляйте імена та ідентифікатори одразу після збору, замінюючи їх кодами (наприклад, "Учасник №102").

  2. Шифрування: Зберігайте дані на захищених серверах Університету або у зашифрованих архівах, а не на звичайних флешках.

  3. Чітка інструкція: На етапі вебінарів та планування чітко прописуйте, як і де будуть зберігатися дані.

2026/02/09

Як створити надійну стратегію резервного копіювання?

Регулярне резервне копіювання є невід’ємною частиною управління даними. Воно запобігає втраті через збій жорсткого диска або випадкове видалення. Ви можете створювати резервні копії даних на персональному комп’ютері, зовнішніх жорстких дисках або на серверах факультету чи університету. Програмне забезпечення, яке автоматично створює резервні копії, може значно спростити цей процес.

Є довгий перелік запитань, які ви повинні задати, обдумуючи стратегію резервного копіювання.

Повна чи інкрементна копія?

Перед початком варто обрати метод копіювання:

  • Повне резервне копіювання: Кожного разу копіюються абсолютно всі дані. Це надійно, але займає багато місця та часу.

  • Інкрементне резервне копіювання: Повна копія робиться лише один раз, а потім програма додає тільки ті файли, які ви змінили або створили. Це економить місце на диску.

Питання для вашої стратегії:

Щоб бекап не був формальністю, дайте відповіді на ці запитання:

  1. Регулярність: Як часто ви будете копіювати дані (щодня чи щотижня)?

  2. Тривалість: Як довго ви плануєте зберігати старі копії?

  3. Місце: Скільки пам'яті вам знадобиться для всього архіву?

  4. Версійність: Як ви будете розуміти, яка копія найновіша, якщо їх декілька на різних пристроях?

Коли ви зрозумієте, що вам потрібно з точки зору резервного копіювання, перевірте, які служби доступні для задоволення ваших потреб.


Також важливо визначити графік резервного копіювання та політику збереження цих централізованих служб резервного копіювання, які ви можете використовувати. 


Перевірте свою систему резервного копіювання. Щоб переконатися, що ваша система резервного копіювання працює, періодично відновлюйте файли даних і підтверджуйте, що можете їх прочитати. Ви повинні робити це під час початкового налаштування системи, а потім – за регулярним графіком.


Архів даних Великобританії містить додаткові вказівки щодо зберігання, резервного копіювання та безпеки даних.

Втрата даних

Ваші дані є основою вашого дослідження. Якщо ви їх втратите, відновлення може зайняти багато часу, зусиль, нервів, грошей, більше того відновлення може бути неможливим. Тому дуже важливо безпечно зберігати та створювати резервні копії ваших даних.

Корисно спланувати з самого початку об’єм пам’яті, який вам знадобиться для копій. Спланувати місце зберігання даних з точки зору доступу певних користувачів. Включити витрати на зберігання даних у заявках на гранти.

Термін «втрата даних» можна визначити як неможливість отримати доступ до файлів у їх звичайному місцерозташуванні та за допомогою звичайних програмних засобів внаслідок помилок у програмному/апаратному з абезпеченні або необачних дій користувача.

Незважаючи на стрімкий розвиток техніки та програмного забезпечення ніщо не може гарантувати цілковито безперебійної роботи. Помилки, які призводять до втрати даних, можна умовно поділити на дві основні категорії: фізичні (апаратні, коли збоїть техніка) і логічні (програмні). Наведена вище діаграма ілюструє процентне співвідношення найбільш поширених причин втрати даних.

Основі причини втрати даних

https://lostdata.com.sa/en/2021/06/07/the-most-common-reasons-for-data-loss/


2026/02/06

Стратегія контролю версій файлу

Може бути важко знайти правильну версію або дізнатися, чим версії відрізняються через деякий час. Відповідна стратегія контролю версій залежить від того, чи файли використовуються одним, чи кількома користувачами, в одному чи кількох розташуваннях, а також від того, чи потрібно синхронізувати версії між користувачами, чи розташуваннями, чи ні, щоб у разі зміни інформації в одному місці відповідна інформація в інших місцях також була оновлена.

Найкраще виконувати такі дії:

  • Вирішіть, скільки версій файлу зберігати, які версії зберігати, як довго та як саме упорядкувати версії.
  • Визначте основні версії, які потрібно зберегти, наприклад, основні версії, а не проміжні версії (збережіть версію 02-00, але не 02-01).
  • Унікально позначте різні версії файлів за допомогою систематичного іменування, наприклад номерів версій або дат.
  • Записуйте зміни, внесені у файл, коли створюється нова версія.
  • Записуйте зв’язки між елементами, де це необхідно, наприклад, між кодом і файлом даних, з яким він працює; між файлом даних і пов’язаною документацією або метаданими; або між кількома файлами.
  • Відстежуйте розташування файлів, якщо вони зберігаються в різних місцях.
  • Регулярно синхронізуйте файли в різних місцях, наприклад, за допомогою програмного забезпечення MS SyncToy.
  • Визначте єдине місце для зберігання основного файлу та його версій.

https://ukdataservice.ac.uk/learning-hub/research-data-management/format-your-data/versioning/


Контроль версій можна здійснити за допомогою нумерації

Дата, записана в імені файлу або всередині файлу, наприклад, HealthTest-2008-04-06.

Нумерація версій в імені файлу, наприклад, HealthTest-00-02 або HealthTest_v2.

Нумерація версій в іменах файлів може здійснюватися за допомогою дискретної або безперервної нумерації залежно від незначних або великих змін.

Приклад:

Ім'я файлу

Зміни у файлі

Розклад співбесід_1-0

Оригінал документа

Розклад співбесід_1-1

Внесено незначні зміни

Розклад співбесід_1-2

Подальші незначні зміни

Розклад співбесід_2-0

Суттєві зміни


Таблиця контролю версій

Важливо переконатися, що різні копії або версії файлів, файли, що зберігаються в різних форматах або місцях, а також інформація, яка містить перехресні посилання між файлами, підлягають контролю версій. Інструкції щодо контролю версій і автентичності доступні в UK Data Archive. Контроль версій можна здійснити за допомогою документації, що містить 1) історію файлу, 2) таблицю контролю версій (або примітки, включені до файлу), де записуються версії, дати, автори та деталі змін у файлі.

Контроль документів

Назва:

ПЛР-тести на COVID-19 у школах Ессекса

Ім'я файлу:

PCRResultsEssex_00_05

Опис:

Результати 180 ПЛР-тестів на COVID-19, проведених у 2 школах у січні 2021 року

Створений:

Кріс Вілкінзір

Підтримується:

Саллі Вотслі

Створено:

01.11.2021

Остання зміна:

30.03.2021

На основі:

PCRDatabaseDesignEssex_03_00

Історія версій

Версія

Відпові- дальний

Примітки

Останні зміни

00_05

Вані Юссун

Записи перевірені VY, незалежно від SK

30.03.2021

00_04

Стів Найтс

Записи перевірені СК

03.12.2021

00_03

Карін Мілліс

Результати тестування 121-180 внесено

25.02.2021

00_02

Карін Мілліс

Результати тестування 61-120 внесено

02.05.2021

00_01

Карін Мілліс

Введено результати тестування 1-60

01.11.2021

2026/02/05

Вплив типу даних на вибір стратегії захисту

Стратегія керування даними безпосередньо залежить від того, наскільки важко або неможливо їх «воскресити» у разі втрати. Уявіть, що дані — це інгредієнти на кухні. Те, звідки вони взялися, визначає, як ми повинні їх зберігати (у холодильнику чи в шафі) та наскільки сильно ми будемо хвилюватися, якщо вони зіпсуються.

Ось просте пояснення цих чотирьох категорій:

1. Спостережні дані (Observational)

Це те, що ми «спіймали» у реальному світі. Ви просто спостерігаєте за подією і записуєте її.

  • Чому це важливо: Якщо ви не записали сонячне затемнення 2024 року в момент, коли воно відбувалося — ви втратили шанс назавжди. Ці дані неможливо відтворити, бо час не повернеш назад.

  • Приклади: Запис температури сьогодні вранці, відео з камер спостереження, результати соцопитування людей на вулиці.

2. Експериментальні дані (Experimental)

Це те, що ви отримали в лабораторії, де ви «господар» ситуації. Ви самі створили умови й записали результат.

  • Чому це важливо: Їх зазвичай можна отримати знову, якщо повторити експеримент. Але це може коштувати купу грошей або зайняти роки роботи.

  • Приклади: Результати випробування нових ліків, реакція хімічних речовин у колбі, дослідження ДНК.

3. Симуляція (Simulation)

Це дані, які згенерував комп’ютер за допомогою математичної моделі. Це «цифрове передбачення».

  • Чому це важливо: Якщо у вас є код (модель) і початкові цифри, які ви туди ввели, ви можете натиснути кнопку «Старт» і отримати той самий результат знову. Головне — не загубити саму програму.

  • Приклади: Прогноз погоди на тиждень, моделювання того, як розбивається авто при зіткненні (краш-тест на комп'ютері).

4. Виведені або Складені дані (Derived / Compiled)

Це «дані з даних». Ви берете вже готову інформацію і переробляєте її на щось нове (аналізуєте, групуєте, чистите).

  • Чому це важливо: Ви завжди можете зробити це знову, якщо у вас є першоджерела. Проте, якщо ви витратили 100 годин на аналіз тисяч документів, то втрата цього результату буде дуже болючою через втрачений час.

  • Приклади: Зведені графіки продажів за рік (зроблені з тисяч чеків), 3D-модель будівлі, побудована на основі сотень фотографій.

Коротке порівняння для вибору стратегії:

Тип данихЧи можна відтворити?Пріоритет захисту
СпостережніНі (ніколи)🔴 Найвищий (якщо втратимо — не повернемо)
ЕкспериментальніТак, але дорого🟠 Високий (через вартість повтору)
СимуляціяТак (якщо є модель)🟡 Середній (захищаємо код і вхідні дані)
ВиведеніТак (якщо є джерело)🟢 Нижчий (але бережемо робочий час)

2026/02/02

Принципи резервного копіювання

1. Основний принцип резервного копіювання 3-2-1 полягає в тому, що у вас є три копії ваших файлів принаймні на двох різних носіях, при цьому одна копія віддалена на випадок локальних проблем. Ви також повинні регулярно тестувати свої резервні копії, щоб переконатися, що ви можете відновити їх за потреби.

2. За схемою “дідусь, батько, син” файли можуть бути доступними лише протягом двох-трьох місяців, перш ніж простір для зберігання буде перезаписано. Тобто повне резервне копіювання виконується в один і той же день кожного місяця (наприклад, в останній день кожного місяця. Або в четверту п’ятницю кожного місяця - обирайте самі). Це дідусів цикл. Рекомендується зберігати цю резервну копію поза офісом або в облаці. Це також допомагає задовольнити вимоги стратегії 3-2-1 про зберігання поза офісом (треба мати три копії принаймні у двох місцях: оригінал + зовнішня/локальна резервна копія + зовнішня/віддалена резервна копія).

Потім налаштовується більш часте виконання ще одного повного резервного копіювання, наприклад, щотижня. Знову таки, ви можете визначити, коли саме має виконуватися це повне резервне копіювання, враховуючи вимоги вашого дослідження. (Оскільки процес створення повної резервної копії обов’язково зв’яже ваш набір на якийсь час!). Це «батьківський» цикл, і в ідеалі ваша резервна копія повинна зберігатися локально та/або в «гарячому» хмарному сховищі, де вона може бути швидко й легко доступна за необхідності. Географічно поширюйте свої локальні та віддалені копії, щоб зменшити ризик лиха в одному місці (відключення електроенергії, повінь, пожежа тощо).

Зрештою, плануйте закривати свої бази щоденними додатковими резервними копіями. Це резервні копії «сина», і вони повинні зберігатися в тому ж місці, що і резервні копії «батька».

Чи завжди треба дотримуватися цих підходів? 

Ні, все залежить від вартості ваших даних, з одного боку, і критичності (вартості потенційної шкоди) та ймовірності загроз даних, з іншого боку. Будь-який захист не повинен перевищувати за вартістю об’єкт, що захищається. Тому, якщо у вас зберігаються не надто цінні дані, чи загрози низько критичні чи малоймовірні, можна реалізовувати правило «3-2-1» частково. Головне — все ж таки скласти матрицю загроз даним (тобто скласти список усіх можливих загроз, оцінити їхню ймовірність і критичність) і провести процес їхньої деактуалізації (тобто у кожної загрози або написати в таблиці “деактуалізовано таким-то технічним заходом”. або “визнати не актуальною з погляду характеру дослідження”). Після опрацювання матриці небезпек, буде зрозуміло якою мірою слід використовувати правило 3-2-1, і який бюджет в результаті буде потрібний.

2026/01/26

Який формат файлу обрати для довготермінового зберігання?

Формат файлу – це важливе питання, яке слід враховувати, якщо ви хочете забезпечити

довгостроковий доступ до своїх дослідницьких даних. Нагадаємо, що вибір формату файлу залежить від фази вашого дослідження. Варіанти короткострокової обробки даних можуть відрізнятися від варіантів довгострокового зберігання даних.

Теоретично, ідеальний формат файлу, придатний для довгострокового доступу, має бути:
  • непатентований (наприклад, з відкритим вихідним кодом)
  • з відкритою документацією
  • широко прийнятий дослідницькою спільнотою
  • сумісний з багатьма програмами
  • без стиснення або стиснення без втрат (зменшення розміру файлу без втрати якості)
  • без вбудованих скриптів або файлів
Не завжди можливо знайти формат файлу, який відповідає всім вищезазначеним критеріям. З міркувань обачності ви можете розглянути можливість збереження даних у кількох форматах, наведених нижче:

Електронні таблиці 

  • CSV (.csv)

  • Tab-delimited File(.tab)

Статистичні дані

  • SPSS (.sav)

  • STATA (.dta)

  • SAS (.sas7dat)

  • DDI (.xml)

Бази даних

  • SQL (.sql)

  • SIARD (.siard)

  • CSV (.csv)

  • XML (.xml)

Текст

  • PDF/A (.pdf)

  • ODT (.odt)

  • Unicode text (.txt)

  • Rich Text File (.rtf)

Зображення

  • TIFF (.tif, .tiff)

Аудіо

  • FLAC  (.flac)

Відео

  • MPEG-4 (.mp4)

Актуальна інформація та додаткові відомості про рекомендовані формати - у вказівках Архіву даних Великобританії щодо рекомендованих форматів.


Носії інформації

Не існує ідеального носія інформації, який би забезпечував зручний доступ, але ніколи не страждав від пошкоджень, втрат чи старіння. Гарною практикою є зберігання дослідницьких даних щонайменше на двох різних типах носіїв. Це допомагає диверсифікувати ризики в місці зберігання, як для короткострокового, так і для довгострокового зберігання. 

Для тимчасового зберігання рекомендується використовувати настільний ПК, ноутбук чи флешку, для зберігання головних копій - мережевий диск університету, задля співпраці з членами різних установ - хмарні сервіси.

Також рекомендується періодично перевіряти доступність даних.

Стратегії резервного копіювання

Під час розробки резервного плану вам необхідно врахувати низку факторів, таких як цінність дослідницьких даних, очікуваний рівень ризику, доступність витрат та часу тощо. 

Застосуйте правила 3-2-1

  • Зберігайте 3 копії ваших дослідницьких даних

  • Зберігайте копії на 2 типах носіїв інформації 

  • Розмістіть 1 копію поза межами сайту.

Регулярна перевірка цілісності даних

Періодично тестуйте резервну копію, щоб переконатися, що ви можете відновити дані з резервної копії за потреби. Періодично переносьте файл даних на новий носій інформації, щоб запобігти його старінню. Підраховуйте контрольну суму після резервного копіювання та міграції даних. Контрольна сума — це швидкий спосіб перевірити цілісність даних до та після резервного копіювання або міграції файлів. Вона створює числовий рядок для кожного файлу даних. Кожна зміна у файлі даних генеруватиме новий числовий рядок для виявлення зміни або пошкодження даних.

Нижче наведено деякі поширені безплатні програми для підрахування контрольної суми:

Заплануйте резервне копіювання

Регулярно створюйте резервні копії даних та після кожної суттєвої зміни даних.


Використовуйте формат файлу з довгостроковою доступністю

Використовуйте непатентований формат файлу з відкритою документацією або широко поширений формат файлу, якщо це можливо.