2026/02/09

Втрата даних

Ваші дані є основою вашого дослідження. Якщо ви їх втратите, відновлення може зайняти багато часу, зусиль, нервів, грошей, більше того відновлення може бути неможливим. Тому дуже важливо безпечно зберігати та створювати резервні копії ваших даних.

Корисно спланувати з самого початку об’єм пам’яті, який вам знадобиться для копій. Спланувати місце зберігання даних з точки зору доступу певних користувачів. Включити витрати на зберігання даних у заявках на гранти.

Термін «втрата даних» можна визначити як неможливість отримати доступ до файлів у їх звичайному місцерозташуванні та за допомогою звичайних програмних засобів внаслідок помилок у програмному/апаратному з абезпеченні або необачних дій користувача.

Незважаючи на стрімкий розвиток техніки та програмного забезпечення ніщо не може гарантувати цілковито безперебійної роботи. Помилки, які призводять до втрати даних, можна умовно поділити на дві основні категорії: фізичні (апаратні, коли збоїть техніка) і логічні (програмні). Наведена вище діаграма ілюструє процентне співвідношення найбільш поширених причин втрати даних.

Основі причини втрати даних

https://lostdata.com.sa/en/2021/06/07/the-most-common-reasons-for-data-loss/


Перевірка цілісності перенесених файлів

https://mantra.ed.ac.uk/preparingyourdataforarchiving/

При перенесенні даних між форматами, у тому числі якщо раніше стискали архів файлу, дуже важливо, щоб ви якомога ретельніше перевіряли цілісність перетворених файлів відразу після перенесення. Перевірте, чи розмір файлу відповідає очікуваному, чи файл має правильну кількість рядків і стовпців, проведіть тестування функціональності, а також просто "на око" перевірте дані, щоб переконатися, що вони виглядають так, як повинні.

Коли ви дійдете в процесі дослідження до моменту відправлення ваших даних до архіву, репозитарій матиме свої власні критерії та процедури для перевірки якості надісланих даних. Наприклад, інструменти алгоритму контрольної суми зазвичай використовуються для перевірки того, що цифровий файл не був пошкоджений при копіюванні з одного місця до іншого (наприклад, при завантаженні копії файлу даних на ваш комп’ютер зі сховища). Інструмент алгоритму контрольної суми можна використовувати для порівняння бітів файлу, коли його було переміщено з одного носія на інший.

Отже, контрольні суми зазвичай запускаються репозитаріями для перевірки цілісності даних. Однак вони не працюватимуть, якщо формат файлу змінився або якщо ви порівнюєте файли на різних обчислювальних платформах.

Перетворення даних

На відміну від переміщення файлів з одного формату в інший, перетворення даних передбачає зміну фактичних даних. 

Є кілька причин, чому ви можете захотіти перетворити свої дані під час проєкту або після нього.
Наприклад, у даних опитування, зібраних з анкет, відповіді з множинним вибором та інші типи відповідей зазвичай кодуються цифрами, а не рядками символів. Перевага цього простого типу перетворення полягає в тому, що він полегшує введення даних, якщо ви вводите відповіді на папері, а також дозволяє уникнути невідповідностей, таких як друкарські помилки в значеннях даних. Такі якісні дані, як стенограми інтерв’ю, можна перетворити на кількісні дані шляхом застосування методів текстового кодування та категоризації. 

Іншою причиною для перетворення даних може бути більш ефективна візуалізація даних. Простим прикладом є перетворення даних, із співвідношень (чисельник і знаменник) у відсотки, щоб ви могли відобразити їх на гістограмі чи секторній діаграмі. 

Для перетворення конфіденційних даних, щоб ними можна було ділитися з іншими дослідниками, можна використовувати ряд методів. До них належать агрегація та анонімізація. Нагадаю, агрегація — процес укрупнення показників. Анонімізація - процес видалення даних (з документів, баз даних тощо) з метою приховування джерела інформації, дійової особи тощо. Типові приклади класичної анонімізації, які ми бачимо на слайді, - це узагальнення, придушення атрибутів, стирання, перестановка даних, маскування символів.

https://www.syntho.ai/uk/classic-anonymization/


Стиснення даних

https://mantra.ed.ac.uk/preparingyourdataforarchiving/

Стиснення відоме як зменшення бітрейту. Це передбачає кодування інформації меншою кількістю бітів, ніж оригінальне представлення. Не стиснуті дані буде легше читати в майбутньому, але вам може знадобитися стиснути файли, щоб заощадити місце на диску, для розміщення їх на певному пристрої зберігання або для передачі чи транспортування. Використовуйте стандартний інструмент стиснення (наприклад, ZIP, GZIP, TAR).

Стиснення без втрат

Zip — це тип стиснення без втрат, що означає, що файл має бути ідентичним оригіналу, коли ви його розархівуєте. Zip — це фактично стандартний формат стиснення, який використовується на платформах Windows, Mac, Linux і Unix.

https://mantra.ed.ac.uk/preparingyourdataforarchiving/

Стиснення з втратами

Існують також типи стиснення з втратами, пов’язані з деякими форматами мультимедійних файлів. Це може призвести до певного спотворення або втрати якості під час відтворення. Втрата може бути одним із компромісів із стисненням.

Іншим недоліком є кількість часу обробки, необхідного для стиснення та розпакування файлів до або під час використання. Обсяг необхідних обчислювальних ресурсів також може бути проблемою, особливо у випадку дуже великих файлів або спільних серверів.

Міграція даних

Міграція даних — це процес перетворення файлів з одного формату в інший. Це схоже на переклад книги з однієї мови на іншу: суть залишається та сама, але деякі нюанси можуть бути втрачені або змінені.

Чому виникає потреба в міграції?

Дослідникам доводиться конвертувати файли у трьох основних випадках:

  1. Оновлення техніки: Ви купили новий комп'ютер, і старі програми на ньому більше не запускаються.

  2. Співпраця: Ваш колега працює в іншій програмі, яка «не розуміє» ваші робочі файли.

  3. Довгострокове зберігання: Ви хочете, щоб через 20 років ваші дані відкрилися. Для цього їх переводять у відкриті стандарти (наприклад, з .docx у .pdf/A або з .xlsx у .csv), оскільки вони майже не застарівають.

Чому це складніше, ніж здається?

Багато хто вважає, що міграція — це просто натиснути «Зберегти як...». Проте статистика свідчить про інше: понад 80% проєктів міграції виходять за межі бюджету та часу (За даними The Bloor Group, понад 80% проєктів з міграції даних виконуються з додатковими витратами часу і понад ліміт бюджету. Перевитрати фінансів в середньому становлять приблизно 30%, перевитрати часу - 41%. Згідно з дослідженнями Gartner, 83% проєктів міграції даних зазнають невдачі або перевищують свої бюджети та графіки. https://www.trujay.com/blog/4-types-of-data-migration). 

Головні ризики при зміні формату:

  • Втрата даних: Деякі складні елементи (формули в таблицях, форматування тексту, метадані фотографій) можуть просто зникнути.

  • Пошкодження структури: Файл може перестати відкриватися або відображати дані з помилками.

  • Зміна розміру: Файл може несподівано "роздутися" і зайняти в кілька разів більше місця на диску.

📄 Текстові документи (Word)

При переході, наприклад, з .docx у .pdf або .txt, найбільше страждає структура та оформлення:

  • Стилі: шрифти можуть замінитися на стандартні, зникне форматування (жирний, курсив).

  • Навігація: часто "ламаються" посилання на інші документи, зникають виноски, заголовки та нижні колонтитули.

🔢 Числові дані (Excel, CSV)

Тут ризики стають критичними для розрахунків, оскільки може постраждати цілісність рядків:

  • Обрізання: якщо новий формат має обмеження за довжиною рядка або кількістю рядків, останні дані просто зникнуть.

  • Символи: спеціальні знаки (табуляція, переноси) можуть спотворити таблицю.

  • Порожнечі: пробіли, які ви використовували як код для "відсутніх даних", можуть зникнути, змістивши всі інші значення.

🗄️ Бази даних

Міграція баз даних — одна з найскладніших, бо під загрозою зв'язки:

  • Втрата відносин: може зникнути логічний зв'язок між різними таблицями (наприклад, клієнт більше не буде "прив'язаний" до свого замовлення).

  • Дані: так само як і в числах, можлива втрата останніх рядів або символів у рядках.

🖼️ Зображення

Головний ризик тут — перетворення картинки на менш якісну або "пласку":

  • Шари: при збереженні з .psd у .jpg ви назавжди втрачаєте можливість редагувати окремі елементи.

  • Якість: може знизитися роздільна здатність або погіршитися точність передачі кольорів.

🎬 Мультимедіа (Відео та Аудіо)

Перекодування відео майже завжди означає компроміс із якістю:

  • Технічні параметри: зміна частоти кадрів (FPS) може зробити відео "сіпаним", а невідповідний кодек — погіршити звук.

  • Контейнери: іноді сама "обгортка" файлу не підтримує певні доріжки субтитрів або аудіоканалів.

Поради для безпечної міграції:

  • Завжди зберігайте оригінал: Ніколи не видаляйте вихідний файл, поки не переконаєтеся, що нова версія працює ідеально.

  • Перевіряйте результат: Після конвертації обов'язково відкрийте файл і перевірте, чи всі цифри, символи та зображення залишилися на своїх місцях.

  • Обирайте відкриті формати: Якщо є вибір, мігруйте в ті формати, які підтримуються багатьма програмами одночасно (наприклад, .txt, .csv, .png).

Резюме: Міграція — це необхідний, але ризикований крок. Розуміння того, як саме ваш тип даних може постраждати при зміні формату, допоможе зберегти результати вашої праці.

2026/02/06

Стратегія контролю версій файлу

Може бути важко знайти правильну версію або дізнатися, чим версії відрізняються через деякий час. Відповідна стратегія контролю версій залежить від того, чи файли використовуються одним, чи кількома користувачами, в одному чи кількох розташуваннях, а також від того, чи потрібно синхронізувати версії між користувачами, чи розташуваннями, чи ні, щоб у разі зміни інформації в одному місці відповідна інформація в інших місцях також була оновлена.

Найкраще виконувати такі дії:

  • Вирішіть, скільки версій файлу зберігати, які версії зберігати, як довго та як саме упорядкувати версії.
  • Визначте основні версії, які потрібно зберегти, наприклад, основні версії, а не проміжні версії (збережіть версію 02-00, але не 02-01).
  • Унікально позначте різні версії файлів за допомогою систематичного іменування, наприклад номерів версій або дат.
  • Записуйте зміни, внесені у файл, коли створюється нова версія.
  • Записуйте зв’язки між елементами, де це необхідно, наприклад, між кодом і файлом даних, з яким він працює; між файлом даних і пов’язаною документацією або метаданими; або між кількома файлами.
  • Відстежуйте розташування файлів, якщо вони зберігаються в різних місцях.
  • Регулярно синхронізуйте файли в різних місцях, наприклад, за допомогою програмного забезпечення MS SyncToy.
  • Визначте єдине місце для зберігання основного файлу та його версій.

https://ukdataservice.ac.uk/learning-hub/research-data-management/format-your-data/versioning/


Контроль версій можна здійснити за допомогою нумерації

Дата, записана в імені файлу або всередині файлу, наприклад, HealthTest-2008-04-06.

Нумерація версій в імені файлу, наприклад, HealthTest-00-02 або HealthTest_v2.

Нумерація версій в іменах файлів може здійснюватися за допомогою дискретної або безперервної нумерації залежно від незначних або великих змін.

Приклад:

Ім'я файлу

Зміни у файлі

Розклад співбесід_1-0

Оригінал документа

Розклад співбесід_1-1

Внесено незначні зміни

Розклад співбесід_1-2

Подальші незначні зміни

Розклад співбесід_2-0

Суттєві зміни


Таблиця контролю версій

Важливо переконатися, що різні копії або версії файлів, файли, що зберігаються в різних форматах або місцях, а також інформація, яка містить перехресні посилання між файлами, підлягають контролю версій. Інструкції щодо контролю версій і автентичності доступні в UK Data Archive. Контроль версій можна здійснити за допомогою документації, що містить 1) історію файлу, 2) таблицю контролю версій (або примітки, включені до файлу), де записуються версії, дати, автори та деталі змін у файлі.

Контроль документів

Назва:

ПЛР-тести на COVID-19 у школах Ессекса

Ім'я файлу:

PCRResultsEssex_00_05

Опис:

Результати 180 ПЛР-тестів на COVID-19, проведених у 2 школах у січні 2021 року

Створений:

Кріс Вілкінзір

Підтримується:

Саллі Вотслі

Створено:

01.11.2021

Остання зміна:

30.03.2021

На основі:

PCRDatabaseDesignEssex_03_00

Історія версій

Версія

Відпові- дальний

Примітки

Останні зміни

00_05

Вані Юссун

Записи перевірені VY, незалежно від SK

30.03.2021

00_04

Стів Найтс

Записи перевірені СК

03.12.2021

00_03

Карін Мілліс

Результати тестування 121-180 внесено

25.02.2021

00_02

Карін Мілліс

Результати тестування 61-120 внесено

02.05.2021

00_01

Карін Мілліс

Введено результати тестування 1-60

01.11.2021

Як правильно нумерувати зразки та версії?

 Коли ви працюєте з результатами багатьох дослідів або створюєте десятки чернеток одного документа, комп'ютеру потрібна допомога, щоб розставити їх по черзі. Якщо просто писати «1», «2», «10», система сприйме це як текст і поставить «10» одразу після «1», а не після «9».

Ось як правильно нумерувати зразки та версії, щоб уникнути плутанини:

1. Використовуйте цифри-заповнювачі («0» попереду)

Завжди оцінюйте, скільки всього об'єктів у вас може бути. Якщо їх більше десяти — використовуйте два знаки (01, 02...), якщо більше ста — три (001, 002...). Це гарантує, що файл №10 не «втече» вгору списку.

❌ Неправильне сортування (без нулів):

  • Експеримент_1.dat

  • Експеримент_10.dat (комп'ютер бачить одиницю і ставить його сюди)

  • Експеримент_2.dat

✅ Правильне сортування (з нулями):

  • Експеримент_01.dat

  • Експеримент_02.dat

  • Експеримент_10.dat (тепер він на своєму місці)

2. Керування версіями: Правило "_v01"

Щоб відстежувати зміни в документі, додавайте номер версії в самий кінець імені файлу. Це набагато надійніше, ніж створювати копії з назвами «новий», «найновіший» чи «виправлений».

Важливо: Щоразу, коли ви вносите великі зміни, створюйте новий файл, збільшуючи номер версії, але залишайте основну назву незмінною. Це допоможе іншим (і вам) зрозуміти, що це розвиток одного й того самого дослідження.

3. Шлях до фіналу

Для робочих версій використовуйте цифри, а коли документ повністю готовий і затверджений — замініть номер версії словом FINAL.

Приклад сортування версій у папці:

  • Звіт_Бюджет_v01.docx

  • Звіт_Бюджет_v02.docx

  • Звіт_Бюджет_v03.docx

  • Звіт_Бюджет_FINAL.docx

Завдяки алфавітному порядку слово FINAL (на букву F) або номер версії з «v» завжди будуть у самому низу списку. Ви миттєво знайдете останній результат, просто глянувши на кінець переліку.


Резюме: Використовуйте нулі попереду для зразків (001) та позначку _v01 для версій. Це перетворить ваш список файлів на чітку історію роботи, де все лежить на своїх місцях.