Показ дописів із міткою перетворення даних. Показати всі дописи
Показ дописів із міткою перетворення даних. Показати всі дописи

2026/02/09

Перевірка цілісності перенесених файлів

https://mantra.ed.ac.uk/preparingyourdataforarchiving/

При перенесенні даних між форматами, у тому числі якщо раніше стискали архів файлу, дуже важливо, щоб ви якомога ретельніше перевіряли цілісність перетворених файлів відразу після перенесення. Перевірте, чи розмір файлу відповідає очікуваному, чи файл має правильну кількість рядків і стовпців, проведіть тестування функціональності, а також просто "на око" перевірте дані, щоб переконатися, що вони виглядають так, як повинні.

Коли ви дійдете в процесі дослідження до моменту відправлення ваших даних до архіву, репозитарій матиме свої власні критерії та процедури для перевірки якості надісланих даних. Наприклад, інструменти алгоритму контрольної суми зазвичай використовуються для перевірки того, що цифровий файл не був пошкоджений при копіюванні з одного місця до іншого (наприклад, при завантаженні копії файлу даних на ваш комп’ютер зі сховища). Інструмент алгоритму контрольної суми можна використовувати для порівняння бітів файлу, коли його було переміщено з одного носія на інший.

Отже, контрольні суми зазвичай запускаються репозитаріями для перевірки цілісності даних. Однак вони не працюватимуть, якщо формат файлу змінився або якщо ви порівнюєте файли на різних обчислювальних платформах.

Перетворення даних

На відміну від переміщення файлів з одного формату в інший, перетворення даних передбачає зміну фактичних даних. 

Є кілька причин, чому ви можете захотіти перетворити свої дані під час проєкту або після нього.
Наприклад, у даних опитування, зібраних з анкет, відповіді з множинним вибором та інші типи відповідей зазвичай кодуються цифрами, а не рядками символів. Перевага цього простого типу перетворення полягає в тому, що він полегшує введення даних, якщо ви вводите відповіді на папері, а також дозволяє уникнути невідповідностей, таких як друкарські помилки в значеннях даних. Такі якісні дані, як стенограми інтерв’ю, можна перетворити на кількісні дані шляхом застосування методів текстового кодування та категоризації. 

Іншою причиною для перетворення даних може бути більш ефективна візуалізація даних. Простим прикладом є перетворення даних, із співвідношень (чисельник і знаменник) у відсотки, щоб ви могли відобразити їх на гістограмі чи секторній діаграмі. 

Для перетворення конфіденційних даних, щоб ними можна було ділитися з іншими дослідниками, можна використовувати ряд методів. До них належать агрегація та анонімізація. Нагадаю, агрегація — процес укрупнення показників. Анонімізація - процес видалення даних (з документів, баз даних тощо) з метою приховування джерела інформації, дійової особи тощо. Типові приклади класичної анонімізації, які ми бачимо на слайді, - це узагальнення, придушення атрибутів, стирання, перестановка даних, маскування символів.

https://www.syntho.ai/uk/classic-anonymization/