Планування обсягу даних — це не просто питання «купити флешку чи хмару». Це стратегічне рішення, яке допоможе уникнути ситуації, коли в середині дослідження у вас закінчується місце, а бюджет уже вичерпано.
Якість проти Кількості
Деякі типи даних «з’їдають» пам’ять миттєво. Наприклад, одне медичне зображення у високій роздільній здатності може важити більше, ніж тисячі сторінок тексту.
Стратегія відбору: Ви повинні заздалегідь визначити критерії відсіву.
Чи потрібні вам сирі (raw) дані зображень, чи достатньо стиснутих копій?
Чи будете ви зберігати невдалі дублі або технічні кадри?
- Технічна готовність: Ваша архівна установа (або сервер) повинна мати не лише основне сховище, а й подвійний обсяг для резервного копіювання.
Як швидко ваші дані будуть "рости"?
Швидкість накопичення інформації залежить від методу її отримання. Щоб не помилитися, дайте відповідь на ці 4 питання:
А. Ручне чи автоматичне збирання?
Ручне (анкети, записи): Дані зростають повільно і прогнозовано. Обсяги зазвичай невеликі.
Автоматичне (датчики, телеметрія): Прилади можуть генерувати гігабайти інформації щосекунди. Тут потрібна автоматизована система фільтрації.
Ітераційність означає, що ви повертаєтеся до тих самих об'єктів знову і знову. Кожен новий цикл досліджень може подвоювати або потроювати загальний обсяг збереженої інформації через появу нових версій.
В. Який крок накопичення (30 / 90 днів)?
Важливо розділити проєкт на короткі відрізки. Це дозволяє:
Вчасно докуповувати місце в хмарі.
Переміщувати старі дані в "холодні архіви" (дешевші, але повільніші сховища).
Г. Який фінальний прогноз?
Знаючи швидкість за перші 3 місяці, ви можете екстраполювати (прорахувати наперед) загальний обсяг до кінця проєкту. Це критично для звітності перед донорами або грантодавцями.
Тип файлів: Визначити розширення (.jpg, .csv, .tiff) та їхній середній розмір.
Частота: Скільки разів на день/тиждень відбувається запис.
Тривалість: Скільки років триватиме активна фаза.
Коефіцієнт безпеки: Додайте 20-30% до отриманої цифри на випадок непередбачуваних обставин.
Для розрахунку ми використовуємо формулу прогнозованого обсягу (S_{total}):
S_{total} = (N \times S_{avg} \times F \times T) \times R
Де змінні означають:
N: Кількість джерел даних (кількість датчиків, учасників опитування або камер).
S_{avg}: Середній розмір одного файлу або одного запису (наприклад, 5 МБ для фото або 10 КБ для анкети).
F: Частота збору (скільки разів на день/тиждень/місяць ви отримуєте дані).
T: Тривалість проєкту (загальний час збору даних у днях/тижнях/місяцях).
R: Коефіцієнт резервування (зазвичай 2.2 або 3). Він враховує створення бекапів (мінімум 2 копії) + 10-20% вільного місця для системних потреб.