Показ дописів із міткою довготермінове зберігання даних. Показати всі дописи
Показ дописів із міткою довготермінове зберігання даних. Показати всі дописи

2026/02/05

Планування обсягу даних

Планування обсягу даних — це не просто питання «купити флешку чи хмару». Це стратегічне рішення, яке допоможе уникнути ситуації, коли в середині дослідження у вас закінчується місце, а бюджет уже вичерпано.

Якість проти Кількості 

Деякі типи даних «з’їдають» пам’ять миттєво. Наприклад, одне медичне зображення у високій роздільній здатності може важити більше, ніж тисячі сторінок тексту.

  • Стратегія відбору: Ви повинні заздалегідь визначити критерії відсіву.

    • Чи потрібні вам сирі (raw) дані зображень, чи достатньо стиснутих копій?

    • Чи будете ви зберігати невдалі дублі або технічні кадри?

  • Технічна готовність: Ваша архівна установа (або сервер) повинна мати не лише основне сховище, а й подвійний обсяг для резервного копіювання.

Як швидко ваші дані будуть "рости"?

Швидкість накопичення інформації залежить від методу її отримання. Щоб не помилитися, дайте відповідь на ці 4 питання:

А. Ручне чи автоматичне збирання?

  • Ручне (анкети, записи): Дані зростають повільно і прогнозовано. Обсяги зазвичай невеликі.

  • Автоматичне (датчики, телеметрія): Прилади можуть генерувати гігабайти інформації щосекунди. Тут потрібна автоматизована система фільтрації.

Б. Чи є збір даних ітераційним?
  • Ітераційність означає, що ви повертаєтеся до тих самих об'єктів знову і знову. Кожен новий цикл досліджень може подвоювати або потроювати загальний обсяг збереженої інформації через появу нових версій.

В. Який крок накопичення (30 / 90 днів)?

Важливо розділити проєкт на короткі відрізки. Це дозволяє:

  • Вчасно докуповувати місце в хмарі.

  • Переміщувати старі дані в "холодні архіви" (дешевші, але повільніші сховища).

Г. Який фінальний прогноз?

Знаючи швидкість за перші 3 місяці, ви можете екстраполювати (прорахувати наперед) загальний обсяг до кінця проєкту. Це критично для звітності перед донорами або грантодавцями.

Чек-лист для планування обсягів

Тип файлів: Визначити розширення (.jpg, .csv, .tiff) та їхній середній розмір.

Частота: Скільки разів на день/тиждень відбувається запис.

Тривалість: Скільки років триватиме активна фаза.

Коефіцієнт безпеки: Додайте 20-30% до отриманої цифри на випадок непередбачуваних обставин.

Формула розрахунку загального обсягу даних

Для розрахунку ми використовуємо формулу прогнозованого обсягу (S_{total}):
S_{total} = (N \times S_{avg} \times F \times T) \times R

Де змінні означають:

N: Кількість джерел даних (кількість датчиків, учасників опитування або камер).

S_{avg}: Середній розмір одного файлу або одного запису (наприклад, 5 МБ для фото або 10 КБ для анкети).

F: Частота збору (скільки разів на день/тиждень/місяць ви отримуєте дані).

T: Тривалість проєкту (загальний час збору даних у днях/тижнях/місяцях).

R: Коефіцієнт резервування (зазвичай 2.2 або 3). Він враховує створення бекапів (мінімум 2 копії) + 10-20% вільного місця для системних потреб.

2026/02/02

5й етап життєвого циклу даних : довготермінове зберігання

Якщо ви дотримувалися найкращих практик управління даними протягом усього життєвого циклу дослідження, ви можете бути впевнені, що ваші дані будуть доступними протягом тривалого періоду. Деякі ключові функції репозитарію, які забезпечують довгострокове управління даними, включають забезпечення:
  • цілісності даних
  • захист від втрати даних
  • надання доступу до даних.
На цьому етапі ваші дані безпечно зберігаються в репозитарії даних, яке забезпечує повторне використання ДД та відповідність принципам FAIR. І ви можете почати планувати свій наступний проєкт.

2026/01/27

Де ділитися даними?

Традиційно дослідники ділилися своїми даними через особисті вебсайти або електронну пошту. Зараз існують ефективніші засоби, такі як обмін через сховища/репозитарії даних та рецензовані журнали даних. Дані, що поширюються через ці засоби, можуть мати більшу видимість та залучати більше користувачів і цитувань.

2026/01/26

Універсальні репозитарії

  • Harvard Dataverse https://dataverse.harvard.edu/ – репозитарій для обміну, збереження, цитування, дослідження та аналізу дослідницьких даних
  • Dryad http://datadryad.org/stash/ — кураторська платформа для широкого розмаїття типів даних
  • Figshare http://figshare.com/ – репозитарій, де ви можете зробити всі свої дослідницькі результати доступними у спосіб, у якому їх можна цитувати, поширювати та знаходити
  • Open Science Framework http://osf.io/dashboard це безплатна відкрита платформа для пошуку проєктів, даних, матеріалів та партнерів.
  • Zenodo http://www.zenodo.org/ — репозитарій з відкритим доступом, ініційований OpenAIRE, організацією ЄС, що спеціалізується на відкритій науці, та розміщений у CERN
Рекомендуємо: Завантаження дослідницьких даних у репозитарій ZENODO https://ela.kpi.ua/handle/123456789/76940

Який формат файлу обрати для довготермінового зберігання?

Формат файлу – це важливе питання, яке слід враховувати, якщо ви хочете забезпечити

довгостроковий доступ до своїх дослідницьких даних. Нагадаємо, що вибір формату файлу залежить від фази вашого дослідження. Варіанти короткострокової обробки даних можуть відрізнятися від варіантів довгострокового зберігання даних.

Теоретично, ідеальний формат файлу, придатний для довгострокового доступу, має бути:
  • непатентований (наприклад, з відкритим вихідним кодом)
  • з відкритою документацією
  • широко прийнятий дослідницькою спільнотою
  • сумісний з багатьма програмами
  • без стиснення або стиснення без втрат (зменшення розміру файлу без втрати якості)
  • без вбудованих скриптів або файлів
Не завжди можливо знайти формат файлу, який відповідає всім вищезазначеним критеріям. З міркувань обачності ви можете розглянути можливість збереження даних у кількох форматах, наведених нижче:

Електронні таблиці 

  • CSV (.csv)

  • Tab-delimited File(.tab)

Статистичні дані

  • SPSS (.sav)

  • STATA (.dta)

  • SAS (.sas7dat)

  • DDI (.xml)

Бази даних

  • SQL (.sql)

  • SIARD (.siard)

  • CSV (.csv)

  • XML (.xml)

Текст

  • PDF/A (.pdf)

  • ODT (.odt)

  • Unicode text (.txt)

  • Rich Text File (.rtf)

Зображення

  • TIFF (.tif, .tiff)

Аудіо

  • FLAC  (.flac)

Відео

  • MPEG-4 (.mp4)

Актуальна інформація та додаткові відомості про рекомендовані формати - у вказівках Архіву даних Великобританії щодо рекомендованих форматів.


2026/01/23

Скільки зберігати дані?

Ви повинні зберігати дані досліджень до тих пір, поки вони залишаються цінними для вас чи інших осіб. Очікувані строки збереження коливаються від 3 до 10+ років залежно від вимог спонсора. 

Архівування даних

Архівування — це один зі способів обміну даними, який спеціально зосереджений на їхньому збереженні. Платформа обміну може називатися архівом, репозиторієм, базою даних, центром обробки даних або іншою назвою.

Репозиторій даних – це простір для зберігання, який дозволяє дослідникам розміщувати  дослідницькі дані, а потенційним користувачам – знаходити, отримувати доступ та повторно використовувати ці дані. Деякі установи мають інституційні репозиторії даних. Доступні загальні репозиторії даних, які приймають дані з різних галузей досліджень. Існують також тематичні репозиторії даних для обміну даними в окремих галузях.




Репозитарії даних: рекомендації Open Research Europe

https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#approvedrepositories


Фізика

ТИП ДАНИХ

КУДИ ПОДАТИ

ЩО ВКЛЮЧИТИ В РОЗДІЛ ДОСТУПНОСТІ ДАНИХ ВАШОЇ СТАТТІ

Фізика високих енергій

HEPData

Назва, DOI