Для того, щоб наукові дані були придатними для обміну та аналізу, їх класифікують за структурою та форматом. У таблиці наведено систематизацію основних восьми типів даних за їхнім видом, класом та типовими форматами.
Таблиця класифікації наукових даних
| Тип даних | Вид даних (за походженням) | Клас даних (структура) | Типові формати файлів |
| Експериментальні | Первинні (сирі) | Структуровані / Неструктуровані | .dat, .csv, .bin, .txt |
| Спостережні | Первинні (унікальні) | Потокові / Просторові | .tiff, .fits (астрономія), .netcdf |
| Симуляційні | Згенеровані (модельні) | Математичні описи | .hdf5, .json, .xml, .log |
| Аналітичні | Вторинні (похідні) | Статистичні / Агреговані | .xlsx, .sav (SPSS), .rdata, .stata |
| Соціальні/Гуманітарні | Текстові / Описові | Якісні / Кількісні | .docx, .pdf, .rtf, .mp3 (інтерв'ю) |
| Геномні | Секвеновані (великі дані) | Послідовності | .fasta, .fastq, .bam, .vcf |
| Візуальні | Графічні / Растрові | Медіа-дані | .jpg, .png, .dicom (Медицина), .mp4 |
| Метадані | Контекстуальні | Описові (схеми) | .xml, .json-ld, .rdf, Dublin Core |
Деталізація за категоріями
1. Експериментальні та Спостережні
Ці дані часто належать до класу "Сирих даних" (Raw Data). Вони мають найвищу наукову цінність, оскільки є першоджерелом. Формати зазвичай залежать від обладнання (спектрометрів, мікроскопів, супутників).
2. Симуляційні та Аналітичні
Це клас "Оброблених даних" (Processed Data). Вони компактніші за сирі дані, оскільки пройшли етап фільтрації та розрахунків. Основний формат тут — таблиці або бази даних.
3. Соціальні та Гуманітарні
Тут домінує клас "Неструктурованих даних". Це можуть бути транскрипти інтерв'ю, оцифровані архіви або результати фокус-груп. Основним форматом є текст або мультимедіа.
4. Геномні та Біоінформатичні
Клас "Високопродуктивних даних" (High-throughput data). Через гігантські обсяги вони зберігаються у специфічних стиснутих текстових форматах (наприклад, FASTA для літерних кодів ДНК).
5. Візуальні
Клас "Образних даних" (Imaging Data). У науці, на відміну від побуту, важливою є глибина кольору та відсутність стиснення (Lossless), тому замість JPEG часто використовують TIFF або спеціалізовані медичні стандарти як DICOM.
6. Метадані
Це клас "Службових даних". Вони існують як "паспорт" до будь-якого з вищеперерахованих типів. Формати XML та JSON є стандартами, оскільки вони легко зчитуються і людиною, і машиною.