DataSteward@LibraryKPI

2026/02/05

Іменування: приклади

Угода про іменування Единбургського університету - загальний набір правил, що застосовуються до іменування електронних записів Угода про імена файлів включає 13 правил. За посиланням ви знайдете приклади та пояснення до правил.

Робіть імена файлів короткими, але осмисленими
Уникайте непотрібного повторення та випадковості в іменах файлів і шляхах до файлів.
Використовуйте заголовні букви для розділення слів, а не пробіли або символи підкреслення.
При включенні числа в ім'я файлу завжди вказуйте його двозначним числом, т. е. 01-99, якщо це тільки не рік або інше число, що складається більше ніж з двох цифр.
У дати використання імені файлу завжди вказуйте дату «ззаду вперед» і використовуйте чотири цифри року, дві цифри місяця та дві цифри дня: РРРРММДД або РРРРММ, або РРРР, або РРРР-РРРРР.
При включенні особистого імені в ім'я файлу спочатку вкажіть прізвище, а потім ініціали.
Уникайте загальних слів, такі як «чернетка» або “лист” на початку імені файлів, якщо тільки це не спростить пошук записів.
Упорядковуйте елементи в імені файлу найбільш відповідним способом для находження запису.
Імена файлів записів, що належать до повторюваних подій, повинні містити дату й опис подій, для результатів випадків, коли включення будь-якого з цих елементів не відповідає правилу 2.
Назви файлів відповідності повинні містити кореспондента, вказівки теми, дату відповідності та інформацію про те, чи є вона вхідною або вихідною відповідністю, для результату випадків, коли включення будь-якого з цих елементів не відповідає правилу 2.
Ім’я файлу вкладення електронної пошти має включати ім’я кореспондента, вказівку теми, дату листування, «вкладення» та вказівку кількості вкладень, надісланих із супровідним електронним листом, за результатами випадків, коли включення будь-якого з цих елементів було б несумісним із правилом 2.
Номер версії запису повинен бути вказаний в імені файлу шляхом включення «V», номеру версії і, де це доречно, «Чернетка».
Уникайте буквено-цифрових символів в іменах файлів.

Массачуссетський технологічний університет : Організація ваших файлів https://libraries.mit.edu/data-management/store/organize/

Завантажте повний пакет для організації файлів
Також дивіться матеріали з семінару з організації файлів

Організація файлів Архів даних Великобританії

Рекомендації щодо іменування файлів Національний архів США

Briney, Kristin A. (2020) File Naming Convention Worksheet.

[Teaching Resource] (Unpublished)

https://resolver.caltech.edu/CaltechAUTHORS:20200601-161923247

Практика університетів:

https://osf.io/dpu45

https://guides.library.illinois.edu/introdata/filenames

https://libguides.brown.edu/DataManagement/naming

https://www.bu.edu/data/manage/naming-convention/

https://guides.lib.umich.edu/c.php?g=739306&p=5286418

https://guides.lib.purdue.edu/c.php?g=353013&p=2378293

https://libraries.mit.edu/data-management/store/organize/

https://guides.library.cmu.edu/researchdatamanagement/filenaming

https://authors.library.caltech.edu/103626/1/FileNamingConventionWorksheet_Caltech.pdf

https://huridocs.org/resource-library/organising-a-collection-of-human-rights-information/file-naming-conventions/

Ідентифікатор як постійна адреса

From International Studies Quarterly, King and Zeng, 2006, p. 209:

Gary King; Langche Zeng, 2006, “Replication data for: When Can History be Our Guide? The Pitfalls of Counterfactual Inference”, Harvard Dataverse, V2, http://hdl.handle.net/1902.1/DXRXCFAWPK
UNF:3:DaYlT6QSX9r0D50ye+tXpA==

Це приклад сучасного наукового цитування даних, яке гарантує, що посилання не «зламається» з часом. Головним елементом тут є унікальний глобальний ідентифікатор (наприклад, DOI або HANDLE), який працює як постійна адреса об'єкта в цифровому світі. На відміну від звичайних посилань (URL), які можуть перестати працювати, якщо сайт змінить структуру або переїде на інший домен, ці ідентифікатори залишаються незмінними. Вони автоматично перенаправляють користувача на актуальне місцезнаходження даних, забезпечуючи зв'язок між друкованою статтею та цифровим архівом навіть через десятиліття.

Окрім посилання на місце зберігання (Harvard Dataverse), цитата містить спеціальний код — UNF (Universal Numeric Fingerprint). Це «цифровий відбиток» самого набору даних, який дозволяє машині або досліднику миттєво перевірити, чи не були дані змінені. Якщо в наборі даних зміниться хоча б одна цифра, код UNF стане іншим. Таким чином, поєднання постійного ідентифікатора та цифрового відбитка створює надійну систему, яка підтримує цілісність науки та дозволяє іншим вченим точно знайти й перевірити результати дослідження.

Організація даних: переваги та ризики

Це критична частина наукового методу, яка гарантує, що ваші дані не перетворяться на цифровий хаос. Подивімось, чому організація даних є такою важливою.

Ми всі стикалися з проханням переглянути останню чернетку документа. Ви входите до спільних папок вашої організації та шукаєте файл, дивитеся на назви, але не можете одразу сказати, яку версію документа ви повинні переглянути:

Grant-proposal-henry-edits-finalfinal.doc
Grant-proposal-final-Julia_edits_v4.doc
FINAL_proposal_Aug2016_kct-updated.doc

Це лише один невеликий приклад слабкості в управлінні інформацією, яка може викликати масу непотрібних розчарувань. Чим більш організовано ми керуємо інформацією, хай то документи чи файли дослідницьких даних, тим ефективнішими та дієвішими ми можемо бути.

На початку вашого дослідницького проєкту виможете думати і навіть вірити, що ви завжди пам’ятатимете, як ви збираєтеся називати свої файли та де ви їх зберігали. Але як тільки ваше дослідження почнеться, ви дуже швидко накопичите великий обсяг даних. Ви матимете кілька файлів у різних форматах і багато різних версій. І це не тільки файли даних, а ще й додаткові дослідницькі матеріали, адміністративні документи. Ймовірно, у вас є вебсайти, можливо, блоги, статті та цитати, методології, примітки, які стосуються ваших досліджень. Отже, якщо ви намагаєтеся знайти певний файл даних, який вам потрібен, особливо якщо його назва неточна або суперечлива, це може стати дуже неприємним процесом і значною втратою часу, яке ви мали б витратити на дослідження. Щоб допомогти вам ідентифікувати, знаходити й ефективно використовувати свої дані, потрібні певні практики керування файлами, певні навички.

Які тут можуть бути проблеми?

Вибір угод про імена (і якість їх виконання) часто є спірним питанням, коли якісь учасники дослідницької групи вважають свою точку зору кращою, а інші - гіршими просто через звички чи власний досвід. Ба більше, навіть при наявності відомих і чітко визначених угод про імена деякі дослідники можуть не дотримуватися їх постійно, що призводить до неузгодженості та плутанини. Ці проблеми можуть посилюватися, якщо правила угоди про імена мають внутрішню суперечність, складні для запам’ятовування або сприймаються як більш обтяжливі, чим корисніші.

Наприклад, ви збираєтеся використовувати дати, ви можете слідувати стандарту ISO 8601, який використовує чотири цифри для року, дві для місяця та дві для дня, наприклад, 20230907. А хтось з команди використовує традиційну для нашої країни модель: спочатку день, потім місяць, рік. Чи плутанина з нумерацією днів тижня, наприклад вівторок - день тижня між понеділком і середою. Згідно з міжнародним стандартом ISO 8601 - другий день тижня, хоча в деяких традиціях є третім.

Який би метод ви не вибрали, просто переконайтеся, що ви та всі члени команди застосовуєте його послідовно.

Ключові переваги ефективної організації даних:

1. Ефективність та швидка ідентифікація

Правильна система іменування дозволяє «бачити крізь файли», не витрачаючи час на їхнє відкриття:

Миттєве розпізнавання: Ви можете легко визначити найсвіжішу або остаточну версію, просто глянувши на назву.
Розуміння вмісту: Назва файлу сама по собі стає коротким описом того, що всередині.
Автоматичне сортування: Файли вишиковуються в логічній послідовності, що виключає ризик випадкового видалення або перезапису важливих етапів роботи.
Інвентаризація: При перегляді довгих списків ви одразу помітите, якщо якогось файлу не вистачає.

2. Надійність та пошук (Навіть за межами "дому")

Система керування версіями робить дані автономними та стійкими до переміщень:

Цифрова мобільність: Ви зможете знайти та ідентифікувати файл, навіть якщо він випадково опинився в іншій папці або на іншому диску.
Унікальність: Кожен файл чітко відрізняється від іншого, що запобігає плутанині між схожими наборами даних.

3. Командна робота та спадковість

Керування версіями — це мова спілкування між дослідниками:

Колаборація без стресу: Коли над одним проєктом працюють кілька людей, послідовна система запобігає ситуаціям, де хтось править не ту копію або створює десяту «фінальну» версію.
Відкритість для колег: Сторонні дослідники зможуть легко знайти потрібні дані у вашому архіві, зрозуміти методику вашої роботи та правильно інтерпретувати результати.
Допомога майбутньому собі: Ви зможете легко розібратися у своїх записах через рік або два, коли деталі проєкту почнуть забуватися.

Ключові гравці в екосистемі дослідницьких даних: обов'язки та взаємодія

Управління даними — це не гра в одні ворота, а командний вид спорту. Щоб дані жили довго і приносили користь, над ними працює ціла екосистема людей та інституцій.

За кожним успішним дослідженням стоять:

1. Головні дослідники (PI) та їхня команда

Це «мозок» проєкту.

Роль: Вони вирішують, що збирати, як аналізувати та які висновки робити.
Проблема: У великих проєктах навіть головний вчений може «загубитися» у своїх даних через рік-два.
Помічники (аспіранти та співробітники): Саме вони «в полях» — збирають, чистять та аналізують масиви інформації. Якісне управління даними допомагає їм розуміти один одного без зайвих слів і безболісно передавати справи новим колегам.

2. Університети та інститути (База)

Це фундамент, на якому стоїть дослідження.

Що роблять: Пишуть правила (політики), надають сервери для зберігання та вчать дослідників, як правильно поводитися з інформацією. Вони — як служба підтримки, що допомагає написати план управління даними (DMP).

3. Репозитарії та сховища даних (Архіватори)

Це «цифрові сейфи» науки.

Роль: Вони не просто зберігають файли, а роблять так, щоб дані були зрозумілими і доступними через 10 чи 20 років.
Безпека: Разом із вченими вони вирішують, кому можна бачити дані (наприклад, через авторське право чи конфіденційність), а хто має почекати (ембарго).

4. Фінансові установи (Грантонадавачі)

Ті, хто дає гроші на науку.

Вимога: Сьогодні більшість фондів кажуть: «Ми дамо кошти лише якщо ви доведете, що ваші дані будуть відкритими і надійно збереженими». Тому План управління даними став обов’язковим вступом до будь-якої грантової заявки.

5. Видавці та наукові журнали (Рупори)

Вони поширюють знання та стежать за чесністю.

Нові правила: Багато журналів (як-от PLOS) тепер не просто просять, а вимагають: «Хочете опублікувати статтю? Викладіть первинні дані у відкрите сховище». Це запобігає фальсифікаціям і підвищує довіру.

6. Вторинні користувачі (Споживачі)

Це всі ми: інші студенти, журналісти, державні діячі або бізнесмени.

Навіщо їм це: Щоб перевірити результати (чи не помилився вчений?), провести новий аналіз на базі старих цифр або просто для навчання. Це те, що робить науку безперервною.

Така кількість «гравців» доводить одну просту річ: дані — це цінний актив. Щоб вони не перетворилися на «цифрове сміття», усі ці групи мають постійно спілкуватися між собою.

Big Data

Сьогодні термін «Великі дані» (Big Data) звучить звідусіль. Але це не просто дуже великі таблиці в Excel. Це океан інформації, що виходить за межі традиційних структур. Це наші пости, рухи, покупки та навіть серцебиття, зафіксоване датчиками.

Давайте розберемося, з чого складаються Big Data та як вони змінюють світ — від перемог на виборах до доставки ліків.

1. Соціальні дані: Цифрове дзеркало суспільства

Щоразу, коли ви лайкаєте пост або пишете коментар, ви створюєте соціальні дані.

Що сюди входить: Текст, зображення, ваші підписки та метадані (де ви були, коли робили пост).
Навіщо це потрібно: Платформи використовують їх для таргетованої реклами та підбору контенту.
Кейс: Використання Big Data стало секретною зброєю у виборчих кампаніях Барака Обами та Дональда Трампа. Аналітики вивчали настрої виборців у реальному часі та миттєво коригували програму кандидатів.

Важливо: Для аналізу таких обсягів уже не достатньо людини — тут вступають у гру машинне навчання та нейромережі.

2. Адміністративні дані: Держава у смартфоні

Це дані, які збираються автоматично під час надання державних послуг.

Приклади: Податкові звіти, медичні записи, судова інформація та дані про освіту.
Відкритість: Україна робить величезні кроки у цій сфері. На порталі Дія. Відкриті дані (diia.data.gov.ua) вже оприлюднено десятки наборів даних від МОН та інших відомств. Це неперсоналізована інформація, яку кожен може вільно використовувати для досліджень.

3. Корпоративні дані: Двигун бізнесу

Кожна компанія накопичує величезний масив внутрішньої інформації про фінанси, клієнтів та постачальників.

Особливість: Ці дані є суворо конфіденційними.
Використання: Зазвичай їх застосовують для стратегічного планування всередині бізнесу або для порівняльного аналізу ринку (у знеособленому вигляді).

4. Трансакційні дані: Слід наших дій

Це цифрові записи про те, хто, що, де і коли зробив. Це логістика нашого життя.

Застосування: Карти лояльності в супермаркетах допомагають робити вам персональні пропозиції.
Глобальний приклад: У Великій Британії аналітики міністерства вивчають, які рецепти виписують лікарі. Це дозволяє точно прогнозувати потреби в ліках і оптимізувати їх доставку в різні куточки країни.

5. Дані датчиків та "Інтернет речей" (IoT)

Це найшвидша категорія Big Data. Ваші смартфони, фітнес-трекери та навіть розумні лампи постійно вимірюють фізичний світ.

Що вони бачать: Звук, рух, орієнтацію в просторі, GPS-координати, пульс та температуру.
Практична користь: Геолокаційні дані допомагають проектувати транспортні розв'язки в містах та швидше координувати рятувальників під час надзвичайних ситуацій.

Світ Big Data — це не лише про технології, а й про відповідальність. Масштаб і складність цих даних вимагають нових методів аналізу та етичного підходу до приватності.

Вторинні дані

Вторинні дані — це дані, зібрані для однієї цілі, які надаються для використання іншими особами для іншої цілі.

Чому вторинні дані — це круто?

Головна причина — масштаб. Як окремий дослідник або студент, ви навряд чи зможете опитати 50 000 людей у 10 країнах. У вас просто не вистачить грошей та часу. А великі організації (державні служби статистики, міжнародні фонди) мають для цього колосальні ресурси.

Вища якість: Дані від великих інституцій часто набагато точніші та професійніші, ніж ті, що ви зберете "на колінці".
Швидкість: Ви можете завантажити величезний масив інформації з інтернету за лічені хвилини, замість того, щоб збирати його місяцями.

У чому "пастка"? (Два головні мінуси)

1. "Це майже те, що мені треба"

Оскільки дані збирав хтось інший, вони навряд чи ідеально підходять під ваше запитання.

Ризик: Виникає велика спокуса "підтягнути за вуха" чужі цифри до своєї теорії. Ви починаєте вдавати, що ці дані вимірюють саме те, що вам потрібно, хоча насправді це не зовсім так. Ви не контролювали процес збору, тому маєте те, що маємо.

2. Довга "інструкція"

Хоча самі дані ви отримуєте миттєво, підготовка до роботи з ними займає купу часу.

Проблема: Ви не можете просто відкрити файл і почати рахувати. Вам потрібно "проковтнути" гігантські обсяги документації.
Ви повинні розібратися: як саме обирали людей для опитування? Які були фонові умови? Що означає кожен код у таблиці? Без цього розуміння ваші висновки будуть помилковими.

Отже, вторинні дані — це потужний інструмент, який дає вам доступ до ресурсів рівня цілих міністерств. Але це вимагає від вас чесності (чи дійсно ці дані підходять для моєї теми?) та терпіння (вивчити всі описи та методології, які йдуть у комплекті).

Планування обсягу даних

Планування обсягу даних — це не просто питання «купити флешку чи хмару». Це стратегічне рішення, яке допоможе уникнути ситуації, коли в середині дослідження у вас закінчується місце, а бюджет уже вичерпано.

Якість проти Кількості

Деякі типи даних «з’їдають» пам’ять миттєво. Наприклад, одне медичне зображення у високій роздільній здатності може важити більше, ніж тисячі сторінок тексту.

Стратегія відбору: Ви повинні заздалегідь визначити критерії відсіву.
- Чи потрібні вам сирі (raw) дані зображень, чи достатньо стиснутих копій?
- Чи будете ви зберігати невдалі дублі або технічні кадри?
Технічна готовність: Ваша архівна установа (або сервер) повинна мати не лише основне сховище, а й подвійний обсяг для резервного копіювання.

Як швидко ваші дані будуть "рости"?

Швидкість накопичення інформації залежить від методу її отримання. Щоб не помилитися, дайте відповідь на ці 4 питання:

А. Ручне чи автоматичне збирання?

Ручне (анкети, записи): Дані зростають повільно і прогнозовано. Обсяги зазвичай невеликі.
Автоматичне (датчики, телеметрія): Прилади можуть генерувати гігабайти інформації щосекунди. Тут потрібна автоматизована система фільтрації.

Б. Чи є збір даних ітераційним?

Ітераційність означає, що ви повертаєтеся до тих самих об'єктів знову і знову. Кожен новий цикл досліджень може подвоювати або потроювати загальний обсяг збереженої інформації через появу нових версій.

В. Який крок накопичення (30 / 90 днів)?

Важливо розділити проєкт на короткі відрізки. Це дозволяє:

Вчасно докуповувати місце в хмарі.
Переміщувати старі дані в "холодні архіви" (дешевші, але повільніші сховища).

Г. Який фінальний прогноз?

Знаючи швидкість за перші 3 місяці, ви можете екстраполювати (прорахувати наперед) загальний обсяг до кінця проєкту. Це критично для звітності перед донорами або грантодавцями.

Чек-лист для планування обсягів

Тип файлів: Визначити розширення (.jpg, .csv, .tiff) та їхній середній розмір.

Частота: Скільки разів на день/тиждень відбувається запис.

Тривалість: Скільки років триватиме активна фаза.

Коефіцієнт безпеки: Додайте 20-30% до отриманої цифри на випадок непередбачуваних обставин.

Формула розрахунку загального обсягу даних

Для розрахунку ми використовуємо формулу прогнозованого обсягу (S_{total}):
S_{total} = (N \times S_{avg} \times F \times T) \times R

Де змінні означають:

N: Кількість джерел даних (кількість датчиків, учасників опитування або камер).

S_{avg}: Середній розмір одного файлу або одного запису (наприклад, 5 МБ для фото або 10 КБ для анкети).

F: Частота збору (скільки разів на день/тиждень/місяць ви отримуєте дані).

T: Тривалість проєкту (загальний час збору даних у днях/тижнях/місяцях).

R: Коефіцієнт резервування (зазвичай 2.2 або 3). Він враховує створення бекапів (мінімум 2 копії) + 10-20% вільного місця для системних потреб.