DataSteward@LibraryKPI: книга кодів

Показ дописів із міткою книга кодів. Показати всі дописи

2026/02/18

Codebook: приклад оформлення

Ось приклад того, як має виглядати професійно оформлений Codebook (Книга кодів) для вашого дослідження. Такий документ зазвичай створюється у форматі Excel або як окремий додаток до плану управління даними (DMP).

Codebook: Дослідження цифрової грамотності студентів КПІ

Дата останнього оновлення: 18.02.2026

Відповідальний дослідник: [Ваше Прізвище]

Файл даних, до якого відноситься: survey_results_v1.csv

1. Загальна інформація про файл даних

Кількість спостережень (рядків): 150
Кількість змінних (стовпців): 8
Формат файлу: CSV (UTF-8)
Пропущене значення: За замовчуванням використовується -9 (для всіх типів змінних).

2. Специфікація змінних

Ім'я змінної (Variable Name)	Мітка (Label / Питання)	Тип даних	Коди та значення (Value Labels)	Примітки
RESP_ID	Ідентифікатор респондента	Числовий	Порядковий номер (001-150)	Унікальний ключ, анонімізовано
FACULTY	Факультет респондента	Категоріальний	1 = ФІОТ 2 = ІПСА 3 = ФБМІ 4 = Інший	Якщо 4, див. змінну `FAC_OTHER`
YEAR_STUDY	Курс навчання	Числовий	1, 2, 3, 4, 5 (магістр 1), 6 (магістр 2)	Тільки цілі числа
AI_USAGE	Як часто ви використовуєте ШІ у навчанні?	Категоріальний (шкала Лікерта)	1 = Ніколи 2 = Рідко 3 = Іноді 4 = Часто 5 = Щодня -9 = Відмова	Обов'язкове питання
AI_TOOL	Якому інструменту ШІ ви надаєте перевагу?	Текстовий	Відкрита відповідь (до 50 симв.)	Вимагає якісного кодування пізніше
SKILL_SCORE	Самооцінка навичок програмування	Інтервальний	0...100 (слайдер)	0 - зовсім не вмію, 100 - експерт
CONSENT	Надана згода на обробку ПД	Бінарний	1 = Так 0 = Ні	Якщо 0, дані мають бути видалені

3. Схема кодування відсутніх значень (Missing Values)

Щоб статистичні програми не плутали відсутність відповіді з нулем, ми використовуємо спеціальні коди:

-9: Респондент свідомо пропустив питання.
-8: Питання не було показане через логіку анкети (наприклад, якщо вказав, що не використовує ШІ).
-7: Технічна помилка під час запису даних.

Поради щодо оформлення:

Назви змінних (Variable Names): Робіть їх короткими, латиницею, без пробілів (наприклад, USE_FREQ замість Як часто ви використовуєте). Це стандарт для SPSS та мови R.
Мітки (Labels): Тут пишіть повний текст питання з анкети. Це допоможе вам через рік згадати точне формулювання.
Ексклюзивність: Переконайтеся, що коди не дублюються (наприклад, не можна призначити 1 одночасно для "Так" і для "Чоловік" у межах однієї змінної).

Як правильно фіксувати значення кодів?

Документація — це «перекладний словник» вашого дослідження. Без неї через кілька місяців ви (або ваші колеги) дивуватиметеся, що означають цифри в таблиці та як інтерпретувати результати.

Ось логічне пояснення того, як правильно фіксувати значення кодів та яких золотих правил варто дотримуватися.

Де зберігати документацію?

Ваша мета — зробити так, щоб кожен код мав свою мітку (label).

Внутрішня документація (програмна):
Професійні пакети (SPSS, SAS, STATA, R) дозволяють «вшити» значення прямо у файл даних.
- Як це працює: У стовпці Gender замість цифри 1 програма показуватиме слово "Жінка", але для розрахунків використовуватиме число.
Зовнішня документація (Метадані):
Якщо ви працюєте в Excel або форматі .csv, де неможливо призначити мітки, ви зобов'язані створити окремий файл (Codebook). Це документ, де розписано: Змінна X: 1 = Так, 2 = Ні, 9 = Немає відповіді.

Правило	Що це означає на практиці?
Ідентифікаційні змінні	Кожен рядок повинен мати унікальний ID (наприклад, `ID_001`). Ніколи не використовуйте ПІБ як ідентифікатор.
Ексклюзивність категорій	Варіанти відповідей не повинні перетинатися. Людина не може одночасно належати до категорій "18-25 років" та "25-30 років" (правильно: "18-25" та "26-30").
Збереження оригіналу	Не об’єднуйте дані занадто рано. Краще записати точний вік "22", а потім згрупувати його в "Молодь", ніж одразу записати "Молодь" і назавжди втратити точну цифру.
Документування схем	Кожна зміна в кодуванні має бути записана. Якщо ви змінили код `9` на `0` для пропущених значень — зафіксуйте це.
Ризик розголошення	Перевірте відкриті відповіді. Якщо респондент написав: "Я працюю на кафедрі АТМ в корпусі 19", це може його видалити. Такі дані треба видаляти або узагальнювати.
Перевірка кодування	Зробіть вибіркову перевірку (наприклад, 10% бази), щоб переконатися, що дані введено без помилок.
Ієрархія категорій	Розрізняйте основні категорії (наприклад, "Транспорт") та підкатегорії ("Метро", "Автобус"). Це дозволяє аналізувати дані на різних рівнях деталізації.

Чому це важливо для дослідника КПІ?

Уявіть, що ви збираєте дані про енергоефективність корпусів університету. Якщо ви просто запишете цифри 1, 2, 3 для типів опалення і не задокументуєте це, то через рік, коли прийде час писати дисертацію або статтю в Scopus, ви не зможете згадати, чи 1 — це центральне опалення, чи індивідуальна котельня.

Порада: Завжди створюйте файл README.txt або Codebook.xlsx у папці з даними. Це вбереже вас від адміністративних помилок та спростить проходження етичної експертизи.

Якісне кодування

Якісне кодування — це процес перетворення хаотичного масиву тексту (інтерв'ю, статей, щоденників) на впорядковану систему знань. Якщо транскрипція — це просто «переписування» слів, то кодування — це вже їх осмислення.

Простими словами: ви читаєте текст і наклеюєте на окремі абзаци чи речення «ярлики» (коди), які пояснюють, про що тут ідеться.

Два шляхи до кодування

Дослідник може обрати один із двох логічних підходів залежно від мети свого проєкту:

Концептуально-орієнтоване кодування (Top-down):
Ви вже маєте список тем (кодів), які хочете знайти. Наприклад, ви вивчаєте, як студенти КПІ адаптуються до дистанційного навчання. У вас уже є коди: «технічні проблеми», «самодисципліна», «відсутність спілкування». Ви шукаєте їх у тексті.
Кодування, кероване даними (Bottom-up):
Ви читаєте текст із «чистим аркушем». Ви не знаєте, що саме скажуть респонденти. Коди народжуються прямо під час читання. Це дозволяє почути «голос тексту» і знайти ідеї, про які ви навіть не думали.

Аналіз прикладу, як із розповіді про пенсію викристалізовується науковий висновок

(https://dmeg.cessda.eu/Data-Management-Expert-Guide/3.-Process/Qualitative-coding):

Необроблені дані (цитата)	Попередні коди (нотатки)	Остаточний код (категорія)
«...треба сплатити іпотеку... відкласти на заощадження... граю в лотерею...»	фінансові зобов'язання, мрії про виграш	ТРИВОГА ВІД ВИХОДУ НА ПЕНСІЮ

Логіка: Спочатку ми просто виділили факти (фінанси, лотерея), а потім об'єднали їх у глибинну психологічну концепцію — тривогу.

Поради експертів: Як не втратити якість?

Як зазначає Штраус (1987), якість дослідження напряму залежить від якості кодування. Ось два критичних правила:

Порада 1: Документуйте значення кодів (Кодбук)

З часом або в командній роботі значення коду може «розмитися». Що саме ви мали на увазі під словом «Тривога»?

Рішення: Створіть Codebook (книгу кодів). Це таблиця, де написано: назва коду, чітке визначення, коли його варто використовувати, а коли — ні.

Порада 2: Запобігання «відхиленню кодера» (Coder Drift)

Це ситуація, коли дослідник на початку роботи кодував одним чином, а через два тижні втомився і почав інтерпретувати ті самі фрази інакше.

Рішення: Регулярно перевіряйте себе. Поверніться до перших проаналізованих інтерв'ю наприкінці роботи та переконайтеся, що ваша логіка не змінилася. Якщо дослідників кілька — порівнюйте, чи однаково ви кодуєте один і той самий уривок (Inter-coder reliability).

Резюме для дослідника

Кодування дозволяє вам не просто сказати «люди скаржилися на життя», а статистично та аргументовано довести: «70% респондентів висловили фінансову тривогу, пов'язану з кредитними зобов'язаннями».

DataSteward@LibraryKPI

Сторінки