2026/02/18

Codebook: приклад оформлення

Ось приклад того, як має виглядати професійно оформлений Codebook (Книга кодів) для вашого дослідження. Такий документ зазвичай створюється у форматі Excel або як окремий додаток до плану управління даними (DMP).

Codebook: Дослідження цифрової грамотності студентів КПІ

Дата останнього оновлення: 18.02.2026

Відповідальний дослідник: [Ваше Прізвище]

Файл даних, до якого відноситься: survey_results_v1.csv

1. Загальна інформація про файл даних

Кількість спостережень (рядків): 150
Кількість змінних (стовпців): 8
Формат файлу: CSV (UTF-8)
Пропущене значення: За замовчуванням використовується -9 (для всіх типів змінних).

2. Специфікація змінних

Ім'я змінної (Variable Name)	Мітка (Label / Питання)	Тип даних	Коди та значення (Value Labels)	Примітки
RESP_ID	Ідентифікатор респондента	Числовий	Порядковий номер (001-150)	Унікальний ключ, анонімізовано
FACULTY	Факультет респондента	Категоріальний	1 = ФІОТ 2 = ІПСА 3 = ФБМІ 4 = Інший	Якщо 4, див. змінну `FAC_OTHER`
YEAR_STUDY	Курс навчання	Числовий	1, 2, 3, 4, 5 (магістр 1), 6 (магістр 2)	Тільки цілі числа
AI_USAGE	Як часто ви використовуєте ШІ у навчанні?	Категоріальний (шкала Лікерта)	1 = Ніколи 2 = Рідко 3 = Іноді 4 = Часто 5 = Щодня -9 = Відмова	Обов'язкове питання
AI_TOOL	Якому інструменту ШІ ви надаєте перевагу?	Текстовий	Відкрита відповідь (до 50 симв.)	Вимагає якісного кодування пізніше
SKILL_SCORE	Самооцінка навичок програмування	Інтервальний	0...100 (слайдер)	0 - зовсім не вмію, 100 - експерт
CONSENT	Надана згода на обробку ПД	Бінарний	1 = Так 0 = Ні	Якщо 0, дані мають бути видалені

3. Схема кодування відсутніх значень (Missing Values)

Щоб статистичні програми не плутали відсутність відповіді з нулем, ми використовуємо спеціальні коди:

-9: Респондент свідомо пропустив питання.
-8: Питання не було показане через логіку анкети (наприклад, якщо вказав, що не використовує ШІ).
-7: Технічна помилка під час запису даних.

Поради щодо оформлення:

Назви змінних (Variable Names): Робіть їх короткими, латиницею, без пробілів (наприклад, USE_FREQ замість Як часто ви використовуєте). Це стандарт для SPSS та мови R.
Мітки (Labels): Тут пишіть повний текст питання з анкети. Це допоможе вам через рік згадати точне формулювання.
Ексклюзивність: Переконайтеся, що коди не дублюються (наприклад, не можна призначити 1 одночасно для "Так" і для "Чоловік" у межах однієї змінної).

Як правильно фіксувати значення кодів?

Документація — це «перекладний словник» вашого дослідження. Без неї через кілька місяців ви (або ваші колеги) дивуватиметеся, що означають цифри в таблиці та як інтерпретувати результати.

Ось логічне пояснення того, як правильно фіксувати значення кодів та яких золотих правил варто дотримуватися.

Де зберігати документацію?

Ваша мета — зробити так, щоб кожен код мав свою мітку (label).

Внутрішня документація (програмна):
Професійні пакети (SPSS, SAS, STATA, R) дозволяють «вшити» значення прямо у файл даних.
- Як це працює: У стовпці Gender замість цифри 1 програма показуватиме слово "Жінка", але для розрахунків використовуватиме число.
Зовнішня документація (Метадані):
Якщо ви працюєте в Excel або форматі .csv, де неможливо призначити мітки, ви зобов'язані створити окремий файл (Codebook). Це документ, де розписано: Змінна X: 1 = Так, 2 = Ні, 9 = Немає відповіді.

Правило	Що це означає на практиці?
Ідентифікаційні змінні	Кожен рядок повинен мати унікальний ID (наприклад, `ID_001`). Ніколи не використовуйте ПІБ як ідентифікатор.
Ексклюзивність категорій	Варіанти відповідей не повинні перетинатися. Людина не може одночасно належати до категорій "18-25 років" та "25-30 років" (правильно: "18-25" та "26-30").
Збереження оригіналу	Не об’єднуйте дані занадто рано. Краще записати точний вік "22", а потім згрупувати його в "Молодь", ніж одразу записати "Молодь" і назавжди втратити точну цифру.
Документування схем	Кожна зміна в кодуванні має бути записана. Якщо ви змінили код `9` на `0` для пропущених значень — зафіксуйте це.
Ризик розголошення	Перевірте відкриті відповіді. Якщо респондент написав: "Я працюю на кафедрі АТМ в корпусі 19", це може його видалити. Такі дані треба видаляти або узагальнювати.
Перевірка кодування	Зробіть вибіркову перевірку (наприклад, 10% бази), щоб переконатися, що дані введено без помилок.
Ієрархія категорій	Розрізняйте основні категорії (наприклад, "Транспорт") та підкатегорії ("Метро", "Автобус"). Це дозволяє аналізувати дані на різних рівнях деталізації.

Чому це важливо для дослідника КПІ?

Уявіть, що ви збираєте дані про енергоефективність корпусів університету. Якщо ви просто запишете цифри 1, 2, 3 для типів опалення і не задокументуєте це, то через рік, коли прийде час писати дисертацію або статтю в Scopus, ви не зможете згадати, чи 1 — це центральне опалення, чи індивідуальна котельня.

Порада: Завжди створюйте файл README.txt або Codebook.xlsx у папці з даними. Це вбереже вас від адміністративних помилок та спростить проходження етичної експертизи.

Кількісне кодування

Кількісне кодування — це «переклад» людських відповідей на мову чисел. Оскільки статистичні програми (SPSS, Stata, R) не вміють аналізувати зміст речень, ми маємо перетворити кожну категорію на цифру.

Ось як це працює на практиці, від простих анкет до складних текстів.

1. Що таке кількісне кодування?

Це процес присвоєння числа певній групі даних. Наприклад, замість того, щоб писати в таблиці «Київ», «Харків», «Львів», ми записуємо 1, 2, 3.

Мета: Полегшити статистичні розрахунки (обчислення середнього, кореляції тощо).

2. Закриті питання: Швидкість та автоматизація

У закритих питаннях (де є готовий перелік відповідей) кодування зазвичай продумане ще на етапі створення анкети.

Приклад у паперовій анкеті:

Як часто ви користуєтесь бібліотекою КПІ?
(1) Щодня
(2) Раз на тиждень
(3) Раз на місяць
(4) Ніколи

Кодувальник просто вносить цифру у базу даних. У сучасних системах (CAPI — на планшетах, CATI — по телефону) цей процес автоматизований: як тільки респондент обирає варіант, система миттєво зберігає число 1, 2 або 3.

3. Відкриті питання: Від тексту до цифри

Тут процес складніший. Якщо ви запитали: "Що вам найбільше подобається в навчанні?", ви отримаєте сотні різних речень. Щоб їх статистично обробити, потрібно:

Створити структуру кодування: Прочитати частину відповідей і виділити категорії.
Присвоїти коди: Наприклад:
- 100 — Якість викладання
- 200 — Студентське співтовариство
- 300 — Сучасні лабораторії
Процедура (якщо працює команда): Потрібна чітка інструкція, щоб два кодувальники не присвоїли одну і ту саму відповідь до різних категорій.

4. Робота з "відсутніми даними"

Критично важливо закодувати випадки, коли відповіді немає. В статистиці не можна просто залишити пусту клітинку.

Приклад: * -1 — Респондент відмовився відповідати.
- -2 — Питання не було поставлене (наприклад, через логічний перехід в анкеті).
- -3 — Відповідь неможливо прочитати (у паперових анкетах).

Приклад зведеної кодувальної книги (Codebook)

Назва змінної	Питання анкети	Коди
GENDER	Стать респондента	1=Чоловік; 2=Жінка; 9=Відмова
SATISFACTION	Чи задоволені ви курсом?	1=Ні; 2=Скоріше ні; 3=Важко сказати; 4=Скоріше так; 5=Так
FACULTY_CODE	Факультет	1=ФІОТ; 2=ІПСА; 3=ФБМІ; 4=Теплоенергетичний

Поради для дослідників КПІ:

Уникайте "сирих" назв: Завжди ведіть окремий файл (Codebook), де розписано, що означає кожна цифра. Через рік ви можете забути, чи була 1 — це «Так» чи «Чоловік».
Валідація: Якщо ви вводите дані вручну, використовуйте "подвійне введення" (дві людини вводять одне і те саме) для виявлення помилок.

Якісне кодування

Якісне кодування — це процес перетворення хаотичного масиву тексту (інтерв'ю, статей, щоденників) на впорядковану систему знань. Якщо транскрипція — це просто «переписування» слів, то кодування — це вже їх осмислення.

Простими словами: ви читаєте текст і наклеюєте на окремі абзаци чи речення «ярлики» (коди), які пояснюють, про що тут ідеться.

Два шляхи до кодування

Дослідник може обрати один із двох логічних підходів залежно від мети свого проєкту:

Концептуально-орієнтоване кодування (Top-down):
Ви вже маєте список тем (кодів), які хочете знайти. Наприклад, ви вивчаєте, як студенти КПІ адаптуються до дистанційного навчання. У вас уже є коди: «технічні проблеми», «самодисципліна», «відсутність спілкування». Ви шукаєте їх у тексті.
Кодування, кероване даними (Bottom-up):
Ви читаєте текст із «чистим аркушем». Ви не знаєте, що саме скажуть респонденти. Коди народжуються прямо під час читання. Це дозволяє почути «голос тексту» і знайти ідеї, про які ви навіть не думали.

Аналіз прикладу, як із розповіді про пенсію викристалізовується науковий висновок

(https://dmeg.cessda.eu/Data-Management-Expert-Guide/3.-Process/Qualitative-coding):

Необроблені дані (цитата)	Попередні коди (нотатки)	Остаточний код (категорія)
«...треба сплатити іпотеку... відкласти на заощадження... граю в лотерею...»	фінансові зобов'язання, мрії про виграш	ТРИВОГА ВІД ВИХОДУ НА ПЕНСІЮ

Логіка: Спочатку ми просто виділили факти (фінанси, лотерея), а потім об'єднали їх у глибинну психологічну концепцію — тривогу.

Поради експертів: Як не втратити якість?

Як зазначає Штраус (1987), якість дослідження напряму залежить від якості кодування. Ось два критичних правила:

Порада 1: Документуйте значення кодів (Кодбук)

З часом або в командній роботі значення коду може «розмитися». Що саме ви мали на увазі під словом «Тривога»?

Рішення: Створіть Codebook (книгу кодів). Це таблиця, де написано: назва коду, чітке визначення, коли його варто використовувати, а коли — ні.

Порада 2: Запобігання «відхиленню кодера» (Coder Drift)

Це ситуація, коли дослідник на початку роботи кодував одним чином, а через два тижні втомився і почав інтерпретувати ті самі фрази інакше.

Рішення: Регулярно перевіряйте себе. Поверніться до перших проаналізованих інтерв'ю наприкінці роботи та переконайтеся, що ваша логіка не змінилася. Якщо дослідників кілька — порівнюйте, чи однаково ви кодуєте один і той самий уривок (Inter-coder reliability).

Резюме для дослідника

Кодування дозволяє вам не просто сказати «люди скаржилися на життя», а статистично та аргументовано довести: «70% респондентів висловили фінансову тривогу, пов'язану з кредитними зобов'язаннями».

Створення високоякісних транскрипцій якісних даних

Якісні дані — це «жива» інформація: слова, емоції, розмови. Але для того, щоб наука могла їх проаналізувати, ці дані потрібно перетворити на зручний для роботи формат. Найчастіше цим «містком» стає транскрипція.

Що таке транскрипція та навіщо вона потрібна?

Транскрипція — це процес перетворення аудіо- або відеозапису у письмовий текст.

Чому не можна просто залишити аудіофайли?

Пошук: У тексті можна знайти ключове слово за секунду, в аудіо — ні.
Аналіз: Спеціальне програмне забезпечення для дослідників (NVivo, MAXQDA) працює переважно з текстом.
Анонімізація: У тексті набагато простіше приховати справжнє ім'я чи назву установи, ніж запікувати голос у записі.

Важливо: Якщо ви плануєте передати дані іншим дослідникам або завантажити їх у репозиторій КПІ, стандарт вимагає повної транскрипції. Скорочені нотатки не вважаються повноцінними науковими даними.

Процес створення якісної стенограми (за Kuckartz, 2014)

Щоб стенограма була «науковою», а не просто переказом, варто дотримуватися чітких кроків:

1. Вибір правил транскрибування

Перед початком вирішіть, наскільки детальною буде стенограма:

Дослівна (Verbatim): Записується кожне слово, включаючи «е-е-е», «ну», повтори та паузи. Це важливо для психологів або лінгвістів.
Відредагована (Intelligent Verbatim): Граматичні помилки та слова-паразити прибираються, щоб текст було легше читати. Це підходить для соціологічних чи маркетингових досліджень.

2. Використання позначок (Тегування)

У тексті важливо фіксувати не лише слова, а й контекст:

[сміх], [пауза 5 сек], [перебиває].
Чітке розділення спікерів: Інтерв'юер:, Респондент 1:.

3. Етап перевірки (Proofreading)

Після завершення друку обов'язково потрібно:

Прослухати запис ще раз, слідкуючи за текстом.
Виправити пропуски або невірно почуті слова.
Перевірити правильність написання термінів (особливо актуально для технічних спеціальностей КПІ).

Поради для дослідників: як полегшити собі життя?

Автоматизація + Людина: Сьогодні існують сервіси на базі ШІ (наприклад, Otter.ai, Good Tape або вбудовані функції Word), які роблять чорнову роботу. Але пам'ятайте: жоден ШІ не зробить ідеальну наукову стенограму. Перевірка людиною є обов'язковою.
Тайм-коди: Ставте позначки часу (наприклад, кожні 2-5 хвилин). Це допоможе швидко повернутися до потрібного моменту в оригінальному аудіо, якщо виникнуть сумніви.
Безпека: Якщо ви використовуєте хмарні сервіси для транскрибування, переконайтеся, що це не порушує етичну згоду (чи дозволив учасник завантажувати свій голос на сторонні сервери?).

Додатково
Існує кілька основних правил та кроків у процесі створення та перевірки високоякісної стенограми з аудіо/відео (Kuckartz, 2014)

Джерело

Додатково:

Drawing showing the design for the Youths progressive recorder, a mechanical handwriting copying machine.

Transcribing Handwritten Text with Python and Microsoft Azure Computer Vision

https://programminghistorian.org/en/lessons/transcribing-handwritten-text-with-python-and-azure

Цілісність даних під час введення

Цілісність даних — це «здоров’я» вашого дослідження. Якщо дані пошкоджені, неповні або змінені без вашого відома, будь-які висновки (навіть найгеніальніші) втрачають сенс.
Що таке цілісність та автентичність?
Це два боки однієї медалі:
Цілісність (Data Integrity): Гарантія того, що дані є точними (немає помилок), узгодженими (не суперечать один одному) та повними (нічого не зникло).
Автентичність (Authenticity): Доказ того, що дані — справжні. Це підтвердження того, що вони походять саме від того джерела, яке вказано, і не були підмінені.
Приклад: Якщо ви вимірюєте температуру в лабораторії КПІ, цілісність — це впевненість, що цифра «36.6» не перетворилася на «3.66» через збій програми. Автентичність — це доказ, що це дані саме з вашого датчика, а не випадкові цифри з інтернету.
Чому цілісність завжди під загрозою?
Як тільки ви починаєте працювати з даними, вони стають вразливими. Раніше дані проходили три чіткі етапи: збір → введення → перевірка. Сьогодні ці етапи часто зливаються в один через автоматизацію.
Автоматизація: Нові можливості — нові проблеми
Перехід від ручного введення до автоматизованого (скрипти, датчики, онлайн-опитування) змінив характер помилок:
1. Епоха ручного введення (Старий підхід)
Типові помилки: Друкарські огріхи (опечатки), пропуск рядка, переплутані стовпці.
Як виявляли: Подвійне введення даних двома різними людьми та порівняння результатів.
2. Епоха автоматизації (Сучасний підхід)
Автоматизація прибирає людський фактор (опечатки), але додає технологічні ризики:
Систематичні зсуви: Якщо в коді вашої анкети (скрипті) є маленька помилка, вона спотворить не одну відповідь, а всі 1000 відповідей однаковим чином.
Приклад: Ви проводите комп'ютерне інтерв'ю, і через помилку в логіці програми питання про дохід пропускається для всіх жінок. Це систематична помилка, яка робить дослідження нерелевантним.
Як захистити цілісність у цифрову епоху?
Оскільки помилки стали «розумнішими» та масштабнішими, методи перевірки теж мають змінитися:
Технічні перевірки (Validation): Встановлення правил на рівні софту. Наприклад, поле «Вік» не може приймати значення «200» або «-5».
Контрольні суми (Checksums): Спеціальні цифрові відбитки файлів. Якщо у файлі зміниться хоча б одна кома, контрольна сума стане іншою, і ви дізнаєтесь про пошкодження.
Логування (Audit Trails): Програма має записувати: хто, коли і яку зміну вніс у базу даних. Це дозволяє відкотитися до «автентичного» стану, якщо щось пішло не так.
Тестування сценаріїв: Перед запуском автоматизованого збору даних (наприклад, бота для збору даних у Telegram), його треба протестувати на «краш-тестах», щоб виявити приховані баги в логіці.
Висновки для дослідника: Цілісність — це не статичний стан, а процес. Автоматизація — це чудово, але вона потребує «цифрового нагляду». Помилка в одному рядку коду сьогодні може коштувати вам цілого року досліджень.

Мінімізація помилок під час введення даних опитування

Нижче наведено короткий виклад рекомендацій щодо мінімізації помилок під час введення даних опитувань (Groves et al., 2004; ICPSR , 2012; UK Data Service).

Перевірте повноту записів

Зменште навантаження ручного введення даних

Мінімізуйте кількість кроків

Введіть дані двічі

Виконайте поглиблену перевірку вибраних записів

Виконайте логічну перевірку та перевірку узгодженості

Автоматизуйте перевірки, коли це можливо

Організація якісних даних

Якісні файли даних виникають з багатьох різних типів дослідницьких матеріалів. Такі файли даних – це тексти (транскрибовані інтерв'ю або сесії фокус-груп, різні типи письмових текстів, такі як газетні та журнальні матеріали, щоденники тощо) або фотографії, аудіофайли (записи мовлення) або відеофайли. На відміну від кількісних даних, якісні дані не представлені у вигляді змінних, чисел, матриць даних тощо. Однак їх також необхідно організувати та зберігати у точній формі, щоб ними було легко керувати та вони були доступні для використання.

Коли ви працюєте з великим обсягом наукової інформації, особливо якісної (тексти, інтерв'ю, фото), хаос — ваш головний ворог. Щоб дані не перетворилися на «цифрове звалище», дослідники використовують два основні підходи до їх організації.

Розберімося, як це працює, на простих прикладах.

1. Файлово-ієрархічна структура («Один об’єкт — один файл»)

Це найбільш природний спосіб організації. Ви створюєте окремий файл для кожної події збору даних. Це дозволяє легко знайти конкретний запис та забезпечує цілісність даних.

Як це виглядає:

Інтерв’ю: Кожна розмова з респондентом — це окремий текстовий файл (interview_01.docx).
Медіа: Кожне фото чи аудіозапис — окремий файл (photo_participant_A.jpg, audio_session_5.mp3).

Ці файли потім групуються в логічні папки. Наприклад:

Проєкт_КПІ / Дані / Інтерв'ю / Жовтень_2024 / ...

2. Матрична структура (Таблична організація)

Іноді для аналізу зручніше «розрізати» дані на дрібні фрагменти та зібрати їх у єдину таблицю (матрицю). Це дозволяє порівнювати різні джерела між собою в одному вікні.

Як це працює:

Ви створюєте прямокутну матрицю (наприклад, в Excel або в спеціальному софті як NVivo), де:

Рядок: Окремий запис (уривок із газети, запис у щоденнику, цитата з інтерв'ю).
Стовпці: Додаткові дані про цей уривок (метадані) та аналітичні мітки (кодування).

Приклад матриці для аналізу газетних статей:

Текстовий уривок (цитата)	Джерело (газета)	Дата публікації	Код (тема)	Тон (позитив/негатив)
"Новий закон змінить систему..."	Голос України	12.02.2024	Законодавство	Нейтральний
"Студенти КПІ розробили..."	КПІ Телеком	15.02.2024	Інновації	Позитивний

Який метод обрати?

Оберіть файлову структуру, якщо вам важливо зберегти контекст цілої події (наприклад, важливо прочитати все інтерв'ю від початку до кінця).
Оберіть матричну структуру, якщо ви шукаєте спільні теми у сотнях різних джерел (наприклад, як різні ЗМІ висвітлювали одну й ту саму подію).

Порада для дослідника: Навіть якщо ви використовуєте матрицю, завжди зберігайте «сирі» вихідні файли в окремих папках. Це золотий стандарт безпеки та відтворюваності даних.

Сторінки