DataSteward@LibraryKPI

2026/02/18

Короткострокова обробка даних: формати файлів для зручності роботи

Вибір формату файлу залежить від фази вашого дослідження. Варіанти короткострокової обробки даних можуть відрізнятися від варіантів довгострокового зберігання даних.

З міркувань короткострокової працездатності доцільно вибрати формат файлу, який пов'язаний з конкретним програмним забезпеченням, яке ви плануєте використовувати для аналізу даних. Зазвичай найкращим рішенням є дотримання стандартів та звичаїв конкретної дисципліни. Однак слід враховувати, наскільки поширені ці стандарти та якою мірою вони дозволять обробляти дані не лише колегами у вашій дисципліні.

Власні формати файлів належать певній компанії та захищені авторським правом. Їхні специфікації зазвичай не є загальнодоступними, а їхній майбутній розвиток залежить від рішень та ситуації їхнього власника. Таким чином, ризик застаріння є високим. Однак деякі власницькі формати, такі як Rich Text Format (*.rtf), MP3, MPEG, JPG, MS Excel (*.xls), SPSS (*.sav, *.por), STATA (*.dta), широко використовуються, і можна припустити, що вони будуть корисними протягом розумного часу.

Дізнайтеся більше про відповідні формати файлів для короткострокової обробки даних

Вагові коефіцієнти

Вагові коефіцієнти — це інструмент «справедливості» у статистиці. Простими словами: якщо ви опитали 100 студентів КПІ, але серед них виявилося 90 хлопців і лише 10 дівчат (хоча на факультеті їх 50/50), результати будуть викривленими. Зважування дозволяє надати голосам дівчат більшої "ваги", щоб вибірка стала схожою на реальність.

1. Навіщо потрібні ваги: Компенсація реальності

У ідеальному світі вибірка точно копіює структуру населення. У реальності ж дослідники часто стикаються з упередженістю вибірки: одні групи людей охочіше йдуть на контакт, інші — ігнорують опитування.

Зважування вирішує чотири завдання:

Балансування: Коригує відхилення від характеристик реальної популяції (наприклад, за статтю, віком чи регіоном).
Врахування дизайну: Якщо ви навмисно опитали більше людей у маленькому місті, щоб почути їхню думку, вага допоможе повернути їхню частку до реальних масштабів при підрахунку загального результату.
Компенсація невідповідей: Якщо певна група (наприклад, молодь) масово проігнорувала опитування, вага «підсилює» голоси тих небагатьох молодих людей, які все ж відповіли.
Математична корекція: Кожному анкетному випадку присвоюється коефіцієнт (наприклад, 1.5 або 0.8), на який множаться всі відповіді цього респондента.

2. Типи ваг та їхнє призначення (на прикладі ESS)

Різні ситуації вимагають різних "окулярів" для аналізу даних. Європейське соціальне опитування (ESS) виділяє три основні типи:

Дизайн-вага (Design weight): Виправляє помилки, які виникли ще на етапі планування. Якщо у мешканця великого будинку було менше шансів потрапити у вибірку, ніж у мешканця приватного сектора, ця вага це виправить.
Постстратифікаційна вага: Використовується вже після збору даних. Вона підтягує вибірку до офіційної статистики (наприклад, даних перепису населення).
Вага чисельності населення: Критично важлива при порівнянні країн. Без неї голос одного респондента з маленької Естонії важив би стільки ж, скільки голос респондента з величезної Німеччини, що неправильно для загальноєвропейських висновків.

Важливо про значення ваги:

Якщо вага = 1, дані ідеальні та не коригуються.
Бажано, щоб більшість ваг були близькими до 1. Дуже високі або низькі значення свідчать про те, що вибірка була неякісною, або ви занадто сильно її «підганяєте».

3. Практичне застосування: Коли і що використовувати

Вибір ваги залежить від вашого дослідницького запитання. Подивіться на логіку використання ваг у міжнародних дослідженнях:

Масштаб аналізу	Що аналізуємо	Яку вагу застосувати?
Одна країна	Явка виборців лише в Україні	Дизайн-вага або Постстратифікаційна
Порівняння країн	Порівняти явку в Україні та Польщі (окремо)	Дизайн-вага або Постстратифікаційна
Об'єднання країн	Загальна явка виборців у всьому ЄС	Дизайн + Постстратифікаційна + Вага населення

Порада для дослідника: Якщо ви використовуєте чужий файл даних (наприклад, з архіву КПІ чи міжнародного репозиторію) і бачите там змінну "weight" — ніколи не вмикайте її наосліп. Спершу знайдіть у документації опис її розрахунку. Використання неправильної ваги може призвести до хибних наукових висновків.

https://dmeg.cessda.eu/Data-Management-Expert-Guide/3.-Process/Weights-of-survey-data

Що таке «дисперсія кодера»?

Коли над дослідженням працює не одна людина, а ціла команда (наприклад, декілька студентів чи аспірантів кафедри), виникає серйозна проблема: суб'єктивність.

Навіть якщо у вас є чітка інструкція, різні люди можуть розуміти її по-своєму. У науці це називають «дисперсією кодера» або «відхиленням кодера».

Уявіть, що ви аналізуєте відгуки студентів КПІ про нову систему реєстрації на курси. У вас є код «Складнощі з інтерфейсом».

Кодер А (досвідчений програміст) вважає, що «складно» — це лише коли сайт «падає».
Кодер Б (гуманітарій) вважає, що «складно» — це навіть якщо колір кнопки не подобається.

Результат: Ваша база даних перетворюється на вінегрет. Статистика буде показувати не реальну картину, а те, наскільки суворим або лояльним був той чи інший кодер. Це і є систематична помилка, яка псує все дослідження.

Чому це складно?

Кодування тексту — це не механічна робота, а когнітивний процес. Дослідник має «влізти в голову» респонденту, зрозуміти контекст, сарказм чи прихований зміст. Без підготовки кожен кодер додає до бази частинку свого світогляду, викривляючи оригінальну інформацію.

Як запобігти відхиленню? (Стратегія захисту даних)

Щоб ваше дослідження в КПІ було валідним, потрібно впровадити три кроки:

1. Спеціальне навчання (Training)

Кодери не повинні просто отримати список кодів. Вони мають пройти «тренування» на невеликій частині даних (наприклад, прокодувати 10 анкет разом), щоб узгодити спільне розуміння кожного терміну.

2. Пілотне тестування

Дайте всім кодерам один і той самий текст. Якщо вони закодували його по-різному — ваша інструкція (Codebook) погана. Її треба уточнити, поки всі не почнуть видавати однаковий результат.

3. Перевірка надійності (Inter-coder reliability)

Це математичний спосіб перевірити, чи можна довіряти вашій команді. Зазвичай використовується Коефіцієнт Каппа Коена.

Якщо Каппа > 0.8 — ваша команда працює як один злагоджений механізм.
Якщо Каппа < 0.6 — дані не можна використовувати для серйозного аналізу, кодерів треба переучувати.

Поради для дослідника

Регулярні збори: Раз на тиждень обговорюйте "спірні випадки". Це допомагає команді не «розпливатися» у своїх оцінках з часом.
Технічний контроль: Використовуйте софт (як-от NVivo), який автоматично порівнює роботу різних кодерів.

Висновок: Якість вашого дослідження залежить не від того, скільки людей ви опитали, а від того, наскільки однаково ваша команда обробила ці відповіді.

Відсутні значення

Відсутні значення — це не просто «порожні місця» в таблиці, а важлива аналітична інформація. Простими словами, ви повинні пояснити комп'ютеру, чому у клітинці немає даних. Якщо ви просто залишите її пустою, статистична програма може сприйняти це як збій або помилку, що викривить результати всього дослідження.

Ось логічний розбір того, як професійно працювати з "дірками" в даних.

1. Чому дані можуть бути відсутні?

Важливо розрізняти причини, адже вони мають різну наукову вагу:

Змінна не застосовується (Not Applicable): Наприклад, ви запитали: "Скільки пального споживає ваше авто?", а респондент відповів раніше, що в нього немає машини. Це не помилка, а логічний пропуск.
Респондент не знає (Don't Know): Людина готова відповідати, але не володіє інформацією (наприклад, про точний бюджет університету).
Відмова від відповіді (Refusal): Питання було занадто чутливим (наприклад, про розмір зарплати або політичні погляди).
Технічна помилка (System Missing): Сторінка анкети склеїлася, зник інтернет або датчик вийшов з ладу.

2. Система "магічних чисел" (Кодування)

Щоб програма відрізняла реальну відповідь від пропуску, дослідники використовують спеціальні коди. Головне правило: код не повинен збігатися з реальною відповіддю.

Приклади правильного кодування:

Нуль (0) — це не пропуск! Ніколи не використовуйте 0 для позначення відсутності даних, якщо відповіддю може бути число (дохід, кількість дітей, температура).
Від'ємні числа: Часто використовують -9 (немає відповіді) або -8 (не застосовується). Це зручно, бо реальні значення в багатьох тестах лише додатні.
Крайні значення (9, 99, 999): Якщо ваша шкала від 1 до 5, то 9 може бути кодом пропуску. Якщо шкала від 1 до 80 (вік), то кодом пропуску має бути 99 або 999.

3. Приклад для бази даних Університету

Уявіть, що ви проводите опитування про використання наукової бази даних.

Респондент	Скільки годин на тиждень працюєте в базі? (Валідне значення: 0-168)	Чому пропуск? (Для документації)	Код у файлі даних
Студент А	5 годин	—	5
Студент Б	Не має доступу до бази	Не застосовується	-8
Студент В	"Не рахував, не знаю"	Не знає	-7
Студент Г	Пропустив запитання	Відмова/пропуск	-9

4. Обмеження програмного забезпечення

Пам'ятайте, що такі програми як SPSS або Stata мають спеціальні інструменти для "оголошення" цих кодів як відсутніх (User-defined missing values).

Ви кажете програмі: "Число -9 — це не мінус дев'ять годин роботи, це просто відсутність даних".
Після цього програма автоматично виключить ці кейси з розрахунку середнього значення, щоб вони не псували вам статистику.

Поради експерта:

Будьте послідовними: Використовуйте однакові коди (наприклад, завжди -9 для відмови) у всій базі даних.
Документуйте: Обов'язково вкажіть у своєму Codebook, що означає кожне "магічне число".
Перевіряйте формат: Якщо стовпець налаштований лише для однієї цифри, ви не зможете вписати туди 99.

Codebook: приклад оформлення

Ось приклад того, як має виглядати професійно оформлений Codebook (Книга кодів) для вашого дослідження. Такий документ зазвичай створюється у форматі Excel або як окремий додаток до плану управління даними (DMP).

Codebook: Дослідження цифрової грамотності студентів КПІ

Дата останнього оновлення: 18.02.2026

Відповідальний дослідник: [Ваше Прізвище]

Файл даних, до якого відноситься: survey_results_v1.csv

1. Загальна інформація про файл даних

Кількість спостережень (рядків): 150
Кількість змінних (стовпців): 8
Формат файлу: CSV (UTF-8)
Пропущене значення: За замовчуванням використовується -9 (для всіх типів змінних).

2. Специфікація змінних

Ім'я змінної (Variable Name)	Мітка (Label / Питання)	Тип даних	Коди та значення (Value Labels)	Примітки
RESP_ID	Ідентифікатор респондента	Числовий	Порядковий номер (001-150)	Унікальний ключ, анонімізовано
FACULTY	Факультет респондента	Категоріальний	1 = ФІОТ 2 = ІПСА 3 = ФБМІ 4 = Інший	Якщо 4, див. змінну `FAC_OTHER`
YEAR_STUDY	Курс навчання	Числовий	1, 2, 3, 4, 5 (магістр 1), 6 (магістр 2)	Тільки цілі числа
AI_USAGE	Як часто ви використовуєте ШІ у навчанні?	Категоріальний (шкала Лікерта)	1 = Ніколи 2 = Рідко 3 = Іноді 4 = Часто 5 = Щодня -9 = Відмова	Обов'язкове питання
AI_TOOL	Якому інструменту ШІ ви надаєте перевагу?	Текстовий	Відкрита відповідь (до 50 симв.)	Вимагає якісного кодування пізніше
SKILL_SCORE	Самооцінка навичок програмування	Інтервальний	0...100 (слайдер)	0 - зовсім не вмію, 100 - експерт
CONSENT	Надана згода на обробку ПД	Бінарний	1 = Так 0 = Ні	Якщо 0, дані мають бути видалені

3. Схема кодування відсутніх значень (Missing Values)

Щоб статистичні програми не плутали відсутність відповіді з нулем, ми використовуємо спеціальні коди:

-9: Респондент свідомо пропустив питання.
-8: Питання не було показане через логіку анкети (наприклад, якщо вказав, що не використовує ШІ).
-7: Технічна помилка під час запису даних.

Поради щодо оформлення:

Назви змінних (Variable Names): Робіть їх короткими, латиницею, без пробілів (наприклад, USE_FREQ замість Як часто ви використовуєте). Це стандарт для SPSS та мови R.
Мітки (Labels): Тут пишіть повний текст питання з анкети. Це допоможе вам через рік згадати точне формулювання.
Ексклюзивність: Переконайтеся, що коди не дублюються (наприклад, не можна призначити 1 одночасно для "Так" і для "Чоловік" у межах однієї змінної).

Як правильно фіксувати значення кодів?

Документація — це «перекладний словник» вашого дослідження. Без неї через кілька місяців ви (або ваші колеги) дивуватиметеся, що означають цифри в таблиці та як інтерпретувати результати.

Ось логічне пояснення того, як правильно фіксувати значення кодів та яких золотих правил варто дотримуватися.

Де зберігати документацію?

Ваша мета — зробити так, щоб кожен код мав свою мітку (label).

Внутрішня документація (програмна):
Професійні пакети (SPSS, SAS, STATA, R) дозволяють «вшити» значення прямо у файл даних.
- Як це працює: У стовпці Gender замість цифри 1 програма показуватиме слово "Жінка", але для розрахунків використовуватиме число.
Зовнішня документація (Метадані):
Якщо ви працюєте в Excel або форматі .csv, де неможливо призначити мітки, ви зобов'язані створити окремий файл (Codebook). Це документ, де розписано: Змінна X: 1 = Так, 2 = Ні, 9 = Немає відповіді.

Правило	Що це означає на практиці?
Ідентифікаційні змінні	Кожен рядок повинен мати унікальний ID (наприклад, `ID_001`). Ніколи не використовуйте ПІБ як ідентифікатор.
Ексклюзивність категорій	Варіанти відповідей не повинні перетинатися. Людина не може одночасно належати до категорій "18-25 років" та "25-30 років" (правильно: "18-25" та "26-30").
Збереження оригіналу	Не об’єднуйте дані занадто рано. Краще записати точний вік "22", а потім згрупувати його в "Молодь", ніж одразу записати "Молодь" і назавжди втратити точну цифру.
Документування схем	Кожна зміна в кодуванні має бути записана. Якщо ви змінили код `9` на `0` для пропущених значень — зафіксуйте це.
Ризик розголошення	Перевірте відкриті відповіді. Якщо респондент написав: "Я працюю на кафедрі АТМ в корпусі 19", це може його видалити. Такі дані треба видаляти або узагальнювати.
Перевірка кодування	Зробіть вибіркову перевірку (наприклад, 10% бази), щоб переконатися, що дані введено без помилок.
Ієрархія категорій	Розрізняйте основні категорії (наприклад, "Транспорт") та підкатегорії ("Метро", "Автобус"). Це дозволяє аналізувати дані на різних рівнях деталізації.

Чому це важливо для дослідника КПІ?

Уявіть, що ви збираєте дані про енергоефективність корпусів університету. Якщо ви просто запишете цифри 1, 2, 3 для типів опалення і не задокументуєте це, то через рік, коли прийде час писати дисертацію або статтю в Scopus, ви не зможете згадати, чи 1 — це центральне опалення, чи індивідуальна котельня.

Порада: Завжди створюйте файл README.txt або Codebook.xlsx у папці з даними. Це вбереже вас від адміністративних помилок та спростить проходження етичної експертизи.

Кількісне кодування

Кількісне кодування — це «переклад» людських відповідей на мову чисел. Оскільки статистичні програми (SPSS, Stata, R) не вміють аналізувати зміст речень, ми маємо перетворити кожну категорію на цифру.

Ось як це працює на практиці, від простих анкет до складних текстів.

1. Що таке кількісне кодування?

Це процес присвоєння числа певній групі даних. Наприклад, замість того, щоб писати в таблиці «Київ», «Харків», «Львів», ми записуємо 1, 2, 3.

Мета: Полегшити статистичні розрахунки (обчислення середнього, кореляції тощо).

2. Закриті питання: Швидкість та автоматизація

У закритих питаннях (де є готовий перелік відповідей) кодування зазвичай продумане ще на етапі створення анкети.

Приклад у паперовій анкеті:

Як часто ви користуєтесь бібліотекою КПІ?
(1) Щодня
(2) Раз на тиждень
(3) Раз на місяць
(4) Ніколи

Кодувальник просто вносить цифру у базу даних. У сучасних системах (CAPI — на планшетах, CATI — по телефону) цей процес автоматизований: як тільки респондент обирає варіант, система миттєво зберігає число 1, 2 або 3.

3. Відкриті питання: Від тексту до цифри

Тут процес складніший. Якщо ви запитали: "Що вам найбільше подобається в навчанні?", ви отримаєте сотні різних речень. Щоб їх статистично обробити, потрібно:

Створити структуру кодування: Прочитати частину відповідей і виділити категорії.
Присвоїти коди: Наприклад:
- 100 — Якість викладання
- 200 — Студентське співтовариство
- 300 — Сучасні лабораторії
Процедура (якщо працює команда): Потрібна чітка інструкція, щоб два кодувальники не присвоїли одну і ту саму відповідь до різних категорій.

4. Робота з "відсутніми даними"

Критично важливо закодувати випадки, коли відповіді немає. В статистиці не можна просто залишити пусту клітинку.

Приклад: * -1 — Респондент відмовився відповідати.
- -2 — Питання не було поставлене (наприклад, через логічний перехід в анкеті).
- -3 — Відповідь неможливо прочитати (у паперових анкетах).

Приклад зведеної кодувальної книги (Codebook)

Назва змінної	Питання анкети	Коди
GENDER	Стать респондента	1=Чоловік; 2=Жінка; 9=Відмова
SATISFACTION	Чи задоволені ви курсом?	1=Ні; 2=Скоріше ні; 3=Важко сказати; 4=Скоріше так; 5=Так
FACULTY_CODE	Факультет	1=ФІОТ; 2=ІПСА; 3=ФБМІ; 4=Теплоенергетичний

Поради для дослідників КПІ:

Уникайте "сирих" назв: Завжди ведіть окремий файл (Codebook), де розписано, що означає кожна цифра. Через рік ви можете забути, чи була 1 — це «Так» чи «Чоловік».
Валідація: Якщо ви вводите дані вручну, використовуйте "подвійне введення" (дві людини вводять одне і те саме) для виявлення помилок.

Сторінки