Відсутні значення — це не просто «порожні місця» в таблиці, а важлива аналітична інформація. Простими словами, ви повинні пояснити комп'ютеру, чому у клітинці немає даних. Якщо ви просто залишите її пустою, статистична програма може сприйняти це як збій або помилку, що викривить результати всього дослідження.
Ось логічний розбір того, як професійно працювати з "дірками" в даних.
1. Чому дані можуть бути відсутні?
Важливо розрізняти причини, адже вони мають різну наукову вагу:
Змінна не застосовується (Not Applicable): Наприклад, ви запитали: "Скільки пального споживає ваше авто?", а респондент відповів раніше, що в нього немає машини. Це не помилка, а логічний пропуск.
Респондент не знає (Don't Know): Людина готова відповідати, але не володіє інформацією (наприклад, про точний бюджет університету).
Відмова від відповіді (Refusal): Питання було занадто чутливим (наприклад, про розмір зарплати або політичні погляди).
Технічна помилка (System Missing): Сторінка анкети склеїлася, зник інтернет або датчик вийшов з ладу.
2. Система "магічних чисел" (Кодування)
Щоб програма відрізняла реальну відповідь від пропуску, дослідники використовують спеціальні коди. Головне правило: код не повинен збігатися з реальною відповіддю.
Приклади правильного кодування:
Нуль (0) — це не пропуск! Ніколи не використовуйте
0для позначення відсутності даних, якщо відповіддю може бути число (дохід, кількість дітей, температура).Від'ємні числа: Часто використовують
-9(немає відповіді) або-8(не застосовується). Це зручно, бо реальні значення в багатьох тестах лише додатні.Крайні значення (9, 99, 999): Якщо ваша шкала від 1 до 5, то
9може бути кодом пропуску. Якщо шкала від 1 до 80 (вік), то кодом пропуску має бути99або999.
3. Приклад для бази даних Університету
Уявіть, що ви проводите опитування про використання наукової бази даних.
| Респондент | Скільки годин на тиждень працюєте в базі? (Валідне значення: 0-168) | Чому пропуск? (Для документації) | Код у файлі даних |
| Студент А | 5 годин | — | 5 |
| Студент Б | Не має доступу до бази | Не застосовується | -8 |
| Студент В | "Не рахував, не знаю" | Не знає | -7 |
| Студент Г | Пропустив запитання | Відмова/пропуск | -9 |
4. Обмеження програмного забезпечення
Пам'ятайте, що такі програми як SPSS або Stata мають спеціальні інструменти для "оголошення" цих кодів як відсутніх (User-defined missing values).
Ви кажете програмі: "Число -9 — це не мінус дев'ять годин роботи, це просто відсутність даних".
Після цього програма автоматично виключить ці кейси з розрахунку середнього значення, щоб вони не псували вам статистику.
Поради експерта:
Будьте послідовними: Використовуйте однакові коди (наприклад, завжди
-9для відмови) у всій базі даних.Документуйте: Обов'язково вкажіть у своєму Codebook, що означає кожне "магічне число".
Перевіряйте формат: Якщо стовпець налаштований лише для однієї цифри, ви не зможете вписати туди
99.
Немає коментарів:
Дописати коментар