2026/02/18

Відсутні значення

Відсутні значення — це не просто «порожні місця» в таблиці, а важлива аналітична інформація. Простими словами, ви повинні пояснити комп'ютеру, чому у клітинці немає даних. Якщо ви просто залишите її пустою, статистична програма може сприйняти це як збій або помилку, що викривить результати всього дослідження.

Ось логічний розбір того, як професійно працювати з "дірками" в даних.


1. Чому дані можуть бути відсутні?

Важливо розрізняти причини, адже вони мають різну наукову вагу:

  • Змінна не застосовується (Not Applicable): Наприклад, ви запитали: "Скільки пального споживає ваше авто?", а респондент відповів раніше, що в нього немає машини. Це не помилка, а логічний пропуск.

  • Респондент не знає (Don't Know): Людина готова відповідати, але не володіє інформацією (наприклад, про точний бюджет університету).

  • Відмова від відповіді (Refusal): Питання було занадто чутливим (наприклад, про розмір зарплати або політичні погляди).

  • Технічна помилка (System Missing): Сторінка анкети склеїлася, зник інтернет або датчик вийшов з ладу.


2. Система "магічних чисел" (Кодування)

Щоб програма відрізняла реальну відповідь від пропуску, дослідники використовують спеціальні коди. Головне правило: код не повинен збігатися з реальною відповіддю.

Приклади правильного кодування:

  • Нуль (0) — це не пропуск! Ніколи не використовуйте 0 для позначення відсутності даних, якщо відповіддю може бути число (дохід, кількість дітей, температура).

  • Від'ємні числа: Часто використовують -9 (немає відповіді) або -8 (не застосовується). Це зручно, бо реальні значення в багатьох тестах лише додатні.

  • Крайні значення (9, 99, 999): Якщо ваша шкала від 1 до 5, то 9 може бути кодом пропуску. Якщо шкала від 1 до 80 (вік), то кодом пропуску має бути 99 або 999.


3. Приклад для бази даних Університету

Уявіть, що ви проводите опитування про використання наукової бази даних.

РеспондентСкільки годин на тиждень працюєте в базі? (Валідне значення: 0-168)Чому пропуск? (Для документації)Код у файлі даних
Студент А5 годин5
Студент БНе має доступу до базиНе застосовується-8
Студент В"Не рахував, не знаю"Не знає-7
Студент ГПропустив запитанняВідмова/пропуск-9

4. Обмеження програмного забезпечення

Пам'ятайте, що такі програми як SPSS або Stata мають спеціальні інструменти для "оголошення" цих кодів як відсутніх (User-defined missing values).

  • Ви кажете програмі: "Число -9 — це не мінус дев'ять годин роботи, це просто відсутність даних".

  • Після цього програма автоматично виключить ці кейси з розрахунку середнього значення, щоб вони не псували вам статистику.


Поради експерта:

  1. Будьте послідовними: Використовуйте однакові коди (наприклад, завжди -9 для відмови) у всій базі даних.

  2. Документуйте: Обов'язково вкажіть у своєму Codebook, що означає кожне "магічне число".

  3. Перевіряйте формат: Якщо стовпець налаштований лише для однієї цифри, ви не зможете вписати туди 99.

Немає коментарів:

Дописати коментар