Показ дописів із міткою збір даних. Показати всі дописи
Показ дописів із міткою збір даних. Показати всі дописи

2026/02/18

Цілісність даних під час введення

Цілісність даних — це «здоров’я» вашого дослідження. Якщо дані пошкоджені, неповні або змінені без вашого відома, будь-які висновки (навіть найгеніальніші) втрачають сенс.

Що таке цілісність та автентичність?

Це два боки однієї медалі:

  • Цілісність (Data Integrity): Гарантія того, що дані є точними (немає помилок), узгодженими (не суперечать один одному) та повними (нічого не зникло).

  • Автентичність (Authenticity): Доказ того, що дані — справжні. Це підтвердження того, що вони походять саме від того джерела, яке вказано, і не були підмінені.

Приклад: Якщо ви вимірюєте температуру в лабораторії КПІ, цілісність — це впевненість, що цифра «36.6» не перетворилася на «3.66» через збій програми. Автентичність — це доказ, що це дані саме з вашого датчика, а не випадкові цифри з інтернету.

Чому цілісність завжди під загрозою?

Як тільки ви починаєте працювати з даними, вони стають вразливими. Раніше дані проходили три чіткі етапи: збір → введення → перевірка. Сьогодні ці етапи часто зливаються в один через автоматизацію.

Автоматизація: Нові можливості — нові проблеми

Перехід від ручного введення до автоматизованого (скрипти, датчики, онлайн-опитування) змінив характер помилок:

1. Епоха ручного введення (Старий підхід)

  • Типові помилки: Друкарські огріхи (опечатки), пропуск рядка, переплутані стовпці.

  • Як виявляли: Подвійне введення даних двома різними людьми та порівняння результатів.

2. Епоха автоматизації (Сучасний підхід)

Автоматизація прибирає людський фактор (опечатки), але додає технологічні ризики:

  • Систематичні зсуви: Якщо в коді вашої анкети (скрипті) є маленька помилка, вона спотворить не одну відповідь, а всі 1000 відповідей однаковим чином.

  • Приклад: Ви проводите комп'ютерне інтерв'ю, і через помилку в логіці програми питання про дохід пропускається для всіх жінок. Це систематична помилка, яка робить дослідження нерелевантним.

Як захистити цілісність у цифрову епоху?

Оскільки помилки стали «розумнішими» та масштабнішими, методи перевірки теж мають змінитися:

  1. Технічні перевірки (Validation): Встановлення правил на рівні софту. Наприклад, поле «Вік» не може приймати значення «200» або «-5».

  2. Контрольні суми (Checksums): Спеціальні цифрові відбитки файлів. Якщо у файлі зміниться хоча б одна кома, контрольна сума стане іншою, і ви дізнаєтесь про пошкодження.

  3. Логування (Audit Trails): Програма має записувати: хто, коли і яку зміну вніс у базу даних. Це дозволяє відкотитися до «автентичного» стану, якщо щось пішло не так.

  4. Тестування сценаріїв: Перед запуском автоматизованого збору даних (наприклад, бота для збору даних у Telegram), його треба протестувати на «краш-тестах», щоб виявити приховані баги в логіці.


Висновки для дослідника: Цілісність — це не статичний стан, а процес. Автоматизація — це чудово, але вона потребує «цифрового нагляду». Помилка в одному рядку коду сьогодні може коштувати вам цілого року досліджень.


Мінімізація помилок під час введення даних опитування

Нижче наведено короткий виклад рекомендацій щодо мінімізації помилок під час введення даних опитувань (Groves et al., 2004; ICPSR , 2012; UK Data Service).

Перевірте повноту записів

Зменште навантаження ручного введення даних

Мінімізуйте кількість кроків

Введіть дані двічі

Виконайте поглиблену перевірку вибраних записів

Виконайте логічну перевірку та перевірку узгодженості

Автоматизуйте перевірки, коли це можливо

2026/02/02

2-й етап життєвого циклу даних : збір даних

Збір даних – це процес збору та імпорту інформації з різних джерел. 

Первинні дані — це дані, які збираються дослідником для визначеної цілі (наприклад, для відповіді на певні дослідницькі питання).

Дослідники можуть створювати дані за допомогою власної генерації чи повторного використання:


Первинні дані 

(щойно згенеровані) 


Вторинні дані 

(повторно використані дані)

  • Тематичні дослідження

  • Експеримент

  • Інтерв'ю

  • Спостереження

  • Моделювання

  • Опитування

  • Репозитарії даних

  • Література та інші публікації

  • Усна історія

  • Статистика та джерела даних



На етапі збору даних дослідницька група використовує найкращі практики керування даними (див. Мітки):
  • організацію файлів:
    • шаблон імені файлів, 
    • домовленості про правила іменування,
    • політику версій файлів, 
    • систему папок і файлів,
  • стратегії резервного копіювання та зберігання,
  • засоби контролю доступу,
  • безпеку даних тощо.


2026/01/23

Джерела даних

Хочете знайти набори даних з певної теми?

Ось список джерел, які допоможуть вам розпочати:

Мультидисциплінарні

  • data.europa.eu https://data.europa.eu/en
    надає доступ до понад мільйона відкритих даних з міжнародних, європейських, національних, регіональних та місцевих порталів даних.

  • Google Public Data https://datacommons.org/ надає публічні дані та прогнози від низки міжнародних установ, включаючи Світовий банк, ОЕСР, Євростат тощо. Дані можуть відображатися у вигляді лінійних графіків, діаграм поперечного перерізу, на картах тощо. 

  • Google Dataset Search  https://datasetsearch.research.google.com/ – зручний інструмент для початку пошуку наборів даних у вашій дисципліні, однак він не є вичерпним покажчиком наборів даних, доступних у сховищах.

  • UNdata   https://data..org/Default.aspx містить понад 60 мільйонів точок даних та охоплює широкий спектр статистичних тем, включаючи сільське господарство, злочинність, комунікації, допомогу в розвитку, освіту, енергетику, навколишнє середовище, фінанси, гендерну рівність, охорону здоров'я, ринок праці, виробництво, національні рахунки, населення та міграцію, науку і технології, туризм, транспорт і торгівлю.

  • World Bank Data Catalog https://datacatalog.worldbank.org/
    включає дані з платформ мікроданих, фінансових та енергетичних даних Світового банку, а також набори даних з каталогу відкритих даних.

Дані

  • Kaggle https://www.kaggle.com/datasets
    має близько 170 000 вільно доступних наборів даних для людей, які цікавляться наукою про дані та машинним навчанням.

  • UCI Machine Learning Repository https://archive.ics.uci.edu/ml/index.php
    пропонує понад 600 наборів даних для спільноти машинного навчання.

  • Yelp Dataset https://www.yelp.com/dataset
    містить майже 7 мільйонів відгуків на Yelp, а також зображення та атрибути бізнесу. Доступний у форматі JSON, використовуйте його, щоб навчати студентів базам даних, вивчати NLP або для зразків виробничих даних, поки ви вивчаєте, як створювати мобільні додатки.

Економіка

  • Federal Reserve Economic Data (FRED) https://fred.stlouisfed.org/
    створена та підтримується дослідницьким відділом Федерального резервного банку Сент-Луїса, являє собою онлайн-базу даних, що містить сотні тисяч часових рядів економічних даних з великої кількості національних, міжнародних, державних та приватних джерел.

  • International Labour Organization (ILO) https://ilostat.ilo.org/data/
    надає статистику праці від Організації Об'єднаних Націй, включаючи пропозицію робочої сили, умови праці, трудові відносини, а також бідність і нерівність.

  • International Monetary Fund (IMF) Data https://www.imf.org/en/Data
    публікує різноманітні дані часових рядів щодо кредитування, валютних курсів та інших економічних і фінансових показників.

  • OECD Statistics https://stats.oecd.org/
    містить дані та метадані для країн ОЕСР та окремих країн, що не є членами.

Здоров’я

  • DataMed https://datamed.org/
    містить понад 2 мільйони біомедичних та медичних наборів даних.

Статистика Всесвітньої організації охорони здоров'я (ВООЗ). Сайт надає доступ до понад 1000 показників з пріоритетних тем охорони здоров'я, включаючи смертність та захворювання, системи охорони здоров'я, стан навколишнього середовища, насильство та травми, рівність та інші.

Гуманітарні науки

Наука

  • Глобальний інформаційний фонд з біорізноманіття (GBIF)
    містить понад 70 000 наборів даних про біорізноманіття.

  • Earthdata від NASA
    одне з найбільших на планеті сховищ даних спостереження за Землею, яке допомагає краще зрозуміти зміну клімату, суворі погодні умови, морський лід та льодовики, небезпеки та катастрофи, здоров'я та якість повітря, екологію та водні ресурси.

  • Переглядач даних океану
    пропонує користувачам можливість переглядати та завантажувати низку просторових наборів даних, корисних для прийняття рішень щодо збереження, управління та відновлення морського та прибережного біорізноманіття.

Соціальні мережі