Показ дописів із міткою вторинні дані. Показати всі дописи
Показ дописів із міткою вторинні дані. Показати всі дописи

2026/02/10

Практичне управління: Ліцензування та обмін даними

Через велику кількість зацікавлених сторін, законів і політик, які можуть впливати на право власності на дані, дослідники можуть бути збентежені тим, хто насправді володіє даними, що може змусити їх стримано ділитися даними. Звертайтеся до спеціалістів із інформації та юристів на початку життєвого циклу дослідницьких даних, щоб визначитися, яка політика може вплинути на право власності на дані.

Особа, яка юридично володіє даними, має остаточний контроль над їх поширенням, збереженням та знищенням. Щоб цей процес був законним, використовуються спеціальні інструменти:

  • Інформормована згода: Документ, через який суб'єкт дозволяє досліднику використовувати свої дані.

  • Ліцензування: Дані можуть бути захищені ліцензіями (наприклад, Creative Commons), які дозволяють іншим використовувати їх за умови вказівки авторства або заборони комерційного використання.

  • Вторинне використання: Якщо ви використовуєте чужі дані, ви повинні посилатися на першоджерело. Публікувати чужі дані без дозволу або спеціальної ліцензії (наприклад, відкритої чи платної) заборонено.

Як повторний користувач даних ви можете підтвердити свої опубліковані дослідження, посилаючись на першоджерело даних у всіх статтях, презентаціях і будь-яких заявках на гранти, які базуються на даних. У більшості випадків ви не можете публікувати дані, які ви не збирали чи створювали, оскільки у вас немає на це законного права.

Винятками є дані, які отримали ліцензію власника даних на перерозподіл (наприклад, за ліцензією Creative Commons або іншою відкритою ліцензією) або в ситуаціях, коли ви заплатили власнику прав за дозвіл на перерозподіл частин набору даних (тобто це дозволено на умовах платної ліцензії).

  • Міжнародна співпраця: Закони різних країн щодо конфіденційності відрізняються, що може створювати складнощі в спільних проєктах. Важливо з’ясувати це до початку збору даних. Через складність законодавства (особливо при міжнародній співпраці), дослідникам варто звертатися до юристів або спеціалістів з інформації.

2026/02/05

Вторинні дані

Вторинні дані — це дані, зібрані для однієї цілі, які надаються для використання іншими особами для іншої цілі.

Чому вторинні дані — це круто?

Головна причина — масштаб. Як окремий дослідник або студент, ви навряд чи зможете опитати 50 000 людей у 10 країнах. У вас просто не вистачить грошей та часу. А великі організації (державні служби статистики, міжнародні фонди) мають для цього колосальні ресурси.

  • Вища якість: Дані від великих інституцій часто набагато точніші та професійніші, ніж ті, що ви зберете "на колінці".

  • Швидкість: Ви можете завантажити величезний масив інформації з інтернету за лічені хвилини, замість того, щоб збирати його місяцями.

У чому "пастка"? (Два головні мінуси)

1. "Це майже те, що мені треба"

Оскільки дані збирав хтось інший, вони навряд чи ідеально підходять під ваше запитання.

  • Ризик: Виникає велика спокуса "підтягнути за вуха" чужі цифри до своєї теорії. Ви починаєте вдавати, що ці дані вимірюють саме те, що вам потрібно, хоча насправді це не зовсім так. Ви не контролювали процес збору, тому маєте те, що маємо.

2. Довга "інструкція"

Хоча самі дані ви отримуєте миттєво, підготовка до роботи з ними займає купу часу.

  • Проблема: Ви не можете просто відкрити файл і почати рахувати. Вам потрібно "проковтнути" гігантські обсяги документації.

  • Ви повинні розібратися: як саме обирали людей для опитування? Які були фонові умови? Що означає кожен код у таблиці? Без цього розуміння ваші висновки будуть помилковими.

Отже, вторинні дані — це потужний інструмент, який дає вам доступ до ресурсів рівня цілих міністерств. Але це вимагає від вас чесності (чи дійсно ці дані підходять для моєї теми?) та терпіння (вивчити всі описи та методології, які йдуть у комплекті).

2026/02/02

2-й етап життєвого циклу даних : збір даних

Збір даних – це процес збору та імпорту інформації з різних джерел. 

Первинні дані — це дані, які збираються дослідником для визначеної цілі (наприклад, для відповіді на певні дослідницькі питання).

Дослідники можуть створювати дані за допомогою власної генерації чи повторного використання:


Первинні дані 

(щойно згенеровані) 


Вторинні дані 

(повторно використані дані)

  • Тематичні дослідження

  • Експеримент

  • Інтерв'ю

  • Спостереження

  • Моделювання

  • Опитування

  • Репозитарії даних

  • Література та інші публікації

  • Усна історія

  • Статистика та джерела даних



На етапі збору даних дослідницька група використовує найкращі практики керування даними (див. Мітки):
  • організацію файлів:
    • шаблон імені файлів, 
    • домовленості про правила іменування,
    • політику версій файлів, 
    • систему папок і файлів,
  • стратегії резервного копіювання та зберігання,
  • засоби контролю доступу,
  • безпеку даних тощо.


2026/01/23

Джерела даних

Хочете знайти набори даних з певної теми?

Ось список джерел, які допоможуть вам розпочати:

Мультидисциплінарні

  • data.europa.eu https://data.europa.eu/en
    надає доступ до понад мільйона відкритих даних з міжнародних, європейських, національних, регіональних та місцевих порталів даних.

  • Google Public Data https://datacommons.org/ надає публічні дані та прогнози від низки міжнародних установ, включаючи Світовий банк, ОЕСР, Євростат тощо. Дані можуть відображатися у вигляді лінійних графіків, діаграм поперечного перерізу, на картах тощо. 

  • Google Dataset Search  https://datasetsearch.research.google.com/ – зручний інструмент для початку пошуку наборів даних у вашій дисципліні, однак він не є вичерпним покажчиком наборів даних, доступних у сховищах.

  • UNdata   https://data..org/Default.aspx містить понад 60 мільйонів точок даних та охоплює широкий спектр статистичних тем, включаючи сільське господарство, злочинність, комунікації, допомогу в розвитку, освіту, енергетику, навколишнє середовище, фінанси, гендерну рівність, охорону здоров'я, ринок праці, виробництво, національні рахунки, населення та міграцію, науку і технології, туризм, транспорт і торгівлю.

  • World Bank Data Catalog https://datacatalog.worldbank.org/
    включає дані з платформ мікроданих, фінансових та енергетичних даних Світового банку, а також набори даних з каталогу відкритих даних.

Дані

  • Kaggle https://www.kaggle.com/datasets
    має близько 170 000 вільно доступних наборів даних для людей, які цікавляться наукою про дані та машинним навчанням.

  • UCI Machine Learning Repository https://archive.ics.uci.edu/ml/index.php
    пропонує понад 600 наборів даних для спільноти машинного навчання.

  • Yelp Dataset https://www.yelp.com/dataset
    містить майже 7 мільйонів відгуків на Yelp, а також зображення та атрибути бізнесу. Доступний у форматі JSON, використовуйте його, щоб навчати студентів базам даних, вивчати NLP або для зразків виробничих даних, поки ви вивчаєте, як створювати мобільні додатки.

Економіка

  • Federal Reserve Economic Data (FRED) https://fred.stlouisfed.org/
    створена та підтримується дослідницьким відділом Федерального резервного банку Сент-Луїса, являє собою онлайн-базу даних, що містить сотні тисяч часових рядів економічних даних з великої кількості національних, міжнародних, державних та приватних джерел.

  • International Labour Organization (ILO) https://ilostat.ilo.org/data/
    надає статистику праці від Організації Об'єднаних Націй, включаючи пропозицію робочої сили, умови праці, трудові відносини, а також бідність і нерівність.

  • International Monetary Fund (IMF) Data https://www.imf.org/en/Data
    публікує різноманітні дані часових рядів щодо кредитування, валютних курсів та інших економічних і фінансових показників.

  • OECD Statistics https://stats.oecd.org/
    містить дані та метадані для країн ОЕСР та окремих країн, що не є членами.

Здоров’я

  • DataMed https://datamed.org/
    містить понад 2 мільйони біомедичних та медичних наборів даних.

Статистика Всесвітньої організації охорони здоров'я (ВООЗ). Сайт надає доступ до понад 1000 показників з пріоритетних тем охорони здоров'я, включаючи смертність та захворювання, системи охорони здоров'я, стан навколишнього середовища, насильство та травми, рівність та інші.

Гуманітарні науки

Наука

  • Глобальний інформаційний фонд з біорізноманіття (GBIF)
    містить понад 70 000 наборів даних про біорізноманіття.

  • Earthdata від NASA
    одне з найбільших на планеті сховищ даних спостереження за Землею, яке допомагає краще зрозуміти зміну клімату, суворі погодні умови, морський лід та льодовики, небезпеки та катастрофи, здоров'я та якість повітря, екологію та водні ресурси.

  • Переглядач даних океану
    пропонує користувачам можливість переглядати та завантажувати низку просторових наборів даних, корисних для прийняття рішень щодо збереження, управління та відновлення морського та прибережного біорізноманіття.

Соціальні мережі