Web scraping
Вебскрейпінг (англ. scraping — «вишкрібання», вебзбирання або витягнення вебданих) — перетворення у структуровані дані інформації з вебсторінок, які призначені для перегляду людиною за допомогою браузера. Як правило, виконується за допомогою комп'ютерних програм, що імітують поведінку людини в інтернеті, або з'єднуючись з вебсервером напряму по протоколу HTTP, або управляючи повноцінним веббраузером. Але буває і скрейпінг за допомогою копіювання даних людиною. Це форма копіювання, в якій конкретні дані збираються та копіюються з інтернету, як правило, в базу даних або електронну таблицю для подальшого пошуку чи аналізу. Вебскрейпінг включає в себе завантаження та вилучення. Спочатку завантажується сторінка (що робить браузер, коли ви переглядаєте сторінку), після цього можна добувати потрібну інформацію. Зміст сторінки може бути проаналізовано, переформатовано, його дані скопійовані в електронну таблицю тощо. Вебскрапери, як правило, беруть щось із сторінки, щоб використати це для інших цілей деінде. Прикладом може бути пошук і копіювання імен та телефонних номерів або компаній та їх URL-адрес до списку (контактне сканування). Вебсторінки побудовані за допомогою текстових мов розмітки (HTML та XHTML) і часто містять велику кількість корисних даних у текстовій формі. Однак більшість вебсторінок призначені для кінцевих користувачів, а не для зручності автоматичного використання. Через це були створені набори інструментів, які «збирають» вебвміст. Вебскрейпери — це прикладний програмний інтерфейс для вилучення даних з вебсайту. Існують методи, які деякі вебсайти використовують для запобігання вебскрейпінгу. Наприклад, виявлення та заборона ботів від сканування (перегляду) своїх сторінок. У відповідь на це існують вебскрейпінгові системи, які спираються на використання методів аналізу об'єктної моделі документа, комп'ютерного бачення та обробку тексту природною мовою, щоб імітувати пошук людини, щоб дозволити збирати вміст вебсторінок для автономного синтаксичного аналізу. Пов'язані терміниВебскрейпінг, вебкраулінг та індексація, вебавтоматизаціяВебскрейпінг тісно пов'язаний з краулінгом та індексацією (crawling та indexing). Індексація — упорядкування інформації з метою спрощення пошуку за нею. Індексація виконується за допомогою бота (павука, вебсканера) і є універсальною методикою, прийнятою більшістю пошукових систем. На противагу цьому вебскрейпінг більше фокусується на перетворенні неструктурованих даних в мережі, як правило, в форматі HTML, в структуровані дані, які можуть зберігатися і аналізуватися в центральній, локальній базі даних або таблиці. Вебскрейпінг також пов'язаний з вебавтоматизацією, що являє собою автоматизацію дій людини за допомогою комп'ютерного програмного забезпечення. Сфери застосування вебскрейпінгу включають порівняння цін онлайн, створення бази контактних даних, моніторинг даних про погоду, виявлення змін вебсайту, дослідження, вебколажі і інтеграцію вебданих. Машинозчитувані дані та APIСлід розрізняти вебсторінки у форматі HTML, що призначені для інтерпретації браузером та подальшого перегляду людиною, від даних у машинозчитуваних форматах та програмного інтерфейсу (Web API). Поняття «скрейпінг» неможливо застосувати для машинозчитуваних даних, що також завантажуються по протоколу HTTP, бо вони вже знаходяться у тому форматі, що є кінцевим для процесу скрейпінгу. ТехнологіїВебскрейпінг — це процес автоматичного збору інформації із всесвітньої павутини. Це поле з активними розробками, що мають спільну мету з семантичної веббачення, і є амбітною ініціативою, що як і раніше вимагає проривів в обробці тексту, семантичного розуміння, штучного інтелекту і людино-комп'ютерної взаємодії. Поточні рішення вебскрейпінгу варіюються від Ad-Hoc, вимагаючи людських зусиль, щоб повністю автоматизованих системи, які здатні перетворити цілі сайти в структуровану інформацію, з обмеженнями.
Правові питанняЛегальність вебскрейпінгу у світі різниться. Деякі вебсайти забороняють скрейпінг у правилах використання, але юридичні наслідки такої заборони не є чіткими. У світіTwitter проти скрейпінгу даних1 липня 2023 року, Twitter повідомив, що тимчасово обмежує для користувачів кількість переглядів постів на добу. За словами Ілона Маска це було зроблено для того " щоб протистояти екстремальному рівню збору даних та маніпуляціям із системою, ми застосували такі тимчасові обмеження: перевірені акаунти обмежені в читанні 6000 повідомлень на день; неперевірені акаунти – 600 повідомлень на день; нові неперевірені акаунти – 300 повідомлень на день". Передувало таким діям те, що напередодні, 30 червня 2023 року стало відомо рішення Twitter вимагати від користувачів мати обліковий запис у соціальній платформі для перегляду твітів[2]. Маск назвав це "тимчасовим надзвичайним заходом"[3]. Згідно повідомлення CNBC, Ілон Маск запровадив ці тимчасові обмеження на використання Twitter “для боротьби з екстремальними рівнями вилучення даних і маніпуляцій на платформі”. Відповідно компанія X Corp., яка була заснована Маском 9 березня 2023 року на зміну компанії Twitter, Inc., почала судитися з чотирма неназваними особами за звинуваченнями їх в незаконному вилученні даних, пов’язаних з жителями Техасу (США), з Twitter. Позов, поданий 6 липня 2023 року до суду округу Даллас (штат Техас) вимагає відшкодування збитків на суму понад 1 мільйон доларів[4]. У матеріалах справи йдеться про те, що відповідачі нібито уклали контракти з операторами центрів обробки даних в окрузі Даллас, штат Техас. Згідно з заявою, компанія не змогла встановити особи цих людей. Однак замість імен адвокати X Corp. надали список з чотирьох IP-адрес. В даному випадку, можливо був застосований саме скрейпінг даних – коли комп’ютерна програма витягує дані з веб-сайту або іншого онлайн-джерела. Ці дані потім можуть бути використані для різних цілей, таких як дослідження ринку, порівняння цін або навіть моніторинг соціальних мереж. Відповідно, X Corp. ставить за мету припинити вилучення даних, обмеживши кількість твітів, які користувачі можуть читати щодня[5]. У Європейському Союзі30 квітня 2020 року Французький орган за захист даних (CNIL) опублікував нові правила щодо парсингу вебсторінок.[6] Керуючі принципи CNIL чітко дають розуміння того, що загальнодоступні дані за попереднім переліком є особистими даними і не можуть бути змінені без провідних лиць, котрим ці дані належать.[7] Ryanair проти PR Aviation15 січня 2015 року винесено вердикт[8] Європейського Суду справедливості у справі «Ryanair проти PR Aviation». Згідно нього Ryanair має право блокувати або вимагати дотримання умов інтернет-сайтами для порівняння цін, які копіюють дані з вебсайту авіакомпанії без її дозволу. PR Aviation — оператор вебсайту, що дозволяє користувачам шукати дані польотів low-cost-авіакомпаній. Він отримує необхідні дані за допомогою автоматизованих засобів, в тому числі з вебсайту Ryanair. Перегляд вебсайту Ryanair передбачає, що відвідувач сайту приймає умови використання шляхом проставлення галочки. Відповідно до цих умов, інформація, що міститься на сайті, може бути використана тільки в приватних та некомерційних цілях, а використання автоматизованих систем або програмного забезпечення для отримання даних з сайту в комерційних цілях є забороненим, якщо таке не передбачено письмовою ліцензійною угодою з Ryanair. Ryanair заявив, що PR Aviation порушили закон про авторське право на унікальну базу даних, і що він діяв всупереч умовам використання вебсайту, які були прийняті компанією. Після того, як його позов був відхилений у судах першої та апеляційної інстанції Амстердама, Ryanair оскаржив рішення апеляційного суда Амстердама у Верховному суді Нідерландів. Верховний суд Нідерландів вирішив залишити апеляцію без задоволення[9].
Посилання
|
Portal di Ensiklopedia Dunia