Beautiful Soup (парсер HTML)
Beautiful Soup — гэта пакет Python для разбору HTML і XML дакументаў (у тым ліку з няправільнай разметкай, напрыклад з незачыненымі тэгамі). Ён стварае дрэва парсінгу, якое можна выкарыстоўваць для вымання даных з HTML, што карысна для вэб-скрапінгу[3][4]. Beautiful Soup быў створаны Леанардам Рычардсанам[5][6]. Прыклад кодаBeautiful Soup прадстаўляе разабраныя даныя ў выглядзе дрэва, па якім можна ажыццяўляць пошук і ітэрацыю з дапамогай звычайных цыклаў Python[7]. Прыклад ніжэй выкарыстоўвае стандартную бібліятэку Python requests для загрузкі галоўнай старонкі англійскай Вікіпедыі, а затым выкарыстоўвае Beautiful Soup для разбору дакумента і пошуку ўсіх спасылак у ім[8]. #!/usr/bin/env python3
# Выманне якароў з HTML-дакумента
import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/wiki/Main_Page'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for anchor in soup.find_all('a'):
print(anchor.get('href', '/'))
ВерсііBeautiful Soup 3 быў афіцыйным рэлізам Beautiful Soup з траўня 2006 па сакавік 2012 гады. Бягучы рэліз — Beautiful Soup 4.x. Beautiful Soup 4 можа быць усталяваны з дапамогай pip install beautifulsoup4. У 2021 годзе падтрымка Python 2.7 была спынена, і рэліз 4.9.3 стаў апошнім, які яго падтрымлівае[9]. Крыніцы
|
Portal di Ensiklopedia Dunia