Beautiful Soup (парсер HTML)

Beautiful Soup
Beautiful Soup
Тып	бібліятэка
Напісана на	Python
Апошняя версія	4.12.3 (17 студзеня 2024);
Ліцэнзія	ліцэнзія MIT[d]
Сайт	crummy.com/software/Beau…

Beautiful Soup — гэта пакет Python для разбору HTML і XML дакументаў (у тым ліку з няправільнай разметкай, напрыклад з незачыненымі тэгамі). Ён стварае дрэва парсінгу, якое можна выкарыстоўваць для вымання даных з HTML, што карысна для вэб-скрапінгу^[3]^[4].

Beautiful Soup быў створаны Леанардам Рычардсанам^[5]^[6].

Прыклад кода

Beautiful Soup прадстаўляе разабраныя даныя ў выглядзе дрэва, па якім можна ажыццяўляць пошук і ітэрацыю з дапамогай звычайных цыклаў Python^[7]. Прыклад ніжэй выкарыстоўвае стандартную бібліятэку Python requests для загрузкі галоўнай старонкі англійскай Вікіпедыі, а затым выкарыстоўвае Beautiful Soup для разбору дакумента і пошуку ўсіх спасылак у ім^[8].

#!/usr/bin/env python3
# Выманне якароў з HTML-дакумента
import requests
from bs4 import BeautifulSoup
url = 'https://en.wikipedia.org/wiki/Main_Page'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for anchor in soup.find_all('a'):
    print(anchor.get('href', '/'))

Версіі

Beautiful Soup 3 быў афіцыйным рэлізам Beautiful Soup з траўня 2006 па сакавік 2012 гады. Бягучы рэліз — Beautiful Soup 4.x. Beautiful Soup 4 можа быць усталяваны з дапамогай pip install beautifulsoup4.

У 2021 годзе падтрымка Python 2.7 была спынена, і рэліз 4.9.3 стаў апошнім, які яго падтрымлівае^[9].

Крыніцы

↑ Changelog Праверана 18 студзеня 2024.
↑ The p_10784 Open Source Project on Open Hub: Languages Page — 2006. Праверана 26 верасня 2018.
<a href="https://wikidata.org/wiki/Track:Q124688"></a>
↑ «Beautiful Soup website». Retrieved 18 April 2012. Beautiful Soup is licensed under the same terms as Python itself
↑ Python. Beautiful Soup: Build a Web Scraper With Python – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.
↑ Code : Leonard Richardson (англ.) (нявызн.) ?. Launchpad. Праверана 19 верасня 2020.
↑ Tidelift. beautifulsoup4 | pypi via the Tidelift Subscription (англ.). tidelift.com. Праверана 19 верасня 2020.
↑ How To Scrape Web Pages with Beautiful Soup and Python 3 | DigitalOcean (англ.). www.digitalocean.com. Праверана 1 чэрвеня 2023.
↑ Python. Python's urllib.request for HTTP Requests – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.
↑ Richardson. Beautiful Soup 4.10.0 (англ.) (нявызн.) ?. beautifulsoup. Google Groups (7 верасня 2021). Праверана 27 September 2022.

[_f1702145c16ade26-1] Changelog Праверана 18 студзеня 2024.

[_10d917fdecc014aa-2] The p_10784 Open Source Project on Open Hub: Languages Page — 2006. Праверана 26 верасня 2018.
<a href="https://wikidata.org/wiki/Track:Q124688"></a>

[crummy.com-3] «Beautiful Soup website». Retrieved 18 April 2012. Beautiful Soup is licensed under the same terms as Python itself

[4] Python. Beautiful Soup: Build a Web Scraper With Python – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.

[5] Code : Leonard Richardson (англ.) (нявызн.) ?. Launchpad. Праверана 19 верасня 2020.

[6] Tidelift. beautifulsoup4 | pypi via the Tidelift Subscription (англ.). tidelift.com. Праверана 19 верасня 2020.

[7] How To Scrape Web Pages with Beautiful Soup and Python 3 | DigitalOcean (англ.). www.digitalocean.com. Праверана 1 чэрвеня 2023.

[8] Python. Python's urllib.request for HTTP Requests – Real Python (англ.). realpython.com. Праверана 1 чэрвеня 2023.

[9] Richardson. Beautiful Soup 4.10.0 (англ.) (нявызн.) ?. beautifulsoup. Google Groups (7 верасня 2021). Праверана 27 September 2022.

[2]

[1]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Beautiful Soup (парсер HTML)

Прыклад кода

Версіі

Крыніцы

Portal di Ensiklopedia Dunia