Güzel Çorba (HTML ayrıştırıcı) - Beautiful Soup (HTML parser)

Güzel çorba
Orijinal yazar (lar)Leonard Richardson
İlk sürüm2004 (2004)
Kararlı sürüm
4.9.1 / 17 Mayıs 2020; 6 ay önce (2020-05-17)
Depo Bunu Vikiveri'de düzenleyin
YazılmışPython
PlatformPython
TürHTML ayrıştırıcı kitaplığı, Web kazıma
LisansPython Yazılım Vakfı Lisansı (Güzel Çorba 3 - daha eski bir versiyon) MIT Lisansı 4+[1]
İnternet sitesiwww.crummy.com/yazılım/ BeautifulSoup/

Güzel çorba bir Python ayrıştırma paketi HTML ve XML belgeler (hatalı biçimlendirilmiş işaretleme, yani kapalı olmayan etiketler dahil, yani etiket çorbası ). HTML'den veri çıkarmak için kullanılabilecek ayrıştırılmış sayfalar için bir ayrıştırma ağacı oluşturur,[2] hangisi için yararlı web kazıma.[1]

Beautiful Soup, projeye katkıda bulunmaya devam eden Leonard Richardson tarafından başlatıldı,[3] ve ayrıca, açık kaynaklı bakım için ücretli bir abonelik olan Tidelift tarafından desteklenmektedir.[4]

Python 2.7 ve Python 3 için mevcuttur.

Kod örneği

#! / usr / bin / env python3# HTML belgesinden çapa çıkarmaitibaren bs4 ithalat Güzel çorbaitibaren urllib.request ithalat urlopenile urlopen('https://en.wikipedia.org/wiki/Main_Page') gibi tepki:    çorba = Güzel çorba(tepki, "html.parser")    için Çapa içinde çorba.hepsini bul('a'):        Yazdır(Çapa.almak("href", '/'))

Avantajlar ve dezavantajlar

Bu tablo, her ayrıştırıcı kitaplığının avantajlarını ve dezavantajlarını özetlemektedir.[1]

AyrıştırıcıTipik kullanımAvantajlarDezavantajları
Python’un html.parserBeautifulSoup (işaretleme, "html.parser")
  • Orta derecede hızlı
  • Hoşgörülü (Python 2.7.3 ve 3.2'den itibaren)
  • Lxml kadar hızlı değil, html5lib'den daha az esnek.
lxml’nin HTML ayrıştırıcısıBeautifulSoup (biçimlendirme, "lxml")
  • Çok hızlı
  • Hoşgörülü
  • Dış C bağımlılığı
lxml’nin XML ayrıştırıcısı

BeautifulSoup (biçimlendirme, "lxml-xml")
BeautifulSoup (biçimlendirme, "xml")

  • Çok hızlı
  • Şu anda desteklenen tek XML ayrıştırıcı
  • Dış C bağımlılığı
html5libBeautifulSoup (işaretleme, "html5lib")
  • Son derece hoşgörülü
  • Sayfaları bir web tarayıcısının yaptığı gibi ayrıştırır
  • Geçerli HTML5 oluşturur
  • Çok yavaş
  • Harici Python bağımlılığı

Serbest bırakmak

Beautiful Soup 3, Mayıs 2006'dan Mart 2012'ye kadar Beautiful Soup'un resmi yayın çizgisiydi. Güzel Çorba 4.9.1 (17 Mayıs 2020). Beautiful Soup 4'ü şununla kurabilirsiniz: pip güzelsoup4 yüklemek.

Ayrıca bakınız

Referanslar

  1. ^ a b c "Beautiful Soup web sitesi". Alındı 18 Nisan 2012. Beautiful Soup, Python ile aynı şartlar altında lisanslanmıştır
  2. ^ Hajba, Gábor László (2018), Hajba, Gábor László (ed.), "Güzel Çorba Kullanma", Python ile Web Sitesi Kazıma: BeautifulSoup ve Scrapy Kullanımı, Apress, s. 41–96, doi:10.1007/978-1-4842-3925-4_3, ISBN  978-1-4842-3925-4
  3. ^ "Kod: Leonard Richardson". Başlatma paneli. Alındı 2020-09-19.
  4. ^ Tidelift. "beautifulsoup4 | Tidelift Aboneliği ile pypi". tidelift.com. Alındı 2020-09-19.