Saya ingin mengurai dokumen yang secara sintaksis merupakan dokumen html (menggunakan tag dengan atribut dll), tetapi secara struktural tidak mengikuti aturan (mis. mungkin ada tag <html> di dalam tag <div> di dalamnya tanda <body>). Saya juga tidak ingin keketatan tambahan dari XML. Sayangnya, lxml hanya menawarkan document_fromstring(), yang memerlukan elemen root html, serta fragment_fromstring(), yang pada gilirannya tidak memungkinkan adanya tag html atau body di tempat-tempat yang tidak biasa.

Bagaimana cara mengurai dokumen tanpa "memperbaiki" struktur yang salah?

0
Krateng 24 Oktober 2019, 18:14

1 menjawab

Jawaban Terbaik

BeautifulSoup harus melakukan ini dengan baik.

Itu akan menjadi kasus:

from bs4 import BeautifulSoup
import requests

r = requests.get(url)
soup = BeautifulSoup(r.text,'html.parser')

Maka Anda akan mencari "sup" untuk apa pun yang Anda cari.

1
Samt94 24 Oktober 2019, 15:37