HTML ファイル内の文字列の一部を分離する必要があります。成功できると思ったのですが、データ構造が本当にカオスです。私は非常に初心者なので、正規表現はおそらく悪い考えでした。コンマまたはセミコロンは一貫しておらず、区切り文字として選択できませんでした。いずれにせよ、私が何をしたか、例から始めましょう。それが変数に入れられたhtmlであるとします
例 = d1 d2 いくつかのもの いくつかのもの いくつかのもの d3 d4 d5 いくつかのもの
区切り文字が一貫していれば、次のスクリプトを使用して、興味のある「いくつかのもの」を復元できます。
for url in open("url-repository.csv", "rt").readlines():
variable1 = urllib2.urlopen(url[:-1]).read()
a = re.compile('d1(.*?)\"d2')
b = a.search(vqriable1)
if b:
c = b.group(1)
list_of_d1.append(c)
しかし、区切り文字は、分析する必要があるさまざまなページで常に同じではなく、常に同じ順序でもありません。
例 2 = d2 あるもの d3何もないd4 あるもの d5
そこで、2点お聞きします。HTMLページで見つけたすべての区切り記号のリストを作成するとします。
Delimiters_list = [d1, d2, d3]
1 スクリプトが可能なすべての構成 (d1 + d2、d2 + d6、dn + dn など) を確実に検索するようにすることは可能ですか?
2 または少なくとも、最初の用語を示し、スクリプトが、一致したリストの最初の用語へのチェーンの選択を停止するようにしますか?
これは私にとって非常に難しい問題です。不明確である可能性があることは承知していますが、調査して助けようとしてくれた方々に事前に感謝します。