私は何十万ものhtmlファイルを評価しています。ファイルの特定の部分を探しています。ファイルの作成方法には多少の違いがある場合があります
たとえば、あるファイルにセクション見出しを含めることができます (上部に変換して分割し、テキストを結合して、一貫性のない空白を取り除くことができます。
u'KEY1A\x97RISKFACTORS'
別のファイルでは、次のことができます。
'KEY1ARISKFACTORS'
可能な応答の辞書を作成しようとしています。これら 2 つを比較して、等しいと結論付けたいと思います。しかし、最初の文字列を実行して '\97 を削除しようとするすべての置換は機能しないようです
エンティティのさまざまな表現を持つキーにはかなりの数のバリエーションがあるため、多かれ少なかれ自動的に辞書を作成したいので、次のようなものがあります。
key_dict={'u'KEY1A\x97RISKFACTORS':''KEY1ARISKFACTORS',''KEY1ARISKFACTORS':'KEY1ARISKFACTORS',. . .}
私が実行したときからそれを想定しています
S1='A'
S2=u'A'
S1==S2
私は得る
True
HTMLエンティティが処理されたら、これらを比較できるはずです
私が具体的にやろうとしたことは、
new_string=u'KEY1A\x97RISKFACTORS'.replace('|','')
エラーが発生しました
すみません、私は昨夜からこれにいます。SLott が何かを指摘し、間違ったラベルを使用したようです。これがより理にかなっていることを願っています