正規表現のみのソリューションが必要だと言って始めましょう。
3番目のプログラムプログラムでhtmlファイルから説明を取得しようとしています。このプログラムは Java ベースですが、ソース コードを操作することはできません。. 正規表現を送信するプログラムには、すべてのページのどこから説明を取得するかを指定する別の正規表現スクリプトが既に含まれています。内部で一致を定義すると、その情報を配列にさらに分解するこの便利な機能があります。
リスト項目かどうかに関係なく、説明のすべての文に一致させたいです。タグを取り除くことは理想的です。なぜなら、それらは\b
マッチを開始する場所を指定するのに問題を引き起こしているからです.
最初は、単語境界と文末文字の間のすべてをキャプチャする正規表現ソリューションを作成できると思っていました。のようなもの\b([^.!]+)[.!]
次に、説明にリスト項目の追加部分が含まれることがあるという問題に気付きました。さらに複雑なのは、リスト項目の最初の部分が太字またはイタリック体になる場合があることです。さらにまれに、私が理解できない理由でそこにランダムなタグが含まれて<br>
いる可能性があります...</br>
以下は、陽気な記事の一般的なレイアウトの説明の例です。
Children around the world are constantly exposed to the evil “Dolan”, an evil
duckwho encourages rape, murder, pedophilia, stealing, homosexuality and a range
of other sins. ”Dolan” is considered a “meme”: an image that makes its way
around the internet via social networks such as Myspace, Friendster, or
Wikipedia.
<li>The duck is based on the character “Donald” created by the company Disney.
</li><li><b>Dolan, however</b>, is more overtly satanic and enjoys commit crimes
and offending Christianity. </li><li>He is best known for a series of internet
comics created in the socialist nation of Finland. </li><li><i>Being part of
Scandinavia</i>, the Finnish are clearly followers of Satan and Skrillex. </li>
<li>The comics are written in poor English to distract the viewer from how evil
and offensive they truly are.</li>
私はいくつかの異なることを試しましたが、まだ正規表現初心者であり、正しく機能しないさまざまなリターンを得ました。これは、タグに含まれる文字から始まるすべてを分割したものです。
(?:<li>|<b>|<i>)?\b([^.!<]+)[.!< ][<lbi/ ]
上記のコードは、このような配列を提供します(順序はランダム化されるか、少なくとも私が理解できない方法で編成されます)
i>
Being Part of Scandinavia
i>
b>
Dolan, however
b>
ほぼ同一の同じものがいくつかの html タグに残る可能性があります。これli>
は、単語の境界要件を満たすためだと思います。注: 以下のコードの末尾にスペースがあります
\b([^.!<]+)[.!]
これにより、次のような配列が得られます
li>The duck is based on the character “Donald”...
li>li>b>Dolan, however/b>, is more overtly satanic...
前に言ったように、私は正規表現の初心者であり、先読みを間違って使用していることは間違いありません。
解決策を教えてください!次に何を試せばいいのかわからない。
PS、記事は私が書いたのではなく、別のウェブサイトからコピーしました。攻撃的になろうとしない