2

10 年間のアーカイブされた記事データがあり、そのほとんどは MS Word の html として保存するマークアップで埋め尽くされています<p class="MsoNormal">

まず第一に、HTML は MS Word で生成されたマークアップを削除するタスクを片付けていますか、それとも別のアプローチを取る必要がありますか?

次に、最初の数年間の記事が月ごとにまとめられ、テキスト ストレージ タイプとして DB に格納されます。これらを個別の記事に分割して、サイトをより簡単に検索できるようにしたいと思っています (つまり、検索用語/フレーズが一致した場合に 1 か月分のニュースが表示されないようにします)。記事を分離するために使用する必要がある唯一の明確なパターンは、記事のタイトル (太字で 16 ~ 20 ピクセル) と記事の日付 (通常は 10 ピクセル) です。タイトルと日付の両方が記事本文の前に表示されます。照合する正確なマークアップがない場合に、マークアップの<h1>-ness または-nessを検出する方法はありますか?<small>

これに答えるのは不可能に近いかもしれませんが、一般的に、このうらやましい仕事にどのようなアプローチをとりますか? ;-) 私は Scala で JVM を使用していますが、LAMP スタックでもクリーンアップ ジョブを実行できます。

アイデアを歓迎します!

4

1 に答える 1

1

私があなたなら、Perl用のお気に入りのHTML::Parserキットを使用します。あなたのような複雑で曖昧に述べられた問題に非常にうまくいくなら。

于 2012-04-23T18:31:07.687 に答える