抽出は、人によって意味が異なります。そこにある壊れた HTML をすべて処理できることは 1 つのことであり、この部門では Beautiful Soup が明らかに勝者です。しかし、BSは何が粗雑で何が肉なのか教えてくれません.
計算言語学者の観点からコンテンツ抽出を検討すると、状況は異なって (そして見苦しく) 見えます。ページを分析するとき、ページの特定のコンテンツのみに関心があり、ナビゲーション/広告などはすべて除外されます。クラフト。そして、重要なことを取り除くまで、共起分析、フレーズの発見、加重属性ベクトルの生成などの興味深いことを始めることはできません。
OPが参照した最初の論文は、これが彼らが達成しようとしていたことを示しています-サイトを分析し、全体的な構造を決定し、それを差し引いて出来上がり! あなたは肉だけを持っています-しかし、彼らはそれが彼らが思っていたよりも難しいことに気づきました. 彼らはアクセシビリティの向上という観点から問題に取り組んでいましたが、私は初期の検索エンジンの専門家でしたが、2 人とも同じ結論に達しました。
クラフトと肉を分離するのは難しい。そして (質問の行間を読むために) 粗雑さが取り除かれても、セマンティック マークアップを慎重に適用しないと、記事の「作成者の意図」を判断することは非常に困難です。citeseer のようなサイト (信号対雑音比が非常に高く、きれいに、予測可能にレイアウトされている) から肉を引き出すことは、ランダムな Web コンテンツを処理するよりも2、3 桁簡単です。
ところで、長いドキュメントを扱っている場合は、 Marti Hearst (現在は UC Berkely の教授)による作業に特に関心があるかもしれません。彼女の博士論文や、大きなドキュメントでのサブトピックの発見に関する他の論文は、小さなドキュメントで同様のことを行うことについて多くの洞察を与えてくれました (驚くべきことに、これは対処がより困難になる可能性があります)。しかし、これは、粗悪品を取り除いた後にのみ行うことができます。
興味があるかもしれない少数の人のために、ここにいくつかのバックストーリーがあります (おそらくオフトピックですが、今夜はそのような気分です):
80 年代と 90 年代には、私たちの顧客のほとんどは政府機関でした。その目は予算よりも大きく、その夢はディズニーランドを単調に見せました。彼らは手に入れることができるすべてのものを集めていて、ドキュメントの「意味」を何らかの方法で (巨大な手を振る) 抽出する特効薬の技術を探しに行きました。右。彼らが私たちを見つけたのは、私たちが 1986 年に「コンテンツの類似性検索」を行っていた奇妙な小さな会社だったからです。
私たちがすでに知っていたことの 1 つは (そして、彼らが私たちを信じるまでには長い時間がかかりました)、すべてのコレクションが異なり、それらの違いに対処するには独自の特別なスキャナーが必要であるということでした。たとえば、新聞記事をむしゃむしゃ食べているだけなら、人生はとても楽です。見出しは主に何か興味深いことを伝えており、ストーリーはピラミッド スタイルで書かれています。最初の 1 つか 2 つのパラグラフには、誰が/何を/どこで/いつの要点があり、その後のパラグラフはそれを拡張します。私が言ったように、これは簡単なことです。
雑誌の記事はどうですか?なんてこった、私を始めさせないでください!タイトルはほとんどの場合意味がなく、構造は雑誌ごとに異なり、さらには雑誌のセクションごとに異なります。Wired のコピーと Atlantic Monthly のコピーを入手してください。主要な記事を見て、その記事の内容を意味のある1 段落にまとめるようにしてください。次に、プログラムが同じことをどのように達成するかを説明してみてください。すべての記事に同じルール セットが適用されますか? 同じ雑誌の記事でも?いいえ、そうではありません。
これについて悪口のように聞こえて申し訳ありませんが、この問題は本当に難しいです。
奇妙なことに、Google が (検索エンジンの観点から) 現在のように成功している大きな理由は、別のサイトからのリンク内およびその周囲の単語に重点を置いていることです。そのリンクテキストは、リンク先のサイト/ページについて人間が行った一種の要約であり、まさに検索時に必要なものです。また、情報のほぼすべてのジャンル/レイアウト スタイルで機能します。それは前向きで素晴らしい洞察であり、私はそれを自分で持っていたらよかったのにと思います. しかし、昨夜のモスクワのテレビ番組から、彼らがキャプチャしたランダムなテレタイプ メッセージや、ひどく OCR されたエジプトの新聞へのリンクがなかったため、私の顧客には何の役にも立ちませんでした。
/mini-rant-and-trip-down-memory-lane