6

n 個の生の URL が与えられた場合、それらをニュース、ブログ、写真、ビデオで分類できるようにしたいと考えています。

例として、リンクがユーザーを写真に誘導する場合、未加工の URL を写真として分類できるようにするには、未加工のリンクに画像のファイル拡張子が含まれていると言うだけで十分でしょうか?

動画、ブログ、ニュースに関しては、生の URL を分類する一連のドメイン ( http://www.youtube.comなど) を持つだけでは十分ではないようです。

Web コンテンツを調べて分類を行うことはできますか? または、これのためのオープンソースツールはありますか?

4

1 に答える 1

1

ある程度確実に分類できる唯一の URL は、明確なメディアを指す URL です (つまり、http://foo.com/foo.jpgは画像であることが最も確実です)。それ以外の場合は、ページのコンテンツを分析する必要があります。

Flash オブジェクトのコンテンツに関する検索可能な手がかりを提供せずに、Flash に写真、ビデオ、またはどちらも含まれていない可能性があるため、これは少し注意が必要です。十分な努力をすれば、これは明らかに克服できます (Google はそれを行います!) が、メディア関連のドメインのライブラリを提供するオープン ソース リソースを私は知りません。このようなデータは、プログラマーの無数の時間の努力 (通常は投資収益率 (ROI) を求める努力) から得られます。たとえば、ClueWeb09はダウンロードされたページの単なるデータセットであり、検索アルゴリズムのテストに使用されます。実際には並べ替えや分類はされていません。

「時には助けが答えではありません。」

于 2011-02-17T04:16:03.070 に答える