3

情報抽出に関しては初心者です。過去数日間、私は多くの学術論文を読み、NLP に関する本を注文しました。FlipDog.com のようなシステムを構築する方法を知りたいです (できればゼロからではありません)。彼らは、60,000 を超える企業の Web サイトから求人情報を抽出しています。どうすれば始められますか?

私はあらゆるプログラミング言語を学ぶことにオープンです。Mallet/GATE/MinorThird や RoadRunner を使ったことのある人はいますか? 理想的には、自分のドメインに固有のデータ セットを使用してシステムをトレーニングし、それに基づいて情報を抽出できるようにしたいと考えています。この目的のためにどのプラットフォームをお勧めしますか?

ありがとう!

4

1 に答える 1

3

求人情報をすばやく抽出する方法は、dapper.net (Web サイトからの Webスクレイピングサービス) を使用することです。ビジュアルエディターを使用して、データを抽出するように dapper に非常に簡単に教えることができます。ターゲット Web サイトにテーブルがある場合、非常にうまく機能します。

情報抽出を学ぶには、 lingpipeから始めることをお勧めします。これは情報抽出用の Java フレームワークであるため、Gate や Apache UIMA など、フレームワークのアーキテクチャ固有の機能について学習する必要はありません。lingpipe の Web サイトには、さまざまな情報抽出のアプローチを学ぶのに役立つチュートリアルがたくさんあります。その後、Gate と UIMA を学ぶことをお勧めします。

このような Web サイトを実現するには、Web クローラー フレームワーク ( nutch など)、Web 検索エンジン ( yahoo、google、bingなど)、および情報検索エンジン ( apache lucene など) の使用方法も学ぶ必要があります。抽出されたデータの上にある検索サービス。

アップデート:

Python の場合は、http ://www.nltk.org/ から始めるのが最適です。

于 2010-10-03T18:06:10.900 に答える