情報抽出に関しては初心者です。過去数日間、私は多くの学術論文を読み、NLP に関する本を注文しました。FlipDog.com のようなシステムを構築する方法を知りたいです (できればゼロからではありません)。彼らは、60,000 を超える企業の Web サイトから求人情報を抽出しています。どうすれば始められますか?
私はあらゆるプログラミング言語を学ぶことにオープンです。Mallet/GATE/MinorThird や RoadRunner を使ったことのある人はいますか? 理想的には、自分のドメインに固有のデータ セットを使用してシステムをトレーニングし、それに基づいて情報を抽出できるようにしたいと考えています。この目的のためにどのプラットフォームをお勧めしますか?
ありがとう!