4
Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

NLP の上記の機能のいずれかを実行するために使用できるライブラリはありますか?

AlchemyAPI にお金を払いたくない

4

2 に答える 2

8

実際には、無料で利用できるオープンソースの自然言語処理パッケージがたくさんあります。ツールキットが実装されている言語別に整理された簡単なリストを次に示します。

どちらを使用するかわからない場合は、 NLTKから始めることをお勧めし ます。このパッケージはかなり使いやすく、無料の本を含む優れたオンライン ドキュメントがあります。

NLTK を使用して、名前付きエンティティの認識 (NER)、ドキュメントのタグの抽出ドキュメントの分類など、リストした NLP タスクを簡単に実行できるはずです。

Alchemy の人々が構造化データ抽出と呼んでいるものは、ページが視覚的に同じようにレンダリングされる限り、基礎となる HTML への変更に対して堅牢な単なる HTML スクラップのように見えます。つまり、実際には NLP タスクではありません。

HTML からテキストを抽出するには、単にボイラーパイプを使用します。高速で、優れていて、無料です。

于 2010-04-21T01:34:52.970 に答える
1

Apache UIMAプロジェクトは、もともと IBM によって作成され、GATE によく似た NLP フレームワークを提供します。UIMA 用に構築されたさまざまなアノテーターがあります。

于 2010-04-22T13:32:32.250 に答える