java - NLP テキスト注釈の保存とアクセス

Question

さまざまな NLP ツール (POS タガー、構文パーサー、依存関係パーサーなど) で前処理したい大量のテキスト (1000 万文程度) があります。これらのツールによって作成されたさまざまな注釈レイヤーを何らかの方法で保存し、Java コード内からオンザフライでアクセスする必要があります (おそらく、コーパス内のテキストスパンの開始インデックスと終了インデックス、および注釈の種類を提供することによって)。 .

これらの注釈をすばやく保存してアクセスするためのソフトウェアシステムは既に存在しますか? そうでない場合、これらの注釈を保存してアクセスするための最良の方法は何ですか? アクセス速度が最も重要です。

score 2 · Accepted Answer

あなたはUIMAを見ることができます. これはストレージエンジンではありませんが、パイプラインでさまざまなアノテーター (トークナイザー、センテンススプリッター、POS タガーなど) を適用することで、構造化されていないテキストデータをより構造化された形式に変換するためのプラットフォームを提供します。出力には、ドキュメント内の開始インデックスと終了インデックスを含む注釈が含まれます (出力を xml 形式に変換できます)。そのため、コーパスを複数のドキュメントに分割し、それらを UIMA パイプラインを介して渡し、出力を MongoDB などのドキュメントベースのストアに格納できます。注釈のコンテキストが重要であるため、ドキュメントレベルでこれらの注釈にアクセスする方が理にかなっていると思います。したがって、これらの注釈付きドキュメントを MongoDB ストアから取得し、開始インデックスと終了インデックス、または注釈の種類 (トークン、文など) を使用して注釈にアクセスできます。

java - NLP テキスト注釈の保存とアクセス

1 に答える 1

Related

Reference