2

さまざまな NLP ツール (POS タガー、構文パーサー、依存関係パーサーなど) で前処理したい大量のテキスト (1000 万文程度) があります。これらのツールによって作成されたさまざまな注釈レイヤーを何らかの方法で保存し、Java コード内からオンザフライでアクセスする必要があります (おそらく、コーパス内のテキスト スパンの開始インデックスと終了インデックス、および注釈の種類を提供することによって)。 .

これらの注釈をすばやく保存してアクセスするためのソフトウェア システムは既に存在しますか? そうでない場合、これらの注釈を保存してアクセスするための最良の方法は何ですか? アクセス速度が最も重要です。

4

1 に答える 1

2

あなたはUIMAを見ることができます. これはストレージ エンジンではありませんが、パイプラインでさまざまなアノテーター (トークナイザー、センテンス スプリッター、POS タガーなど) を適用することで、構造化されていないテキスト データをより構造化された形式に変換するためのプラットフォームを提供します。出力には、ドキュメント内の開始インデックスと終了インデックスを含む注釈が含まれます (出力を xml 形式に変換できます)。そのため、コーパスを複数のドキュメントに分割し、それらを UIMA パイプラインを介して渡し、出力を MongoDB などのドキュメント ベースのストアに格納できます。注釈のコンテキストが重要であるため、ドキュメント レベルでこれらの注釈にアクセスする方が理にかなっていると思います。したがって、これらの注釈付きドキュメントを MongoDB ストアから取得し、開始インデックスと終了インデックス、または注釈の種類 (トークン、文など) を使用して注釈にアクセスできます。

于 2012-08-23T22:38:38.803 に答える