さまざまな NLP ツール (POS タガー、構文パーサー、依存関係パーサーなど) で前処理したい大量のテキスト (1000 万文程度) があります。これらのツールによって作成されたさまざまな注釈レイヤーを何らかの方法で保存し、Java コード内からオンザフライでアクセスする必要があります (おそらく、コーパス内のテキスト スパンの開始インデックスと終了インデックス、および注釈の種類を提供することによって)。 .
これらの注釈をすばやく保存してアクセスするためのソフトウェア システムは既に存在しますか? そうでない場合、これらの注釈を保存してアクセスするための最良の方法は何ですか? アクセス速度が最も重要です。