最も一般的なテキスト形式のテキストにアクセスするための共通のインターフェイスを提供する、NLP/テキスト処理用のライブラリを見つけることに興味があります。
- Microsoft Word
.doc
とおそらく.docx
- RTF
- HTML
- 「平文」
ドキュメント内のテキスト以外のほぼすべての情報を無視するものが必要ですが、次のような機能を統合する必要があります。
- インラインとブロックの書式設定 (ブロックは段落に似ていますが、インライン スタイルの変更は無視されます)
- すべての文字エンコーディング、エンティティなど、UTF は同じ結果になるはずです (おそらく UTF-8 または UTF-16)。
- ワードラップ用のものと改行がハードコーディングされたものなど、さまざまなプレーンテキスト形式に合わせて構成可能
- 基になるドキュメント形式に関係なく、同じセマンティクスで、一度に文字/単語/文を取得するメソッドを持つ
- 行末のハイフン、頭字語の一部と文末の両方であるピリオドなどのあいまいさに注意してください。
任意の 2 つの形式と、上記の機能の一部のみをサポートしていれば、なお満足です。
グーグルは成功していませんが、そのようなものが存在しないとしたら驚きです。NLP の専門家は、現実世界の大量のテキストを処理するために何を使用しますか? これは見つけるのが難しいため、どのプラットフォーム/プログラミング言語でも問題ありません。私が貢献できるオープンソースがベストです。
(これが話題から外れて閉鎖されたと見なされる場合、少なくとも、他の Stack Exchange サイト、またはそのような質問をする他のフォーラムを推奨していただければ幸いです。)