html - 複数の一般的なドキュメント形式でプレーンテキストアクセス/反復を提供するライブラリ?

Question

最も一般的なテキスト形式のテキストにアクセスするための共通のインターフェイスを提供する、NLP/テキスト処理用のライブラリを見つけることに興味があります。

Microsoft Word.docとおそらく.docx
RTF
HTML
「平文」

ドキュメント内のテキスト以外のほぼすべての情報を無視するものが必要ですが、次のような機能を統合する必要があります。

インラインとブロックの書式設定 (ブロックは段落に似ていますが、インラインスタイルの変更は無視されます)
すべての文字エンコーディング、エンティティなど、UTF は同じ結果になるはずです (おそらく UTF-8 または UTF-16)。
ワードラップ用のものと改行がハードコーディングされたものなど、さまざまなプレーンテキスト形式に合わせて構成可能
基になるドキュメント形式に関係なく、同じセマンティクスで、一度に文字/単語/文を取得するメソッドを持つ
行末のハイフン、頭字語の一部と文末の両方であるピリオドなどのあいまいさに注意してください。

任意の 2 つの形式と、上記の機能の一部のみをサポートしていれば、なお満足です。

グーグルは成功していませんが、そのようなものが存在しないとしたら驚きです。NLP の専門家は、現実世界の大量のテキストを処理するために何を使用しますか? これは見つけるのが難しいため、どのプラットフォーム/プログラミング言語でも問題ありません。私が貢献できるオープンソースがベストです。

（これが話題から外れて閉鎖されたと見なされる場合、少なくとも、他の Stack Exchange サイト、またはそのような質問をする他のフォーラムを推奨していただければ幸いです。）

score 1 · Accepted Answer

ファイルからコンテンツを取得し、それを NLP ツールキットで分析するという 2 つの手順が必要になる場合があります。ステップ 1 はApache Tikaで実行できます。ステップ 2 の最もよく知られた代替手段は、おそらくGate、Apache UIMA、およびOpenNLPです。いくつかの重複がある可能性があることに注意してください。たとえば、UIMA には Tika を利用するコンポーネントが既にある場合があります。

html - 複数の一般的なドキュメント形式でプレーンテキストアクセス/反復を提供するライブラリ?

1 に答える 1

Related

Reference