私はOpenCalaisシステムに非常に感銘を受けました。これは、テキストを送信し、分析し、ドキュメントが属する一連の分類された(RDF対応)タグが提供されるWebサービスです。
しかし、現時点では、サポートされている言語は英語だけです。
多言語文書を処理する同様のシステムを知っていますか?(私はイタリア語に興味がありますが、もちろん多言語はプラスです)
私はOpenCalaisシステムに非常に感銘を受けました。これは、テキストを送信し、分析し、ドキュメントが属する一連の分類された(RDF対応)タグが提供されるWebサービスです。
しかし、現時点では、サポートされている言語は英語だけです。
多言語文書を処理する同様のシステムを知っていますか?(私はイタリア語に興味がありますが、もちろん多言語はプラスです)
Apache Stanbolは、さまざまな言語のテキストを分析できます。これまでのところ、次の言語がサポートされています (精度と再現率の値は言語によって異なる場合があります)。
分析により、検出されたエンティティが返されます。分析の出力形式は次のとおりです。
テキストのエンティティまたはタグ付けは、システム構成に従ってさらに調整できます。理想的には、任意のカスタム語彙をシステムにプラグインできます。
いくつかのデモ エンドポイントがあります。
上記のすべての言語が前述のエンドポイントでサポートされているかどうかは不明です。
RedLink GmbHは、Apache Stanbol および関連ソフトウェアに基づくクラウド サービスを提供する予定です。
WordPress 用のWordLift プラグインは、前述のすべての言語について、 WordPress 内でテキスト分析を既に提供しています(現在テスト段階にあります)。WordPress にプラグインをインストールして、投稿本文にテキスト コンテンツを送信してみてください。
特定の要求や情報については、 Apache Stanbol メーリング リストに登録して書き込むこともできます。
OpenCalais は、エンティティのフランス語とスペイン語の両方のメタデータ タグ付けをサポートしています。一連のエンティティは、将来のリリースで拡張される予定です。http://www.opencalais.com/documentation/calais-web-service-apiでオンライン ドキュメントを参照してください。