既存の資料 (PDF、PPT、Word ドキュメントなど) に基づいて動的なコース コンテンツ システムを構築したい
私の基本的な要件は、semantic search
これらのファイルでコンテンツを抽出することです。
システムで使用する .net ライブラリまたは API について質問します。
Kngine 、WordNet、Terrier、jatetoolkitなど
既存の資料 (PDF、PPT、Word ドキュメントなど) に基づいて動的なコース コンテンツ システムを構築したい
私の基本的な要件は、semantic search
これらのファイルでコンテンツを抽出することです。
システムで使用する .net ライブラリまたは API について質問します。
Kngine 、WordNet、Terrier、jatetoolkitなど
SQL Server 2012 には、それに応じて改善されたフルテキスト検索と組み合わせたセマンティック検索の新機能があります。それはあなたの要求を満たすかもしれないし、満たさないかもしれませんが、間違いなく検討する価値があります.
ここから始めることができる例は次のとおりです。
商用の dtSearchには、「セマンティック検索」または「シノニム検索」だけでなく、音声検索やその他の検索を使用して索引付けおよび検索できるインターフェースがあることを知っています。dtSearch は WordNet ライブラリを使用します。
dtSearch は非常に強力で、1 つの DLL で完全なエンジンを提供し、あいまいさ、同義語/概念/シソーラス、ブール値、フレーズ、ワイルドカード、近接、ステミング、数値範囲、自然言語などを検索できます。
PDF、Word、およびほとんどの既知の文書を直接索引付けできます。
カスタム インデクサーを作成すると、WordNetデータベースをダウンロードして使用できるようになります。
ユーザーが検索する単語ごとに、WordNet データベースとシソーラスを使用して関連する単語を見つけることができます。