database - アプリケーションがセマンティック関連性を判断するために、キーワードを他の関連キーワードとともに保存する無料のデータベースはありますか?

Question

これは貴重な資産の検索のように見えますが、多くのことに対して無料の代替手段があるため、これについては楽観的です.

のような 2 つのキーと値のペアを格納するデータベース

キー値

また

キーコンテキスト値

データを収集してタグ付けしたり、関連する可能性のあるレコードを検索したりする Web 開発者にとって非常に便利です。

このようなデータテーブルは、保存したいものの正規化された形式でさえあります。

このような無料でコピーできるデータテーブルについて聞いたことがある場合は、共有してください。ありがとうございました。

score 3 · Accepted Answer

WordNetを使用できます。WordNetには、（英語の）単語間の一般的な関係が含まれています（名詞、動詞、形容詞、副詞に分けられます）。関係はシンセット（同義語セット）の間にあり、「バス」は「車両」、「ホイール」は「車」の一部であるなどの関係を表します。

注：WordNet辞書で単語を検索するには、見出語（単語の基本形式）を使用する必要があるため、フリーテキスト（Webサイトなど）から単語を検索する場合は、見出語を計算する必要があります。最初の言葉の。これを行うには、いくつかの自然言語処理（NLP）手法を適用するか、独自のヒューリスティックを作成します。

シンセットの関係に加えて、WordNetにはシンセットの短い定義（光沢）も含まれており、これを使用してより多くのコンテキストを取得できます。また、意味の曖昧性解消技術は、多意味の単語のどの意味を使用するかを決定するのに役立ちます。これは、コンテキストを提供する形式でもあります。

WordNetが提供するもの（英語の単語の一般的な意味間の一般的な関係）よりも多くのコンテキストが必要な場合は、概念間の意味関係を説明する適切なオントロジーを見つける必要があります。あなたはそれが関係している概念にテキストをマッピングする必要があります（繰り返しますが、NLP技術はこれに役立ちます）

オントロジーの例：SUMO、MSOなど。

score 1 · Accepted Answer

Lucene (または任意のテキスト検索エンジン) を使用してドキュメントを保存し、カスタムステマーと組み合わせて、(単語のバリエーションではなく)意味に基づいてドキュメントテキストにインデックスを付けることができます。

通常、語幹は、単語のすべてのバリエーションを基本語幹に変換するために使用されます。たとえば、文書はそのままのテキストで保存および検索されますが、「歌う、歌う、歌う、歌う」という単語はいずれも「歌う」として索引付けされるため、検索用語「歌う」を使用して検索を行うと、、sing、sing、sang、sung を含むすべてのドキュメントにヒットします。

同様に、検索語もステミングされる可能性があるため、「sing、sing、sang、sung」のいずれかを検索すると、「sing」が検索語であるかのように検索されます。

標準ステマーは通常の英語の単語のバリエーションを処理しますが、意味に基づいて語幹を作成することもできます。たとえば、「リンク」したいすべての単語について、「問題、問題または苦情」から「問題」などのいずれかをステミングするステマーを作成できます。

ステマーを使用する利点は、検索関連の面倒な作業がすべてテキスト検索エンジンによって行われることです (さらに、テキスト検索エンジンは信じられないほど高速です!)。

実装に関しては、データベース内のデータに基づいてステマーのコードを生成するか、動的にして検索/インデックス操作が行われるたびにデータベースを検索するか、またはどこかでリンケージをデータ駆動型にすることができます。 between - 値をキャッシュし、定期的に更新します。

score 0 · Accepted Answer

オントロジーについて話しているように聞こえます。オントロジー(データベース?)とは?を参照してください。

オントロジーは、現実世界のエンティティと関係の複雑なモデルを自然かつ有機的な方法で構築する非常に強力な方法を提供するように思えます。エンティティ/概念間の関係をモデルに取り込むことができ、関係の種類の数が増えるにつれて、この一連の知識を活用するために、ますます高度なルールをエンコードできます。

score 0 · Accepted Answer

形式は JSON オブジェクトのように聞こえます => それでウィキペディアを見て、JSON を使用してデータを保存するオープンソースデータベースであるCouchDBを見つけました

score 0 · Accepted Answer

map-reduce要件に応じて、パラダイムのさまざまな実装を探すことができます。最も有名なのは Hadoop、特に Hadoop MapReduce です。これはデータベースではなくフレームワークですが、要求どおりに機能し、データをkey=valueペアで保存および処理します。これは、大規模でスケーラブルなシステムを構築するための製品です。もっと単純なものが必要な場合は、PHP ベース (MySQL の上) などの小規模な実装や、ほとんどの場合 MapReduce を模倣できる「単純な」MySQL アグリゲーションなど、分散システムを必要としないものがあります。データの負荷。

database - アプリケーションがセマンティック関連性を判断するために、キーワードを他の関連キーワードとともに保存する無料のデータベースはありますか?

5 に答える 5

Related

Reference