ドメインから一致する可能性が高いものを取得するヒューリスティックを開発する必要があります。私がそれを行う方法は、最初にテキストの大きなコーパスを見つけることです。たとえば、ウィキペディアをダウンロードできます。
次にコーパスを取り、隣接する 2 つの単語をすべて結合します。たとえば、あなたの文が次の場合:
quick brown fox jumps over the lazy dog
リストを作成します。
quickbrown
brownfox
foxjumps
jumpsover
overthe
thelazy
lazydog
これらのそれぞれのカウントは 1 です。コーパスを解析すると、2 つの単語ごとの頻度のペアを追跡できます。さらに、ペアごとに、元の 2 つの単語が何であったかを並べ替える必要があります。
このリストを頻度順に並べ替えてから、これらの単語に基づいてドメイン内で一致するものを見つけようとします。
最後に、登録されていない上位 2 つの語句のドメイン チェックを行います。
DomainTool のようなサイトは、最高ランクの単語のリストを取得していると思います。次に、これらの単語を最初に解析しようとします。目的によっては、MTurk を使用して作業を行うことを検討することもできます。異なる人は同じ単語を異なる方法で解析し、単語がどれほど一般的であるかに比例して解析しない場合があります.