問題タブ [synonym]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 同義語と傾いた言葉の基本形を見つける
次のことを実行できる Java のツールを探しています。
1) 傾いた単語の基本形を見つけます。例:
- 「connection」、「connecting」、「connects」などの単語については、「connect」という単語を返します。
- 「running」、「runs」という単語の場合、「run」という単語が返されます。
2) 単語ごとに同義語のコレクションを返します。
そのようなツールを知っている人はいますか?
solr - solrシノニムを機能させる方法
Solrでいくつかの基本的な同義語を設定しようとしています。私が取り組んできたのは:
私たち、アメリカ、アメリカ
私の理解では、これを同義語ファイルに追加すると、ユーザーは米国を検索し、米国または米国を含むドキュメントを取得できるようになります。ユーザーが米国または米国に入国した場合も同様です。
残念ながら、これが適切な場所にあると、検索を実行すると、3つの単語すべてを含むアイテムの結果が得られます。ORではなく同義語のANDを実行しています。
デバッグをオンにすると、これは確かに私が見るものです(さらにいくつかのステミング):
(+DisjunctionMaxQuery(((westCite:us westCite:usa westCite:unit) | (text:us text:usa text:unit) | (docketNumber:us docketNumber:usa docketNumber:unit) | ((status:us status:usa status:unit)^1.25) | (court:us court:usa court:unit) | (lexisCite:us lexisCite:usa lexisCite:unit) | ((caseNumber:us caseNumber:usa caseNumber:unit)^1.25) | ((caseName:us caseName:usa caseName:unit)^1.5))))/no_coord
私はこれを引き起こすために何か間違ったことをしていますか?defaultOperatorはANDに設定されていますが、同義語フィルターがそれを理解することを期待しています。
lucene - インデックス作成時の Lucene 項のブースト
インデックスを作成するとき(クエリを実行するときではなく)、特定の用語が他の用語よりも重要であると判断することは可能ですか?
たとえば、類義語フィルターを考えてみましょう:
ドキュメント 1: 「これはいい車です」
ドキュメント 2: 「これはいい車です」
最初のドキュメントに vehicle という用語を追加し、2 番目のドキュメントに car という用語を追加したいのですが、後で car という単語でインデックスをクエリすると、最初のドキュメントのスコアが 2 番目のドキュメントよりも高くなり、クエリを実行すると、車両は逆になります。
それぞれのドキュメントにフィールドを追加する前にフィールドで setBoost を呼び出すとうまくいくでしょうか?
または、シノニムを別のフィールド名に追加する必要がありますか?
それとも、私はこれを間違った視点から見ていますか?
ありがとう
oracle - オラクルマテリアライズドビュー内でのパブリックシノニムの使用
マテリアライズドビュークエリ内にパブリックシノニムを含めることは可能ですか?
nlp - シノニム オフライン 検索アプリケーション用辞書
質問内の単語の同義語を取得し、生成された各同義語でデータベースにクエリを実行するスマート検索エンジン アプリケーションを構築しようとしています。
問題は、辞書などを使用して、質問内の単語のすべての同義語を取得する方法を探していることです。最終的に 1- 次のような直接的な同義語を提供できます: ファイル > 映画、サッカー > サッカー 2- 次のような一致文字列を提供できます: 人口サイズ > 市民の数 (オプション) 3- 高速で信頼できるもの。サービスの API ではなく、オフラインでホストされることを好む
私は探検しました:
他の効率的な代替手段があるのだろうか
oracle - パブリック シノニム vs. schema.object パターン
私のアプリケーションでは、500 を超える多数のユーザーが存在する予定です。ユーザーは 1 つのスキーマ オブジェクトのみを扱います。必要な権限を付与しました。私が言ったら:
「テーブルまたはビューが存在しません」というエラーが表示されるので、次のことを意味します。
- オブジェクトの前に所有者名を指定する必要があります。のよう
SCOTT.EMPに、または - 参照するすべてのオブジェクトのパブリック シノニムを作成できます。
私の懸念は、パブリック シノニムが、約 300 の同時接続を持つ多数のユーザーのパフォーマンスに影響を与える可能性があるかどうかです。最初の方法と 2 番目の方法のどちらを選択する必要がありますか?
full-text-search - 同義語によるオフライン全文検索
全文検索機能を備えたオフライン バージョンの Web サイトを提供したいと考えています。Web サイトのほとんどは純粋な HTML + JavaScript のみです。しかし、英語以外の言語で同義語を含む全文検索が必要です。
最初に、私はWapacheについて考えていました.WebサイトはPHPを使用していますが、mysqlを持っていないため(そして、ユーザーにmysqlのインストールと構成を強制することはほとんどできません)、pspellサポートはなく、古いPHP 5.0.3を使用しています(魔女最悪ではありません)、おそらく古い IE バージョンでは動作しません (サイトには多くの JavaScript が含まれています...)。
私が見つけた葯の解決策はLuceneでした。しかし、サポートされていないようです。そのドキュメントLucene を使用して、中国語、日本語、韓国語、およびその他のマルチバイト文字セットのテキストにインデックスを付けることはできますか? 存在しないページ「Lucene Sandbox」を参照しています。同義語をサポートしていないこともわかりました。
WorldNetへの参照も見つけました。魔女は同義語のサポートを Lucene に追加できますが、英語のみです。
したがって、問題は、英語以外の同義語を使用してフルテキストを認識し、可能であれば、ユーザーのコンピューターに何もインストールする必要なく、オフライン Web アプリケーションを作成する方法です (もちろん、Java ランタイムは問題ではありませんが、インストールして構成します)。 mysql + php です)。
sql - 同義語がすでに存在する場合、同義語を作成しないことを確認するにはどうすればよいですか?
シノニムの作成にOracleSQLDeveloper2.1を使用しています。
この同義語がすでに存在する場合、存在する場合は同義語を作成しないことを確認するにはどうすればよいですか。
solr - Solr シノニムを使用しているときに元の用語をさらに強化する方法はありますか?
たとえば、index_synonyms.txt に同義語のラップトップ、ネットブック、ノートブックがあります。
ユーザーがネットブックを検索するとき、元のテキストを同義語で拡張するよりも強化したいですか? SynonymFilterFactory でこれを指定する方法はありますか? たとえば、元の用語を 2 回使用すると、彼の TF が大きくなります