問題タブ [lemmatization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 複数形を単数形にする方法は?
ORM用にいくつかのテーブル名を準備していますが、複数のテーブル名を単一のエンティティ名に変換したいと思います。私の唯一の問題は、それを確実に実行するアルゴリズムを見つけることです。これが私が今していることです:
- 単語が-iesで終わる場合は、末尾を-yに置き換えます
- 単語が-esで終わる場合は、この末尾を削除します。ただし、これは常に機能するとは限りません。たとえば、TypesをTypに置き換えます。
- それ以外の場合は、末尾の-sを削除します
誰かがより良いアルゴリズムを知っていますか?
lemmatization - Morpha Lemmatizer はどのように使用されますか?
WordNet の SQL バージョンを使用するつもりですが、DB で単語を見つけるために単語を見出し語化する方法を見つけるのに問題があります。WordNet lemmatizer 自体は、テキスト バージョンの WorldNet に適用されるため、使用できません。
ここで、実際の単語を返す優れたレンマタイザーがあることを読みました。それがまさに私が必要としているものです。おすすめのレンマタイザー「Morpha」をダウンロードしましたが、使い方がわかりません。
- コンパイルは必要ですか?
- どのファイルを使用すればよいですか?
- WordNet SQL DB にアクセスするアプリケーションでどのように使用できますか?
language-agnostic - 英単語の複数形をプログラムで検出し、単数形を導出できますか?
複数形であると仮定する (英語の) 単語が与えられた場合、単数形を導出することは可能ですか? 可能であれば、ルックアップ/辞書テーブルを避けたいです。
いくつかの例:
language でのライブラリの提案はx
、それらがオープンソースである限り問題ありません (つまり、誰かがそれらを調べて language でそれを行う方法を決定できるようにするためy
) 。
lucene - DBsight luceneを使用した動詞の語形変化?
dbsightで検索の同義語とストップワードが許可されていることは知っていますが、これは動詞の語形変化にも対応しています。たとえば、「swim」の場合は、swim、swims、swimming、swam、swumが見つかります。
DBSight Wikiのリンク:http ://wiki.dbsight.com/index.php?title = User_dictionary
nlp - レンマ化とステミングの違いは何ですか?
それぞれをいつ使用しますか?
また...NLTKのレンマ化は品詞に依存していますか?もしそうなら、もっと正確ではないでしょうか?
ruby - Ruby でレンマタイザーを使用する
ステマーを使用してみましたが、生成される単語は的を射ていません。ruby 用に存在するレンマタイザー スクリプト、レンマタイザー gem、または wordnet データベース内の単語のレンマをバンドルする SQL クエリを教えていただければ幸いです。乾杯 !
sql - SQL 単語のルート マッチング
主要な SQL エンジン (MS SQL、Oracle、MySQL) が、同じ語根を共有しているため、2 つの単語が関連していることを理解できるかどうか疑問に思っています。
後者は前者の部分文字列であるため、「network」を検索する場合、「networking」が一致しやすいことがわかっています。
しかし、「ネットワーキング」を検索するときに「ネットワーク」に一致する機能を SQL エンジンは持っているのでしょうか。
どうもありがとう。
c# - テキストの分析 (見出し語化、編集距離)
テキストを分析して、禁止された単語が存在するようにする必要があります。ブラックリストが「禁止」という単語であるとします。言葉には多くの形があります。テキストでは、「禁じられている」、「禁じられている」、「禁じられている」などの単語を使用できます。単語を最初の形にするために、見出し語化のプロセスを使用します。あなたの提案は?
タイプミスはどうですか?
例: 「F0rb1d」。damerau-Levenshtein などを使用すると思います。あなたの提案は?
そして、「禁断の情報。会社の私信
。」または「Forrb1dden1nformation.Privatecorresp0ndenceofthec0mpany.」(はい、空白なし)
この問題を解決するには?
テキストはリアルタイムで処理されるため、高速なアルゴリズムが望ましいです。
また、パフォーマンスを向上させるためのヒント (保管方法など) はありますか?
perl - 検索用の基本的な語形変化のない単語を見つける方法は?
単語のすべての語形変化を同じ基本単語として扱う検索エンジンを作成しようとすると、うまくいきません。
- したがって、動詞の場合、これらはすべて同じ語根語である be :
- 人数/人 (例: am; is; are )
- 過去または未来の時制のような時制/気分 (例: was; were; will be )
- 過去分詞 (例 has been ; had been )
- 現在分詞と動名詞 (例 is being ; was not being funny ; 早いことは正しいことよりも重要ではない)
仮定法 (例 might be ;何かを終わらせることが重要; だったらいいのに) </p>
- 次に、名詞の場合、単数形と複数形の両方が同じ基本単語としてカウントされます [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: これは単語の引用形と呼ばれることがよくあります。]
たとえば、「<em>enable」では、「<em>enables」と「<em>enabled」を別々のエントリとして出力したくありません。これらの 3 つすべては、同じ基本単語、動詞enableとしてカウントする必要があります。
次のようなハッシュを使用して、重複の印刷を防ぐことができます。
誰かがこれを説明できますか?以下のコメントで説明します。
これは、複数形/過去形の継続を止めるものではありません。これを行う方法、または完全に異なるアプローチ、おそらく正規表現および/または置換を含む方法はありますか?
印刷が正しく印刷されないため、置換で単語を変更することはできません。まだその段階ではありませんが、最終的には不規則な過去時制 [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: ] と不規則名詞も含めたいと考えています。] 同じように
私の質問に答えるために他に何が必要なのかわからないので、意図せずに省略したものを教えてください。不足しているビットがあれば、より明確にするために記入します.