問題タブ [word]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 単語比較アルゴリズム
作業中のプロジェクトに対してCSVインポートツールを実行しています。クライアントは、Excelでデータを入力し、CSVとしてエクスポートして、データベースにアップロードできる必要があります。たとえば、次のCSVレコードがあります。
もちろん、会社は別のテーブルに保持され、外部キーとリンクされているため、挿入する前に正しい会社IDを見つける必要があります。データベース内の会社名とCSV内の会社名を比較してこれを行う予定です。文字列が完全に同じである場合、比較は0を返し、文字列が大きくなるにつれて大きくなる値を返す必要がありますが、strcmpはここでそれをカットしません。理由は次のとおりです。
「AcmeCompany」と「AcmeComapny」の差指数は非常に小さいはずですが、「AcmeCompany」と「CmeaMpnyaco」の差指数は非常に大きいか、「AcmeCompany」と「AcmeComp」です。文字数が異なっていても、差指数も小さいはずです。また、「AcmeCompany」と「CompanyAcme」は0を返す必要があります。
したがって、クライアントがデータの入力中にタイプを作成した場合、おそらく挿入したい名前を選択するようにクライアントに促すことができます。
これを行うための既知のアルゴリズムはありますか、または多分私たちはそれを発明することができます:)?
algorithm - 無意味なテキストを意味のあるテキストから分離するアルゴリズム
いくつかのプログラムにフィードバック機能を提供しました。残念ながら、ある種のスパム保護を含めるのを忘れていました。これにより、ユーザーは自分のサーバーに何でも送信できるようになりました。すべてのフィードバックは巨大なデータベースに保存されます。
最初は定期的にそれらのフィードバックをチェックしました。使用可能なものを除外し、ゴミを削除しました。問題は、1 日あたり 900 件のフィードバックを受け取ることです。本当に役立つのは 4 ~ 5 個だけです。他のメッセージはほとんど 2 種類の意味不明なものです。
- ナンセンス: jfvgasdjkfahs kdlfjhasdf (キーボードで頭をぶつけている人々)
- わからない言語
私がこれまでにやったこと:
「asdf」、「qwer」などを含むフィードバックを削除するフィルターをインストールしました... -> 1 日あたり 700 件のみ
不適切な言葉を含むものをすべて削除する単語フィルターをインストールしました -> 1 日あたり 600 件 (聞かないでください - しかし、そこには奇妙な人がたくさんいます)
- 自分の言語で使用されていない文字を含むメッセージを除外します -> 1 日あたり 400 件
しかし、1日400回は多すぎます。ですから、以前にそのような問題に対処したことがあり、無意味なメッセージを除外するアルゴリズムを知っている人がいるかどうか疑問に思っています。
どんな助けでも本当に感謝します!
c# - 厳密に $ で始まる単語を検索する、正規表現 C#
厳密に「$」で始まり、数字のみを含む単語のすべての一致を見つける必要があります。だから私は書いた
それは私に4つのマッチを与えました
そこで、\b を使用して単語境界を使用することを考えました。
でもまた似合ってた
私には20ドル。
私は試した
しかし、私は失敗しました。
私は、単語が$で始まり、その後に数字が続く場合にのみ受け入れてください。IT STARTS WITH $ をどのように伝えるのですか? \b は、英数字で囲まれた単語境界を想定していると思われるためです。
解決策は何ですか?
word - 言葉の提案
Google の "did you mean?" のような単語提案機能の書き方を知っている人はいますか? 特徴?または、コード サンプルを見つけることができる場所を知っています。
ありがとう
c++ - 語長、文字サイズ、整数サイズ、バイトの関係
C++ の語長、文字サイズ、整数サイズ、およびバイトの関係は何ですか?
c# - 単語が出現する順序や回数が重要ではない場合、2 つの文字列間の最適な一致は重要ではありませんか?
単語が出現する順序や回数が重要でない場合、C# で 2 つの文字列間の距離を照合または計算するための最適なアルゴリズムは何ですか?
最良の手段:
- 人間の試合にほぼ同意するだろう
- エレガント
- 効率的
- スケーラブルであるため、入力文字列を他の文字列の潜在的に大きなコレクションに一致させることができます
関連する質問:
いくつかのメモ:
- 順序と発生に依存しないため、入力は、文字の配列という意味での文字列ではなく、一意の単語のセットと考えることができます。
- データベースソリューションを特に探しているわけではありませんが、興味深いものがあります
- 私はこれが宿題の問題であるには年を取りすぎています ;)
.net - スペイン語の正規表現は何ですか?
正規表現言語は、\B を使用して A..Z、a..z、0..9、および _ を含め、\b は単語境界として定義されます。
á、í、ó、é、ñ などの文字を含むすべての有効なスペイン語単語に一致する正規表現を作成するにはどうすればよいですか?
私は.NETを使用しています。
parsing - /proc/cmdline 引数をスペースで分割する
/proc/cmdline を解析するほとんどのスクリプトは、それを単語に分割してから、case ステートメントで引数を除外します。例:
問題は、WLAN ESSID にスペースが含まれている場合です。for ループがスペースで分割されるため、ユーザーはwlan='FOO
BAR' (シェル変数のように) を設定し、上記のコードで予期しない結果が得られることを期待しています。'FOO
/proc/cmdline
シェルスクリプトから解析して、ほとんど評価するのに足りないより良い方法はありますか?
または、引用のトリックはありますか?私はおそらくユーザーにスペースを引用して次のようにデコードするように頼むことができると考えていました: /bin/busybox httpd -d "FOO%20BAR"
. それともそれは悪い解決策ですか?