“word”の関連問題_Stack Overflow日本語サイト

0 投票する

7 に答える

23008 参照

algorithm - 単語比較アルゴリズム

作業中のプロジェクトに対してCSVインポートツールを実行しています。クライアントは、Excelでデータを入力し、CSVとしてエクスポートして、データベースにアップロードできる必要があります。たとえば、次のCSVレコードがあります。

もちろん、会社は別のテーブルに保持され、外部キーとリンクされているため、挿入する前に正しい会社IDを見つける必要があります。データベース内の会社名とCSV内の会社名を比較してこれを行う予定です。文字列が完全に同じである場合、比較は0を返し、文字列が大きくなるにつれて大きくなる値を返す必要がありますが、strcmpはここでそれをカットしません。理由は次のとおりです。

「AcmeCompany」と「AcmeComapny」の差指数は非常に小さいはずですが、「AcmeCompany」と「CmeaMpnyaco」の差指数は非常に大きいか、「AcmeCompany」と「AcmeComp」です。文字数が異なっていても、差指数も小さいはずです。また、「AcmeCompany」と「CompanyAcme」は0を返す必要があります。

したがって、クライアントがデータの入力中にタイプを作成した場合、おそらく挿入したい名前を選択するようにクライアントに促すことができます。

これを行うための既知のアルゴリズムはありますか、または多分私たちはそれを発明することができます:)？

Discodancer

2009-01-23T16:22:08.590

0 投票する

11 に答える

3475 参照

algorithm - 無意味なテキストを意味のあるテキストから分離するアルゴリズム

いくつかのプログラムにフィードバック機能を提供しました。残念ながら、ある種のスパム保護を含めるのを忘れていました。これにより、ユーザーは自分のサーバーに何でも送信できるようになりました。すべてのフィードバックは巨大なデータベースに保存されます。

最初は定期的にそれらのフィードバックをチェックしました。使用可能なものを除外し、ゴミを削除しました。問題は、1 日あたり 900 件のフィードバックを受け取ることです。本当に役立つのは 4 ～ 5 個だけです。他のメッセージはほとんど 2 種類の意味不明なものです。

ナンセンス: jfvgasdjkfahs kdlfjhasdf (キーボードで頭をぶつけている人々)
わからない言語

私がこれまでにやったこと：

「asdf」、「qwer」などを含むフィードバックを削除するフィルターをインストールしました... -> 1 日あたり 700 件のみ
不適切な言葉を含むものをすべて削除する単語フィルターをインストールしました -> 1 日あたり 600 件 (聞かないでください - しかし、そこには奇妙な人がたくさんいます)
自分の言語で使用されていない文字を含むメッセージを除外します -> 1 日あたり 400 件

しかし、1日400回は多すぎます。ですから、以前にそのような問題に対処したことがあり、無意味なメッセージを除外するアルゴリズムを知っている人がいるかどうか疑問に思っています。

どんな助けでも本当に感謝します！

algorithm filter word nlp spam

Chris

2009-02-01T22:05:48.313

0 投票する

4 に答える

4852 参照

c# - 厳密に $ で始まる単語を検索する、正規表現 C#

厳密に「$」で始まり、数字のみを含む単語のすべての一致を見つける必要があります。だから私は書いた

それは私に4つのマッチを与えました

そこで、\b を使用して単語境界を使用することを考えました。

でもまた似合ってた

私には20ドル。

私は試した

しかし、私は失敗しました。

私は、単語が$で始まり、その後に数字が続く場合にのみ受け入れてください。IT STARTS WITH $ をどのように伝えるのですか? \b は、英数字で囲まれた単語境界を想定していると思われるためです。

解決策は何ですか？

c#regex word word-boundary

Anirudh Goel

2009-03-05T15:51:07.837

0 投票する

1 に答える

1127 参照

word - 言葉の提案

Google がどのようにアルゴリズムを意味するかの複製

Google の "did you mean?" のような単語提案機能の書き方を知っている人はいますか? 特徴？または、コードサンプルを見つけることができる場所を知っています。

ありがとう

word spelling search-suggestion

sol

2009-03-06T08:15:04.523

0 投票する

6 に答える

12273 参照

c++ - 語長、文字サイズ、整数サイズ、バイトの関係

C++ の語長、文字サイズ、整数サイズ、およびバイトの関係は何ですか?

c++word int byte

rajKumar

2009-03-30T18:00:31.110

0 投票する

2 に答える

1202 参照

c# - 単語が出現する順序や回数が重要ではない場合、2 つの文字列間の最適な一致は重要ではありませんか?

単語が出現する順序や回数が重要でない場合、C# で 2 つの文字列間の距離を照合または計算するための最適なアルゴリズムは何ですか?

最良の手段:

人間の試合にほぼ同意するだろう
エレガント
効率的
スケーラブルであるため、入力文字列を他の文字列の潜在的に大きなコレクションに一致させることができます

.net - スペイン語の正規表現は何ですか?

正規表現言語は、\B を使用して A..Z、a..z、0..9、および _ を含め、\b は単語境界として定義されます。

á、í、ó、é、ñ などの文字を含むすべての有効なスペイン語単語に一致する正規表現を作成するにはどうすればよいですか?

私は.NETを使用しています。

.net regex word

2009-05-22T04:40:43.500

0 投票する

8 に答える

30374 参照

parsing - /proc/cmdline 引数をスペースで分割する

/proc/cmdline を解析するほとんどのスクリプトは、それを単語に分割してから、case ステートメントで引数を除外します。例:

問題は、WLAN ESSID にスペースが含まれている場合です。for ループがスペースで分割されるため、ユーザーはwlan='FOO BAR' (シェル変数のように) を設定し、上記のコードで予期しない結果が得られることを期待しています。'FOO

/proc/cmdlineシェルスクリプトから解析して、ほとんど評価するのに足りないより良い方法はありますか?

または、引用のトリックはありますか？私はおそらくユーザーにスペースを引用して次のようにデコードするように頼むことができると考えていました: /bin/busybox httpd -d "FOO%20BAR". それともそれは悪い解決策ですか？

parsing shell word argument-passing split

2009-06-14T18:38:22.730

問題タブ [word]

Reference