問題タブ [spelling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
word - 言葉の提案
Google の "did you mean?" のような単語提案機能の書き方を知っている人はいますか? 特徴?または、コード サンプルを見つけることができる場所を知っています。
ありがとう
visual-studio - ソース コードのスペル チェッカーはありますか?
私は自分のプロジェクトに常にタイプミスを入れています (Google は正式に私のスペルを台無しにしました)。VS 用のプラグインや、できれば無料の、引用符 (二重および一重) で囲まれた文字列値をチェックする一般的なスペル チェッカーを知っている人はいますか?
fxcop - 名前空間の会社名で FxCop スペル チェック トリップが発生する
私は FxCop を試しています (現時点では UI を使用しており、CruiseControl.NET などには含まれていません)。いくつかの問題が発生しています。スペル チェッカーがクライアントの会社名と製品名を気に入らないようで、次のように求められます。
- このためのルールを作成しますか?もしそうなら、どのようにしますか?
- または、辞書に追加する方法はありますか?
- オランダ語のパラメーターもいくつかあります (Sharepoint パラメーターにバインドされている
ObjectDataSource
ため、クライアントがそれを望んでいるため、オランダ語のままにする必要があります)、どうにかしてオランダ語のライブラリを FxCop に追加できますか?
編集
を見つけましたがCustomDictionary.xml
、これはベスト プラクティスと見なされますか? チームに参加する人が増えたら、辞書のコピーが必要になるでしょうか、それとも継続的インテグレーションに移行した方がよいでしょうか?
c# - ASP.NET のスペル サジェスター
ASP.NET でスペル サジェスターを作成する必要があります... 以下は私の要件です。
ケース 1: 私の単語リストは英語リストの単語だけではなく、AACD、ESSA、BIMER などのコードも含まれます。データベースからそのような (新しい) 単語を提供する場合があります。
ケース 2: 英語以外の言語にも同様のスペリング サジェスターが必要です。ここでも、データベースから単語のリストを提供できます。
さて、同じことをどのように実装するかについての提案は大歓迎です。
さらに、ウェブサイトから次のPythonコードを見つけました。これは、最も可能性の高い提案を返すと述べています(もちろん英語で)。誰かがそれをC#に翻訳できるなら、それは本当に役に立ちます.
ありがとう - ラジャ
regex - Guid に適合する単語を生成する (楽しみのためだけに)
GUIDを使用するいくつかのテストがあります。使用される guid は非常に一意である必要はありません。guid である必要があるだけです。ランダムなガイドは退屈なので、楽しいガイド ワードを見つけようとしています。今のところ、「00000000-feed-dada-iced-c0ffee000000」以上のものはありません。理想的には、動詞、名詞、前置詞のリストを生成します。
この問題に数分しか費やしていないので、ここにいます:
- puzzlers.org の単語リスト(やや大きい) があります。
- この正規表現を適用して、Guid (o=0, i=1) ^[ABCDEFOI]{1,8}$ で使用できる単語を識別します
- 斜視。
私がすぐに満足できる面白い GUID ジェネレーターを誰かが持っていないのはなぜですか? これにどのようにアプローチしますか?この特別な GUID 生成プロセスを改善する方法についての提案は大歓迎です。
java - 単語の発音の音を取得する Java API はありますか?
ほとんどの辞書サイトは、単語の音声を聞くメカニズムを提供しています。この音声ファイルを取得できる API はありますか。eSpindleはこれを行うようですが、これは無料ではないと思います。
iphone - iPhoneアプリで単語のスペルをチェックするために「ファジー文字列比較」を行うにはどうすればよいですか?
iPhoneアプリにスペルチェッカーを実装したいのですが、入力された文字列と辞書の単語を含むNSArrayとの間で「ファジー文字列比較」を行い、可能な修正を強調表示する方法を知りたいですか?
すでにこれを行うクラスまたは誰かが推奨できるライブラリはありますか?
ありがとう!
open-source - aspellまたは別のツールを使用して、特定の単語の一般的なスペルミスを見つけるにはどうすればよいですか?
与えられた単語について、n個の最も近いスペルミスを見つけたいと思います。他に提案がない限り、aspellのようなオープンソースのスペルチェッカーがそのコンテキストで役立つかどうか疑問に思いました。
例:「健康」
私に与えるだろう:ealth、halth、heallth、healf、..。
python - 実世界のタイプミス統計?
実際のタイプミスの統計はどこにありますか?
私は人々の入力テキストを内部オブジェクトに一致させようとしていますが、人々はスペルミスをする傾向があります。
2種類の間違いがあります:
typos
-「Hello」の代わりに「Helllo」/「Saturday」の代わりに「Satudray」など。Spelling
-「シカゴ」の代わりに「シカゴ」
タイプミスにはダメラウ・レーベンシュタイン距離を使用 し、スペルにはダブルメタフォンを使用します(Pythonの実装はこことここにあります)。
ダメラウ・レーベンシュタイン(または単に)に焦点を当てたいと思いedit-distance
ます。教科書の実装では、削除、挿入、置換、および転置の重みに常に「1」が使用されます。これは単純で優れたアルゴリズムを可能にしますが、「現実」/「現実世界の確率」とは一致しません。
例:
- 「Helllo」(「Hello」)の可能性は「Helzlo」よりも大きいと確信していますが、どちらも編集距離が1つ離れています。
- QWERTYキーボードでは、「Gello」は「Qello」より「Hello」に近いです。
- Unicodeの音訳:「ミュンヘン」と「ミュンヘン」の間の「実際の」距離はどれくらいですか?
削除、挿入、置換、および転置の「実世界」の重みはどのようにする必要がありますか?
Norvigの非常にクールなスペルコレクターでさえ、重み付けされていない編集距離を使用します。
ところで-重みは単純なフロートではなく関数である必要があると確信しています(上記の例による)...
アルゴリズムを調整できますが、これらの重みをどこで「学習」できますか?Googleスケールのデータにアクセスできません...
私はそれらを推測する必要がありますか?
編集-ユーザーの質問に答えようとしています:
- 上記の理由でタイプミスに直面すると、現在の重み付けされていないアルゴリズムが失敗することがよくあります。「ReturnonTursday」:すべての「実在の人物」は、木曜日が火曜日よりも可能性が高いことを簡単に判断できますが、どちらも1編集距離です。(はい、ログに記録してパフォーマンスを測定します)。
- 私はNLP旅行検索エンジンを開発しているので、辞書には最大25Kの宛先(100Kに成長すると予想される)、時間式〜200(予想される1K)、人の表現〜100(予想される300)、お金の式〜100(予想される500)が含まれています)、 "glue logic words"( "from"、 "beautiful"、 "apartment")〜2K(予想される10K)など...
- 編集距離の使用法は、上記の単語グループごとに異なります。私は「明白なときに自動修正」しようとします。たとえば、辞書内の他の1つの単語から1編集距離だけ離れています。他にも多くの手動で調整されたルールがあります。たとえば、長さが4を超える辞書の単語から2編集距離以内のダブルメタフォン修正などです。実際の入力から学習するにつれて、ルールのリストは増え続けます。
- 「しきい値の範囲内にある辞書エントリのペアはいくつですか?」:まあ、それは「ファンシーウェイトシステム」と実際の(将来の)入力に依存しますね。とにかく、私は広範な単体テストを行っているので、システムに加えるすべての変更は、システムを改善するだけです(もちろん、過去の入力に基づいています)。ほとんどのサブ6文字の単語は、別の辞書エントリから1編集距離離れた単語から1編集距離以内にあります。
- 今日、入力から同じ距離に2つの辞書エントリがある場合、ユーザーが何を意味するかをより正確に推測するためにさまざまな統計を適用しようとします(たとえば、フランスのパリはイランのパリよりも検索に表示される可能性が高くなります)。
- 間違った単語を選択するコストは、半ランダムな(しばしばばかげた)結果をエンドユーザーに返し、潜在的に顧客を失うことです。理解できない場合のコストはわずかに低くなります。ユーザーは言い換えを求められます。
- 複雑さのコストはそれだけの価値がありますか?はい、そうだと思います。人々がシステムに投げかけるタイプミスの量を信じて、それが理解することを期待することは信じられないでしょう、そして私は確かに適合率と再現率のブーストを使うことができました。