問題タブ [fuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - 2 つの HTML ページが類似しているかどうかの識別
基本ケースと付属ケースの違いを特定しようとしています。パーセンテージなどで類似性を教えてくれるライブラリを探しています。
例えば:
私は10個の異なるHTMLページを持っています。※いずれも404応答でランダムコード2行のみ(時刻や今日の名言など)。
ここで、新しい 404 ページを提供すると、「%80」と同様の結果が返されますが、別のページを提供すると、まったく異なる、または同じ Web サイトであるが、コンテンツがまったく異なる場合、「%20 類似」のようなものを取得する必要があります。
基本的に私がやりたいことは、新しい応答を受け取ったときに、新しい応答が以前に提供したこれらの 10 ページに似ているかどうかを識別したいということです。
私はこれを .NET で解決しようとしています。ライブラリまたはアルゴリズムの推奨事項は素晴らしいでしょう。
pattern-matching - 2 つ以上の要約が類似しているかどうかの判別
問題は次のとおりです。
通常は 20 ~ 50 語の要約が 1 つありますが、これを他の比較的類似した要約と比較したいと思います。概要が参照する一般的なカテゴリと地理的な場所は、既にわかっています。
たとえば、同じ地域の人々が家を建てることについて書いている場合、ガレージや裏庭のプールを建てるのではなく、実際に家を建てることについて言及しているというある程度の確信を持って、それらの要約をリストできるようにしたいと思います.
現在、データ セットは約 50,000 ドキュメントで、1 日あたり約 200 ドキュメントの増加率です。
優先される言語は、Python、PHP、C/C++、Haskell、または Erlang のいずれかで、仕事を遂行できるものであればどれでもかまいません。また、差し支えなければ、特定の言語を選んだ理由を教えていただきたいです。
algorithm - ファジー日付アルゴリズム
ファジー日付アルゴリズムを探しています。私はちょうどそれを書き始めて、それがどんなに退屈な仕事であるかを理解しました。「昨日」、「先週」、「先月下旬」などの特殊なケースに対処するために、すぐに多くの恐ろしいコードに縮退しました。これらはすべて(場合によっては)同じ日を参照できますが、個別に正しいものです。今日の日付に基づいています。
オープンソースのファジー日付フォーマッターが必要だと思いますが、見つかりません。理想的には、NSDate(OSX / iPhone)とそのフォーマッターを使用したものが欲しいのですが、それは難しいことではありません。ファジー日付フォーマッターが現在に関連する任意の期間を取り、次のような文字列を返すことを知っている人はいますか(ただしこれらに限定されません):
- 少し前
- 過去5分間で
- 今日の初め
- 今朝
- 昨晩
- 先週
- 先週の水曜日
- 先月初め
- 昨年6月
- 2〜3年前
理想的な世界では、文字列をできるだけ豊かにしたいと思います(つまり、「今」などの「ほんの少し前」にランダムなバリアントを返します)。
明確化。基本的なバックやストリングよりも繊細なものを探しています。「昨日」と「先週の水曜日」の両方が同じ期間を参照できることを知っているものが欲しいのですが、今日が木曜日の場合は1つだけが正しいです。
java - Java によるファジー日付解析
「昨日」、「次の月曜日」などの日付を解釈できるJava用のライブラリはありますか...
django - djangoあいまい文字列の翻訳が表示されない
言語ファイルに
/li>fuzzy
アイテムが表示されることがあるのはなぜですか。django.po
実際、私は自分のプロジェクトでfuzzy
文字列アイテムが完全にユニークであることを確認しました。あいまいであっても問題ありませんが、あいまいな項目の翻訳がページに表示されず、英語版のみが表示されます。それは完全に奇妙です。
algorithm - Excel のように類似のパターンを見つけて分析するにはどうすればよいですか?
特定のパターンで 3 つの行を入力し、列を一番下までドラッグすると、Excel の機能がわかります。Excel はパターンを続行しようとします。
例えば
タイプ...
- テスト-1
- テスト-2
- テスト-3
Excel は次のように続けます。
- テスト-4
- テスト-5
- テスト...
日付などの他のパターンでも同じように機能します。
同様のことを達成しようとしていますが、次のようなより例外的なケースも処理したいと考えています。
- テストブルーサムシングエルス
- テスト-黄色-何か他のもの
- テストレッドサムシングエルス
このエントリに基づいて、パターンは次のようになります。
- テスト-[動的]-何か
[DYNAMIC] を他の色で継続するのはまったく別の取引です。今はあまり気にしません。パターン内の [DYNAMIC] 部分を検出することに主に関心があります。
多数のプール エントリからこれを検出する必要があります。この種のパターンを持つ 10,000 個の文字列があり、類似性に基づいてこれらの文字列をグループ化し、テキストのどの部分が常に変化しているかを検出したいとします ([DYNAMIC])。
このシナリオではドキュメントの分類が役立ちますが、どこから始めればよいかわかりません。
アップデート:
複数の[DYNAMIC]パターンを持つことも可能であることを忘れていました。
そのような:
- test_[動的] 12 [動的2]
重要ではないと思いますが、これを .NET に実装する予定ですが、使用するアルゴリズムに関するヒントは非常に役立ちます。
sql - Postgres でのファジー グループ化
次のような内容のテーブルがあります。
…等々。タイトルでグループ化し、余分なビットを無視したいと思います。私はPostgresがこれを行うことができることを知っています:
ただし、これは非常に単純であり、考えられるすべてのバリエーションを予測しようとすると、非常に扱いにくくなります。問題は、正規表現を使用するよりもファジー グループ化を行うためのより一般的な方法があるかということです。少なくとも背中を壊すことなく、それは可能ですか?
編集: 明確にするために、どのバリエーションにも好みはありません。グループ化後のテーブルは次のようになります。
つまり、バリエーションは数文字または大文字が異なるだけのアイテムであり、それらがグループ化されている限り、どれが残されていても問題ありません。
python - Pythonで「あいまいな」時間/日付デルタを印刷するには?
重複の可能性:
Python の自然/相対日
「5秒前」、「2時間前」、「昨日」、「3週間前」などの形式で時間タプルを出力できるpythonモジュールの場所を知っている人はいますか?
django - Djangoのmakemessagesは、多くのあいまいなエントリを作成します
Djangoプロジェクトに文字列を追加するたびに、「django-admin.py makemessages -all」を実行して、すべてのロケールの.POファイルを生成します。
問題は、ニュース文字列を5つしか追加しなかった場合でも、makemessagesコマンドは.POファイルで50の文字列をファジーとしてマークし、ロケールメンテナに多くの余分な作業をもたらします。
これにより、あいまい文字列を手動で修正する前に、i18n全体が使用できなくなります。