私はURLを正規化するプロジェクトに取り組んでいます(つまり、同じWebページにマップする別のURLを識別し、検索エンジンのように冗長性を減らす必要があります)。
そのため、メソッドをテストするために、さまざまなURLを含むデータセットが必要です。正規化データセットへのリンクを提供してください。
私はこのプロジェクトをC#で実装しているので、提案をお願いします。前もって感謝します。
私はURLを正規化するプロジェクトに取り組んでいます(つまり、同じWebページにマップする別のURLを識別し、検索エンジンのように冗長性を減らす必要があります)。
そのため、メソッドをテストするために、さまざまなURLを含むデータセットが必要です。正規化データセットへのリンクを提供してください。
私はこのプロジェクトをC#で実装しているので、提案をお願いします。前もって感謝します。
あなたが尋ねI'd like your suggestions
たので、あなたの質問を非常にオープンにして、あなたが得るかもしれないどんな種類の提案にもオープンなままにしておきます. 100%確信が持てないことは認めますが、どの問題に取り組みたいですか? プログラム/コード固有の提案を求めていますか? そのようなプロジェクトをセットアップする方法についての戦略は? または、インスピレーション/アイデアを収集して、既存のワークフローを改善したいですか? この 3 番目のことを探している場合は、私の人工知能の教師の 1 人がかつて行った講義に触発された 2 つのシナリオを検討することをお勧めします。Ant のコロニーがどのように組織化されているかを見てみましょう。
トップダウン アプローチ: ファンタジーアリごとにサブコロニーへのルートを規定し、それによって、さまざまなアリがすべて同じ場所に移動することを約束する複数のトレース ルートを正規化する、アンコロジーの女王を想像してみてください。アリをまとめて、各グループに目標へのルートを 1 つだけ使用させ、重複する可能性のあるルートを削除します。これは、ルートをより効率的にする方法の 1 つです。実際には、アリは実際には異なる働きをします:
ボトムアップ アプローチ: 現実: 1 匹のアリにはほとんど意味がありませんが、アリのコロニー全体を研究すると、組織が明らかになります。これは、アリ自身が他のアリの匂いの痕跡をたどり、お互いをたどり、最終的に巣への道を見つけるためです. このように、賢さは上から、または中央データベースから来る必要はありませんが、各アリに組み込まれたわずかなインテリジェンスにより、同じパスが再利用可能になります。>> このように、正規化が必要な各ハイパーリンク内で正規化手法を構築することを考えてみてください。
これがあなたが望む提案を与えることができることを願っています。それ以外の場合、あなたの質問が戦略に基づくものではなく、特定のコードの問題に関連するものである場合は、プログラム コードを含む質問をしてください。多くの場合、最良の戦略を見つけるよりもはるかに簡単に解決できます。幸運を!私の2セント。