ウィキペディアのような大規模なウェブサイトでは、重複したエントリをどのように分類できるでしょうか?
ユーザーが重複したエントリなどを作成した瞬間からの正確な手順を知る必要があります。わからないけど方法を知っている方は送ってください。
- - アップデート - -
wikipedia.com/horse があり、後で誰かが wikipedia.com/the_horse を作成したとします。これは重複したエントリです! 削除するか、元のページにリダイレクトする必要があります。
ウィキペディアのような大規模なウェブサイトでは、重複したエントリをどのように分類できるでしょうか?
ユーザーが重複したエントリなどを作成した瞬間からの正確な手順を知る必要があります。わからないけど方法を知っている方は送ってください。
- - アップデート - -
wikipedia.com/horse があり、後で誰かが wikipedia.com/the_horse を作成したとします。これは重複したエントリです! 削除するか、元のページにリダイレクトする必要があります。
手動のプロセスです
基本的に、wikipedia や stackoverflow などのサイトは、ユーザー/編集者が重複を作成したり、誤って作成された場合にそれらをマージ/削除したりしないことに依存しています。このプロセスをより簡単で信頼性の高いものにするさまざまな機能があります。
そうは言っても、ウィキペディアにはまだ多くの重複した情報があります --- しかし、編集者は追加されるのと同じくらい迅速にこれを片付けています.
コミュニティがすべてです(更新)
コミュニティ サイト (wikipedia や stackoverflow など) は、時間をかけて手順を開発します。Wikipedia:about Stackoverflow:FAQまたはmeta.stackoverflowをご覧ください。コミュニティがどのように共同でサイトを構築し、発生した問題にどのように対処するかについて、小さな (しかし重要な) 詳細をすべて読むのに何週間も費やすことができます。これの多くは寄稿者のためのルールに関するものです --- しかし、ルールを作成すると、その詳細の多くがサイトのコードに組み込まれます。
原則として、シンプルなシステムと、共通の目標に同意し、あなたのサイトのコンテンツを読むことに興味があり、貢献するのが好きで、進んで妥協し、問題を手動で修正します。この段階では、多くの訪問者や貢献者を持つことよりも、コミュニティの「アイデンティティ」と相互支援を持つことがはるかに重要です。問題が発生したときに対処し、メンバーに責任を委任するには、多くの時間と注意を払う必要があります。サイトの基礎と共通の方向性が定まったら、コミュニティをゆっくりと成長させることができます。うまくやれば十分な支持者を獲得できる新しいメンバー間で追加の作業を共有します。十分に気にしないと、スパマーや荒らしがサイトを乗っ取ってしまいます。
ウィキペディアは何年にもわたってゆっくりと成長し、現在の規模になったことに注意してください。その秘訣は「大きくなる」ではなく「健やかに成長し続ける」こと。
そうは言っても、stackoverflow はウィキペディアよりも速い速度で成長しているようです。ここで行われたさまざまなトレードオフの決定を検討することをお勧めします。stackoverflow は、あるユーザーが別のユーザーの投稿を変更できるようにするという点で、はるかに制限されています。多くの場合、悪い情報は単純にページの一番下に押し下げられます (ランキングが低くなります)。したがって、wikipedia のような記事は生成されません。しかし、問題を遠ざける方が簡単です。
Yaakov のリストに 1 つ追加できます。
EBAGHAKI、上記のコメントの最後の質問に答えて:
これらの機能を備えた独自のシステムを設計しようとしている場合、重要なのは次のとおりです。
MediaWiki の場合、これは特別な「#REDIRECT」コマンドで行われます。最初の行に「#REDIRECT [[新しい記事のタイトル]]」のみを使用して作成された記事は、URL リダイレクトとして扱われます。
MediaWiki で使用される編集システムの残りの部分は気のめいるように単純です。すべてのページは基本的にテキストのブロックとして扱われ、構造がなく、読者が新しいリビジョンを追加できる単一ストリームのリビジョン履歴があります。これについては何も自動ではありません。
メイン ページを作成しようとすると、長いメッセージが表示され、既存のページが既に存在するかどうかを確認するために、さまざまな方法でページ タイトルを検索するように促されます。多くのサイトには同様のプロセスがあります。Digg は、重複を投稿しないよう説得するための積極的な自動検索を行う典型的な例です。投稿を許可する前に、潜在的な重複を一覧表示する画面をクリックして、自分のものが異なることを確認する必要があります。
'the'などの無関係な単語を削除して正規のタイトルを作成する手順があり、既存のページと一致する場合はエントリを許可しないと思います。