1

盗作の検出が必要なアプリに取り組んでいます。新しい検索 API またはアプリ エンジンの他の API (プロスペクティブ検索など) を使用して、何百万ものエンティティでこのタスクを実行できるかどうか疑問に思っています。

そうでない場合、それを行うために提案されたpythonライブラリは何ですか?

具体的には、コースの宿題に提出されたソリューション間の類似性を検出する必要があります。それらはプログラムまたはテキストである可能性がありますが、通常、それぞれが数段落を超えることはありません.

Winnowing アルゴリズム (シーケンシャル ハッシュ) は知っていますが、ここで問題となるのは、何百万もの提出物を検索して宿題を探すことです (少数ではありません)。

4

1 に答える 1

3

全文検索 API を使用して、ドキュメントのコーパスを検索できます。これは、全文検索の通常の注意事項の対象となります: 個々の用語と正確なフレーズで検索できますが、組み込みの「あいまいさ」はありません。ほぼ一致するものは返されません (「フレーズ」と'phrased' と 'phrases' を同じ単語として)。

もちろん、剽窃の検出は、単に候補となる文書を見つけるよりもはるかに複雑です。最適なオプションは、TF-IDF のようなものを使用して入力テキストで最も重要な単語を見つけ、全文検索 API を使用してそれらの単語を含む候補ドキュメントのセットを見つけてから、横に並べて比較することです。候補者の思い出。

于 2012-05-24T01:25:31.523 に答える