盗作の検出が必要なアプリに取り組んでいます。新しい検索 API またはアプリ エンジンの他の API (プロスペクティブ検索など) を使用して、何百万ものエンティティでこのタスクを実行できるかどうか疑問に思っています。
そうでない場合、それを行うために提案されたpythonライブラリは何ですか?
具体的には、コースの宿題に提出されたソリューション間の類似性を検出する必要があります。それらはプログラムまたはテキストである可能性がありますが、通常、それぞれが数段落を超えることはありません.
Winnowing アルゴリズム (シーケンシャル ハッシュ) は知っていますが、ここで問題となるのは、何百万もの提出物を検索して宿題を探すことです (少数ではありません)。