問題タブ [plagiarism-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
latex - LaTeX ドキュメントから重要なテキスト コンテンツを抽出するにはどうすればよいですか
自動化された盗作防止チェックのために、LaTeX で書かれた論文ドキュメントからテキストのみのコンテンツを抽出する必要があります。私は「ドラフト」オプションについてしか知りませんが、それでは十分ではありません。
私は省略することになっています:
- 画像、
- 表やその他の図、
- 方程式、
- キャプションと脚注。
すべての参照を削除することもいいでしょう。出力は、プレーン (UTF-8 でエンコードされた) テキスト ファイルである必要があります。
これを行う簡単な方法はありますか?ページごとに手動でコピーするのはあまり好きではありません。
c++ - C/C++ の剽窃検出のための変数の名前変更
簡単な C++ の宿題がいくつかあり、学生がコードを共有したことを知っています。これらは賢い学生であり、コケをごまかす方法を知っています。タイプに基づいて変数の名前を変更できるツールを探しています (int 型の最初の変数は int1 になり、最初の int 配列は intptr1 になります...)、または今は考えられない同様のことを行います。これを行う簡単な方法を知っていますか?
編集:モスを使用して 90% の一致を報告する必要があります
ありがとう
java - 盗作結果の表示
私は剽窃検出フレームワークを開発中です。そこでまず、ステミング、同義語の置換、ストップ ワードの削除などの手段でドキュメントを前処理します。そのため、前処理されたドキュメントは元のドキュメントとは多少異なります。
前処理されたドキュメントを盗作機能に入力すると、同様の文が返されます。
次に、GUI で 2 つのドキュメントと類似の文を強調表示して表示する必要があります。
Java で強調表示するには、単語のインデックスを取得して強調表示する必要があります。
問題は、前処理されたテキストが元の文書とは異なるため、元の文書の類似した文を索引付けするのが難しいことです。
誰でもこの問題を解決できますか??
haskell - Haskell で単語を同義語に置き換える
私はこの剽窃検出器を使って、Haskell でファイルを読み取り、その単語の一部を類義語に置き換えるプログラムを作成しようとしていました。Haskell でこの目的のために利用できる辞書はありますか?
また、アルゴリズムに関する意見や、この問題に関連するその他の意見、たとえば単語を類義語に置き換えてステートメントのコンテキストを変更しないようにする方法などがある場合は、投稿してください。
ruby - Ruby で盗作検出エンジンのノイズ フィルターを設計する
私は、MOSS (ソフトウェア類似度の測定) の背後にある学術論文に基づいて、剽窃検出エンジンの実装に取り組んできました。
モスへのリンク
C/C++/Java のような言語用のノイズ フィルターを設計するには、いくつかの決定を下す必要があります。
キーワードは剽窃の検出に関連していますか、それとも削除する必要がありますか? 同じ言語のソース ファイルは、同じキーワード セットを共有するようにバインドされています。この論文は、それらに対処する方法については議論していません。
識別子の扱い方 すべてのキーワードを単一の文字「V」に置き換えて、変数名とは無関係に一致させることは理にかなっています。
パッケージのインポートとライブラリのインクルードをどうするか?
空白、コメント、および句読点は確実に削除されます。
すべての操作を行った後、ソース ファイルは単なる 'V' とその他の文字化けしたテキストの集まりになるのではないかと思っています。
ノイズ フィルタはどのような操作を実行する必要がありますか?
ノイズに対処する最善の方法に関する洞察と意見
plagiarism-detection - 有効な/本物のオープンソースの剽窃チェッカーはありますか?
複数のソース コードをチェックするための剽窃チェッカーを開発したいのですが、適切なソース コードが見つからず、アイデアを得るためのリソースさえも見つかりませんでした。役に立たないBoss2をチェックしました。彼らは盗作を検出するために Sherlock モジュールを使用していると主張していますが、boss2 にはそのようなツールは含まれていないようです。
ソース コードをチェックするためのオープン ソース検出ツールが利用できる場合は、お知らせください。よろしく
ruby - Ruby での Rabin Karp の実装が遅すぎる
私は、 MOSSの Idea を使用する小さな剽窃検出エンジンに取り組んでいます。ローリング ハッシュ関数が必要です。Rabin-Karp アルゴリズムから着想を得ています。
私が書いたコード -->
私は値でそれを実行しています --> calc_hash(text,5,101) ここで、テキストは文字列入力です。
コードは非常に遅いです。どこが間違っていますか?
ruby - Rabin Karp ローリング ハッシュによって生成されたハッシュがテキストに反映されない
注:重複の可能性がたくさんありますが、私の問題を解決しているようには見えません。
私はMOSSに基づく剽窃検出に取り組んでいます。
必要なすべての詳細 (コメント、句読点など) を取り除くフィルターの実装に成功した後、ローリング ハッシュ実装 (Rabin Karp) を使用してコンテンツをハッシュします。
ただし、ソース コードの 2 つのテキスト ファイルで一致するハッシュは、基になるテキストが大きく異なります (盗作はなく、ハッシュは同じです)。
実装したアルゴリズム(Ruby) --> (部分抜粋)
実装に問題はありますか? または、指定したパラメーターに問題がある可能性がありますか?
私は基数= 34を取ります(それが正しい値であるかどうかはわかりません。取り除かれたテキストには、アルファベットと「+」、「-」、「*」、「/」などの特殊文字のみが含まれると想定しています。合計34文字の概算)
q(prime) を 101 としています
これは私が扱っている衝突の問題ですか? 問題に取り組む方法についての指針はありますか?
c - Git は 2 つのソース ファイルが本質的に互いのコピーであるかどうかを検出できますか?
これがトピックから外れている場合は申し訳ありませんが、このサイトでの「宿題」の質問の量を減らすチャンスです :-)
私が教えている C プログラミングのクラスでは、学生が C の数値ルーチンの小さなライブラリに取り組んでいます。今年、学生のいくつかのグループのソース ファイルには、かなりの量のコードの重複がありました。
(同じようにスペルミスのあるprintf
デバッグステートメントまで。つまり、あなたはどれほど愚かでしょうか。)
Git は 2 つのソース ファイルが特定のしきい値を超えて互いに類似していることを検出できることを知っていますが、Git リポジトリにない 2 つのソース ファイルでそれを機能させることは決してできません。
これらは特に洗練された学生ではないことに注意してください。わざわざ変数名や関数名を変更することはまずないでしょう。
Git を使用して、重大で文字どおりのコードの重複、別名盗作を検出する方法はありますか? または、そのために推奨できる他のツールはありますか
facebook - 出力/レンダリングされたテキストがソース コードに表示されない
すべての Facebook ソーシャル プラグインにはこの機能があります。
Facebook の名前は Web ページで確認できますが、ソース コードを調べても Facebook の名前は表示されません。
では、その理由と方法を知る必要がありますか?
この機能は、盗作/テキスト コンテンツ パーサーを回避するために使用できます。
例: https://developers.facebook.com/docs/reference/plugins/comments/
Facebook ユーザーの名前がソース コードに存在しません。
詳しく教えてください よろしくお願いします...