“plagiarism-detection”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

2711 参照

latex - LaTeX ドキュメントから重要なテキストコンテンツを抽出するにはどうすればよいですか

自動化された盗作防止チェックのために、LaTeX で書かれた論文ドキュメントからテキストのみのコンテンツを抽出する必要があります。私は「ドラフト」オプションについてしか知りませんが、それでは十分ではありません。

私は省略することになっています：

画像、
表やその他の図、
方程式、
キャプションと脚注。

すべての参照を削除することもいいでしょう。出力は、プレーン (UTF-8 でエンコードされた) テキストファイルである必要があります。

これを行う簡単な方法はありますか？ページごとに手動でコピーするのはあまり好きではありません。

latex plagiarism-detection

2011-01-29T13:43:29.587

0 投票する

4 に答える

14062 参照

c++ - C/C++ の剽窃検出のための変数の名前変更

簡単な C++ の宿題がいくつかあり、学生がコードを共有したことを知っています。これらは賢い学生であり、コケをごまかす方法を知っています。タイプに基づいて変数の名前を変更できるツールを探しています (int 型の最初の変数は int1 になり、最初の int 配列は intptr1 になります...)、または今は考えられない同様のことを行います。これを行う簡単な方法を知っていますか？

編集:モスを使用して 90% の一致を報告する必要があります

ありがとう

c++refactoring plagiarism-detection

2011-05-03T22:42:44.933

0 投票する

1 に答える

1038 参照

java - 盗作結果の表示

私は剽窃検出フレームワークを開発中です。そこでまず、ステミング、同義語の置換、ストップワードの削除などの手段でドキュメントを前処理します。そのため、前処理されたドキュメントは元のドキュメントとは多少異なります。

前処理されたドキュメントを盗作機能に入力すると、同様の文が返されます。

次に、GUI で 2 つのドキュメントと類似の文を強調表示して表示する必要があります。

Java で強調表示するには、単語のインデックスを取得して強調表示する必要があります。

問題は、前処理されたテキストが元の文書とは異なるため、元の文書の類似した文を索引付けするのが難しいことです。

誰でもこの問題を解決できますか??

java preprocessor highlighting plagiarism-detection

2011-05-19T06:23:32.157

0 投票する

1 に答える

346 参照

haskell - Haskell で単語を同義語に置き換える

私はこの剽窃検出器を使って、Haskell でファイルを読み取り、その単語の一部を類義語に置き換えるプログラムを作成しようとしていました。Haskell でこの目的のために利用できる辞書はありますか?

また、アルゴリズムに関する意見や、この問題に関連するその他の意見、たとえば単語を類義語に置き換えてステートメントのコンテキストを変更しないようにする方法などがある場合は、投稿してください。

haskell dictionary plagiarism-detection

2011-10-03T14:36:42.260

0 投票する

2 に答える

791 参照

ruby - Ruby で盗作検出エンジンのノイズフィルターを設計する

私は、MOSS (ソフトウェア類似度の測定) の背後にある学術論文に基づいて、剽窃検出エンジンの実装に取り組んできました。

モスへのリンク

C/C++/Java のような言語用のノイズフィルターを設計するには、いくつかの決定を下す必要があります。

キーワードは剽窃の検出に関連していますか、それとも削除する必要がありますか? 同じ言語のソースファイルは、同じキーワードセットを共有するようにバインドされています。この論文は、それらに対処する方法については議論していません。

識別子の扱い方すべてのキーワードを単一の文字「V」に置き換えて、変数名とは無関係に一致させることは理にかなっています。

パッケージのインポートとライブラリのインクルードをどうするか?

空白、コメント、および句読点は確実に削除されます。

すべての操作を行った後、ソースファイルは単なる 'V' とその他の文字化けしたテキストの集まりになるのではないかと思っています。

ノイズフィルタはどのような操作を実行する必要がありますか?

ノイズに対処する最善の方法に関する洞察と意見

ruby algorithm plagiarism-detection

2011-12-17T12:02:50.117

0 投票する

3 に答える

10842 参照

plagiarism-detection - 有効な/本物のオープンソースの剽窃チェッカーはありますか?

複数のソースコードをチェックするための剽窃チェッカーを開発したいのですが、適切なソースコードが見つからず、アイデアを得るためのリソースさえも見つかりませんでした。役に立たないBoss2をチェックしました。彼らは盗作を検出するために Sherlock モジュールを使用していると主張していますが、boss2 にはそのようなツールは含まれていないようです。

ソースコードをチェックするためのオープンソース検出ツールが利用できる場合は、お知らせください。よろしく

plagiarism-detection

2011-12-19T19:27:50.027

0 投票する

1 に答える

776 参照

ruby - Ruby での Rabin Karp の実装が遅すぎる

私は、 MOSSの Idea を使用する小さな剽窃検出エンジンに取り組んでいます。ローリングハッシュ関数が必要です。Rabin-Karp アルゴリズムから着想を得ています。

私が書いたコード -->

私は値でそれを実行しています --> calc_hash(text,5,101) ここで、テキストは文字列入力です。

コードは非常に遅いです。どこが間違っていますか？

ruby algorithm plagiarism-detection rabin-karp

2011-12-30T17:47:16.783

0 投票する

1 に答える

581 参照

ruby - Rabin Karp ローリングハッシュによって生成されたハッシュがテキストに反映されない

注：重複の可能性がたくさんありますが、私の問題を解決しているようには見えません。

私はMOSSに基づく剽窃検出に取り組んでいます。

必要なすべての詳細 (コメント、句読点など) を取り除くフィルターの実装に成功した後、ローリングハッシュ実装 (Rabin Karp) を使用してコンテンツをハッシュします。

ただし、ソースコードの 2 つのテキストファイルで一致するハッシュは、基になるテキストが大きく異なります (盗作はなく、ハッシュは同じです)。

実装したアルゴリズム(Ruby) --> (部分抜粋)

実装に問題はありますか? または、指定したパラメーターに問題がある可能性がありますか?

私は基数= 34を取ります（それが正しい値であるかどうかはわかりません。取り除かれたテキストには、アルファベットと「+」、「-」、「*」、「/」などの特殊文字のみが含まれると想定しています。合計34文字の概算）

q(prime) を 101 としています

これは私が扱っている衝突の問題ですか? 問題に取り組む方法についての指針はありますか？

ruby algorithm plagiarism-detection rabin-karp

2012-01-15T07:09:22.463

0 投票する

5 に答える

5929 参照

c - Git は 2 つのソースファイルが本質的に互いのコピーであるかどうかを検出できますか?

これがトピックから外れている場合は申し訳ありませんが、このサイトでの「宿題」の質問の量を減らすチャンスです :-)

私が教えている C プログラミングのクラスでは、学生が C の数値ルーチンの小さなライブラリに取り組んでいます。今年、学生のいくつかのグループのソースファイルには、かなりの量のコードの重複がありました。

(同じようにスペルミスのあるprintfデバッグステートメントまで。つまり、あなたはどれほど愚かでしょうか。)

Git は 2 つのソースファイルが特定のしきい値を超えて互いに類似していることを検出できることを知っていますが、Git リポジトリにない 2 つのソースファイルでそれを機能させることは決してできません。

これらは特に洗練された学生ではないことに注意してください。わざわざ変数名や関数名を変更することはまずないでしょう。

Git を使用して、重大で文字どおりのコードの重複、別名盗作を検出する方法はありますか? または、そのために推奨できる他のツールはありますか

c git plagiarism-detection

2012-01-21T05:46:29.970

0 投票する

1 に答える

74 参照

facebook - 出力/レンダリングされたテキストがソースコードに表示されない

すべての Facebook ソーシャルプラグインにはこの機能があります。

Facebook の名前は Web ページで確認できますが、ソースコードを調べても Facebook の名前は表示されません。

では、その理由と方法を知る必要がありますか?

この機能は、盗作/テキストコンテンツパーサーを回避するために使用できます。

例: https://developers.facebook.com/docs/reference/plugins/comments/

Facebook ユーザーの名前がソースコードに存在しません。

詳しく教えてくださいよろしくお願いします...

facebook scraper plagiarism-detection

2012-02-05T23:19:05.927

問題タブ [plagiarism-detection]

Reference