問題タブ [plagiarism-detection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - コンテンツ比較のために iThenticate サービスを使用する代わりに何ができますか?
コンテンツ比較のためにiThenticateサービスを使用する代わりに何ができますか?
sql-server - 剽窃を検出するために SQL Server のフルテキスト フィールドを検索する
論文を SQL Server 2005 に保存しており、論文のテキストに貼り付けて、盗用の可能性 (コピーされたコンテンツ) をデータベースで検索する方法を探しています。
これについて最善の方法は何ですか?コンテンツのいくつかの段落について、フルテキスト インデックス作成を使用して、何かが他の何かとどの程度類似しているかのゲージを取得する方法はありますか?
text-processing - Google ブックスの人気のパッセージ機能はどのように開発されましたか?
Google が人気のパッセージ ブロック機能をどのように作成したかについて、誰かが理解しているか、知っているか、または包括的な文献やソース コードを教えてくれるかどうか知りたいです。ただし、同じことができる他のアプリケーションを知っている場合は、回答も投稿してください。
私が何について書いているのかわからない場合は、人気のあるパッセージの例へのリンクを参照してください。書籍 Modeling the legal decision process for information technology applications ... の概要を見ると、Georgios N. Yannopoulos によって次のように表示されます。
人気のパッセージ
...方向、不定。想定外のケースが発生したときに提起される問題については、予期していなかったため、解決していません。公園のある程度の平和が、これらのものを使用することに喜びや興味を持っている子供たちのために犠牲にされるか、それから守られるべきか. 想定外の事態が発生した場合、私たちは問題に直面し、競合する利益の中から最も満足できる方法を選択することで問題を解決することができます. 実行中...ページ86
これは、「機械的」法学に適した世界です。明らかに、この世界は私たちの世界ではありません。人間の立法者は、将来もたらされる可能性のある状況のすべての可能な組み合わせについて、そのような知識を持つことはできません。この予測不可能性は、目標の相対的な不確定性をもたらします。一般的な行動規則 (例えば、公園に車両を持ち込んではならないという規則) を大胆に構築するとき、この文脈で使用される言語は、すべてが満たさなければならない必要条件を修正します... 86 ページ
集中的なパターン マッチング プロセスである必要があります。n-gram モデル、テキスト コーパス、剽窃の自動検出しか思い浮かびません。しかし、n-gram はシーケンス内の次の項目を予測するための確率モデルであり、(私の知る限り) テキスト コーパスは手動で作成されます。そして、この特定の場合、人気のある文章では、大量の単語が存在する可能性があります.
私は本当に迷っています。そのような機能を作成したい場合、どのように、またはどこから始めればよいですか? また、この内容に最適なプログラミング言語を回答に含めてください: F# またはその他の関数型言語、PERL、Python、Java... (私自身が F# ファンになりつつあります)
PS: 誰かが自動剽窃検出タグを含めてくれませんか?
levenshtein-distance - damerau levenshtein アルゴリズムを使用した剽窃検出
ドキュメントの剽窃を検出するために、damerau leveshtein 距離アルゴリズムをシミュレートするにはどうすればよいですか? ありがとう!
java - Plagiarism Analyzer (compared against Web Content)
Hi everyone all over the world,
Background
I am a final year student of Computer Science. I've proposed my Final Double Module Project which is a Plagiarism Analyzer, using Java and MySQL.
The Plagiarism Analyzer will:
- Scan all the paragraphs of uploaded document. Analyze percentage of each paragraph copied from which website.
- Highlight only the words copied exactly from which website in each paragraph.
My main objective is to develop something like Turnitin, improved if possible.
I have less than 6 months to develop the program. I have scoped the following:
- Web Crawler Implementation. Probably will be utilizing Lucene API or developing my own Crawler (which one is better in terms of time development and also usability?).
- Hashing and Indexing. To improve on the searching and analyzing.
Questions
Here are my questions:
- Can MySQL store that much information?
- Did I miss any important topics?
- What are your opinions concerning this project?
- Any suggestions or techniques for performing the similarity analysis?
- Can a paragraph be hashed, as well as words?
Thanks in advance for any help and advice. ^^
javascript - JavaScriptを使用したコードの盗用のチェック
Javascriptでコードの盗用をどのように検出できるのか疑問に思いました。配る宿題の課題提出をテストしたい。
MOSSの使用を検討しましたが、聞いたところによると、C以外にはかなり貧弱です。残念ながら、提出物がないため、まだテストできません。
JavaScriptを使用してコードの盗用を検出するにはどうすればよいですか?
flash - リーチングを防ぐためのウェブデザイン. フラッシュアンチリーチング方法
Flash ビデオ コンテンツを含む Web サイトを設計しています。.flv ファイルへの URL をフラッシュ パラメータとして埋め込みビデオ プレーヤーに渡すと、だれかが URL を簡単に抽出して flv ビデオ ファイルをダウンロードできます。これを防ぐにはどうすればよいですか?YouTube などの私のウェブサイトで使用されている抗リーチング テクニックを紹介してもらえますか。
python - パーサー生成
私はSOFWARE PLAGIARISM DETECTIONに関するプロジェクトを行っています..私は言語 C でそれを行うことを意図しています..そのため、トークンジェネレータとパーサーを作成することになっています..しかし、どこから始めればよいかわかりません..誰でもできるこれで私を助けて..
トークンのデータベースを作成し、プログラムからトークンを分離しました。次にやりたいことは、2 つのプログラムを比較して、盗用されているかどうかを調べることです。そのためには、構文アナライザーを作成する必要があります。どこから始めればよいかわかりません...
つまり、Python で C プログラム用のパーサーを作成したい
php - 著作権コンテンツAPI
使用できる自動「著作権コンテンツ」APIがあるかどうかを確認しています。アトリビューターが有料サービスを利用していることは知っていますが、コンテンツの一部をグーグル検索して、文章全体が他の場所からコピーされているかどうかを確認するのに効果的なものかどうか疑問に思います。
基本的に、私たちのために書いているブロガーが何人かいます。記事のいずれかがWeb上の別のソースから部分的または完全にコピーされているかどうかを確認したいと思います。手動でいくつかのサンプル文を選択し、それらをGoogleに(引用符を使用して)貼り付けて、完全に一致するものがあるかどうかを確認します。
あなたたちが知っている無料のAPI/サービスはありますか?
latex - LaTeX ドキュメントから重要なテキスト コンテンツを抽出するにはどうすればよいですか
自動化された盗作防止チェックのために、LaTeX で書かれた論文ドキュメントからテキストのみのコンテンツを抽出する必要があります。私は「ドラフト」オプションについてしか知りませんが、それでは十分ではありません。
私は省略することになっています:
- 画像、
- 表やその他の図、
- 方程式、
- キャプションと脚注。
すべての参照を削除することもいいでしょう。出力は、プレーン (UTF-8 でエンコードされた) テキスト ファイルである必要があります。
これを行う簡単な方法はありますか?ページごとに手動でコピーするのはあまり好きではありません。