text-processing - Google ブックスの人気のパッセージ機能はどのように開発されましたか?

Question

Google が人気のパッセージブロック機能をどのように作成したかについて、誰かが理解しているか、知っているか、または包括的な文献やソースコードを教えてくれるかどうか知りたいです。ただし、同じことができる他のアプリケーションを知っている場合は、回答も投稿してください。

私が何について書いているのかわからない場合は、人気のあるパッセージの例へのリンクを参照してください。書籍 Modeling the legal decision process for information technology applications ... の概要を見ると、Georgios N. Yannopoulos によって次のように表示されます。

人気のパッセージ

...方向、不定。想定外のケースが発生したときに提起される問題については、予期していなかったため、解決していません。公園のある程度の平和が、これらのものを使用することに喜びや興味を持っている子供たちのために犠牲にされるか、それから守られるべきか. 想定外の事態が発生した場合、私たちは問題に直面し、競合する利益の中から最も満足できる方法を選択することで問題を解決することができます. 実行中...ページ86

1968年から2003年までの15冊の本に登場

これは、「機械的」法学に適した世界です。明らかに、この世界は私たちの世界ではありません。人間の立法者は、将来もたらされる可能性のある状況のすべての可能な組み合わせについて、そのような知識を持つことはできません。この予測不可能性は、目標の相対的な不確定性をもたらします。一般的な行動規則 (例えば、公園に車両を持ち込んではならないという規則) を大胆に構築するとき、この文脈で使用される言語は、すべてが満たさなければならない必要条件を修正します... 86 ページ

1968年から2000年にかけて8冊の本に登場

もっと

集中的なパターンマッチングプロセスである必要があります。n-gram モデル、テキストコーパス、剽窃の自動検出しか思い浮かびません。しかし、n-gram はシーケンス内の次の項目を予測するための確率モデルであり、(私の知る限り) テキストコーパスは手動で作成されます。そして、この特定の場合、人気のある文章では、大量の単語が存在する可能性があります.

私は本当に迷っています。そのような機能を作成したい場合、どのように、またはどこから始めればよいですか? また、この内容に最適なプログラミング言語を回答に含めてください: F# またはその他の関数型言語、PERL、Python、Java... (私自身が F# ファンになりつつあります)

PS: 誰かが自動剽窃検出タグを含めてくれませんか?

score 6 · Accepted Answer

ポピュラーパッセージを開発した Google の研究者である Kolak と Schilit によるACM の論文を読んでください。テキサス大学オースティン校の Baldridge と Lease が教えているこの MapReduce コースからの関連スライドもいくつかあります。

score 0 · Accepted Answer

私が調べた小さなサンプルでは、選択されたすべてのパッセージがインラインまたはブロック引用であるように見えます。推測ですが、おそらくGoogleブックスは、フォーマットと引用の引用符/違いを探し、解析されたバージョンの参考文献を使用して引用をソースに関連付けます。スタイルマニュアルのためのやったー。

このアプローチは明らかに盗用を検出するのに役立ちません。また、コーパスがテキスト形式を保持する形式でない場合はほとんど役に立ちません。

score 0 · Accepted Answer

どの本が他の本を引用または参照しているのかがわかっている場合は、考えられるすべての本を見る必要はなく、互いに引用している本だけを見る必要があります。科学的な参考文献である場合、多くの場合、行番号とページ番号が引用に含まれているか、本の最後にある参考文献に記載されているので、Googleはこの情報のみを解析しますか？

Googleの学者は確かに、紙から紙へ、おそらく本から本へと引用することについての情報を持っています。

text-processing - Google ブックスの人気のパッセージ機能はどのように開発されましたか?

3 に答える 3

Related

Reference