Google が人気のパッセージ ブロック機能をどのように作成したかについて、誰かが理解しているか、知っているか、または包括的な文献やソース コードを教えてくれるかどうか知りたいです。ただし、同じことができる他のアプリケーションを知っている場合は、回答も投稿してください。
私が何について書いているのかわからない場合は、人気のあるパッセージの例へのリンクを参照してください。書籍 Modeling the legal decision process for information technology applications ... の概要を見ると、Georgios N. Yannopoulos によって次のように表示されます。
人気のパッセージ
...方向、不定。想定外のケースが発生したときに提起される問題については、予期していなかったため、解決していません。公園のある程度の平和が、これらのものを使用することに喜びや興味を持っている子供たちのために犠牲にされるか、それから守られるべきか. 想定外の事態が発生した場合、私たちは問題に直面し、競合する利益の中から最も満足できる方法を選択することで問題を解決することができます. 実行中...ページ86
これは、「機械的」法学に適した世界です。明らかに、この世界は私たちの世界ではありません。人間の立法者は、将来もたらされる可能性のある状況のすべての可能な組み合わせについて、そのような知識を持つことはできません。この予測不可能性は、目標の相対的な不確定性をもたらします。一般的な行動規則 (例えば、公園に車両を持ち込んではならないという規則) を大胆に構築するとき、この文脈で使用される言語は、すべてが満たさなければならない必要条件を修正します... 86 ページ
集中的なパターン マッチング プロセスである必要があります。n-gram モデル、テキスト コーパス、剽窃の自動検出しか思い浮かびません。しかし、n-gram はシーケンス内の次の項目を予測するための確率モデルであり、(私の知る限り) テキスト コーパスは手動で作成されます。そして、この特定の場合、人気のある文章では、大量の単語が存在する可能性があります.
私は本当に迷っています。そのような機能を作成したい場合、どのように、またはどこから始めればよいですか? また、この内容に最適なプログラミング言語を回答に含めてください: F# またはその他の関数型言語、PERL、Python、Java... (私自身が F# ファンになりつつあります)
PS: 誰かが自動剽窃検出タグを含めてくれませんか?