Google のIn Quotesは本当に気の利いたアプリケーションだと思います。CS 担当者として、その仕組みを理解する必要があります。ニュース記事が、特定の人物に起因する引用のリストにどのように変わると思いますか? 確かにいくつかの間違いはありますが、彼らのアルゴリズムは単純なヒューリスティックや複数の正規表現よりも優れているようです。たとえば、誰かの名前が最後の段落でしか言及されていない場合でも、引用は誰かに起因する可能性があります。
何か案は?この件に関する既知の論文はありますか?
それは単純で、単語をチェックしますが、それらがまだ整然としている限り、それらの間に何でも存在することができます。"こんにちは世界!" 正規表現になります/hello[。]*world /
あなたの質問に対する答えはありませんが、Google モデレーターを通じて Googleのエンジニアに直接質問することをお勧めします。すぐに答えが得られない (またはまったく得られない) かもしれませんが、正確な答えが得られます。
紙はありませんが、アイデアはあります。Google は一連の人物から引用を取得します。Google ニュースやその他のメディア アクセスで簡単にアクセスできます。
彼らは別のテーマを持っています。Google は、サブジェクト セットを person のセットと一致させます (両方のセットは有限です)。最後のセットはすべて引用です。
お気づきの場合、件名には、引用で強調表示されている 1 つの単語が含まれています。したがって、各人物の集合について、主題の集合と引用の集合の間に関係があります。Google は情報のマスターであるため、これらすべてのセット間のリンクを取得するのは非常に簡単です。