問題は次のとおりです。
通常は 20 ~ 50 語の要約が 1 つありますが、これを他の比較的類似した要約と比較したいと思います。概要が参照する一般的なカテゴリと地理的な場所は、既にわかっています。
たとえば、同じ地域の人々が家を建てることについて書いている場合、ガレージや裏庭のプールを建てるのではなく、実際に家を建てることについて言及しているというある程度の確信を持って、それらの要約をリストできるようにしたいと思います.
現在、データ セットは約 50,000 ドキュメントで、1 日あたり約 200 ドキュメントの増加率です。
優先される言語は、Python、PHP、C/C++、Haskell、または Erlang のいずれかで、仕事を遂行できるものであればどれでもかまいません。また、差し支えなければ、特定の言語を選んだ理由を教えていただきたいです。