3

subreddit から提出タイトルを取得し、それらが関連する可能性が高い場所に基づいてマップ上にプロットしようとするマッシュアップ アプリの作成を検討しています。Twitterなども後ほど追加したいと思います。

計画に苦労しているのは、タイトルから最も関連性の高い国を検出する方法です。私の最初の推測は、一致する順列 (たとえば、"English" が "England" に一致するなど) と共に国のリストを取得し、テキスト内でそれらの項目が出現するかどうかを確認することです。ただし、これはおそらく非常に遅くなり、各国の所有格*名をリストする必要があります。

私はPythonでこれを行うことを計画しています(それを使用することを学ぶため)ので、a)これを行う(そしてそれから学ぶことができる)ライブラリ、またはb)より明白な方法があるのではないかと思っていますこれ?

ここで使用している入力の種類を理解するために、いくつかのサンプルと、それらから得ようとしているものを示します。

  • 「まあ、彼らは私たち全員を逮捕することはできません-英国の法制度に中指を立てます(写真)」
    • キーワード:ブリティッシュ(イギリス)
  • 「世論調査:ウィキリークスのアサンジがタイム「パーソン・オブ・ザ・イヤー」をリード - アサンジは、イラクとアフガニスタンでの戦争に関する米軍の秘密文書を公開して、ペンタゴン側のとげになったオーストラリア人で、21,736 票を獲得しました。金曜日の。」
    • キーワード:アフガニスタン、イラク、[オーストラリア] (アフガニスタン、イラク、[オーストラリア]) - オーストラリアは主に無関係であると判断するのは難しいですが、これは私の目的には受け入れられます
  • 「ノーベル平和賞のウェブサイトへのサイバー攻撃が開始されました。気品を保ちましょう、中国。」
    • キーワード:中国(中国)
  • 「ユダヤ人の外科医は、患者の腕にナチスのタトゥーが入っているのを発見した後、患者の手術を拒否し、手術室から出て行った.」
    • キーワード:なし- 私の目的には受け入れられる

※言葉の使い方が間違っている可能性があります

4

3 に答える 3

3

Yahoo!で調べられます。プレイスメーカー API

Placemaker は、地理的に関連性はあるが地理的には発見できない Web コンテンツの非常に多くの部分にジオ エンリッチメントを提供します。自由形式のテキストが提供されると、このサービスはテキストで言及されている場所を識別し、それらの場所を明確にし、それぞれの一意の識別子 (WOEID) と、その場所がテキスト内で何回見つかったか、テキスト内のどこで見つかったかに関する情報を返します。それが見つかりました。サービスから返された WOEID を Yahoo! の GeoPlanet™ API に渡して、さらに地理情報を充実させて発見することができます。

于 2010-11-13T02:42:16.123 に答える
0

MySQL で全文検索インデックスを使用します。次に、AJAX 呼び出しを使用して、データベースに対してクエリを実行します。

于 2010-11-13T02:44:42.020 に答える