subreddit から提出タイトルを取得し、それらが関連する可能性が高い場所に基づいてマップ上にプロットしようとするマッシュアップ アプリの作成を検討しています。Twitterなども後ほど追加したいと思います。
計画に苦労しているのは、タイトルから最も関連性の高い国を検出する方法です。私の最初の推測は、一致する順列 (たとえば、"English" が "England" に一致するなど) と共に国のリストを取得し、テキスト内でそれらの項目が出現するかどうかを確認することです。ただし、これはおそらく非常に遅くなり、各国の所有格*名をリストする必要があります。
私はPythonでこれを行うことを計画しています(それを使用することを学ぶため)ので、a)これを行う(そしてそれから学ぶことができる)ライブラリ、またはb)より明白な方法があるのではないかと思っていますこれ?
ここで使用している入力の種類を理解するために、いくつかのサンプルと、それらから得ようとしているものを示します。
- 「まあ、彼らは私たち全員を逮捕することはできません-英国の法制度に中指を立てます(写真)」
- キーワード:ブリティッシュ(イギリス)
- 「世論調査:ウィキリークスのアサンジがタイム「パーソン・オブ・ザ・イヤー」をリード - アサンジは、イラクとアフガニスタンでの戦争に関する米軍の秘密文書を公開して、ペンタゴン側のとげになったオーストラリア人で、21,736 票を獲得しました。金曜日の。」
- キーワード:アフガニスタン、イラク、[オーストラリア] (アフガニスタン、イラク、[オーストラリア]) - オーストラリアは主に無関係であると判断するのは難しいですが、これは私の目的には受け入れられます
- 「ノーベル平和賞のウェブサイトへのサイバー攻撃が開始されました。気品を保ちましょう、中国。」
- キーワード:中国(中国)
- 「ユダヤ人の外科医は、患者の腕にナチスのタトゥーが入っているのを発見した後、患者の手術を拒否し、手術室から出て行った.」
- キーワード:なし- 私の目的には受け入れられる
※言葉の使い方が間違っている可能性があります