私がメンバーである特定の meetup.com グループのメッセージ アーカイブからメッセージを抽出するスクリプトを開発しています - http://www.meetup.com/opencoffee/messages/archive/
アイデアは、これらをワードプレス サイトに動的に追加し、人々がメッセージを検索したり、メッセージに自動タグ付けしたりできるようにすることです。
私が抱えている問題は、これらのメッセージを自動的に分類する方法です。これを行う最善の方法と、これをプログラミングする最も効率的な方法についての考えやアイデアを歓迎します。
オプション1
デリシャス API を使用して、金融、テクノロジー、ビジネスなどのサブジェクト エリアごとにタグのソースを検索し、サブジェクトごとに関連するタグを見つけます。
http://delicious.com/tag/finance
http://delicious.com/tag/technology
メッセージにこれらのタグが含まれている場合、メッセージはそれぞれのカテゴリに割り当てられます。
これでうまくいくと思いますが、これらのタグのメッセージをスキャンする最も効率的な方法はわかりません。
オプション 2
ft.com、金融のエコノミスト、テクノロジーのテッククランチなど、必要なカテゴリを代表するサイトを見つけて、これらのサイトにタグを付けるために人々がどのタグを使用しているかを判断し、デフォルトでそれらのタグがどのように機能するかを判断しますこれらのサイトとそのコンテンツ スタックに関連しています。
オプション 3
メッセージの URL をhttp://semanticproxy.com/ (Reuters Calais プロジェクトの一部) に渡すか、Open Calais API を使用します。これは私が試しましたが、意味のある分類法を返すにはコンテンツの深さが可変であるとは限らないため、あまり成功しませんでした。
calais api を介して解析したメッセージの例を次に示します。
オリジナルメッセージ
http://www.meetup.com/opencoffee/messages/6045615/
カレーの結果
http://www.mashinteractive.com/opencoffee/calais.php
まとめ
それで、それはそれについてです。方法論に関する考えやアイデア、およびオプション 1 と 2 のメッセージ スキャンへの最善のアプローチ方法に関するヒントを歓迎します。
参考までに、これまでに約 1,700 件のメッセージがあり、10 個のカテゴリがあり、各カテゴリが 20 個または 30 個のタグで定義されていると推測しています。
これを行うための Wordpress プラグインまたはクラスの開発を支援したい人がいる場合は、喜んで参加させていただきます。私はプログラマーではないことを心に留めておいてください。私はプログラマーではないことに注意してください。
前もって感謝します
ジョナサンCEO
群衆の人々