5

アプリ エンジン データストアには、構造化されていないテキスト データがいくつかあります。データストア オブジェクトのサブセットで、1 つのプロパティの「1 回限り」のタグ クラウドを作成したいと考えていました。調べてみると、自分で書かなくてもこれを実行できるフレームワークは見当たりません。

私が考えていた方法は次のとおりです。

  • データストア内の特定のタイプのすべてのオブジェクトを処理するマップ (map reduce など) 関数を記述します。
  • テキスト文字列を単語に分割する
  • 単語ごとにカウンターをインクリメントします
  • 最終カウントを使用して、いくつかのサード パーティ製ソフトウェアでタグ クラウドを生成します (オフライン - ここで提案を歓迎します)

これまでにこれを行ったことがないので、最初にこれを行うフレームワークが周りにあるかどうかをさまよっていました(お願いします)。そうでない場合は、正しい方法でアプローチしています。つまり、計画の大きな穴を遠慮なく指摘してください。

4

1 に答える 1

5

フィードタグクラウドPyTagCloudは2つの可能性です。

  • GoogleAppEngine用のフィードタグクラウドジェネレータガジェットがニーズに合う場合があります。残念ながら、それは文書化されていません。幸い、それはかなり単純ですが、それがあなたのニーズにどれほど適しているかはわかりません。

    フィード上で動作し、ある程度柔軟性があるように見えるため、サイトのフィードがある場合は、すべての処理がオンラインになりますが、統合するのにそれほど問題はないかもしれません。

  • PyTagCloudも一見の価値があります。オフラインで処理を行うことができ、かなりハンサムな雲が生成されます。

    これを機能させるために必要なのは、データストアをエクスポートすることだけです。PyTagCloudはテキストファイルを操作できるため、カウントと分割が自動的に行われます。データのアップロードとダウンロードに関するAppEngineドキュメントの手順に従って、データストアをローカルマシンにエクスポートする方法を示します。「エクスポータークラス」を作成し、PyTagCloudを出力で動作させる必要があります。


自分でロールすることにした場合は、動的に更新されるクラウドが必要でない限り、オンライン処理をスキップして、上記のデータのアップロードとダウンロードのオフライン方法を使用することをお勧めします。データストア全体を反復処理し、オンラインカウントを実行することは、タスクの最も面倒で費用のかかる部分です。動的なタグクラウドが必要な場合にのみ、これを行うのが理にかなっています。上記のように、「エクスポータークラス」を作成し、それをローカルで操作することをお勧めします。

于 2011-03-07T17:11:10.303 に答える