問題タブ [categorization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1638 参照

r - R:apply.weekly()と組み合わせて、カテゴリごとにデータセットをグループ化/分割します。

イントロ

私はまだRの専門家ではないので、恥ずかしいと思うかもしれない別の質問を許してください。私がstackoverflowで尋ねた別の質問では、xtsオブジェクトの不規則な毎日のデータを apply.weekly()関数によって毎週の値に集約する方法についていくつかの非常に役立つコメントを受け取りました。残念ながら、、、、または関数と連携して機能するカテゴリごとに分割できる関数は見つかりませんtapply()でした。ddply()by()aggregate()apply.weekly()

私のデータ

これは私のサンプルデータセットです。私はすでに他の質問に投稿しました。説明のために、私は自由にそれをここに投稿します:

"rev_sit"、 "prof_sit"、 "emp_nr_sit"、 "inv_sit"、 "ord_home_sit"、 "ord_abr_sit"、 "emp_cost_sit"、 "usage_cost_sit"、 "tax_cost_sit"、 "gov_cost_sit"、 "rev_exp" _ " "、" inv_exp "、" ord_home_exp "、" ord_abr_exp "、" emp_cost_exp "、" usage_cost_exp "、" tax_cost_exp "、" gov_cost_exp "、

調査の質問を参照してください。「1」、「2」、「3」の3つの回答可能性コードがありました。

「土地」、「ネイス」

それぞれ16と8の固有の要因を持つカテゴリです。

私の目標 私の目標は、「nace」と「land」のカテゴリ要素の組み合わせごとに、週ごとに「1」、「2」、および「3」の発生をカウントすることです。私のアイデアは、事前に回答の可能性{1,2,3}ごとにバイナリベクトルを作成し(example_1、example_2、example_2)、次のようなものを適用することでした。

ddplyしかし、これは、、などaggregateでも機能しません。by

私の目標

私の専門的でない回避策は、最初は時系列を作成することではなくexample$date、指定された時間列が毎週としてコード化された日付ベクトルを作成することでした%V

もちろん、上記の20の質問のすべてに対して行う必要があります。次に、たとえばexample_1を取得します。

week1、nace1.land1、nace1.land2、nace1.land3、...、nace1.land16、nace2.land1、..、nace8.land16 week2、nace1.land1、nace1.land2、nace1.land3、...、 nace1.land16、nace2.land1、..、nace8.land16 ... ... weekn、nace1.land1、nace1.land2、nace1.land3、...、nace1.land16、nace2.land1、..、nace8 .land16

2(example_2)と3(example_3)についても同じことを行う必要があります。これは、すべての16 * 8 * 3 * 20=7680列ですべてを生成するための20の質問のそれぞれについてです。この極端な、さらにこの方法では、製品は時系列ではないため、週ごとに正しく注文されません。

概要

したがって、誰かが私に教えたり、関数を関数apply.weekly()と組み合わせて、、、、などの種類の関数をtapply()使用する方法やddply()、上記のようなグループ化を実現するための他の方法を教えてもらえますか?すべてのヒントは本当にありがたいです。私はすでにRの実験をやめて、多くのことがはるかに直感的なスタタに戻ることなどを考えていることにとても不満を感じています...しかし、私を誤解しないでください:私は学びたいので助けてください!by()split()unstack()collapse()by()

0 投票する
3 に答える
1651 参照

algorithm - レシピのプログラムによる分類に使用されるアルゴリズム

レシピのさまざまなプロパティの統計分析に基づいて、プログラムでレシピを分類することに興味があります。Breakfastつまり、レシピを、、、またはユーザー入力なしLunchで分類したいと思います。DinnerDessert

私が利用できるプロパティは次のとおりです。

  1. レシピタイトル(チキンサラダなど)
  2. レシピの説明(レシピを説明する任意のテキスト)
  3. 調理方法(このレシピの準備に必要な手順)
  4. 準備と調理時間
  5. レシピの各材料とその量

幸いなことに、すでに分類されている約10,000のレシピのサンプルセットがあり、これらのデータを使用してアルゴリズムを教えることができます。私の考えは、朝食のレシピでシロップという単語が統計的に頻繁に現れるか、 1カップ以上の砂糖を必要とするレシピがデザートである可能性が90%であるかなど、パターンを探すことです。レシピを複数の次元で分析し、必要に応じて重みを微調整すると、かなり正確なものを取得できると思います。

この問題に取り組む際に調査するためのいくつかの良いアルゴリズムは何でしょうか?k-NNのようなものが役立つでしょうか、それともこのタスクにより適したものがありますか?

0 投票する
3 に答える
1380 参照

python - 概念 - Python で 2D 単語頻度マトリックスを構築する方法は?

テキストを分類するためのロジスティック回帰手法を実践しようとしています.apxn 行列の形式でデータセットを構築したいと考えています.演劇は p 行、一意の単語は n 列です. 作業するテキストが既にあります。その中の単語を数えるだけです。

どの単語がどの芝居に登場するかを追跡することは重要です。そのため、特定の芝居について、固有の単語を集計する Python 辞書を作成することができました。私がどうすればよいかわからないのは、これらの口述を組み合わせることです。

マージしてマトリックスを生成できます

わかりやすくするために、各劇が固有の言葉だけで構成されている例を作成しましたが、実際にはこれはまったく当てはまりません。

これらの辞書からこのマトリックスを作成するにはどうすればよいでしょうか? 別の場所から始めた方が簡単ですか?

0 投票する
4 に答える
3286 参照

dns - ドメイン名分類API

ドメインを、ドメイン名を最大限に活用できるさまざまなカテゴリに分類する必要があります。「gamez.com」をゲームポータルとして分類するようなものです。Sedoのようにドメイン名の分類を提供するサービスはありますか?

0 投票する
1 に答える
266 参照

tags - Ploneでタグをグローバルに変更するにはどうすればよいですか?

Plone には、タグとタグ クローブを使用したコンテンツのきちんとした分類機能があります。タグの名前をグローバルに変更したいと考えています。代わりに、すべてのページを見つけて、そのように変更する必要があります。タグの名前を変更して、それが使用されているすべての場所に適用する簡単な方法はありますか? Plone 4.1 を使用しています。

0 投票する
2 に答える
322 参照

php - Naive bayes python - php - javascript (ノード)

グループ購入サイトからデータ抽出アルゴリズムを作成して、取引のアグリゲーターを構築しようとしています。まず、タイトル、価格、割引、画像、座標を抽出するアルゴリズムが必要です。

画像、割引、座標のソリューションがありますが、タイトルとカテゴリの認識には単純なベイズ アルゴリズムを作成する必要があります。これを行うのに最適な言語は何ですか: php? パイソン?js? node.js?

アルゴリズムを作成するには何が必要ですか?

例のあるモデル?100 のタイトルを付けてから、いくつかのサイトのすべての Web コンテンツを付けて、スクリプトはどの文がタイトルであるかを認識できますか?

だから一言もいらない。私には文が必要ですが、その文は時々<h1> - <h2>別のものです。

0 投票する
1 に答える
1045 参照

r - rの既存の変数から新しい変数カテゴリを作成する

データは次のとおりです。

新しいカテゴリ変数を作成したいのですが、いずれかの行の値が等しい場合、それは同じカテゴリになります。したがって、行ごとの比較(すべての可能なことを行う必要があります)。

たとえば、mydata [1、]とmydata [2、]は等しいので、新しい変数カテゴリでは同じ値、たとえば1になります。私がやろうとしていることをここで重要なポイントにしています。var1、var2の順序は任意です。つまり、[A、B]は[var1、var2]の[B、A]と同じです。

簡単な質問で申し訳ありませんが、解決できませんでした。

編集:期待される出力

0 投票する
2 に答える
1149 参照

tfs - TFS 2010/2012では、バグをどのように分類しますか?

TFS(少なくとも2010以降)では、反復の概念があります。これは、作業の割り当てに役立つと思われます(リリース1.0で何をするか、1.1で何を計画するか、バックログに何を残すか)。私はTFS2012のスクラムテンプレートを見てきました。

では、バグを製品バージョンごとにどのように分類しますか?たとえば、v1.0とv2.0が実際に使用され、v3.0が開発中の製品があるとします。

ここで、v1.0のバグを発見しましたが、v2.0とv3.0にもバグが含まれていることがわかりました。

コード的には、devのバグを修正してから、v1.1とv2.1にマージして、現在のユーザーが自分のバージョンに悩まされないようにします(常に最新バージョンへのアップグレードを義務付けるとは限らないため) 。

TFSでバグを作成する場合、反復パスを指定するオプションがあります。ただし、使用できるイテレーションは1つだけですが、バグを3つのバージョンすべてに存在するものとして宣言し、マージが発生したときに個別に修正済みとしてマークできるようにする必要があります。

TFSでのその作業方法をサポートする方法はありますか、それとも私はそれを間違って見ていますか?

0 投票する
2 に答える
5672 参照

machine-learning - 文書分類のためのIDF(逆文書頻度)の計算

ドキュメント分類でIDF(逆ドキュメント頻度)を計算することに疑問があります。トレーニング用の複数のドキュメントを含む複数のカテゴリがあります。次の式を使用して、ドキュメント内の各用語のIDFを計算しています。

私の質問は次のとおりです。

  1. 「コーパス内のドキュメントの総数」とはどういう意味ですか?ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
  2. 「ドキュメント一致用語の数」とはどういう意味ですか?用語一致ドキュメントが現在のカテゴリからカウントされるのか、利用可能なすべてのカテゴリからカウントされるのか。
0 投票する
1 に答える
290 参照

ruby-on-rails - gmaps4rails - マーカーリストを分類する

サイドバーのマーカー リストを分類する方法はありますか? たとえば、人、場所、バス停などのリストです。リストを個別に追加したいと思います。問題をうまく説明できたことを願っています。