問題タブ [text2vec]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

108 問題

0 投票する

1 に答える

489 参照

r - H20: テキストデータで勾配ブースティングを使用する方法は?

テキストを使用して結果を予測する、非常に単純な ML 学習問題を実装しようとしています。R では、いくつかの基本的な例は次のようになります。

偽の面白いテキストデータをインポートする

テキストの疎行列表現text2vecを取得するために使用します ( https://github.com/dselivanov/text2vec/blob/master/vignettes/text-vectorization.Rmdも参照)

最後に、アルゴをトレーニングして (たとえば、を使用して) 、疎行列を使用caretして予測します。output

私の問題は次のとおりです。

、およびをh20使用してデータをインポートする方法がわかります。ただし、上記の 2. と 3. については、完全に迷っています。spark_read_csvrsparklingas_h2o_frame

誰かがヒントをくれたり、このアプローチが可能かどうか教えてくれませんかh2o?

どうもありがとう！！

2017-06-14T21:28:08.543

0 投票する

1 に答える

169 参照

r - TM、Quanteda、text2vec。正規表現パターンに従って単語リストの用語の左側にある文字列を取得します

名前、住所、電話番号がいくつかの言語で存在するかどうか、テキストの大きなフォルダーを分析したいと思います。

これらは通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「配送業者」という単語で始まります。私はこれらの単語の辞書を持っています。

テキストマイニングツールがこの仕事に最適かどうか疑問に思っています。これらすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下で特定の (正規表現の基準について考えています) を満たすテキストを見つけたいと思います。

Rのデータマイニングパッケージにそのような構文はありますか？単語リストエントリの右または下にある文字列、特定のパターンに一致する文字列を取得するには?

そうでない場合、仕事をするためのRのより適切なツールでしょうか?

r tm quanteda text2vec

2017-07-31T08:19:23.270

1 2 3 4 5 6 7 8 9 10

問題タブ [text2vec]

r - H20: テキストデータで勾配ブースティングを使用する方法は?

r - TM、Quanteda、text2vec。正規表現パターンに従って単語リストの用語の左側にある文字列を取得します

Reference