問題タブ [text2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
489 参照

r - H20: テキストデータで勾配ブースティングを使用する方法は?

テキストを使用して結果を予測する、非常に単純な ML 学習問題を実装しようとしています。R では、いくつかの基本的な例は次のようになります。

偽の面白いテキスト データをインポートする

テキストの疎行列表現text2vecを取得するために使用します ( https://github.com/dselivanov/text2vec/blob/master/vignettes/text-vectorization.Rmdも参照)

最後に、アルゴをトレーニングして (たとえば、 を使用して) 、疎行列を使用caretして予測します。output

私の問題は次のとおりです。

、 およびをh20使用してデータをインポートする方法がわかります。ただし、上記の 2. と 3. については、完全に迷っています。spark_read_csvrsparklingas_h2o_frame

誰かがヒントをくれたり、このアプローチが可能かどうか教えてくれませんかh2o?

どうもありがとう!!

0 投票する
1 に答える
169 参照

r - TM、Quanteda、text2vec。正規表現パターンに従って単語リストの用語の左側にある文字列を取得します

名前、住所、電話番号がいくつかの言語で存在するかどうか、テキストの大きなフォルダーを分析したいと思います。

これらは通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「配送業者」という単語で始まります。私はこれらの単語の辞書を持っています。

テキスト マイニング ツールがこの仕事に最適かどうか疑問に思っています。これらすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下で特定の (正規表現の基準について考えています) を満たすテキストを見つけたいと思います。

Rのデータマイニングパッケージにそのような構文はありますか?単語リスト エントリの右または下にある文字列、特定のパターンに一致する文字列を取得するには?

そうでない場合、仕事をするためのRのより適切なツールでしょうか?