問題タブ [text2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - H20: テキストデータで勾配ブースティングを使用する方法は?
テキストを使用して結果を予測する、非常に単純な ML 学習問題を実装しようとしています。R では、いくつかの基本的な例は次のようになります。
偽の面白いテキスト データをインポートする
テキストの疎行列表現text2vec
を取得するために使用します ( https://github.com/dselivanov/text2vec/blob/master/vignettes/text-vectorization.Rmdも参照)
最後に、アルゴをトレーニングして (たとえば、 を使用して) 、疎行列を使用caret
して予測します。output
私の問題は次のとおりです。
、 およびをh20
使用してデータをインポートする方法がわかります。ただし、上記の 2. と 3. については、完全に迷っています。spark_read_csv
rsparkling
as_h2o_frame
誰かがヒントをくれたり、このアプローチが可能かどうか教えてくれませんかh2o
?
どうもありがとう!!
r - TM、Quanteda、text2vec。正規表現パターンに従って単語リストの用語の左側にある文字列を取得します
名前、住所、電話番号がいくつかの言語で存在するかどうか、テキストの大きなフォルダーを分析したいと思います。
これらは通常、「住所」、「電話番号」、「名前」、「会社」、「病院」、「配送業者」という単語で始まります。私はこれらの単語の辞書を持っています。
テキスト マイニング ツールがこの仕事に最適かどうか疑問に思っています。これらすべてのドキュメントのコーパスを作成し、特定の辞書エントリの右または下で特定の (正規表現の基準について考えています) を満たすテキストを見つけたいと思います。
Rのデータマイニングパッケージにそのような構文はありますか?単語リスト エントリの右または下にある文字列、特定のパターンに一致する文字列を取得するには?
そうでない場合、仕事をするためのRのより適切なツールでしょうか?