問題タブ [mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
48 参照

bash - コマンドラインのみでOSXの起動時にシェルスクリプトを開始するにはどうすればよいですか?

.shそのため、起動時にシステムマイニングを開始するように設計されたOSXの非常に短いスクリプトがあります(ログインではありません!)。

これは試用版として実行することで機能することはわかっていますが、OSX マシン (root アクセス権がある) でシステムの起動時に実行する方法がわかりません。launchd が問題であることは知っていますが、それは (私が知る限り) GUI であり、依存関係をインストールし、すべてを所定の位置に移動し、これ.shを起動時に起動するために必要なフォルダー。助けていただければ幸いです、ありがとう!

0 投票する
0 に答える
73 参照

python - TypeError: xml 形式のウィキペディアをテキスト形式に処理しています

( http://textminingonline.com/training-word2vec-model-on-english-wikipedia-by-gensim )のガイダンスに従って、主にテキスト マイニングのために Python を学習しています。api から返された xml からウィキペディアの英語のテキストを抽出したいと考えています。ただし、次のエラーが表示されます。

この問題を解決する方法について誰かヒントを教えてください。outpとをinpファイルのアドレスに置き換える必要がありますか?

前もって感謝します。コードを添付しました:

0 投票する
1 に答える
84 参照

matlab - Matlab の RowNames に基づいてテーブルから値を計算する方法

Matlab には 2 つのテーブルがあり、1 つのテーブルには他のすべてのテーブルの値が含まれています。最初のテーブルの名前は T1

表2は

T2 から T1 への値を使用して、次のように出力するにはどうすればよいですか。

0 投票する
1 に答える
280 参照

r - R で K 平均法クラスタリングを使用して、テキスト マイニングで結果を含むファイルを生成する方法

テキストフィールドに基づいて、関連するかどうかを自動的にラベル付けしようとしているテキストフィールドを持つデータのセットがあります。手動でデータにラベルを付けましたが、自動ラベルと手動ラベルを比較して、自動ラベル付けの精度を計算しようとしています。K Means クラスタリングを使用して、データを 2 つのクラスターにクラスター化しています。私が苦労しているのは、元のデータとそれらが含まれるクラスターを含むcsvファイルを作成することです。アイデアは、どの行がどのクラスターにあるかを示すcsvファイルを作成して、各クラスターの大部分がどのラベルであるかを確認できるようにすることです。そのクラスターの各行にそのラベルを割り当てます。その後、それをさらに分析するために使用できます。

これは私が持っているデータの例です (かなり単純化されています)。関連性は私の手動ラベルです。

これは、クラスターを作成するためのコードです。

では、元のデータを表示する csv ファイルを作成し、各行が含まれるクラスターを示す列を追加するにはどうすればよいでしょうか?

私が探している出力は、次の結果のようになります。

0 投票する
0 に答える
85 参照

r - R tm パッケージ - 段落全体を削除する

さまざまなドキュメントで繰り返される段落全体を削除しようとしています。これは、電子メールの最後にある免責事項です。たとえば、「レビュー、再送信、この電子メールのその他の使用....」などです。

機能していません。個々の単語を削除することはできません。一部の単語は価値がある可能性があるためです...何か提案はありますか?

0 投票する
0 に答える
72 参照

python - レート制限による Twitter マイニングの問題

私は、Twitter から友人やフォロワーの情報を取得する研究プロジェクトに取り組んでいます。私のような 1,000 人のフォロワーや友達がいるサンプル アカウントで問題なく動作するコードを書きました。しかし、1,220 万人のフォロワーを持つドナルド トランプ アカウントの実行に問題があります。私のプログラムでは、一定の時間レート制限を照会した後、15 分間待ってから再度同じものを要求します。このプロセスは、約 100 万人のユーザー情報に対しては正常に機能しますが、その後スタックするか、URL エラーが発生することがあります。このような大規模なデータを処理する際の問題点と解決策を教えてください。以下の同じコードスニペットを見つけてください-