問題タブ [mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - TM を使用して CSV ファイルをクリーンアップした後、テーブル構造を保持するにはどうすればよいですか?
1 つのタスクで TM の助けが必要です。~300 行と 42 個の変数を含む csv ファイルがあり、いくつかの変数には NA 値があります。データを NLP アプリケーションにロードする前に、TM を使用してこのファイルをクリーンアップしたいと考えています。具体的には、ストップワード、数字、句読点を削除したいと考えています。ステミングはおそらく必要ありません。最後の 5 つの列は、主にクリーンアップが必要な列です。重要なことに、NLP アプリケーションでは入力をテーブルとして使用できるため、入力を構造化したいと考えています。
理想的には、TM を使用してデータ フレームをコーパスに変換し、クリーンアップを実行してから、クリーンアップされたテキスト データを csv ファイルの構造に戻して、NLP アプリへの入力として使用したいと考えています。
小さなcsvファイルのテキストデータでこのタスクを実行する能力をテストしています. これは 7 行× 42 変数です。
RStudioを使用して、次のことを行いました
Tiz.corpus <- Corpus(DataframeSource(Tiz))
inspect(Tiz.corpus) 7つのテキストドキュメントからなるコーパス
メタデータは、2 つのタグと値のペアと 1 つのデータ フレームで構成されます。
....
この時点で、私は次のことを行いました...
ここまでは順調ですね。私はそれから試しました...
私が得るのは、次のような内容の7つのドキュメントです...
この時点で、テキスト データを復元して元の csv ファイルの構造に戻すにはどうすればよいかわかりません。
TM はこの仕事に適したツールではありませんか?
ホセ
bitcoin - Scrypt アルゴリズムの出力が期待どおりに一致しない
私はscryptアルゴリズムの出力について頭を悩ませようとしています。
https://litecoin.info/Block_hashing_algorithmで、作成者は次の scrypt 暗号化の結果を取得しますheaderString
。
01000000ae178934851bfa0e83ccb6a3fc4bfddff3641e104b6c4680c31509074e699be2bd672d8 d2199ef37a59678f92443083e3b85edef8b45c71759371f823bab59a97126614f44d5001d45920180
【リトルエンディアン】
に
000000003b4ba52ab765631e20a04b88cd27f0b66d3509fb2da7781fae6d7901
. 【ビッグエンディアン】
これを再現しようとしていますが、その結果を再現できません。このペーパーの最後にあるテスト ベクトルの正しい出力を提供する実装を使用しています: http://www.tarsnap.com/scrypt/scrypt.pdfしかし、headerString
N の正しい設定で実行すると、 r,p(1024,1,1) 結果が得られます
c17fcd0c6d698828112ade740d4e8ad76705764da3abfc49ff3bb1863cd16472
. 【ビッグエンディアン】
私は両方から同じ結果を持つそれらの実装で同じ結果でそれを試しました:
必要に応じてバイト配列を16進文字列に解析するだけです。
ここで何か不足していますか?scrypt の実装を論文に照らして検証したときに、なぜ同じ結果が得られないのか理解できません。
これを解決するのに本当に助けが必要です! 十分な情報を提供していない場合は、質問してください。問題を解決するために最善を尽くしてください。
c++ - Windows で CGMINER (BITCOIN) をコンパイルできませんでした
MinGW32 を使用してコンピューター (Windows 7) で CGminer をコンパイルしようとしています。
cgminer に付属のすべての手順を実行しましたが、大きな問題が発生しました。以下の指示に従うと、その下にエラーがスローされます....何かアイデアはありますか?
マイニング シェルのエラー sajadabdul@XKMS-060 ~ $ adl.sh sh: adl.sh: コマンドが見つかりません
sajadabdul@XKMS-060 ~ $ autoreconf -fvi sh: autoreconf: コマンドが見つかりません
php - Web ホスティングは cron ジョブをサポートしていません。スクレイピング スクリプトをリモートで実行してデータをマイニングし、それをホスティングの mysql データベースに送信するにはどうすればよいですか?
現在、Yahoo Web ホスティングを使用しています。Yahoo が cron ジョブをサポートしていないことがわかりました。私がやりたいことは、スクリプトを実行して、マイニングしたデータを Yahoo の mysql データベースにフィードすることです。スクリプトは PHP で書かれており、完了するまでに数時間かかります。情報を最新の状態に保つために、スクリプトを常に実行したいと考えています。私のローカル環境でスクリプトを実行し、何らかの方法でその情報を Yahoo の mysql サーバーに送信することは可能ですか? スクリプトを実行してデータを送信する無料のオンライン サービスはありますか?
r - Rを使用してGoogle検索URLを抽出し、各URLからテキストを抽出します
Rを使用して、Google検索のURLを抽出し、各URLからテキストを抽出する必要があります.
目標は、Google 検索から表示される各 Web サイトを分類することです。
どなたかご存知の方いらっしゃったらお願いします。
text - 検索をフィルタリングするためのテキストマイニング
ユーザーからの質問に一致するテンプレートを手動で作成したので、Javaで質問応答システムを開発しています。問題は、前処理の後、キーワードのリストがあり、これらのキーワードを格納されたテンプレートのキーワードと一致させて検索をフィルタリングすることです。アルゴリズムはありますか? 例 javaの特徴は?Keywords-features java キーワード features および java を含む抽出テンプレート。
xpath - Rapidminer XPath 抽出フォーラム投稿テキスト
私は repidminer を初めて使用し、学術プロジェクトのためにhttp://www.tripadvisor.com/ShowTopic-g29220-i86-k1487815-Alamo-Maui_Hawaii.htmlなどのフォーラムの投稿からテキスト情報を抽出しようとしています。
私はすでに多くのことを試し、XPath クエリを思いつきました: //div[@class='postBody']/p[not(*)][text()]
Google ドキュメントでは問題なく動作しますが、rapidminer では動作しません。
編集: 申し訳ありませんが、提案されたクエリは Rapidminer では機能しません。私のrapidminerプロセスを参照してください:
他のアイデアはありますか?