問題タブ [data-collection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
136 参照

elasticsearch - fluentd はこのニーズを満たしていますか

現在、ElasticSearch からのデータを使用するダッシュボードを開発するプロジェクトに取り組んでいます。Elasticsearch は、Web アプリケーションからこれらの情報を json、data、または csv ファイルのいずれかの形式で収集する Python スクリプトを介して供給されています。これらのスクリプトは、cron を介して毎日実行されます。ここでの質問は、fluentd を使用してこれらのスクリプトを置き換えることができるかどうかです。では、Fluentd は情報を収集し (それらが新しいものであるか、これらのファイルの一部にタイムスタンプが付けられていないかを検出)、それらを ElasticSearch に出力できますか?

0 投票する
0 に答える
220 参照

r - Rを使ったWebスクレイピングのやり方

私は Web スクレイピングの初心者で、検索語を送信する Web からデータを収集するための自動プロセスを実装する方法を学ぼうとしています。

私が取り組んでいる特定の問題は次のとおりです。

スタックオーバーフローの Web ページhttps://stackoverflow.com/を指定して、「Web スクレイピング」という用語の検索を送信し、すべての質問リンクと各質問のコンテンツをリストに収集したいと考えています。

これらの結果をスクレイピングすることは可能ですか?

私の計画は、用語のリストを作成することです:

タームごとに研究を提出し、質問のタイトルと質問の内容を収集します。

もちろん、結果のページごとにプロセスを繰り返す必要があります。

残念ながら、Webスクレイピングは比較的初めてなので、どうすればよいかわかりません。Web をスクレイピングするためのパッケージをいくつかダウンロードしました (rvest、RCurl、XML、RCrawler)。

ご協力いただきありがとうございます

0 投票する
1 に答える
313 参照

python - Python API データ収集 ソーシャル メディア API と Geolocation IE Twitter

  • データ収集のためにPython3を使用していくつかのロジックを処理することで、ここで私を助けてくれる人はいますか、それとも効率的なより簡単な方法を提案してくれますか? Tableau などのプログラムにデータ ソースを追加できることは知っていますが、その機能が簡単に組み込まれていることが確実でない限り、私が行っていることは実際にはありません。

Python で記述されたデータ収集プログラムのロジックをどのように実行して、ハッシュタグ #sample を使用して一連のツイートを収集し、どこからその場所を取得するか --- GeoJson? 私は仮定しています..

python3 を使用したデータ収集の経験が豊富な方のために、たとえば twitter api アプリや py tweety を使用して収集できるようにするロジックを追加できます。10 番目の収集ごとに、高速で移動するストリームのパフォーマンスに負担をかけない二次アクションをトリガーすることができるかどうか疑問に思っています。

ユースケース シナリオ: たとえば、Kenny Chesney コンサートからのすべてのツイートのストリームまたはデータ コレクションのように、long1 lat1 と long2 lat2 の間に 1 マイルの正方形があり、アリーナの周りに 1 マイルの距離まで広がる正方形を作成しますオリンピックに関するすべてのツイートを難しい方法でストリーミングするには、フィードを取得するのではなく収集します。python と twitter で収集する方法と、geolocation=on の投稿をしているユーザーに対して地理位置情報がどのように機能するかについて、誰か教えてください。同じ日時に同じ地理位置情報を持つすべての人に対して +- #samplekenny ハッシュタグを付けて 1 時間つぶやきます。引き続き収集して自分自身に警告するか、名前を txt ファイルまたは何らかのトリガーに追加したいと思います。

これに近いものは、たとえそれが質問のように少し組み合わされていたとしても、私が感謝しているさまざまな個人からのものです.Pythonではなく、以前にこれを行ったことがあります.Pythonを本当に楽しむようになりましたが、私はそうは言えませんまだそれを知っています。

私は近いと思います、これを行うための最も負担の少ない方法を見つけたいと思っています.イベントについて言ってみましょう.コレクショングループをより厳しいフィルターなどで制限する以外に、全体的に負担の少ない方法がある場合. テキストとエンコーディングシンボルのみが必要です。とつぶやきID

0 投票する
1 に答える
106 参照

mongodb - kaa データ収集はデータ mongodb を取得しません

ubuntu 16.04 に kaa iot サーバーを手動でインストールし、データ収集サンプルを使用してその動作をテストしました。コードはエラーなしで実行されますが、以下のコマンドを実行しても何も起こりません:

mongodb.confbind_ipをコメントアウトして、mongodb、zookeeper 、kaa-node サービスを再起動しましたが、何も変わりませんでした。また、SDK を再生成してプロジェクトを再構築しましたが、どちらも役に立ちません。

最後に、これは kaa ログです:

この問題を解決するためにご協力いただきありがとうございます...