問題タブ [ropensci]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RのtextreuseパッケージがLSHバケットを元のミンハッシュより大きくするのはなぜですか?
私が理解している限り、LSH メソッドの主な機能の 1 つは、基礎となるハッシュ (多くの場合、ミンハッシュ) を超えたデータ削減です。R でパッケージを使用してきtextreuse
ましたが、生成されるデータのサイズに驚いています。textreuse
は査読済みのROpenSciパッケージなので、正しく機能すると思いますが、私の疑問は解決しません。
ミンハッシュ関数と LSH 関数にそれぞれ 256 個の順列と 64 個のバンドを使用するとします。これは、50% という低い類似性を相対的な確実性(~98%) で検出するためによく使用される現実的な値です。
(256 perms)を使用してランダムなテキスト ファイルをハッシュし、TextReuseTextDocument
それを に割り当てるとtrtd
、次のようになります。
次に、このオブジェクト (64 バンド) の LSH バケットを作成し、に割り当てますl
。次のようになります。
そのため、LSH バケットに保持されているハッシュは、元のミンハッシュよりも 6 倍大きくなります。textreuse
これは、md5 ダイジェストを使用してバケット ハッシュを作成するために発生することを理解しています。
しかし、これはあまりにも無駄/やり過ぎではなく、改善できないのでしょうか? 私たちのデータ削減技術がここまで膨れ上がってしまうのは普通のことでしょうか? また、元のハッシュ (perms = 256 および band = 256 と同様) に基づいてドキュメントを照合し、しきい値を使用して誤検知を除外する方が効果的ではないでしょうか?
Mining of Massive Datasetsなどの典型的なテキストを確認しましたが、この特定の実装については疑問が残ります。また、この質問は好奇心からだけでなく、必要性からでもあることに注意してください。数百万または数十億のハッシュがある場合、これらの違いは重要になります。
r - 文字エンコーディングを英語版の IN R に変更する方法はありますか?
R では、Tabulizer ライブラリを使用して Pdf テーブルからデータを抽出しています。名前はネパール語で、抽出後、このテーブルを取得します [1]: https://i.stack.imgur.com/Ltpqv.png
しかし今、私はその列 2 の名前を英語の同等のものに変更したい
Rでこれを行う方法はありますか
私が書いたRコードは
r - NOAA データのダウンロード
rnoaa パッケージを使用して NOAA データをダウンロードしようとしていますが、少し問題が発生しています。
データフレームからベクトルを取得しましたが、次のようになります。
必要な列をつかむ
これにより、次のような出力が得られます。
実際には、約 22,000 の気象観測所があります。これは最初の 50 件を表示しているだけです。
rnoaa コード
次のエラーが発生します。
Error: Request-URI Too Long (HTTP 414)
ただし、df を最初の 100 エントリだけにサブセット化すると、最初の 25 エントリ以上のデータを取得できません。
ループ試行
しかし、これは 1 行のデータフレームを生成するだけで、その行は 125 番目の測候所です。
誰かが次に何を試すべきかについてアドバイスを与えることができれば、それは素晴らしいことです:)
また、相互リンク: https://discuss.ropensci.org/t/rnoaa-getting-county-level-rain-data/2403
r - rgbif を使用して複数のポリゴンからオカレンス データを一度にダウンロードするにはどうすればよいですか?
R パッケージを使用して、複数の地域から複数の分類群の出現データをダウンロードしようとしていますrgbif
。私は、すべての地域をまとめて 1 つのダウンロードを行うことを好みます (何千もの地域があるため、個別にダウンロードするのは正気ではありません)。しかし、私はそうする方法を見つけられませんでした。occ_download
クエリごとに 1 つのリージョンに対して実行できます。
これが私の例示的なコードです:
GBIF のダウンロード センターから、「ダウンロード要求に失敗しました。」と表示されます。
誰でもこれを手伝ってもらえますか?ありがとう!