問題タブ [openrefine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
openrefine - 絞り込みを開く - 既存のプロジェクトに別のファイルを追加します
CSV ファイルを OR (Open Refine) にインポートしました。私が持っている CSV ファイルには 200,000 を超えるレコードが含まれているため、別のファイルを作成することにしました。これは、大きなファイルのアップロードが私のコンピューターでは機能しないためです (時間がかかりすぎて、実際にインポートされているかどうかさえわかりません)。1 つのファイル (大) から 3 つの .csv ファイルを作成できました。
各 .csv ファイルを正常にインポートしましたが、3 つすべてを OR の 1 つのプロジェクトにインポートしたいと考えています。それは可能ですか?
openrefine - null セルをスペース文字に置き換える
特定の列で、null 値を持つセルを単一のスペースに置き換えようとしています。各行に1文字しか含まれていない複数の行を結合しようとしています。複数の値を持つセルを結合すると、Refine は (当然のことながら) null 値を破棄し、単語間にスペースのない大きなテキスト文字列が生成されます。
null セルを含む行を削除する方法を説明している記事をいくつか見つけましたが、null セルにスペースを追加することはありません。
fwiw、以下は、多値セルに参加するために従った記事です http://onlinejournalismblog.com/2014/05/30/how-to-combine-multiple-rows-in-a-dataset-where-text-is- split-across-them-open-refine/#more-18955
html - OpenRefine / GoogleRefine を使用したスクレイピングは省略
単純なページのセットをスクレイピングしたかったので、OpenRefine を使用して各ページの HTML を取得し、解析することにしました。私は特定のタグのコンテンツを探していますが、奇妙なことに、OpenRefine はその特定のタグを表示していません。OR がタグを省略したのはこれが初めてで、その理由はわかりません。詳細は次のとおりです。
次のブログの各ブログ投稿に割り当てられたカテゴリをスクレイピングしています。
http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p00-0.html
ページ URL の範囲は、p00-0.html から p330-0.html までです。
したがって、0 から 330 までのページの列があり、これを次のように URL と結合します。
" http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p " + 値 + "-0.html"
各ページの HTML コンテンツをスクレイピングすると、次の行に沿って何かが表示されることが予想されます (最初のエントリから予想される結果は次のとおりです)。
代わりに、OR はタグを完全に省略し、次の出力を生成します。
私はばかげたぼんやりした間違いを犯しましたか、それとも何か問題がありますか?
twitter - Twitter の OpenRefine との共同ハッシュタグ
OpenRefine を使用して、Twitter のメタデータをエッジ リストにフォーマットし、Gephi で読み取れるようにしています。ユーザーメンションの関連付けやユーザーとハッシュタグの関連付けを調べたい場合は、簡単に機能します。しかし、今は共同ハッシュタグを研究したいと思っています。
これを OpenRefine で行うのは (私にはよくわかりませんが) 少しトリッキーで、助けが必要です。私のデータは、ユーザーのユーザー名、ツイートで使用されたハッシュタグのコンマ区切り文字列の 2 つの列を持つ csv 形式です。OpenRefine でユーザー ハッシュタグ エッジ リストを取得するには、ハッシュタグ列で「多値セルの分割」を使用してから、ユーザー列で「入力」を使用します (非常に簡単です)。ハッシュタグ ハッシュタグ エッジ リストを取得する方法がわかりません。ハッシュタグ列で「複数値のセルを分割」を使用して、ツイートで言及されているすべてのハッシュタグの新しい行を取得できます。しかし、ハッシュタグとハッシュタグの共起のすべての組み合わせを取得するために、行を「埋める」にはどうすればよいでしょうか?
例:
データ:
望ましい結果:
web-scraping - ログインの背後にあるページに OpenRefine/Google Refine を使用できますか?
そうでない場合、同等の代替手段はありますか?
ドキュメントを調べましたが、この件については何も見当たりませんでしたが、これは一般的な要件であるに違いありません。
明確にするために、基本的な HTTP 認証ではなく、Web ベースのログイン フォームを意味します。
python - Open RefineのJythonで整数をBase64にエンコードするにはどうすればよいですか?
Base64 を使用して整数を短い文字列にエンコードし、その値を Open Refine (Google Refine) に返したいと考えています。
例を見つけましたが、常にエラーが発生します。
「MQ==」を返す動作
しかし、整数 1 をエンコードしたいのですが、次のコードでエラーが発生します。
私が見つけた例は次のとおりです: Python 3 で整数を base64 文字列にエンコードする方法
xml - Google Refine で XML を解析してデータを抽出する方法は?
Google Refine を使用して XML を解析し、XML からデータを抽出する必要があります。
XMLはこのようなものです
このタグに関する座標を抽出したいと思います
したがって、2 つの異なるフィールドに 45.808287 と 9.575815 という単一の数値
私は次のようなものを試しました
しかし、私は続ける方法がわかりません。
助言がありますか?
openrefine - Google Refine を使用して Nominatim 応答でノード "osm_type":"node" の緯度、経度の値のみを抽出する方法
すべて正常に動作します: ここに 2 つのサンプルがあります ...
生産する
と
生産する
違いは、最初の応答が "osm_type":"way" タイプで、2 番目の応答が "osm_type":"node" タイプであることです。
"osm_type":"node" に関する応答のみに関心があります。これらの応答については、緯度と経度の値を抽出したいと考えています。
Google RefineでGRELを使用してそれらを抽出する方法がわかりません.....何か提案はありますか?
役立つ場合は、XML で応答を取得することもできます...ここでは、要求です
openrefine - GREL に特定の文字列を追加する
GRELを使用して、Open Refineでデータをクリーニングしています。SCH がセルの一番下に配置されている場合にのみ、文字列 OOL を文字列 SCH に追加しようとしています。ヒントをいただければ幸いです。
ミケル・センテレス