問題タブ [openrefine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1951 参照

date - Open Refine でエポック時間を日付に変換するにはどうすればよいですか?

(Open Refine で利用可能な 3 つの言語のうちの 1 つであれば) 使用する言語は気にしませんが、API から返されたタイムスタンプをエポック時間から通常の日付に変換する必要があります (下のスクリーンショットの [式] ボックスを参照)。 )。出力日付形式についてはあまりうるさくなく、日付を秒まで保持するだけです。ありがとう!

使用できるもの: GREL、Jython、または Clojure。

Open Refine でエポック時間を日付に変換する

0 投票する
2 に答える
1287 参照

dataset - Open Refine での 2 つのファイルの追加と 2 つの列によるデータのドリルダウン

Open Refineについて2つ質問があります

  1. Excelファイル形式のデータセットが複数ありますが、すべてOpen Refineにアップロードしたいと考えています。Open Refine でファイル A、ファイル B、ファイル C を追加するにはどうすればよいですか? すべてのファイルの列名は同じです。共通の一意のフィールド間でマージまたは cell.cross しようとしているわけではないことに注意してください。3 つのファイルを 1 つのプロジェクトに追加したいだけです。

  2. フィールド検査タイプと違反を含むデータセットがあります。検査タイプの下の一般的なカテゴリには、事故、苦情、紹介、計画、およびその他のいくつかがあります。違反カテゴリ/レコードには、重大、繰り返し、故意の 3 つの一般的なタイプが含まれます。私が分析する必要があるのは、検査タイプの各タイプ (たとえば、事故) がどのような違反にどのように対応しているか、およびそれらの数が何であるかです。たとえば、いくつの事故検査タイプについて、違反が重大または故意であることが判明し、その情報を別の列に表示します。検査タイプ列をファセットして、各タイプのカテゴリ数をカウントすることはできましたが、次のステップを達成する方法に進むことができませんでした。

どんな助けでも大歓迎です!

0 投票する
1 に答える
641 参照

openrefine - プライベート データの Google による絞り込みを開く

OpenRefine は個人データのクリーニングに安全に使用できますか?

公開データを試してみましたが、データのセキュリティについてはわかりません。

0 投票する
2 に答える
316 参照

latitude-longitude - OpenRefine - すべての単語の最初のドットを削除します

私は OpenRefine を使用しており、次のような値を持っています。

私はに変換したい:

したがって、すべての単語の最初のドット (".") を削除したいと思います。

誰にも手がかりがありますか?

0 投票する
1 に答える
316 参照

csv - OpenRefine を使用してアドレスをクリーニングする - Cluster Exact Match

Open Refine を使用して、シート (.csv) 内のいくつかのアドレスをクリーンアップしています。列内の完全一致をクラスター化するにはどうすればよいですか? クラスタリング アルゴリズムは、数が異なるだけでほぼ類似したアドレスをクラスタ化するようです。例えば:

OpenRefine を使用してこれらのアドレスを完全一致に従ってクラスター化するにはどうすればよいですか? 質問はばかげているように聞こえますが、私はこのことに頭を悩ませています。

ありがとう

0 投票する
1 に答える
431 参照

regex - XSLT を使用した複雑な TSV から XML へ

これは、以前の投稿へのフォローアップの質問です。OpenRefineというツールを使用して、ライブラリ カタログ レコードのセット ( MARC XML形式) をクリーンアップおよび強化したいと考えています。OpenRefine は XML データではうまく機能しないため、MARC XML を TSV に変換する必要がありました。

私の以前の投稿に対する解決策は、それを行うのに役立ちました。ただし、OpenRefine からエクスポートしたら、データを MARC XML に戻す必要があります。OpenRefine からの出力は、通常の TSV よりも複雑です。特定のフィールドが繰り返し可能であるため、1 つのレコードが複数の行にまたがって表示される可能性があります。

TSV から XML に変換する XSLT 2.0 スタイルシートを変更しようとしています (ここで提案されているソリューションに基づく):

これは基本的に必要なものを提供しますが、柔軟性がなく、このアプローチを使用してソース データのすべての可能なバリエーションを説明することは困難です。

xsl:analyze-string代わりに、このより複雑なタブ区切り構造を前もって処理するために、正規表現を変更したいと思います。基本的に、「リーダー」の値が存在するたびに、新しいレコードが存在するはずです。後続の行に表示される個々の値は、次のように個別の XML 要素として解析する必要があります。