問題タブ [google-refine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
freebase - Google RefineでURLを取得するときに大きなデータセットを処理するには?
だから、私はフリーベースから約190000タイトルの映画名を含むExcelシートを持っています.ウィキペディアからタイトルごとにURLを取得して情報を取得したいのですが、これには長い時間がかかります.コンピューターを8時間実行したままにしておきました. 2%に。時々インターネットが切れてしまい、最初からやり直さなければなりません。とにかく、一度にこの 100 レコードを実行し、ファイルの最後まで続行して、インターネットが切断された場合にプロセスを再開できるようにすることはできますか?
どうもありがとう。
google-refine - Google Refine Reconciliation: 結果テキストで自動置換する方法
次のようなセルがあるとしましょう: "Nat. Taiwan Normal Univ., Taipei"
調整を行うと、次のようになります。Taiwan Normal Univ., Taipei VV 新しいトピックを作成 一致を検索
次に、「一致を検索」をクリックすると、「国立台湾師範大学」というドロップダウン結果が表示されます。
2 つの質問: - 結果テキスト (「国立台湾師範大学」) を別の列または同じ列に出力するにはどうすればよいですか? ・結果の大学がある国を別欄に出力することは可能ですか?
ありがとうございました!
semantics - Google Refine で Freebase データを取得する
私は Google Refine と Frebase にかなり慣れていません。インターネット/ウェブサイトのリストを使用したいのですが、ダンプにはウェブサイトの URL が含まれていませんが、関連する「公式ウェブサイト」オブジェクトでアクセスできます。
Refine で、Web サイト ID (/m/02nqp6l) に基づいてこのデータを取得するにはどうすればよいですか?
データセット (インターネット/ウェブサイト)
http://download.freebase.com/datadumps/latest/browse/internet/website.tsv
facet - Google Refineでファセットの値を同じに変更するには?
このデータを消去しようとしています: https://dl.dropbox.com/u/820037/local_council_election_data_w_occupation.gz
フィンランドの地方議会選挙の候補者全員です。「Ammatti」の列には、候補者によって報告された候補者の職業があります。
すべての学生を見つけたいのですが、問題は、「opiskelija」(学生) または「yliopisto-opiskelija」(大学生) などである可能性があることです。
列タイトル「Ammatti」をクリックし、「opiskelija」でフィルタリングしてから、列タイトルのメニューから「テキスト ファセット」を作成しました。
それは私に次の側面を与えます:
- アグロール。opiskelija AMK 1
- agrologiopiskelija 9
- アグロノミオピスケリヤ 1
...等々。
私は、これらの機会のすべてにおいて、「Ammatti」(職業) の価値を「opiskelija」(学生) に変更したいと思います。
物事をもう少し複雑にするために、ファセットにはいくつかの職業 (成熟した学生と管理スタッフ) もあります。「opiskelija」に変更したくありません。
- aikuisopiskelija 10
- opiskelijakunnan hallituksen varapheenjohtaja 1
- opiskelijapalvelun päällikkö 1
- opiskelijapalvelupäällikkö 1
これは、ファセット内のリスト全体を手動でクリックし、職業を 1 つずつ変更することで行いました。
これを行うためのより良い方法があると思いますが、誰かが私がそれを行うべきだった方法を教えてもらえますか?
regex - forEach 関数内の If 関数を GREL と統合するにはどうすればよいですか?
私は現在 Google Refine を使用しています。私の目標は、1 つの既存の列を 2 つの部分に分割することです。ビルトインの「add column based on...」機能を使用しています。列には、通りの名前とそれに対応する番地が含まれています。たとえば、次のようになります。
すべての行は同じように構造化されています。つまり、通りの名前は長い場合も短い場合もあり、1 つまたは複数の単語を含むことができますが、常に (家) 番号で終わり、常に空白で区切られます。
私は Google Refine を使用しているので、GREL ステートメント (Google Refine Expression Language) を使用してこれを実行しようとしていました。アイデアは次のようなものです。空白スペースで分割されたすべての値を断片に分割します。各分割値を変数に保存します。次に、特定の値に数値 (番地) が含まれているかどうかを確認します。数値の場合は、その値を取得して出力に転送します。私はすでにこのようなものを手に入れました。
ここに質問があります: forEach 関数内に IF 関数を統合するにはどうすればよいですか? その方法を知っていれば、おそらく値を分割するだけでなく、数値かどうかを確認することもできます。数値かどうかを確認するには、isNumeric(value) を使用できます。
すべてのヒントに感謝します。ありがとう、ヨルグ。
data-cleaning - Google Refine を使用して文字列値を指紋に置き換える方法は?
100,000 以上の文字列を含む列があります。これらの文字列を Google Refine に指紋で置き換えてもらいたいと考えています。
Google Refine で列を選択し、テキスト ファセットを作成しました。そのテキスト ファセットから、「クラスター」を選択できます。これにより、クラスターが表示されます。これは、同じフィンガープリントを持つ文字列値を意味すると想定し、クラスターの最初のメンバーの名前にデフォルト設定されている新しいセル値を選択できるようにします。
この名前が単なる指紋であることを願っています。その理由は、複数のファイルに対してこの操作を実行する必要があり、それらが実際に同じクラスターの一部である場合は、それらが同じ値である必要があるためです。Refine FAQ に従ってメモリパラメータを最適化しても、Refine が処理するにはデータが多すぎるため、ファイルを連結できません。
したがって、列の各セルを取得し、その指紋を計算し、列の値を指紋で置き換える操作を探しているだけです。
OSX 10.7 で Google Refine 2.5 を使用しています
java - GoogleRefineで文字列の一部を解析しています-エラーメッセージ
GoogleRefineを使用してデータセットをクリーンアップしています。mm / dd/yyyy形式の日付を含む列が1つあります。mm / dd/yyyyがyyyyのみに置き換えられた新しい列を作成したいと思います。
私が試してみました
そして現れたのは
エラー:replaceは3つの文字列、または1つの文字列、1つの正規表現、および1つの文字列を想定しています
このエラーが表示されるのはなぜですか?初心者の方を助けてくれてありがとう!
csv - Google Refine でレコードごとに入力する
Google の絞り込みに次のカンマ区切りの CSV ファイルがあります。
Jython または GREL を使用して column1 の値を入力するには、次のようにします。
私が試してみました:
助言がありますか?ありがとうございました
google-refine - グーグルリファイン:ファセットツールを使用して、2つの列間のマップを推測します
私は検索してきましたが、これを洗練された方法で行う方法が見つかりませんでした。
一意のIDSが2列あります。Aの各aについて、Bで最も近い上位10個の一致を見つけたいと思います。
私のバックアップ計画は、レーベンシュタインを使用して反復することです...しかし、Refineには非常に優れた反復面があり、さらに多くのアルゴリズムが実装されているため、それを使用して作業の一部を実行できることを望んでいました。
または、これを行うための別のツールはありますか?