postgresql - PL/R での R モジュールと関数の読み込み、一覧表示、および使用

Question

問題があります:

PostgreSQL で使用できる R パッケージと関数のリスト。
PL/R で使用するパッケージ ( Kendallなど) のインストール
PostgreSQL 内で R 関数を呼び出す

利用可能な R パッケージの一覧表示

Q.1. どの R モジュールがロードされているかを調べるにはどうすればよいですか?

SELECT * FROM r_typenames();

これは利用可能なタイプを示していますが、Kendall( X, Y )ロードされているかどうかを確認するにはどうすればよいでしょうか? たとえば、ドキュメントには次のように表示されます。

CREATE TABLE plr_modules (
  modseq int4,
  modsrc text
);

これにより、レコードを挿入してKendallロードすることを指示できるように見えますが、次のコードでは、確実にロードされるようにする方法が構文的に説明されていません。

INSERT INTO plr_modules
  VALUES (0, 'pg.test.module.load <-function(msg) {print(msg)}');

Q.2. ロードしようとすると、上記の行はどのようになりますKendallか?
Q.3. 適用可能ですか？

R パッケージのインストール

「シナプス」パッケージマネージャーを使用して、次のパッケージがインストールされています。

r-base
r-base-core
r-base-dev
r-base-html
r-base-latex
r-cran-acepack
r-cran-boot
r-cran-car
r-cran-chron
r-cran-cluster
r-cran-codetools
r-cran-design
r-cran-foreign
r-cran-hmisc
r-cran-kernsmooth
r-cran-lattice
r-cran-matrix
r-cran-mgcv
r-cran-nlme
r-cran-quadprog
r-cran-robustbase
r-cran-rpart
r-cran-survival
r-cran-vr
r-recommended

Q.4. ケンドールがそこにいるかどうかはどうすればわかりますか?
Q.5. そうでない場合、どのパッケージに入っているかを調べるにはどうすればよいですか?
Q.6. でのインストールに適したパッケージに含まれていない場合apt-get( aptitude, synaptic, dpkg, あなたは何を持っていますか)、Ubuntu にインストールするにはどうすればよいですか?
Q.7. インストール手順はどこに文書化されていますか?

R 関数の呼び出し

次のコードがあります。

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'corr( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

このコードは PostgreSQL 関数を呼び出してcorr、データに対するピアソンの相関を計算します。理想的には、次のことを行いたいと思います（に切り替えcorrてplr_kendall）：

EXECUTE 'SELECT '
  'regr_slope( amount, year_taken ),'
  'regr_intercept( amount, year_taken ),'
  'plr_kendall( amount, year_taken ),'
  'sum( measurements ) AS total_measurements '
'FROM temp_regression'
INTO STRICT slope, intercept, correlation, total_measurements;

Q.8. 自分で書く必要がありplr_kendallますか？
Q.9. ウォークスルーする簡単な例はどこにありますか:

R モジュールを PG にロードします。
目的の R 関数の PG ラッパーを作成します。
SELECT から PG ラッパーを呼び出します。

たとえば、最後の 2 つの手順は次のようになります。

create or replace function plr_kendall( _float8, _float8 ) returns float as '
  agg_kendall(arg1, arg2)
' language 'plr';

CREATE AGGREGATE agg_kendall (
  sfunc = plr_array_accum,
  basetype = float8, -- ???
  stype = _float8, -- ???
  finalfunc = plr_kendall
);

そして、SELECT上記のように？

ありがとうございました！

score 7 · Accepted Answer

概要

これらの手順では、PL/R を使用して PostgreSQL から R 関数を呼び出す方法を示します。

前提条件

PostgreSQL、R、および PL/R がすでにインストールされている必要があります。

手順

R モジュール名を検索します (例: Kendall)
データベースユーザーに変更します。 sudo su - postgres
Rを実行 R
R モジュールをインストールします (受け入れる$HOME/R/x86_64-pc-linux-gnu-library/2.9/): install.packages("Kendall", dependencies = TRUE)
プロンプトが表示されたら、CRAN ミラーを選択します。

次のテーブルを作成します。

CREATE TABLE plr_modules (
modseq int4,
modsrc text
);

問題の R モジュールをロードするディレクティブをそのテーブルに挿入します。 INSERT INTO plr_modules VALUES (0, 'library(Kendall)' );
データベースを再起動します (またはSELECT * FROM reload_plr_modules();): sudo /etc/init.d/postgresql-8.4 restart

PostgreSQL でラッパー関数を作成します。

CREATE OR REPLACE FUNCTION climate.plr_corr_kendall(
double precision[],
double precision[] )
RETURNS double precision AS
$BODY$
Kendall(arg1, arg2)
$BODY$
LANGUAGE 'plr' VOLATILE STRICT;

ラッパー関数を使用する関数を作成します。
新しい機能をテストします。

ラッパー関数

この関数は、データベースからデータを収集し、2 つの配列を作成する作業を実行します。plr_corr_kendallこれらの配列はラッパー関数に渡されます。

CREATE OR REPLACE FUNCTION climate.analysis_vector()
RETURNS double precision AS
$BODY$
DECLARE
  v_year_taken double precision[];
  v_amount double precision[];
  i RECORD;
BEGIN
  FOR i IN (
  SELECT
    extract(YEAR FROM m.taken) AS year_taken,
    avg( m.amount ) AS amount
  FROM
    climate.city c,
    climate.station s,
    climate.station_category sc,
    climate.measurement m
  WHERE 
    c.id = 5148 AND 
    earth_distance( 
      ll_to_earth(c.latitude_decimal,c.longitude_decimal), 
      ll_to_earth(s.latitude_decimal,s.longitude_decimal)) <= 30 AND 
    s.elevation BETWEEN 0  AND  3000  AND 
    s.applicable AND 
    sc.station_id = s.id AND 
    sc.category_id = 1 AND 
    extract(YEAR FROM sc.taken_start) >= 1900 AND 
    extract(YEAR FROM sc.taken_end) <= 2009 AND 
    m.station_id = s.id AND 
    m.taken BETWEEN sc.taken_start AND sc.taken_end AND 
    m.category_id = sc.category_id 
  GROUP BY 
    extract(YEAR FROM m.taken)
  ORDER BY
    extract(YEAR FROM m.taken)
  ) LOOP
    SELECT array_append( v_year_taken, i.year_taken ) INTO v_year_taken;
    SELECT array_append( v_amount, i.amount::double precision ) INTO v_amount;
  END LOOP;

  RAISE NOTICE '%', v_year_taken;
  RAISE NOTICE '%', v_amount;

  RETURN climate.plr_corr_kendall( v_year_taken, v_amount );
END;
$BODY$
LANGUAGE 'plpgsql' VOLATILE
COST 100;

テスト

次のように関数をテストします。

SELECT
  *
FROM
  climate.analysis_vector();

結果

数値：-0.0578900910913944

postgresql - PL/R での R モジュールと関数の読み込み、一覧表示、および使用

利用可能な R パッケージの一覧表示

R パッケージのインストール

R 関数の呼び出し

1 に答える 1

概要

前提条件

手順

ラッパー関数

テスト

結果

Related

Reference