6

私は、RDBMS システムやその他のデータベース システムよりも前に、R のテーブルとデータ構造の世界に触れていました。R/Python では、構造化されたデータ (.csv またはその他の形式) からテーブルとリストを作成し、プログラムでデータ操作を行うのは非常に洗練されています。

昨年、私はデータベース管理のコースに参加し、構造化データベースと非構造化データベースについてすべて学びました。また、R でデータを直接使用するのではなく、複数のデータ ソースからデータベースにデータをフィードするのが標準であることにも気付きました (利便性と規律のため?)。

研究目的では、結合、追加、さらには複雑なデータ操作には R で十分なようです。

read.csv などのコマンドを使用して R を直接使用する場合、データベースを作成し、R-SQL インターフェイスを使用してテーブルからクエリを実行することにより、R を使用する場合はいつですか?

たとえば、(a) 個人レベルの情報 (年齢、性別、喫煙習慣)、(b) 結果変数 (彼らがリアルタイムで行った調査など)、(c) 共変量情報などのマルチソース データがあるとします。 (環境特性)、(d) 治療入力 (結果を変更するイベントの発生 - 調査の回答) (d) 調査参加者の時間と空間の情報

この場合のデータ収集と処理へのアプローチ方法。標準的な業界の手順があるかもしれませんが、個人や研究者の小さなグループが採用できる実行可能で最適なアプローチのリストを理解するために、ここでこの質問を提案します.

4

1 に答える 1

4

「複数のデータ ソースからデータベースにデータをフィードするのが標準である」と言うときに説明していることは、より具体的にはデータ ウェアハウスのように聞こえます。データベースはさまざまな理由で使用され、多くの状況で 1 つのソースからのデータを保持します。たとえば、トランザクション システムのデータ ストアとして使用されるデータベースは、多くの場合、そのシステムを実行するために必要なデータと、生成されたデータのみを保持します。そのシステムによって。

説明しているプロセスは一般に抽出、変換、読み込み (ETL) と呼ばれます。R でデータを操作する前にデータを結合する方向に進む場合は、ETL とデータ ウェアハウスに関する情報を調べると役立つ場合があります。 .

どちらを選択すべきか、またはそれを達成するための最適な方法は、状況によって異なり、意見につながる可能性があるため、お伝えできません。私が言えることは、人々がデータ ウェアハウスを作成する理由のいくつかであり、それが自分の状況で役立つかどうかは自分で決めることができます。

データ ウェアハウスは、結合されたデータを保持するための中心的な場所を提供できます。これは、データの特定の組み合わせを使用する必要があるたびに、データを自分で組み合わせる必要がないことを意味します。単純な 1 回限りのレポートや組み合わせたデータの抽出のようなものとは異なり、ある程度の柔軟性を提供し、特定のタスクに必要な組み合わせたデータ セットをユーザーが取得できるようにする必要があります。非常に多くの場合、企業の状況では、多次元データ分析ツール (キューブ)、レポート、データ マイニングなど、複数のものが結合された同じデータ セット上で実行されます。

これには次のような利点があります。

  • データを自分で結合する必要があったときに時間を節約できます。
  • 結合する必要のあるデータが複雑な場合、またはプロセスのその部分の処理に習熟していない人がいる場合、データが誤って結合されるリスクは少なくなります。さまざまな作業が同じソース データを使用していることを確認できます。
  • データにデータ品質の問題がある場合は、データ ウェアハウスでこれを 1 回解決します。これを回避したり、コードで繰り返し解決したりするのではありません。
  • 新しいデータが絶えず受信されている場合、これの収集とデータ ウェアハウスへの統合を自動的に実行できます。

私が言ったように、これが有用な方向性であるかどうかを判断することはできません.あなたの個々のケースに。しかし、うまくいけば、これが、コードではなくデータベースでこの作業を行うことを選択する理由についてのあなたの中心的な質問に答え、作業の出発点を提供します.

于 2015-05-15T12:57:07.647 に答える