問題タブ [data-import]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - solrデータ-インポート検索
私はsolrを初めて使用します。データベースを検索したい。値をインポートしてインデックスを作成することはできますが、検索中にフィールド名を検索クエリで指定する必要があるようです。フィールド名を指定せずに実行するにはどうすればよいですか。
pentaho - ペンタホステップを順番に実行することはできますか?
たとえば、10ステップで構成されるペンタホ変換があります。N個の入力パラメーターに対してこのジョブを開始したいのですが、並行してではありません。各ジョブの評価は、前の変換が完全に完了した後に開始する必要があります(プロセスはトランザクションで実行され、コミットまたはロールバックされます)。Pentahoで可能ですか?
sql-server - SQL Server データのインポート
MAS200 などの外部ソースから、本番 SQL Server 2005/2008 データベースへのデータ インポートを設計しています。ソースはトランザクション データベースであり、安全/分離されます。定期的なデータ同期が期待されるように、データベースをソースと同期させる必要があります。
CSV、txt ファイルの形式など、任意のタイプのソース データを要求する自由が与えられています。また、同様の構造を持つ別の SQL データベースにソース データを含めることもできます。データをインポートする最善の方法を選択する必要があります。それは定期的で、時間単位または日単位で行われる可能性があります。
私の経験に基づいて、SQL データベースにソース データを用意することが、開始するための最良の方法であると考えています。これまでに導き出した大まかな設計は次のとおりです -
- 定期的にソース データベースが外部から読み込まれます (私たちの側ではありません)。
- 前処理: ソース テーブル データを洗練する (つまり、トリム、ルックアップ) - 一般的なデータの書式設定と変換
- Fetch : レコードをループする CURSOR を作成します。既存のデータを更新して新しいものを挿入する予定なので、少なくとも 2 つの CURSOR ループが 1 つずつ必要になります。
- Populate : CURSORループ内でレコードが更新/挿入されます
- 後処理: ここでもいくつかの最終調整とルックアップ マッピング (つまり、コードを ID に置き換えます)
- Check : 最後に、テーブルの一貫性チェックを実行して、インポートされたデータの整合性を確認します
要約すると、ストアド プロシージャの手順を分割し、それらの手順を 1 つずつ実行する SQL ジョブを作成します。これを行うには、SSIS、データ インポート ウィザードなど、さまざまな方法があることを知っています。
注: データは膨大になります。前回同様のセットアップを行ったときは、データ インポート プロセス全体を完了するのに数分 (約 20 ~ 25 分) かかったので、1 時間ごとのデータ インポートをスケジュールしました。
ありがとうございました。
更新 #1: MERGE コマンドを使用するのが最善と思われることを理解しています。しかし、SQL Server 2005 用に作成しなければならない場合は? 2008年以降は動くと思います。リンクを見つけました -
http://sqlserver-tips.blogspot.com/2006/09/mimicing-merge-statement-in-sql.html
2005 年のその他のアイデアはありますか?
mysql - VB.netで区切られた大きなテキストファイルの読み取りと解析
サイズが5mbから1gb+の範囲のスペース区切りのログファイルを読み取り、ファイルに含まれる情報に基づいてレポートを印刷するときに後で使用できるように、この情報をMySQLデータベースに保存するアプリケーションで忙しいです。私が試した/見つけた方法はうまくいきますが、非常に遅いです。
私は何か間違ったことをしていますか?または、非常に大きなテキストファイルを処理するためのより良い方法はありますか?
次のようにtextfieldparserを使用してみました。
これは機能しますが、大きなファイルの場合は非常に遅くなります。
次に、事前にディレクトリに書き込んだschema.iniファイルと組み合わせて、次の関数に従ってテキストファイルへのOleDB接続を使用してみました。
schema.iniファイル:
誰かがこれらのファイルをより速く読む方法について何か考えがありますか?
-編集-上記のコードのタイプミスを修正しました
sql-server - テーブルを変更した後のSQLServerデータのインポート
SQL Serverにインポートしたデータベースのバックアップがあり、いくつかの列を追加していくつかの変更を加えました。既存の列を削除しませんでしたが、いくつか追加しました。
同じデータベースをもう一度インポートしたいので、列の追加作業中に古いデータベースに入力されていた最新のデータをすべて取得します。
これを達成するための適切で効果的かつ効率的な方法は何でしょうか?
提案をありがとう。
mysql - mysql と php で dmoz の rdf データを利用する方法は?
Webで検索しましたが、まだ明確な答えを得ることができません。私の目標は、dmoz からのrdf データを利用することです。そのため、ここに 2 つの質問があります。
rdf を mysql にインポートする方法は? (どんな固い道具でも使えますか?)
SPARQL を介してデータをクエリ可能にする方法は? (どのコンポーネントまたはクエリ エンジンを使用する必要があるか)
私が学んだことから、 Redland RDF ライブラリに基づいてストレージを構築する必要があり、それから SPARQL でクエリを実行できます。しかし、レッドランドをさらに読んでみると、彼らは php の適切なドキュメントを持っていません。私はrdfテクノロジーにかなり慣れていないので、これらの欠けているギャップは私を混乱させます。
ruby-on-rails - Rails 3.1 (カスタム rake タスク) のデータ インポート ファイルの正しい場所
このカスタム rake タスクを実行して、Rails 3.1 アプリにデータをインポートしようとしています。
ファイルを import_users.rake として保存し、アプリの lib/tasks ディレクトリに配置しました。
ただしrake import_users
、コマンドラインで実行しようとすると、次のエラーが発生します。
No such file or directory - users.txt
users.txt を .rake ファイルと同じディレクトリ (lib/tasks ディレクトリ) に配置しましたが、それは正しい場所ですか?
matlab - Matlab インポートデータの精度
小数点以下 11 桁までの精度のデータを含むいくつかのデータ ファイルに importdata を使用しようとしています。Matlab は、importdata を使用するときに最初の 5 桁だけに関心があると考えているようです。使用できる別の方法はありますか?データをロードする方法、またはデータをロードする精度を定義する方法はありますか?
matlab - Matlab インポートデータ
現在、importdata を使用してテキスト ファイルをインポートし、列数をカウントするコードを書いています。これには cols() 関数で十分だと思いましたが、インポートされたデータはすべて double として格納されているようです。 、つまり、この操作を実行できません。
私は何か間違ったことをしていますか?テキスト ファイルのデータは行列/配列に格納されると思いましたか?
c# - ASP.NET (MVC) で CSV/Excel からのインポート中にデータを正規化するための推奨される方法は何ですか?
スタック オーバーフローにはデータ インポート関連の質問が無数にあることは承知しています。すでにどこかで質問されている場合は、申し訳ありませんが、CSV/Excel からのインポート中にデータを正規化するための試行済みおよびテスト済みの解決策を誰かがアドバイスできるかどうか疑問に思いました。 C#/ASP.NET MVC 3+ で。
私は仕事をするために何かをコーディングすることができましたが、これに役立つオープンソースのライブラリやツールがあるかどうか疑問に思いました.
私の興味のある分野は次のとおりです。
データをインポートするとき、いくつかのフィールドを正規化する必要がある場合があります。これの単純な例を以下に示します。
私の入力は次のとおりです。
私のテーブル構造は
役職が存在しない場合は、JobTitles テーブルに作成して Id を返したいと思います。存在する場合は、ID を保存したいと思います。
要約すると、私の質問は次のとおりです。
- これを行うために取るべきテクニックやアプローチはありますか?
- これを処理するオープンソース/商用ライブラリはありますか?車輪を再発明しても意味がありません