“data-munging”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

460 参照

mysql - 画像の URL をデータベーステーブルに保存する

画像の URL を MySQL データベーステーブルに保存しようとしています。

列フィールドは十分な長さです。テーブルとデータベースは UTF-8 CI 一般照合 (IIRC) を使用しています。

URL は次のようになります。

http://example.com/media/images/47142000/jpg/_47142379_005857853-1.jpg

しかし、それらは次のように保存されます:

http://example.com/media/images/47142000/jpg ...

「_」の出現が mySQL の問題を引き起こしているようです。データベースに保存する前に、文字列を urlencode する (または文字列に対して他のデータ変更を実行する) 必要がありますか?

mysql data-munging

2010-02-13T03:52:15.047

0 投票する

1 に答える

730 参照

jquery - サーバー側 Adobe AIR アプリ

これは本当にばかげた質問のように聞こえるかもしれませんが、非 UI サーバー (つまり Linux) でヘッドレスサーバーサイドモードで Adobe AIR アプリケーションを実行する方法はありますか? API (grapevinetalk.com) と対話するサーバー側ボットを構築しようとしています。既存のコードを使用して、新しいアプリケーション用にすべてのデータ変更などを書き直す必要はありません。

移植しようとしているアプリケーションは、基本的に、サーバー側の対話に再利用したい jQuery ベースの AIR デスクトップアプリです。envjs.com で Rhino を試してみましたが、いくつかの問題があるため、代替手段を検討しています。

ありがとう

ロビー

2010-04-26T21:39:58.067

0 投票する

3 に答える

815 参照

php - データの変更とデータのインポートのスクリプト

サーバー（Ubuntuサーバー8.04 TLSを実行）でいくつかのタスクを実行するために、いくつかのスクリプトを作成する必要があります。タスクは定期的に実行されるため、スクリプトをcronジョブとして実行します。

タスクを「グループA」と「グループB」に分けました。（少なくとも私の考えでは）少し違うからです。

タスクグループA

ファイルからデータをインポートし、場合によっては再フォーマットします。再フォーマットとは、データのサンティゼーション、正規化、データの「列」での計算などを行うことを意味します。
変更されたデータをデータベースにインポートします。今のところ、インポートの大部分にmySQLを使用していますが、一部のファイルはsqlLiteデータベースにインポートされます。

注：ファイルのほとんどはテキストファイルですが、一部のファイルはバイナリ形式（私が開発したC ++アプリケーションによって作成された独自の形式）です。

タスクグループB

データベースからデータを抽出する
データに対して計算を実行し、データベースにテーブルを挿入または更新します。

私のコーディング経験は主にC/C ++開発者ですが、過去2年ほどPHPも使用しています（+この質問の目的に関係のない他のいくつかの言語）。私はWindowsのバックグラウンドを持っているので、まだLinux環境に足を踏み入れています。

私の質問はこれです-私は上で説明したタスクを実行するためにスクリプトを書く必要があります。シェルスクリプトで使用するC++アプリケーションをいくつか作成できると思いますが、スクリプト言語で作成した方がよいと思いますが、これは誤った想定である可能性があります。私の考えでは、スクリプト内のものを変更する方が簡単です。機能を変更するために再構築する必要はありません。さらに、C++でのC++データの変更には、PerlやPythonなどの「自然な」スクリプト言語よりも多くのコード行が含まれる傾向があります。

ここにいる大多数の人々がスクリプトが進むべき道であることに同意すると仮定すると、ここに私のジレンマがあります。上記のタスクを実行するためにどのスクリプト言語を使用しますか（私の背景を説明します）？

私の直感は、Perl（shudder）が上記のすべてのタスクを実行するための最も明白な選択であることを教えてくれます。しかし（そしてそれは大きなことです）。しばらく前にPerlについて非常に悪い経験をしたので、Perlについて言及するだけで、つま先が丸くなります（Perl Camelの本と「Perlでデータを変更する」を何年も前に購入しましたが、それでも「grok」することはできませんでした。構文は私にはかなり不自然に思えます-何度もそれを学ぼうとしましたが-可能であれば、私は本当にそれを見逃したいと思います。PHP（私はすでに知っています）も確かではありませんCLIでスクリプトを作成するのに適した候補です（これを行う方法などの例はあまり見たことがないので、間違っている可能性があります）。

最後に言及しなければならないのは、これを行うために新しい言語を学ぶ必要がある場合、これを行うために必要な主要なコマンド/機能を学ぶのに1日以上費やす余裕がない（時間の制約）ということです（スクリプトを実際にデプロイした後は、いつでも言語の詳細を学ぶことができます）。

では、どのスクリプト言語をお勧めしますか（PHP、Python、Perl、[ここにお気に入りを挿入]）-そして最も重要なのはなぜですか？または、シェルスクリプトで呼び出す小さなC ++アプリケーションの作成に固執する必要がありますか？

最後に、スクリプト言語を提案した場合は、数行で示してください（Perl mongers-私はあなたの方向を見ています[あまりにも不可解です！]）私が試していることを行うためにあなたが提案した言語をどのように使用できるかすなわちする

データ操作のためにデータ列に簡単にアクセスできるある種のデータ構造にCSVファイルをロードします
列データをmySQLテーブルにダンプします
mySQLテーブルからデータ構造にデータをロードして、スクリプト言語で列/行にアクセスできるようにします

うまくいけば、スニペットによって、私にとって最も急な学習曲線をもたらす言語と、シンプルでエレガントで効率的な言語（これらの2つの基準[優雅さと浅い学習曲線]が直交していないことを願っています）をすばやく見つけることができますが、私は彼らがそうであるかもしれないと思う）。

php python perl shell data-munging

2010-05-14T10:10:37.250

0 投票する

2 に答える

986 参照

perl - データの改ざんに適したPerlモジュールはどれですか？

9年前にPerlでHTMLとフリーテキストの解析を始めたとき、私はPerlで古典的なデータ変更を読みました。Davidが本を更新する予定があるかどうか、またはXML-Twig、Regexp-Grammarsなどの新しい解析モジュールが説明されている同様の本やWebページがあるかどうかを誰かが知っていますか？

過去9年間で、いくつかのモジュールは以前と同じように優れていると思います。いくつかは最新ですが、新しい興味深い方法があり、いくつかはより良い代替品があります。たとえば、Parse-RecDescentはフリーテキスト解析の唯一のオプションですか、それとも多くのシナリオでPerl 6の影響を受けるRegexp-Grammarsに置き換わるのでしょうか？

私はPerlを使用したアクティブなHTML、XML、またはフリーテキストデータマイニングを4年間行っていないため、この分野のツールキットは少し古くなっている可能性があります。したがって、この分野の現在のCPANモジュールに精通している人々からの、HTMLおよびDOM操作、リンク抽出/検証、MechanizeなどのWebテスト、XML操作、およびフリーテキスト解析に関するフィードバックは大歓迎です。

私のツールキットへのいくつかの新しい追加：

まだ私のツールキットにあります：

HTML-TableExtract＃2006年以降更新されていません
WWW-機械化
解析-RecDescent
HTML-TokeParser
URI-エスケープ
[もっと...]

perl xml-parsing html-parsing text-parsing data-munging

2010-09-27T00:37:33.533

0 投票する

1 に答える

344 参照

xml - WPF アプリケーションから Perl コードを呼び出す

Winform/WPF アプリケーションで xml ファイルからの入力を処理し、変換された XML ファイル (基本的には Perl のデータ変更機能を使用) をディレクトリに返すか、またはエラーが返された場合にエラーを返す perl モジュールを呼び出す方法をサンプルコードで学習したいと考えています。入力 XML 自体が間違っています。Windows 7 64ビット、VS 2010で開発しています。

xml wpf perl visual-studio-2010 data-munging

2010-11-07T16:20:42.173

0 投票する

3 に答える

258 参照

perl - プラグ可能/動的データ処理/変更/変換 perl モジュール?

perlmonks からの相互投稿:

$work にある大雑把で古いコードをクリーンアップする必要があります。新しいモジュールを作成する前に、適切なものを誰かが知っている場合は、既存のモジュールを使用したいと思います。

実行時にファイルを解析して、一連のデータに対してどのような処理を行う必要があるかを判断します。

もし私がモジュールを書くとしたら、もっと一般的に (DBI 固有ではない) しようとしますが、私の正確なユースケースは次のとおりです:

SQL ファイルを読み取って、データベースに対して実行するクエリを決定しました。上部のコメントを解析し、

列 A には as/// を適用する必要があり、
列 B は、指定された形式の日付のように変換する必要があります。
列 C は一種の tr/// を取得します。
さらに、列 D が s/// になるように連鎖させることができ、1 または 2 でない場合は 3 に設定します。

そのため、データベースからフェッチするとき、プログラムはデータを返す前にさまざまな (おそらくスタックされた) 変換を適用します。

現在、コードはひどく大きくて難しい一連の if 句を処理しており、命令の配列を読んだり維持したりするのが非常に困難です。

したがって、私が想像しているのは、おそらくこれらの行を解析し (さらに機能的なインターフェイスを公開し)、適用するプロセッサのリストを積み重ね、渡されたデータに対してそれを実行できるオブジェクトです。

必要に応じて、名前/カテゴリオプションを指定して、1 つのオブジェクトを動的に使用して、特定の名前/カテゴリ/列のプロセッサのみをスタックすることができます。

伝統的に考案された例:

各プロセッサ (gsub、date、exchange) は個別のサブルーチンになります。プラグインは、名前でさらに追加するように定義できます。

当然の最初の質問は、私が使用できるモジュールを知っている人はいますか? これまでに見つけることができたのは [mod://Hash::Transform] だけですが、実行時にどの処理を動的に行うかを決定するため、常に「複雑な」オプションを使用することになります。パーサー/スタッカーをビルドする必要があります。

私が利用/ラップしたい同様のモジュール、またはわずかに関連するモジュールを知っている人はいますか?

公共の消費のための一般的なものが何もない場合（確かに私のものだけが暗いパンではありません）、覚えておくべきことやインターフェイスの提案、またはDBIからのデータの戻り値を変更する以外の他の可能な用途について、誰かアドバイスがありますか?テキスト::CSVなど?

新しいモジュールを書くことになった場合、名前空間の提案はありますか? Data:: の下の何かがおそらく適切だと思います... 私のユースケースは PAM を思い起こさせるので、「プラグ可能」という言葉が頭に浮かび続けますが、本当に良いアイデアはありません...

データ::プロセッサ::プラグイン可能?
Data::Munging::Configurable ?
私::噛む::データ ?

perl process transform pluggable data-munging

2010-11-17T17:25:20.633

0 投票する

1 に答える

261 参照

python - Webベースのデータ可視化/マイニング用の開発スタックの選択

コミュニティのさまざまな人々が、単純なデータ駆動型アプリケーションの構築に取り組んでいる小さなチーム（3〜5）の開発者のためのツール/言語の選択についてどのように考えているか知りたいです。データの改ざん/分析/データビスを行いたい。

最終的には、データ処理エンドにHadoopがあり、フロントエンドにjavascriptがあります。理想的には、ある程度のR統合も必要です。

現時点での私の最善の考えは、Rpy（http://rpy.sourceforge.net/）とBoto（http://code.google.com/p/boto/）でRを使用するPythonのDjangoです。

他に良い選択肢はありますか？代わりにJVMルートを使用しようとすると、大きなマイナス面/プラス面がありますか？どのツールを使用しますか、またその理由は何ですか？

python r jvm programming-languages data-munging

2011-02-09T04:20:41.857

0 投票する

9 に答える

17484 参照

python - Python:インデックス作成をサポートするメモリ内オブジェクトデータベース?

私はいくつかのデータ変更を行っていますが、メモリ内データベースに多数の辞書を貼り付けて、それに対して単純にクエリを実行できれば、かなり簡単になります。

たとえば、次のようなものです。

ただし、次の 3 つの交絡要因があります。

一部の値は Python オブジェクトであり、それらをシリアル化することは問題外です (遅すぎて、ID が壊れます)。もちろん、これを回避することはできます (たとえば、すべてのアイテムを大きなリストに格納し、そのリスト内のインデックスをシリアル化することで... しかし、それにはかなりの手間がかかる可能性があります)。
何千ものデータがあり、それらに対して検索を多用する操作 (グラフトラバーサルなど) を実行するので、効率的な (つまり、インデックス付きの) クエリを実行できる必要があります。
例のように、データは構造化されていないため、スキーマを事前に定義する必要があるシステムは扱いにくいでしょう。

では、そんなものは存在するのでしょうか。それとも、一緒に何かをクラッジする必要がありますか?

python database data-munging

2011-03-01T22:25:11.250

0 投票する

3 に答える

533 参照

c# - C# でスクリプトを作成しますか?

私はさまざまなアドホックなデータ変更や補助的なタスクを実行するために、Python を広範囲に使用してきました。私は C# を学んでいるので、これらのスクリプトのいくつかを C# で書き直すことができれば楽しいと思います。

.cs ファイルを取り、それを ala python で実行する実行可能ファイルはありますか?

c#scripting data-munging

2011-05-18T07:37:58.933

0 投票する

2 に答える

8965 参照

c# - C#を使用してcsvファイルをDataTableに読み込みますか?

データ変更を行うために、しばらく前に書いた Python スクリプトがいくつかあります。これらのスクリプトの一部を C# に「移植」する必要があります。

Python は、ファイルからディクショナリへの CSV データのインポートを容易にする CSV モジュールを提供します。ライブラリに同じ機能を持たせたいと思っていますが、C# は初めてなので、CSV データを DataTable にインポートするベストプラクティスの方法を尋ねるためにここに来ることにしました。

自分で作成しますか、それとも「CSV モジュール」は Python ですか?

c#data-munging

2011-08-02T16:53:32.427

問題タブ [data-munging]

Reference