Webから情報をマイニングするためのツールを構築しています。いくつかの作品があります。
- Webからデータをクロールする
- テンプレートとビジネスルールに基づいて情報を抽出する
- 結果をデータベースに解析します
- 正規化とフィルタリングのルールを適用する
- 等
問題は、問題のトラブルシューティングと、各段階で何が起こっているのかを「高レベルで把握」することです。
複雑なプロセスを理解して管理するのにどのようなテクニックが役立ちましたか?
- WindowsWorkflowFoundationなどのワークフローツールを使用する
- 個別の関数をコマンドラインツールにカプセル化し、スクリプトツールを使用してそれらをリンクします
- ドメイン固有言語(DSL)を記述して、より高いレベルで発生する順序を指定します。
相互作用する多くのコンポーネントを備えたシステムをどのように処理するのか興味があります。ソースコードをトレースするよりも高いレベルでシステムがどのように機能するかを文書化/理解したいと思います。