2

ファイル パス名を分析するためのツール、方法、手法に関する情報を探しています。私が話しているのは、ファイル サイズ、読み取り/書き込み時間、またはファイル タイプではなく、パスまたは URL 自体の分析です。

私は基本的な単語頻度のテキスト ツールまたは方法しか認識していませんが、人々がこれを使用/適用してそれらから追加情報を抽出しようとする、より高度なものがあるかどうか疑問に思っています。

ありがとう!

アップデート:

これは、私が望むものの最も狭い例です。OK、次のような文字列としてフルパス名がいくつかあります。

F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File5.doc

F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File5.doc

私が知りたいのは、フォルダー MapShedMaps が「一意に」2回表示されることです。もし私が弦に頻度をかけると、10回の出現が得られます. 問題は、これが重要なディレクトリのどのレベルかわからないことです。そのため、説明に基づいて、ディレクトリの各レベルで一意のカウントが必要です。

4

2 に答える 2

2

これは非常に幅広い質問なので、「答え」という言葉を一言で言うのは難しいですが、これについての最初の考えを述べさせていただきます。

初め、

.NET の正規表現クラスは、大量の情報を解析するのに非常に役立ちます。非常に強力なため、せっかちな人は簡単に混乱してしまいますが、一度マスターすれば、テキスト エディター、.NET、および私が信じている他のほとんどの立派な言語で使用できます。これにより、文字列を検索してディレクトリに分けることができます。これは使い方によってはやり過ぎかもしれませんが、それは考えです。これは、いくつかの正規表現を試すための私のお気に入りのリンクです。

2番、

データベースが必要になります。私は SQL を使用することを好みます。データベースへの接続方法とデータベースの作成方法を調べます。このデータベースを使用すると、入力した元のパスから抽象化されたすべてのフィールドを保存できます。親ディレクトリ、子ディレクトリ、アクセスされる一般的なファイル タイプなど。これらのそれぞれにフィールドを用意するだけで、クエリを通じて冗長性に関する仮説を立てることができます。

三番、

簡単にアクセスできるかどうかはわかりませんが、Windows がアクセスしたファイル履歴を保存しているかどうかを調べることができます。過去にどのファイルが開かれたかについて、いくつかのヒントがあるようです。そのため、データベースに保存する情報の多くを既に保存しているリソースがウィンドウにある可能性があります。この情報にアクセスする方法を見つけることができれば。正規表現で解析し、アプリケーションのデータベースに再送信します。あなたは世界をコントロールすることができました!j/k... ユーザー アクセスのパターンについては、かなり良い予測を得ることができます。

第4、

私は常に自分が利用できるものに固執するようにしています. .NET が目の前にある場合は、何をしようとしているのかを突き止めてください。壁に到達した場合。少なくともあなたの前進の進歩。オブジェクト指向プログラミングに向かう今日の動きでは、通常、あるプログラムによって収集されたデータを、別のプログラムが受け入れられる形式に変更できます。少し掘り下げる必要があります。

ところで、Coursera.comでは実際に、機械学習とアルゴリズムに関する無料のクラスを開催しています。確認するか、予測式を参照することをお勧めします。

幸運を。

于 2012-09-27T16:00:55.270 に答える
0

これをコメントとして投稿したかったのですが、SO はダブル \ を \ に編集し続けました。\ はキー文字であり、エスケープする別の \ がないため、2 つあることが重要です。正規表現はそれをコマンドとして解釈します。

ねえ、私はいくつかの正規表現で遊んでいることをあなたに知らせたかっただけです...私はVB.netでこれをコード化する非常に簡単な方法を知っています.2番目の回答として投稿しますが、チェックアウトしてほしい後方参照。括弧の間の部分が一致すると、そのテキストがキャプチャされ、たとえば 2 番目のクエリに移動します....

F:\\(directory1)?(directory2)?(directory3)? 

これらの一致を使用して、各親ディレクトリの下にあるディレクトリの数を確認できます。私をフォローしてますか?こちらが参考になります。

于 2012-09-28T17:33:08.060 に答える