0

手元に問題文があり、それが機械学習で解決できるかどうかを知る必要があります。こんなふうになります :-

ユーザーがドキュメントをアップロードできるシステムがあるので、xxxZxxx.xxx という名前のファイルがあるとします。

ユーザーはシステムのフォルダー構造に複数のレベルを移動し、ファイルを配置します (たとえば、A/B/C/D/Z/xxxZxxx.xxx)。

ファイル名を読み取り、 それが配置されるパスを提案するシステムを作成する必要があります。

この場合、ファイル名にはパスの最後の部分が含まれています。これはビジネス オブジェクト ディレクトリですが、含まれていない場合があります。このようなパスとドキュメントは 10^5 の順序で存在します。

また、新しいパス、つまりビジネス オブジェクトが時間とともに追加される可能性があるため、これは、増加し続ける約 10^5 クラスのマルチクラス分類になります。

これは解決可能ですか?

失敗した特徴ベクトルとして、文字の袋 (言葉の袋から着想を得た) を使用しようとしました。

これに従うことができるアプローチに関するコメントはありますか? 他の情報が必要な場合はお知らせください。質問を編集するか、タグを変更します。

4

1 に答える 1

0

したがって、それを真に ML の問題にするために、次の質問に答えてください。

1) ファイル名を読み取って、ファイルを配置する必要がある chid フォルダーを取得できないのはなぜですか? あなたが言ったように、ユーザーがファイル名の一部として子フォルダーの名前を証明していない可能性があるためですか? それとも、ユーザーが指定した名前のディレクトリが多数ある可能性があるためですか?

2) 機械学習の問題には、通常、正規表現を使用するなど、単純な肉眼で識別するのが難しい、本質的に統計的なパターンがあります。ここでは、正規表現検索を使用して適切なフォルダーを簡単に見つけることができますよね?

于 2014-09-05T11:04:32.973 に答える