1

私は修士課程に向けて読んでいます。コンピューター サイエンスの博士号を取得しており、ソースの 1 年目を終えたばかりです。(これは2年間のコースです)。すぐに、修士号の提案書を提出しなければなりません。計画。次のトピックを選択しました。

「情報検索システムにおける文書ランキングへの機械学習の適合性」. 研究者は、ドキュメントをランク付けするためにさまざまな機械学習アルゴリズムを使用してきました。そのため、プロジェクトの最初のフェーズとして、完全な文献調査を行い、現在のアプローチの長所と短所を見つけます。プロジェクトの第 2 段階では、現在のアプローチの限界を克服するために、新しい (修正された) アルゴリズムを提案します。

実際、私の質問は、このタイプのプロジェクトが修士号として適しているかどうかです。事業?また、誰かが情報検索分野で興味深いアイデアを持っている場合は、そのアイデアを私と共有することは可能ですか.

ありがとう

4

2 に答える 2

6

ランキングは、情報検索システムの中で常に最も難しい部分です。これは非常に良いトピックだと思いますが、できるだけ早く作業の範囲を定義するように注意する必要があります。おそらく、新しい IR エンジンを開発することはできず、apache lucene などに基づいてプロトタイプを作成することになるでしょう。

現在、stackoverflow データ ダンプを含む多くのデータセットがあり、豊富な機能ベクトル (ポイント数、時間、以前の質問などのトピックをマイニングできる、タグの人気度) を定義するために必要なすべての情報を提供します。ランキングアルゴリズムの学習。作業のこの部分では、たとえば、機能のタイプを分類し (たとえば、ユーザー固有のセマンティック機能 - タイトルのソフトウェア名)、一連の実験を実行して、特定のデータセットにとって最も重要な機能とそうでない機能を学習できます。 .

このようなプロジェクトの 2 つ目の方向性は、効率的に学習を行う方法です。背後にある理由は、Web またはコミュニティ フォーラム内のデータの量と、フォーラム内の変更 (コミュニティ固有の機能を使用する場合、これは重要です)、たとえば、テクノロジの変更、新しいソフトウェア リリースなどです。

検索と機械学習に関連するトピックは他にもたくさんあります。最良のアイデアは、scholar.google.comでランキング、機械学習、検索に関する最近の調査論文を検索して、最先端の技術を知ることです。次のステップは、修士課程の監督者と話すことです。

幸運を!

于 2010-10-05T22:22:37.243 に答える
1

あなたが言ったことはすべて良いのでやるべきですが、あなたは最も重要な部分を忘れました:

優れた実験とおそらくいくつかの統計(p値、信頼区間)を使用して、アルゴリズムが他のアルゴリズムよりも優れている、および/または高速であることを証明します。

あなたがそれをして、あなたのアルゴリズムが有用であることを人々に納得させれば、あなたは確かに失敗しないでしょう:)

于 2010-10-05T09:35:57.430 に答える