1

私は、定義された概念空間 (ここでは、仕事に関連する学習) に関して、80 万以上の学術論文を関連 (1) または関連なし (0) として分類する最も効果的かつ簡単な方法を探しています。

データ: タイトル & アブストラクト (平均 = 1300 文字)

監視された機械学習を含む、および/またはとりわけ、含めるためのいくつかのしきい値を生じさせる特徴を確立することによって、任意のアプローチを使用または組み合わせることさえできます。

アプローチは、概念空間を説明する重要な用語を利用できますが、単純な頻度カウントだけでは信頼性が低すぎます。可能性のある手段には、潜在的な意味分析、n-grams などが含まれる可能性があります。

トレーニング データの生成は、コーパスの 1% までは現実的かもしれませんが、これはすでに 8,000 件の記事 (1 = 関連あり、0 = 関連なし) を手動でコーディングすることを意味しますが、それで十分でしょうか?

具体的なアイデアといくつかの簡単な理由付けは非常に高く評価されているため、どのように進めるかについて十分な情報に基づいた決定を下すことができます. どうもありがとう!

4

1 に答える 1