与えられたテキストの作者を特定したいというプロジェクトが1つあります。そのためのブログで、特定の作者のトレーニングデータとコーパスを作成する方法を教えてください。
いくつかのリンクとそのためのアルゴリズムを提案してください。
著者の特定のタスクには多くのアプローチがあります。あなたはNLPを初めて使用しているように思われるので、基本的な、言葉のベクトルによるアプローチから始めることをお勧めします。
ここで、著者の識別のためのクラスタリングを通常のドキュメントクラスタリングとは異なるものにする重要な落とし穴が1つあります。通常のドキュメントクラスタリングでは、「ストップワード」、「the」、「be」、「that」などの高頻度の単語を無視しようとします。 「内容語」に焦点を当てます。しかし、著者の識別では、これらのストップワードは、個人の文章をユニークにするものであることがわかります!したがって、作成者が執筆でこれらの機能語をどのように使用するかに応じて、ベクトルを実際にクラスター化する必要があります。
次のステップとして、単語のバイグラムなどのより優れた機能を考え出すことを試してみてください。これらの機能により、作者の文体の独自の側面について少しよく理解できるようになります。
この地域の広い視野と人々が試した技術については、Googleの学者が言っていることを確認してください。人々が何を試し、何が成功したかを知ることができるように、おそらくこの分野の概要を説明する調査記事やその他の論文を探す必要があります。
ニューラル ネットワークを使用できます。たとえば、シェイクスピア、フレッチャー、マーロウの作品の作者を特定しようとする記事があります。また、いくつかの python スクリプト (および C でのニューラル ネットワークの実装) も含まれています。また、トレーニング データの作成方法を理解するためのデータ ファイルもあります。
しかし、前に述べたように、今のところあなたの質問は広範すぎるままです。この例があなたの出発点となることを願っています。戻ってきて、より具体的な質問をすることができます。