python - 「作成者の識別」の手順を提案しますか？

Question

与えられたテキストの作者を特定したいというプロジェクトが1つあります。そのためのブログで、特定の作者のトレーニングデータとコーパスを作成する方法を教えてください。

いくつかのリンクとそのためのアルゴリズムを提案してください。

score 3 · Accepted Answer

著者の特定のタスクには多くのアプローチがあります。あなたはNLPを初めて使用しているように思われるので、基本的な、言葉のベクトルによるアプローチから始めることをお勧めします。

機能として機能する単語のセットを考え出します。
各ドキュメントを取得し、それを各特徴語のカウントのベクトルに変換します。
コサイン類似度によってベクトルをクラスター化します。
最終的に同じクラスターに含まれるドキュメントは、同じ作成者によって作成される可能性があります。

ここで、著者の識別のためのクラスタリングを通常のドキュメントクラスタリングとは異なるものにする重要な落とし穴が1つあります。通常のドキュメントクラスタリングでは、「ストップワード」、「the」、「be」、「that」などの高頻度の単語を無視しようとします。「内容語」に焦点を当てます。しかし、著者の識別では、これらのストップワードは、個人の文章をユニークにするものであることがわかります！したがって、作成者が執筆でこれらの機能語をどのように使用するかに応じて、ベクトルを実際にクラスター化する必要があります。

次のステップとして、単語のバイグラムなどのより優れた機能を考え出すことを試してみてください。これらの機能により、作者の文体の独自の側面について少しよく理解できるようになります。

この地域の広い視野と人々が試した技術については、Googleの学者が言っていることを確認してください。人々が何を試し、何が成功したかを知ることができるように、おそらくこの分野の概要を説明する調査記事やその他の論文を探す必要があります。

score 1 · Accepted Answer

ニューラルネットワークを使用できます。たとえば、シェイクスピア、フレッチャー、マーロウの作品の作者を特定しようとする記事があります。また、いくつかの python スクリプト (および C でのニューラルネットワークの実装) も含まれています。また、トレーニングデータの作成方法を理解するためのデータファイルもあります。

しかし、前に述べたように、今のところあなたの質問は広範すぎるままです。この例があなたの出発点となることを願っています。戻ってきて、より具体的な質問をすることができます。

python - 「作成者の識別」の手順を提案しますか？

2 に答える 2

Related

Reference