著者名の曖昧さ回避問題について研究しています。私はいくつかの実験をしたいです。引用レコードをクラスター化したい。各出版レコードの真の著者が利用できるトレーニング データとテスト データが必要です。DBLP、Medline、Pubmed などの多くの書誌データベースがあります。テスト段階について混乱しています。DBLP をトレーニングとテストに分割することは良い方法ですか? DBLP 引用レコードは手動で追加されますか? DBLP で各引用レコードが真の著者に割り当てられていることを保証できますか? データベースのトレーニングとテストに関する提案はありますか。注: 文献では、一部の論文ではトレーニングに Pubmed を使用し、テストに DBLP を使用していることに気付きましたが、最初のものは医学出版物用で、2 つ目はコンピューター用です。
1 に答える
以下は、あなたの質問に対する私の見解です。
私はテスト段階について混乱しています。DBLP をトレーニングとテストに分割することは良い方法ですか?
使用される方法は、トレーニングとテストのためにデータを分割することです。ただし、テスト サンプルごとにトレーニング サンプルが存在することを確認することをお勧めします。
DBLP 引用レコードは手動で追加されますか? DBLP で各引用レコードが真の著者に割り当てられていることを保証できますか?
この論文によると、DBLP 引用レコードは手動で追加されます。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf
データベースのトレーニングとテストに関する提案はありますか。
ANDDataset1 は、そのようなタスクの一部の作業で使用されてい ます https://sites.google.com/site/tinhuynhuit/dataset
KDD Cup 2013 - Author Disambiguation Challenge https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/dataを試すこともできます。