0

著者名の曖昧さ回避問題について研究しています。私はいくつかの実験をしたいです。引用レコードをクラスター化したい。各出版レコードの真の著者が利用できるトレーニング データとテスト データが必要です。DBLP、Medline、Pubmed などの多くの書誌データベースがあります。テスト段階について混乱しています。DBLP をトレーニングとテストに分割することは良い方法ですか? DBLP 引用レコードは手動で追加されますか? DBLP で各引用レコードが真の著者に割り当てられていることを保証できますか? データベースのトレーニングとテストに関する提案はありますか。注: 文献では、一部の論文ではトレーニングに Pubmed を使用し、テストに DBLP を使用していることに気付きましたが、最初のものは医学出版物用で、2 つ目はコンピューター用です。

4

1 に答える 1

0

以下は、あなたの質問に対する私の見解です。

私はテスト段階について混乱しています。DBLP をトレーニングとテストに分割することは良い方法ですか?

使用される方法は、トレーニングとテストのためにデータを分割することです。ただし、テスト サンプルごとにトレーニング サンプルが存在することを確認することをお勧めします。

DBLP 引用レコードは手動で追加されますか? DBLP で各引用レコードが真の著者に割り当てられていることを保証できますか?

この論文によると、DBLP 引用レコードは手動で追加されます。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

データベースのトレーニングとテストに関する提案はありますか。

ANDDataset1 は、そのようなタスクの一部の作業で使用されてい ます https://sites.google.com/site/tinhuynhuit/dataset

KDD Cup 2013 - Author Disambiguation Challenge https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/dataを試すこともできます。

于 2016-10-26T10:40:27.767 に答える