少し単純化されているかもしれませんが、「bibtex + paper title」をグーグルで検索すると、通常、ACM、Citeseer、またはその他の参照追跡サイトからフォーマットされた bibtex エントリが取得されます。もちろん、これは論文が非コンピューティング ジャーナルからのものではないことを前提としています:D
- 編集 -
このための独自の解決策は見つからないと思います。citeseer、ACM、Google Scholar などの引用トラッカーに手紙を書いて、彼らが何をしたかについてのアイデアを得たいと思うかもしれません。他にもたくさんの実装があり、それらの実装はクローズド ソースではなく、公開された形式ではないことに気付くかもしれません。このテーマに関する研究資料は山ほどあります。
私が所属している研究チームはそのような問題を調査し、手書きの抽出アルゴリズムまたは機械学習がそれを行う方法であるという結論に達しました. 手書きのアルゴリズムはおそらく最善の策です。
これは、変動の可能性があるため、非常に難しい問題です。PDFをテキストに正規化することをお勧めします(これは、数十のプログラムPDFライブラリのいずれかから入手できます)。次に、カスタム テキスト スクラップ アルゴリズムを実装する必要があります。
PDF の末尾からさかのぼって、どのような種類の引用キーが存在するかを調べます ([1]、[著者年]、(著者年) など)。その後、次の文を解析しようとします。おそらく、ライブラリから取得したテキストを正規化するコードを作成する必要があります (余分な空白などを削除します)。行の最初の単語としてのみ引用キーを探し、ドキュメントごとに 10 ページのみを検索します-最初の単語にはキー区切り文字が必要です-たとえば、「[」または「(」。キーが見つからない場合次に、10 ページが PDF を無視し、人間が介入するようにフラグを立てます。
引用内のメタデータをフォーマットするためにプログラムでさらに参照できるライブラリが必要になる場合があります。たとえば、斜体には特別な意味があります。
実用的な解決策を得るためにかなりの時間を費やすことになり、その後、スクラップ アルゴリズム/エンジンを調整および追加する継続的なプロセスが発生する可能性があると思います。