私がやりたいことは非常に単純です。論文/本を含むPDF/PS / DjVuファイルが与えられたら、論文の著者とタイトルを見つけます(他のメタデータは良いですが、それほど必要ではありません)。この認識は完璧である必要はありませんが、できる限り良いものにしたいと思います。これらのファイルのメタデータとコンテンツにアクセスできるオープンソースの.NETおよび/またはJavaライブラリ(できれば.NET)を探しています。
PDFの場合、 PDFBox(.NET / Java)とPDF Library (.NET)を見つけましたが、私が知らないより良い代替案があるかもしれません。PostscriptとDjVuについては、何も見つかりませんでした。