Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
電子書籍コレクションを保存するためのデータベースを作成しています。 それらのほとんどは、本自体のテキスト内に ISBN があります。 このコンテンツにアクセスするにはどうすればよいですか? それを行うためのソースコードまたはDLLはありますか?
私はeBookライブラリアプリのためにそれをしました。まず、chmまたはpdfファイルからテキストを抽出する必要があります。それを行うためのユーティリティ\ライブラリはたくさんあります。これは、CHMファイルからコンテンツを抽出する方法に関するCodeProjectに関する記事です。PDFファイルの場合、pdftotextユーティリティを使用しました。eBookからプレーンテキストを取得したら、正規表現を使用して解析し、ISBN10/13コードを見つけます。
CHMおよびPDFファイルからテキストを抽出することが最初のステップです。次に、正規表現を使用してISBN番号を見つけることができます。