PDFドキュメントからテキストを抽出しました。.. Javaを使用して特定のフィールドを抽出したい..
テキストの部分..
US00RE44697E
(i9) 米国
(12) 再発行特許 (10) 特許番号: RE44,697 E
Jones et al. (45) 再発行特許の日付: 2014 年 1 月 7 日
(54) ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT
(75) 発明者: David E.Jones, Ottawa (CA); Cormac
MO'Connell, Carp (CA)
(73) 譲受人: Mosaid Technologies Incorporated,
Ottawa, Ontario (CA)
(21) Appl.No.: 13/603,137
(22) 出願日: 2012 年 9 月 4 日
関連する米国特許文書の
再発行of:
(64) 特許番号:
発行:
Appl. No.:
出願番号:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
(51) 国際CI。
G06F 21/00 (2013.01)
(52) US CI。
USPC .............713/189; 713/190; 713/193; 380/28;
380/33; 380/52
(58) 分類検索の分野
なし
今、私の使命は、そこからフィールドを抽出し、文字列に与えることです..それは
テキスト(10) Patent Number: RE44,697 E
は次のように抽出されますString pat_no= " RE44,697 E"
テキスト(54) ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT
は次のように抽出されますString title= "ENCRYPTIONPROCESSORWITH SHARED
MEMORY INTERCONNECT"
非常に不規則なテキスト ブロック
(64) 特許番号:
発行:
Appl. No.:
出願番号:
6,088,800
2000 年 7 月 11 日
09/032,029
1998 年 2 月 27 日
として抽出する必要があります
String pat_no_org = "6,088,800";
String issued = "jul.11,2000"
String filed = "feb 27 ,1998"
......
このような..
私の仕事
最初に string.split 、 string.substring 、 string,indexof 、さらには apache string utils を使用しましたが、何も役に立ちませんでした..テキストが散在しているため、上記の方法は役に立ちません..正規表現も試しましたが、非常にそれが苦手でプログラミングができません。
Java を使用して目的を達成する方法を教えてください。