私はいくつかのHTMLファイルを持っており、それぞれに1つの<h1>
タグがあります。そのタグを解析して、そのコンテンツ(本の名前)を取得したいと思います。たとえば、タグは次のようになります。
<H1>bookname</H1>
私はこのコードを使用してそれを取得しようとしています:
Scanner scan = new Scanner(file, "Windows-1255");
String name="";
Pattern p = Pattern.compile("<H1>*</H1>"); //tried adding '(' and ')' around the '*', didn't help
while (scan.hasNext()) {
name = scan.nextLine();
Matcher m = p.matcher(name);
if (m.matches()) {
name = name.substring(4, name.length() - 6);
break;
}
}
それは機能せず、h1タグが一致することはなく、名前がわかりません。これはどのように行われることになっていますか?
おそらく重要なのは、H1タグの内容がヘブライ語のcharset=Windows-1255であるということです。