Android SDK での作業は、Java からいくつかのものを差し引いたものです。
Web ページから 2 つの正規表現パターンを引き出すソリューションがあります。私が抱えている問題は、HTML タグ内のものを見つけることです。jTidy を試してみましたが、Android では遅すぎました。理由はわかりませんが、スキャナーの正規表現一致ソリューションは何度も繰り返します。
現在、ページソースを InputStream に取得しています
is = uconn.getInputStream();
そして、次のような一致と抽出:
Scanner scanner = new Scanner(in, "UTF-8");
String match = "";
while (match != null) {
match = scanner.findWithinHorizon(extractPattern, 0);
if (match != null) {
String matchit = scanner.match().group(grp);
それは非常にうまく機能し、高速です。
私の正規表現パターンはすでにちょっとクレイジーです。実際には、またはこのような2つのパターン(p1 | p2)
「HTMLタグ内ではなく」それを行う方法、または最初にHTMLタグを除外する方法についてのアイデアはありますか? ソースから HTML タグを除外できれば、生データを処理する必要がある他にいくつかの作業があるため、インターフェイスが大幅に高速化される可能性があります。