cocoa - NSScanner 問題を使用してウィキペディアの記事の概要を取得する

Question

記事の要約を取得して文字列としてダウンロードしようとしています。これは一部の記事ではうまく機能しますが、ウィキペディアの Web サイトには一貫性がありません。そのため、NSScanner は、他の記事では正常に機能しているにもかかわらず、かなり頻繁に失敗します。

これが私の NSScanner の実装です。

NSString *separatorString = @"<table id=\"toc\" class=\"toc\">";                                 
NSScanner *aScanner = nil;
NSString *container = nil;
NSString *muString = [NSString stringWithString:@"</table>"];

aScanner = [NSScanner scannerWithString:string];  
[aScanner setScanLocation:0];                                                   
[aScanner scanUpToString:muString intoString:nil];           
[aScanner scanString:muString intoString:nil];    

[aScanner scanUpToString:separatorString intoString:&container];

これはどのように改善できますか？または、これを取得する別の方法はありますか？

記事のどの部分が必要かを視覚化するために、次の例を示します。

http://en.wikipedia.org/wiki/Indigo

これから、「インディゴは電磁スペクトル上の色」から「英語では1289年」までのすべてが欲しい.

ありがとう！

score 1 · Accepted Answer

テキストをやみくもに解析しようとするのではなく、WebKit の DOM APIを使用して実際の構造をたどることができます。

cocoa - NSScanner 問題を使用してウィキペディアの記事の概要を取得する

1 に答える 1

Related

Reference