0

ニュース読書アプリを作っています。私が見つけた最高のサイトはhttp://fulltextrssfeed.com/でした。これは、任意のWebページ からテキストと画像を取得し、クリーンなテキストを返します。APIがないため、からデータを取得する方法が必要<div>です。これはdivIDです。

<div id="preview">

フィードに浸出してそのコンテンツのみを取得するにはどうすればよいですか(HTMLタグがない場合はプラスになりますが、HTMLタグがある場合は、回避策を講じることができます)。

4

2 に答える 2

1

あなたの質問についてはよくわかりませんが、obj-cを使用している場合は、Hppleをお勧めします。これは本当に優れたXML/HTMLパーサーです。

これを使用するには、プロジェクトオプションの${SDKROOT}/usr/include/libxml2「ヘッダー検索パス」に追加し、「その他のリンカーフラグ」に追加する必要があります。-lxml2

次に、Hppleファイルが既にある場合は、それをコードにドラッグしますTFHpple.h:、、、、、、。TFHpple.mTFHppleElement.hTFHppleElement.mXPathQuery.hXPathQuery.m

コードに(divの「プレビュー」を取得するには)、次を追加します。

NSData *htmlData = [[NSString stringWithContentsOfURL:[NSURL URLWithString: @"http://www.yoursite.com/index.html"]] dataUsingEncoding:NSUTF8StringEncoding];

TFHpple *xpathParser = [[TFHpple alloc] initWithHTMLData:htmlData];
NSArray *elements  = [xpathParser searchWithXPathQuery:@"//div[@id='preview']"]; // Here we use 
TFHppleElement *element = [elements objectAtIndex:0];
NSString *string = [element content];
NSLog(@"%@", string);

[xpathParser release];
[htmlData release];

これで、Hppleを使用した「プレビューdiv」ができました。サブクラス(aspまたはa)を取得するには、次のように使用します。

NSArray *elements  = [xpathParser searchWithXPathQuery:@"//div[@id='preview']/p/text()"]; 

詳細については、XPath構文を参照してください。チュートリアルも確認してください。

お役に立てば幸いです。

于 2012-05-27T20:06:02.023 に答える
0

これを使用して、すべてのhtmlを非常にうまく削除します

NSString + Strip HTML

于 2012-05-27T20:08:36.777 に答える