lookdownメソッドで返された文字列からテキスト部分を使用HTML::TreeBuilder
して抽出することにより、URLのコンテンツを抽出するために使用しています。tree->lookdown
ここでの私の問題は、そのテキストを読んで、ジャンクとして表示されているファイルに書き込むときです。私はこれに関して進歩を遂げることができません。
私のサンプルコード:
use HTML::TreeBuilder;
use HTML::Element;
use utf8;
$url = $ARGV[0];
$page = `wget -qO - "$url"| tee data.txt`;
#print "iam $page\n";
my $tree = HTML::TreeBuilder->new( );
$tree->parse_file('data.txt');
my @story = $tree->look_down(
_tag => 'div',
class => 'storydescription'
);
my @title = $tree->look_down(
_tag => 'title'
);
open(OUT,">","story.txt") or die"Cannot open story.txt:$!\n";
binmode(OUT,":utf8");
foreach my $story(@story) {
print OUT $story->as_text;
}
close(OUT);
出力ファイルハンドルにbinmodeを試しましたが、役に立たず、ASCII文字などのUnicode以外のテキストがファイルに正しく出力されました。