私は、参考文献を含むhtmlファイルを取り、著者以外のすべてを取り除く何かに取り組んできました。HTML タグ内の文字などの無関係なデータを取り除くのに苦労しています。タグ全体、またはさらに良いことに、タグ間の特定のデータを取り除くことができるようにしたいと思います。
今ここに私のサブがどのように見えるかです:
sub extractAuthorsIntoArray{
@author_array = split /[<>"\/?!.=\(\)1234567890':]/, $doc;
foreach(@author_array){
print "$_" . "\n";
}
}
現時点では、すべてのタグ文字を削除していますが、公開日や公開名など、必要のない不要なデータがたくさん残っています。「< li >」と言うのを取り除こうとするたびに、それらの文字が完全に欠落している新しいデータが返されます。とにかく叩き続けます。
後で。
編集:
私がやりたいのは、次のようなものです。
< li value="2">Artem Chebotko および Shiyong Lu、< b>「SPARQL のネストされたオプションのグラフ パターンを効率的に評価するためのネストされたオプションの結合」< /b>。< i>Semantic Web Evolution の進歩的な概念: アプリケーションと開発</i>、Miltiadis Lytras および Amit Sheth (Eds.)、Information Science Publishing、ISBN 160566992X、2010.< br/>< br/></li> < li>Artem Chebotko、Shiyong Lu、Farshad Fotouhi、および Anthony Aristar による< b>「セマンティック Web 用のマルチメディア言語データのオントロジー ベースのアノテーション」</b>。< i>Semantic Web-Based Information Systems: State-of-the-Art Applications</i>、Amit Sheth and Miltiadis Lytras (Eds.)、IGI Global、ISBN 1599044269、2006.< br/>< br/>< /li>
そして、これで終わります:
Artem Chebotko と Shiyong Lu