csv - 空白が多いソースからのデータ抽出

Question

からデータを抽出しようとしています: http://www.phillysheriff.com/old_site/properties.html

理想的には、住所、病棟、価格、平方フィートを含む CSV ファイルを取得できますか? これを行う簡単な方法はありますか？

score 1 · Accepted Answer

Web ページからこのような情報を抽出するプロセスは、口語的に「スクレイピング」として知られています。私だったら、Python 言語と「Beautiful Soup」パッケージを使用します。ただし、「スクリーンスクレイプ」または「ウェブスクレイプ」とお気に入りのプログラミング言語をグーグルで検索すると、面倒な作業を行うパッケージが見つかるはずです。

score 0 · Accepted Answer

IRobotSoft Webスクレイパーを実行し、ブラウザーウィンドウでページを開いて、メニューを使用できます：[デザイン]->[HTQLの練習]。入力ボックスに次のHTQLクエリを入力して、ページを標準のHTMLテーブルに変換します。

<hr sep>2-0{
a=<center>1 &tx &trim;
b=<center>1:xx ./'nbsp'/1 &tx &trim('&; ');
c=<center>1:xx ./'nbsp'/3 ./'\n'/1 &tx &trim('&; ');
d=<center>1:xx ./'nbsp'/3 ./'Ward'~'BRT#'/1 &tx;
e=<center>1:xx ./'nbsp'/3 ./'BRT#'~'Improvements:'/1 &tx;
f=<center>1:xx ./'nbsp'/3 ./'Improvements:'/2 &tx;
g=<br sep>2. /'nbsp'/1 &tx &trim('&; ');
h=<br sep>2. /'nbsp'/3 &tx &trim('&; '); 
i=<br sep>2. /'nbsp'/5 &tx &trim('&; ');
j=<br sep>2. /'nbsp'/7 &tx &trim('&; ');
}

csv - 空白が多いソースからのデータ抽出

2 に答える 2

Related

Reference