静的な html サイトをスクレイピングし、そのコンテンツをデータベースに基づく CMS に移動しています。CMS で Textile を使用したいと考えています。
HTML を Textile に変換して、既存のサイトをスクレイピングし、HTML を Textile に変換して、そのデータをデータベースに挿入できるツールはありますか?
これは古い質問であることは知っていますが、先日これを実行しようとして、 Pandocを見つけるまで、何も役に立たないことに気付きました。他の多くのマークアップ形式も変換できます。非常に優れています。
これは、html 2 テキスタイルを変換する c# libです。それは彼らの追加の織物ですが。純粋な織物ではありません。
この単純な Java コードを試してください。
import java.net.*;
import java.io.*;
class Crawle
{
public static void main(String ar[])throws Exception
{
URL url = new URL("https://www.google.co.in/#q=i+am+happy");
InputStream io = url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
FileOutputStream fio = new FileOutputStream("crawler/file.txt");
PrintWriter pr = new PrintWriter(fio,true);
String data = "";
while((data=br.readLine())!=null)
{
pr.println(data);
System.out.println(data);
}
}
}
}
これは単純なマークアップの置き換えであり、適切な正規表現で修正できないものはありません。
Perl、LWP::Simple、およびいくつかの正規表現を使用してすべてを実行することをお勧めします (スパイダリング、デザインとメニューの削除、テキスタイルへの変換、およびデータベースへの投稿)。