java - TIKAを使用してURLのコンテンツ（テキスト）を抽出します

Question

URLからテキストを抽出するにはどうすればよいですか？私のコードでは、そのURLのソースコードを抽出しています...

DefaultHttpClient client = null;
client = new DefaultHttpClient();
client.getCredentialsProvider().setCredentials(
                new AuthScope(AuthScope.ANY_HOST, AuthScope.ANY_PORT, AuthScope.ANY_REALM),
                new UsernamePasswordCredentials("test", "test"));
client.getParams().setParameter(ClientPNames.ALLOW_CIRCULAR_REDIRECTS, true);                
HttpGet request = new HttpGet("http://somehost.com");        
HttpResponse response = client.execute(request);
HttpEntity entity = response.getEntity();
InputStream content = entity.getContent();

Tika t = new Tika();
Metadata md = new Metadata();
Reader r = t.parse(content, md);
System.out.println(md);
System.out.println("Yes1: " +md.get("keywords"));
System.out.println("Yes2: " +md.get("title"));
System.out.println("Yes3: " +md.get("authors"));

//This gives the source code of that url not the actual content...
String ss= t.parseToString(content);
System.out.println("Yes4: " +ss);

助言がありますか？？

score 1 · Accepted Answer

BoilerpipeContentHandlerを使用すると、マークアップなしで本文のコンテンツを抽出できます。付属のコマンドラインユーティリティは、プログラムでの使用方法とさまざまな形式のテスト方法を示しています。

score 1 · Accepted Answer

私が読んだように..このコードを使用してtikaでそれを行うことができます

 byte[] raw = content.getContent();
 ContentHandler handler = new BodyContentHandler();
 Metadata metadata = new Metadata();
 Parser parser = new AutoDetectParser();
 parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
 LOG.info("content: " + handler.toString());

テストしても、handler.toString() が空であることがわかりました。

java - TIKAを使用してURLのコンテンツ（テキスト）を抽出します

2 に答える 2

Related

Reference