私はエンコーディングの問題を解決したと思っています。以下のコードを参照してください。
co = true;
fe = true;
ge = true;
pa = true;
pd = true;
pt = true;
SegmentReader segmentReader2 = new SegmentReader(crwlNutchCommon.nutch_conf, co, fe, ge, pa, pd, pt);
HashMap<String, List<Writable>> hm = new HashMap<String, List<Writable>>();
segmentReader2.get(path, new Text("some_url"),
new OutputStreamWriter(new FileOutputStream("somefile1"), "UTF-8"),hm);
ファイル somefile1 のエンコーディングはおそらく間違っていますが、さらに進んでください。
FileOutputStream fos;
DataOutputStream dos;
File file= new File("somefile2");
fos = new FileOutputStream(file);
dos=new DataOutputStream(fos);
hm.get("co").get(0).write(dos); // look
そして、それは働いています!somefile2 は、エンコーディングの変更なしで「生」になりますが、最初と最後にいくつかの余分なデータがあります-「Content.java」ソースファイルを分析してそれらを解析できると思います。