2

アルゴの開発に lxml を広く使用しています。しかし今、パフォーマンスの問題により、Java に移行する必要があります。モラルは、Javaのlxml domパーサーと同じくらい素晴らしいものを見つけることができますか?

> 主な要件 :

1) text_content() のような機能 2) iterchildren と 3) iterparent() と itersiblings()--- (xpath があれば、そのようなトラバースができると思いますが、確かではありません)。

Jsoup はそこで有名ですが、すべてができるかどうかはわかりません。重い書き換えではなく、アルゴリズムを移植したいだけです。提案してください。

ありがとう。

Java を使用する理由: 複雑な nlp および dom の解析タスクを実行しています。Python が最初の選択肢であり、今後も残ります。C 拡張を作成することと、複雑な nlp タスクを実行することは別のことであり、2 つをマージすることはさらに別のことです。したがって、ジャバ。不快なことは何もありません。

4

2 に答える 2

1

私の意見では、サクソンが最善の策ですhttp://saxon.sourceforge.net . http://sourceforge.net/projects/saxon/files/Saxon-HE/9.4/のようなxpath式:

    XPathExpression findLine =
        xpe.compile("//LINE[contains(., $word)]");
    XPathExpression findLocation =
        xpe.compile("concat(ancestor::ACT/TITLE, ' ', ancestor::SCENE/TITLE)");
    XPathExpression findSpeaker =
        xpe.compile("string(ancestor::SPEECH/SPEAKER[1])");
于 2013-04-24T18:48:59.073 に答える