nlp - Google Cloud Natural Language API は実際に HTML の解析をサポートしていますか?

翻译自：https://stackoverflow.com/questions/44503302 2017-06-12T15:32:13.973

469 次

ニュースサイトやブログから本文の内容を抽出しようとしています。

ドキュメントは、ページの生の HTML (utf-8) とドキュメントのセットとしてをdocuments.analyzeSyntax渡すことにより、HTML で期待どおりに動作するように見えます。ドキュメントには、サポートされているコンテンツタイプとして HTML が含まれています。documentcontenttypeHTML

ただし、実際には、パーサーが入力をプレーンテキストと見なしているかのように、結果の文とトークンが HTML タグでごちゃごちゃになっています。現状では、これは私のユースケースの GC NL API を除外し、自然言語を介して Web ページを処理することはかなり一般的なタスクであるため、おそらく他の多くのユースケースを除外します。

参考までに、指定された HTML 入力 (または、この場合は入力としての HTML ページへの URL) が期待される出力のタイプの Dandelion API による例を次に示します。

私の質問は、API を間違って呼び出している可能性がありますか、それとも NL API が HTML をサポートしていないのでしょうか?

nlp - Google Cloud Natural Language API は実際に HTML の解析をサポートしていますか?

1 に答える 1

Related

Reference