ニュースサイトやブログから本文の内容を抽出しようとしています。
ドキュメントは、ページの生の HTML (utf-8) とドキュメントのセットとしてをdocuments.analyzeSyntax渡すことにより、HTML で期待どおりに動作するように見えます。ドキュメントには、サポートされているコンテンツ タイプとして HTML が含まれています。documentcontenttypeHTML
ただし、実際には、パーサーが入力をプレーン テキストと見なしているかのように、結果の文とトークンが HTML タグでごちゃごちゃになっています。現状では、これは私のユースケースの GC NL API を除外し、自然言語を介して Web ページを処理することはかなり一般的なタスクであるため、おそらく他の多くのユースケースを除外します。
参考までに、指定された HTML 入力 (または、この場合は入力としての HTML ページへの URL) が期待される出力のタイプの Dandelion API による例を次に示します。
私の質問は、API を間違って呼び出している可能性がありますか、それとも NL API が HTML をサポートしていないのでしょうか?