1

ニュースサイトやブログから本文の内容を抽出しようとしています。

ドキュメントは、ページの生の HTML (utf-8) とドキュメントのセットとしてをdocuments.analyzeSyntax渡すことにより、HTML で期待どおりに動作するように見えます。ドキュメントには、サポートされているコンテンツ タイプとして HTML が含まれています。documentcontenttypeHTML

ただし、実際には、パーサーが入力をプレーン テキストと見なしているかのように、結果の文とトークンが HTML タグでごちゃごちゃになっています。現状では、これは私のユースケースの GC NL API を除外し、自然言語を介して Web ページを処理することはかなり一般的なタスクであるため、おそらく他の多くのユースケースを除外します。

参考までに、指定された HTML 入力 (または、この場合は入力としての HTML ページへの URL) が期待される出力のタイプの Dandelion API による例を次に示します。

私の質問は、API を間違って呼び出している可能性がありますか、それとも NL API が HTML をサポートしていないのでしょうか?

4

1 に答える 1