これが以前に尋ねられたことは知っていますが、node.jsの良い答えが見つかりません
フェッチされた HTML ページからプレーン テキスト (タグ、スクリプトなどなし) を抽出するには、サーバー側が必要です。
jQuery を使用してクライアント側で行う方法は知っていますが (body タグの .text() コンテンツを取得する)、サーバー側でこれを行う方法がわかりません。
https://npmjs.org/package/html-to-textを試しましたが、これはスクリプトを処理しません。
var htmlToText = require('html-to-text');
var request = require('request');
request.get(url, function (error, result) {
var text = htmlToText.fromString(result.body, {
wordwrap: 130
});
});
phantom.js を試しましたが、プレーン テキストを取得する方法が見つかりません。