私は自分のサイトのコンテンツをインデックス化しようとしていますが、中に JavaScript があるため<body></body>
、それもコンテンツとして保存されます。
実際には の間にあるすべてのものを取得しますが、<body></body>
PHP の strip_tags を使用して HTML タグを削除します。
<script>
タグは HTML タグであるため削除されますが、javascript 構文は残ります。
JavaScript 構文を削除するにはどうすればよいですか?
以下は、javascript 構文を含むコンテンツの例です。
視聴者がアクセス権を持っていない場合、後で見る非公開動画に追加された動画はスキップされますが、再生リストのメモは公開されています。オプションのメモを追加150 メモを追加 メモを保存中... メモの追加先: メモの追加エラー: クリックして新しいメモを追加 if (window.ytcsi) {ytcsi.tick("js_head");} yt.pubsub.subscribe( 'init', yt.www.brandedpage.channels4init.overviewTabInit); yt.pubsub.subscribe('dispose', yt.www.brandedpage.channels4init.overviewTabDispose); yt.setAjaxToken('c4_shelves_ajax', "0qjmgZRNi5AAlV5LrkVIKyY1_VZ8MTM2ODkyMNTgzM0AxMzNDMZ"5");
どうすればそれを手に入れることができますか
視聴者がアクセス権を持っていない場合、後で見る非公開動画に追加された動画はスキップされますが、再生リストのメモは公開されています。オプションのメモを追加150 メモを追加 メモを保存中... メモの追加先: メモの追加エラー: クリックして新しいメモを追加"