問題タブ [lynx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 「lynx -dump」の出力を模倣するHTMLからTXTへのライブラリ?
問題は本当に具体的です。
HTML コンテンツを取り、Linux lynx プログラムによって生成されるのと同じ形式でテキストを生成できる Java のライブラリが必要です。
サードパーティ サーバーから提供されたデータを Android のエンド ユーザーに公開する必要があります。データ形式は古く、フォーマットが不適切な HTML であるため、Java を使用して読み取ろうとしたところ、時々失敗します (受け入れられません)。また、毎月成長しており (プリインストールは除外されています)、「最新の」ものに変更するように説得することはできません (XML などでの生活は素晴らしいでしょう)。
最短ルート: W3 html2txt サービスをオンラインで使用するためのクラスを作成しました (Google 検索)。苦情があり、W3 サービスが時々失敗することに気付くまで、アプリで問題なく動作していました。それほど大したことではありませんが、ブラック ボックス ロジックでは、出力がこの "lynx のような" テキスト形式であることが想定されています。
そこで、アプリ内で "lynx スタイル" で変換 (HTML->TXT) を行うライブラリを作成し、W3 サービスの停止を回避したいと考えています。その上、lynx はおそらく私が見た中で最高の、最も組織的できちんとしたものを出力しました。
皆さん、何かご存知ですか?
ajax - Lynx、A-Jax alt?
うーん、Lynxはテキストのみのブラウザなので、スクリプト、css、画像、フレームなどは実行されないことを知っています。そこで、lynxのA-Jaxに代わるものがあるかどうか疑問に思いました。私はチャンスが好きではありませんが、この使用法を使用するためのタグまたはいくつかのlynxトリックがあるかもしれません、おそらく別の属性ですか?
私はこれが起こる可能性が本当に好きではありませんが、テキストのみのブラウザでA-Jaxを使用するのは非常にクールです。:)
事前に感謝します、とにかくありがとう。
regex - HTMLページからデータを抽出するための正規表現
HTMLページからすべてのアンカータグを抽出したい。私はこれをLinuxで使用しています。
しかし、結果には望ましくない結果が含まれているため、期待どおりに機能していません
ただ欲しい
何か良い方法はありますか?
emacs - emacs-w3mではなくlynxを使用してtext/htmlメールをデコードするようにEmacs/VMを構成するにはどうすればよいですか?
最近、Emacs23.2.1にアップグレードしました。メールを読むためにVMバージョン8.1.93aを使用しています。以前は、vm構成ファイルの次の行を使用してHTMLメールをテキストに変更していました。
しかし、emacs 23では、次のエラーメッセージが表示されます。
Emacsのドキュメントを少し検索して、解決策を見つけたと思いました。
しかし、vm-8はvm-mime-type-converter-alist(まだ文書化されています)とmm-text-html-renderer(文書化されていますが、lynxに設定するまでw3mに設定されていました)の両方を完全に無視しているようです。私は何かを逃したのですか、それともvmが台無しになっているので、別のemacsメールリーダーを選択する必要がありますか?
java - Java HTMLノーマライザー?
JS、CSSを含む任意のHTMLページを最小限の統一形式に変換できるライブラリはありますか?
たとえば、stackoverflowホームページをレンダリングする場合、最小限の形式で表示したいと思います。他のすべてのサイトをレンダリングしてほしい。
Lynx Webブラウザーのようなものですが、グラフィックは最小限です。
unix - wgetまたはlynxは、フレームが含まれているため、一部のWebページをダウンロードできません。
UNIXでこのWebページをhttp://www.wordwebonline.com/search.pl?w=humaneダウンロードしたいと思います。
wgetとlynxを使おうとしましたが、ページがダウンロードされません。代わりに、次のテキストが表示されます
フレーム:[2] fr_topフレーム:[3] fr_bottom
お使いのブラウザはフレームをサポートしていません:下のリンクをクリックして、
wget -U Mozillaオプションも試されましたが、それでも同じ結果です。どうすればこれを克服できますか?wgetまたはlynxを使用してフレーム内のデータを取得する方法。または、これを行うための他のコマンドラインツールはありますか?
linux - リンクURLをlynxまたはリンクにコピーしてvimにコピーするにはどうすればよいですか?
これら 2 つのブラウザーのいずれかでリンク URL をコピーし、それを vim に貼り付ける方法を見つけようとするのが最も困難です。これを行う方法を知っている人はいますか?Slackware 13.1 を使用しています。コピー/貼り付けの代替手段も受け入れられます。
linux - Lynx:ユーザー名にドメインが含まれている場合に-authフラグを使用する方法は?
Lynxに問題があります。-auth
フラグを使用してWebページにログインしようとしています。私が使用するラインは
これは機能していないようです。何が間違っていますか(Lynxで同じユーザー/パスの組み合わせでログインした場合は機能します)?
ありがとうNocklas
http - 重要なユーザー シナリオの HTML 結果をスクリーン スクレイピングするにはどうすればよいですか
ブラウザーでインタラクティブに行う場合、複数のアクションとページの読み込みを伴うページの HTML を取得できるようにしたいと考えています。 1. ホームページに移動します。 2. ログイン フォームにテキストを入力し、フォームを送信します ( post) 3. 投稿は、さまざまなリダイレクトとフレームセットの使用を通過します。
Cookie は、このプロセス全体で適応されます。
ブラウザーでは、送信後、ページを取得するだけです。
しかし、curl (PHP など)、wget、またはその他の低レベル テクノロジでこれを行うには、Cookie、リダイレクト、およびフレームセットの管理がすべて非常に面倒になり、スクリプトを Web サイトに非常に緊密にバインドします (小さなことでも非常に影響を受けやすくなります)。私がスクレイピングしているウェブサイトの変更。)
誰でもこれを行う方法を提案できますか?
私はすでにCrowbarとPhantomJSとLynx (cmd_log/cmd_script オプション付き) を見てきましたが、Firefox や Chrome で行うことを正確に模倣するためにすべてを連鎖させることは困難です。
(余談ですが、ターゲット Web サイトがこのスクリプトをFirefox や Chrome、または「実際の」ブラウザであると見なすことは、有用/必要でさえあるかもしれません)
linux - JavaScript を使用した Lynx
そこで、JavaScript を実行する必要があるスクリプトを PHP で作成しました。Linuxツールを使用してphpでjavascriptを同時に実行して自動化する方法の解決策を見つけるのに苦労しました(ブラウザで実行することは選択できないため、crontabにする必要があります)。javascript を実行しないため、「php」コマンドを使用することもできません。それで私は解決策を見つけました、それはオオヤマネコでした。
ここに私の問題があります。何らかの理由で、javascript は私のブラウザでは問題なく実行されますが、lynx では実行されません。lynx を使用すると、javascript の関与なしにページが読み込まれます。lynx で javascript をデバッグする方法はありますか? コンソールから何が起こっているかを表示できる Google Chrome のようなもので、スクリプトが lynx で実行されない原因を突き止めることができますか?
編集:
したがって、明らかに lynx は JavaScript をサポートしていません。その場合、私の質問は、何をしますか? このスクリプトは、ブラウザと同じように実行する必要がありますが、Linux コマンド プロンプトから実行する必要があります。この場合、OS が問題になる場合は、最新の Ubuntu を実行しています。