問題タブ [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - lxml で「--」のコメント チェックを無効にする
使用事例:
lxml でhttps://www.banca-romaneasca.ro/en/tools-and-resources/の解析に失敗します。
それは lxml から来ました > https://github.com/lxml/lxml/blob/master/src/lxml/lxml.etree.pyx#L3017
https://www.banca-romaneasca.ro/en/tools-and-resources/で悪いコメントを見つける
次のような解決策を求めます。
チェックを無効にする (いくつかのマジック、フラグ、xml で)
/li>モンキーパッチ (コードの変更、インジェクション ...)
更新 1:
私は html5lib を使用しており、サウンド、セクション、ビデオなどのタグを html5 で利用できるようにしたいと考えています。
バージョン:
- html5lib==0.9999999
- lxml==3.5.0 (lxml のダウングレードも解決策ではありません)
更新 2::
これは lxml https://github.com/lxml/lxml/pull/172#issuecomment-169084439の改善/問題のようです。
lxml 開発者のフィードバックを待っています。
更新 3::
フィードバックがありました。html5lib の障害のようです。github の最後の開発バージョンには既に修正が含まれていました。
python - HTMLのすべてのタグを解析していないBeautifulSoup
BeautifulSoup が受信した html を完全に解析していないという問題があります。lxml パーサーと html5lib パーサーの両方を試してみましたが、同じ問題がありました。
python - lxml.html.html5paser要素タグ内から名前空間の値を削除する方法
lxml.html パッケージの html5parser を使用する場合、タグの名前空間を追加しないことはできますか?
例:
私が見つけた最も簡単な解決策は、正規表現を使用してそれを削除することですが、そのテキストをまったく含めないようにすることは可能でしょうか?
python - とにかくpip install経由でインストールできるのに、pip検索で特定のパッケージが見つからないのはなぜですか
とにかくインストールできるのにpip search
、特定のパッケージ (たとえば、) が見つからないのはなぜですか?html5lib
pip install
python-3.x - python3 - 「html5lib」という名前のモジュールがありません
を必要とする python3 プログラムを実行していますhtml5lib
が、エラーが発生しますNo module named 'html5lib'
。
端末の 2 つのセッションを次に示します。
どこに問題がありますか?
python-2.7 - HTML5LIB インストールの問題
Python 2.7 がインストールされた Win 7 マシンと 3.5 があります。
2.7 は C:\Python27 にあります
3.5 は C:\Users\xxx\AppData\Local\Programs\Python\Python35-32 にあります
Python 2.7 インストールで html5lib インポートを使用したい
3.5ディレクトリにインストールされていることがわかります
2.7 のインストールで使用できるようにするにはどうすればインストールできますか?
私のパスは
読んでくれてありがとう
beautifulsoup - html5lib は BeautifulSoup に要素を見逃させる
大統領の討論会から議事録を引き出す試みを続けていますが、まだ html5lib を BeautifulSoup のパーサーとして使用し始めていません。
しかし、実際のトランスクリプトを含む要素を見つけるために (以前は動作していた) コードを実行すると、エラーが発生し、そのようなスパンが見つからないと主張します。
コードは次のとおりです。
そして、ここにエラーがあります:
そして、これが私が呼び出しているページの関連部分であり、私が狂っていないことを証明しています。クラス「displaytext」のスパンがあります
私は何が欠けていますか?スープ呼び出しで "html5lib" を呼び出さずにこれを実行すると、正常に動作します (ただし、対応する終了タグがない誤った偽のタグ呼び出しにより、後でエラーが発生します)。
python - Python BeautifulSoup html5lib mix は、for ループ内の他のすべての項目を削除しているようです
私はPythonは初めてですが、これまでのところ言語を本当に楽しんでいます。
私は複雑な html5 要素の束を作成し、html5lib モジュールを使用してきました。
段落内の要素を調べると、それらをうまく印刷できますが、bs4の挿入メソッドを使用しようとすると、他のすべての要素出力しか得られず、理由がわかりません!
私のパイソン:
HTML
出力:
次の行をヤンクアウトすると、5 つの要素すべてが取得されます。私が間違っていることについて、誰かが何らかのインクリングを持っていますか?
python - このエラーが発生する理由を誰か説明できますか [ImportError: lxml not found, please install it]
pandas ライブラリで .read_html() 関数を使用しようとしていますが、シェルでコードを実行するとこのエラーが発生し続けます。lxml をインストールする必要があることがわかったので、apt-get を使用してインストールしました。しかし、その後、もう一度実行しようとすると、同じエラーが発生しました。
これが私が使用しているコードです
APIキーを取り出しましたが、必要に応じて投稿できます。
ここに完全なトレースバックがあります