問題タブ [bs4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 私の関数が何も返さない理由がはっきりしない
私はいくつかの Ruby を除いてコーディングのバックグラウンドが非常に限られているため、これを行うためのより良い方法があれば教えてください!
基本的に、単語でいっぱいの .txt ファイルがあります。.txt ファイルをインポートして、リストに変換したいと考えています。次に、リストの最初の項目を変数に割り当て、その変数を外部リクエストで使用して、単語の定義を取得します。定義が返され、別の .txt ファイルに入れられます。それが完了したら、コードでリスト内の次の項目を取得し、リストが使い果たされるまですべてを繰り返します。
以下は、私がどこにいるのかを知るために進行中のコードです。リストを正しく反復処理する方法をまだ見つけようとしていますが、ドキュメントを解釈するのに苦労しています。
これがすでに尋ねられている場合は、事前に申し訳ありません!検索しましたが、私の問題に具体的に答えたものは見つかりませんでした。
私が抱えている問題は
soup.find('pre', text=True)
が返されていることは理解していNone
ますが、それを修正する理由や方法はわかりません。
tags - タグ属性のないHTMLテーブルからのWebスクレイピングデータ
1995 年から 2015 年までのビルボード トップ 100 のデータをスクラップしようとしています。以下は URL へのサンプル リンクです:
http://www.umdmusic.com/default.asp?Lang=English&Chart=E&ChDay=20&ChMonth=12&ChYear=2014&ChBand= &ChSong=E
bs4 と urllib を使用してページを txt に変換し、find_all()
. 次のコードを使用してアルバムを抽出できました: table_data = bsObj.findAll('b')
.
ただし、統計を抽出しようとすると、<td>
タグに属性がないため、どのように抽出できるかわかりません。
umdmusic Web サイトの属性を持たない統計を抽出する方法を誰か説明できますか?
python - BeautifulSoup を使用してタグ間のテキストを抽出する
BeautifulSoup を使用して、すべてが同様の形式に従う一連の Web ページからテキストを抽出しようとしています。抽出したいテキストのhtmlは以下です。実際のリンクはhttp://www.p2016.org/ads1/bushad120215.htmlです。
フォルダー内のすべての html ファイルを反復処理し、すべてのマーカー間のテキストを抽出する方法を見つけたいと思います。コードの関連セクションをここに含めました。
しかし、何も起きていません。初歩的な質問で申し訳ありません。ご協力いただきありがとうございます。
python - 「NoneType」オブジェクトには属性「テキスト」がありません
dtの「投資を求めた」テキストを省略して、ddで「£70,004」テキストを抽出するにはどうすればよいですか。
結果 :
python - BeautifulSoup が `html5lib` で html の解析に失敗する
BeautifulSoup はオプション を指定した html ページの解析に失敗しますhtml5lib
が、オプション を指定すると正常に動作しますhtml.parser
。docsによると、html5lib
は よりも寛大なはずなのにhtml.parser
、それを使用して HTML ページを解析するときに厄介なコードに遭遇したのはなぜですか?
以下は小さな実行例です。 ( を で変更した後html5lib
、html.parser
中国語の出力は正常です。)
python - Python で Span タグを削除して Tx ファイルを上書きする
ping を実行する前にテキスト ドキュメントからスパン タグを削除したいのですが、そうしないと失敗しますが、スパン タグを削除して、タグなしでファイルを再度保存するか、新しい結果を配列に保存して保存することができません。 .
分解またはアンラップを試みましたが、必要な結果が得られません。
python - BeautifulSoup4 を使用して Web ページからテキストを取得すると、「None」および「NoneType object...」エラーが発生する
BBCスポーツのページからメインの見出し(現在:「ウェンガーは「アクティブな」1月を予測」)を引っ張ろうとしています. ID は「lead-caption」で<h2>
、<a>
タグ内にあります。私はPythonを使用しています。
どんな助けでも大歓迎です。ありがとう :)