問題タブ [bs4]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

387 問題

0 投票する

1 に答える

432 参照

python - 私の関数が何も返さない理由がはっきりしない

私はいくつかの Ruby を除いてコーディングのバックグラウンドが非常に限られているため、これを行うためのより良い方法があれば教えてください!

基本的に、単語でいっぱいの .txt ファイルがあります。.txt ファイルをインポートして、リストに変換したいと考えています。次に、リストの最初の項目を変数に割り当て、その変数を外部リクエストで使用して、単語の定義を取得します。定義が返され、別の .txt ファイルに入れられます。それが完了したら、コードでリスト内の次の項目を取得し、リストが使い果たされるまですべてを繰り返します。

以下は、私がどこにいるのかを知るために進行中のコードです。リストを正しく反復処理する方法をまだ見つけようとしていますが、ドキュメントを解釈するのに苦労しています。

これがすでに尋ねられている場合は、事前に申し訳ありません！検索しましたが、私の問題に具体的に答えたものは見つかりませんでした。

私が抱えている問題は

soup.find('pre', text=True)が返されていることは理解していNoneますが、それを修正する理由や方法はわかりません。

2015-12-08T06:59:53.637

0 投票する

0 に答える

125 参照

tags - タグ属性のないHTMLテーブルからのWebスクレイピングデータ

1995 年から 2015 年までのビルボードトップ 100 のデータをスクラップしようとしています。以下は URL へのサンプルリンクです:
http://www.umdmusic.com/default.asp?Lang=English&Chart=E&ChDay=20&ChMonth=12&ChYear=2014&ChBand= &ChSong=E
bs4 と urllib を使用してページを txt に変換し、find_all(). 次のコードを使用してアルバムを抽出できました: table_data = bsObj.findAll('b').
ただし、統計を抽出しようとすると、<td>タグに属性がないため、どのように抽出できるかわかりません。

umdmusic Web サイトの属性を持たない統計を抽出する方法を誰か説明できますか?

tags attributes urllib bs4

2015-12-11T03:25:24.773

0 投票する

1 に答える

2279 参照

python - BeautifulSoup を使用してタグ間のテキストを抽出する

BeautifulSoup を使用して、すべてが同様の形式に従う一連の Web ページからテキストを抽出しようとしています。抽出したいテキストのhtmlは以下です。実際のリンクはhttp://www.p2016.org/ads1/bushad120215.htmlです。

フォルダー内のすべての html ファイルを反復処理し、すべてのマーカー間のテキストを抽出する方法を見つけたいと思います。コードの関連セクションをここに含めました。

しかし、何も起きていません。初歩的な質問で申し訳ありません。ご協力いただきありがとうございます。

python regex web-scraping beautifulsoup bs4

2015-12-21T02:48:59.117

0 投票する

1 に答える

42743 参照

python - 「NoneType」オブジェクトには属性「テキスト」がありません

dtの「投資を求めた」テキストを省略して、ddで「£70,004」テキストを抽出するにはどうすればよいですか。

結果：

python beautifulsoup bs4

2015-12-23T11:07:33.973

0 投票する

1 に答える

2540 参照

python - BeautifulSoup が `html5lib` で html の解析に失敗する

BeautifulSoup はオプションを指定した html ページの解析に失敗しますhtml5libが、オプションを指定すると正常に動作しますhtml.parser。docsによると、html5libはよりも寛大なはずなのにhtml.parser、それを使用して HTML ページを解析するときに厄介なコードに遭遇したのはなぜですか?

以下は小さな実行例です。 ( をで変更した後html5lib、html.parser中国語の出力は正常です。)

python parsing beautifulsoup bs4

2015-12-25T13:49:28.040

0 投票する

2 に答える

631 参照

python - Python で Span タグを削除して Tx ファイルを上書きする

ping を実行する前にテキストドキュメントからスパンタグを削除したいのですが、そうしないと失敗しますが、スパンタグを削除して、タグなしでファイルを再度保存するか、新しい結果を配列に保存して保存することができません。 .

分解またはアンラップを試みましたが、必要な結果が得られません。

python html beautifulsoup bs4

2016-01-08T00:42:32.523

0 投票する

1 に答える

65 参照

python - BeautifulSoup4 を使用して Web ページからテキストを取得すると、「None」および「NoneType object...」エラーが発生する

BBCスポーツのページからメインの見出し（現在：「ウェンガーは「アクティブな」1月を予測」）を引っ張ろうとしています. ID は「lead-caption」で<h2>、<a>タグ内にあります。私はPythonを使用しています。

どんな助けでも大歓迎です。ありがとう：）

python python-2.7 webpage python-2.x bs4

2016-01-12T21:11:54.413

1 2 3 4 5 6 7 8 9 10

問題タブ [bs4]

Reference