python - Beautiful Soup で表のセル内のリンクを処理する

Question

私はオンラインチュートリアルに従っていますが、いつものようにゲレンデ外に出て、学んだ教訓を自分のプロジェクトに適用しようとしています。すべてが驚くほど順調に進んでいますが、問題が発生し、まだ解決策を見つけることができていません。

これには 2 つの問題があります (つまり、2 つ以上の問題が見つかると思います...)。

ハイパーリンクが含まれるセルでは、データは「なし」に置き換えられます。例、これ：

<tr>
 <td>192</td>
 <td>
     <a href="/mlb/player/4987">Júlio Soto</a>
 </td>
 <td>26</td>
 <td>2B</td>
 <td>
     <a href="/mlb/team/13">KC</a>
 </td>
 <td>108</td>
 <td>115</td>
</tr>

出力を次のように取得します。

192  None  25  2B  None  108  115

これについてのより奇妙なことは、ヘッダーの多くにもハイパーリンクがありますが、問題なく機能することです.

<tr>
    <th>#</th>
    <th>Name</th>
    <th><a href="/mlb/playerstats[...]">AGE</a></th>
    <th>Pos</th>
    <th>Team</th>
    <th><a href="/mlb/playerstats[...]">AB</a></th>
</tr>

すべてをうまく出力します。入力中に2番目のコードブロックと比較して最初のコードブロックの改行に気付いたのはこの1秒だけです。データをスクレイピングするときにすべての改行を削除する必要がありますか? もしそうなら、どのように？

</p>

上記の改行の問題が非常に関連している可能性があることに気付いた2番目の問題は、1つの列ヘッダーが「なし」と表示されていることです。これは、下向き矢印のあるスパンも含まれているためと思われますデータは現在ソートされているため、列がソートされていることを示す矢印が表示されています。ご存知だと思います)。

<th>
    <a href="/mlb/playerstats[...]">PA</a>
   
     <span aria-hidden="true" class="glyphicon glyphicon-chevron-down"></span>
</th>

これは同じ/類似の問題のように思われますが、データを読み込むときに行を削除する必要がありますか? どうすればこれを行うことができますか？単純な df.rename(columns = {'None':'PA'}, inplace=True) は今のところ機能しますが、「正しく」行う方法を知りたいです。

python - Beautiful Soup で表のセル内のリンクを処理する

1 に答える 1

Related

Reference