<TABLE WIDTH="100%"> <TR> <TH scope="row" VALIGN="TOP" ALIGN="LEFT" WIDTH="10%">Inventors:</TH> <TD ALIGN="LEFT" WIDTH="90%">
<B>Shimada; Masahiro</B> (Shiga, <B>JP</B>) </TD> </TR>
<TR><TH scope="row" VALIGN="TOP" ALIGN="LEFT" WIDTH="10%">Applicant: </TH><TD ALIGN="LEFT" WIDTH="90%"> <TABLE> <TR> <TH scope="column" ALIGN="center">Name</TH> <TH scope="column" ALIGN="center">City</TH> <TH scope="column" ALIGN="center">State</TH> <TH
scope="column" ALIGN="center">Country</TH> <TH scope="column" ALIGN="center">Type</TH> </TR> <TR> <TD> <B><br>Shimada; Masahiro</B> </TD><TD> <br>Shiga </TD><TD ALIGN="center"> <br>N/A </TD><TD ALIGN="center"> <br>JP </TD> </TD><TD ALIGN="left"> </TD>
</TR> </TABLE> </TD></TR>
<TR> <TH scope="row" VALIGN="TOP" ALIGN="LEFT" WIDTH="10%">Assignee:</TH>
<TD ALIGN="LEFT" WIDTH="90%">
<B>Ishida Co., Ltd.</B>
(Kyoto,
<B>JP</B>)
<BR>
</TD>
</TR>
<TR><TH scope="row" VALIGN="TOP" ALIGN="LEFT" WIDTH="10%" NOWRAP>Appl. No.:
</TH><TD ALIGN="LEFT" WIDTH="90%">
<B>12/791,478</B></TD></TR>
<TR><TH scope="row" VALIGN="TOP" ALIGN="LEFT" WIDTH="10%">Filed:
</TH><TD ALIGN="LEFT" WIDTH="90%">
<B>June 1, 2010</B></TD></TR>
</TABLE>
これは、 この米国特許庁の URLから取得したものです。
上記は、データを取得するために必要な HTML テーブルです。しかし、私が使用するとき:
trtemp=souptemp.findAll('tr')
PattentInventors=trtemp[7].text.strip()
PattentCompany=trtemp[11].text.strip()
PattentFiledtime=trtemp[13].text.strip()
tr インデックス 7,11,13 は、すべてのページで一定ではありません。したがって、次のように re モジュールを使用するように変更します。
souptemp.findAll(text=re.compile("Assi"))[0]
これはデータを取得するためのものですAssignee: Ishida Co., Ltd. (Kyoto, JP)
が、tr リストのインデックスを取得できませんでした。Assignee: Ishida Co., Ltd. (Kyoto, JP)
Thank you!の正しいインデックスを取得するにはどうすればよい でしょうか。