API に接続して、いくつかの Web サイトを xml 形式でダウンロードしています。Jupyter 環境で BeautifulSoup を利用しています。このコードを利用してデータにアクセスしています...
my_params = {some parameters}
response = requests.get(base_url, params = my_params)
response = response.content
soup = BeautifulSoup(response, 'xml')
soup
このコードを使用すると、Web サイトを xml 形式で問題なく取得できます。これはxmlの例です...
<result>
<title>Sepsis Alliance</title>
<contentType>html</contentType>
<sum>... and Sepsis Alliance has introduced new and exciting ways for individuals, medical ... industry partners and other organizations to help shine the spotlight on sepsis. ... Spike Out Sepsis. Columbus, OH. July 23, 2016. 3rd Annual Jeffrey Ray Davis Sepsis ... Sepsis Alliance News. June 4, 2016. Sepsis Alliance Mourns Loss of Boxing Legend Muhammad ...</sum>
<url>www.sepsisalliance.org</url>...
それぞれに 10 件の結果を取得していrequests.get
ます。RStudio でさらに作業するには、この xml 要求をハード ドライブの .xml ファイルに保存する必要があります。ファイルを保存するために次のコードを利用しています...
soup = str(soup)
file_out = open('text_mining.xml', 'a')
file_out.write(soup)
file_out.close()
私が抱えている問題は、エクスポートされた .xml ファイル内のタグが空であることです...
<result>
<title></title>
<contenttype></contenttype>
<sum></sum>
<url></url>
<hopcount>0</hopcount>
<size></size>
いくつかの解決策は何ですか?