SPARQLクエリによって取得された次のリンクのページのコンテンツをクリーンアップしようとしています:
http://www.rechercheisidore.fr/sparql/query?query=PREFIX+dcterms%3A+%3Chttp%3A%2F%2Fpurl.org%2Fdc%2Fterms%2F%3E+PREFIX+foaf%3A+%3Chttp%3A%2F%2Fxmlns.com%2Ffoaf%2F0.1%2F%3E+SELECT+%3Furicollection+%3Ftitrecollection+%3Fdescription+%3Fadresseweb+WHERE+{+%3Furicollection+%3Fpredicat+%3Chttp%3A%2F%2Fwww.rechercheisidore.fr%2Fclass%2FCollection%3E.+%3Furicollection+dcterms%3Atitle+%3Ftitrecollection.+%3Furicollection+dcterms%3Adescription+%3Fdescription.+%3Furicollection+foaf%3Ahomepage+%3Fadresseweb.+}+ORDER+BY+ASC%28%3Ftitrecollection%29+LIMIT+300&format=application%2Frdf%2Bxml
ページはフランス語です。アクセント付きのすべての文字が正しく表示されず、Python で文字を適切な文字に置き換えようとすると、エラーが返されます。ファイルを UTF-8 に変換しようとしましたが、何も解決しませんでした (実際には既に utf-8 になっています)。そのため、エンコンディングがめちゃくちゃになるという考えが生まれました (Web サイトのエンジニアは、トリプルストアのバグであることを確認しました)。 )。例:代わりにé
ご覧くださいé
。
少なくともpython 2.7str.replace()
関数を使用して正しい文字を取得できるファイルを用意したいと思います-またはこれを達成するためのより良い方法はありますか?
問題を示す RDF XML ファイルのサンプル:
<rdf:RDF xmlns:res="http://www.w3.org/2005/sparql-results#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
<rdf:Description rdf:nodeID="rset">
<rdf:type rdf:resource="http://www.w3.org/2005/sparql-results#ResultSet" />
<res:resultVariable>uricollection</res:resultVariable>
<res:resultVariable>titrecollection</res:resultVariable>
<res:resultVariable>description</res:resultVariable>
<res:resultVariable>adresseweb</res:resultVariable>
<res:solution rdf:nodeID="r0">
<res:binding rdf:nodeID="r0c0"><res:variable>uricollection</res:variable><res:value rdf:resource="http://www.rechercheisidore.fr/resource/10670/3.ewe76u"/></res:binding>
<res:binding rdf:nodeID="r0c1"><res:variable>titrecollection</res:variable><res:value>Actualités de l'Ecole des Hautes Etudes en Sciences Sociales</res:value></res:binding>
<res:binding rdf:nodeID="r0c2"><res:variable>description</res:variable><res:value>L'Ãcole des hautes études en sciences sociales (EHESS), est issue de la transformation, en 1975, de la sixième section de l'Ãcole pratique des hautes études, section de sciences économiques et sociales, fondée en 1947 par Lucien Febvre, Charles Morazé et Fernand Braudel. L'EHESS occupe une place singulière dans le paysage français de la recherche. Elle forme des docteurs dans toutes les disciplines des sciences humaines et sociales, mais elle n'est pas une université.</res:value></res:binding>
<res:binding rdf:nodeID="r0c3"><res:variable>adresseweb</res:variable><res:value rdf:resource="http://www.ehess.fr"/></res:binding>
</res:solution>