XPath を使用して、次の URL から特定の要素を抽出しています。
http://gizmodo.com/how-often-cities-appear-in-books-from-the-past-200-year-1040700553
主なコンテンツを抽出するために、次のクエリを使用しています。
//p[@class='has-media media-640']
ただし、このメイン コンテンツ内から「magnifier lightBox」クラスを持つすべてのスパンを除外したいと思います。私は StackOverflow に目を通し、次のようなあらゆる種類の方法を試しました。
//div[@class='row post-content']/*[not(self::span[@class='magnifier lightBox'])]
無駄に。