問題タブ [sgml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - SgmlLinkExtractor が結果を表示しない、またはリンクをたどらない
SGML Link Extractor の仕組みを完全に理解するのに問題があります。Scrapy でクローラーを作成すると、特定の URL を使用してリンクからデータを正常に抽出できます。問題は、ルールを使用して特定の URL の次のページ リンクをたどることです。
allow()問題は属性にあると思います。ルールがコードに追加されると、コマンド ラインに結果が表示されず、次のページへのリンクがたどられません。
どんな助けでも大歓迎です。
これがコードです...
html - タグが完全に含まれていない HTML/XML の有効なケースはありますか?
XML と HTML では、クロススコープのタグを持つことは許可されていないと思います。おそらくSGMLはそれを許可します。ただし、XML/HTML では、これが発生する有効で許可されているケースはありますか?
何かのようなもの:
これにより、「これはサンプルテキストです!」のような出力が生成される可能性があります。
(補足: SO マークダウン パーサーは明らかにそれを処理できますが、誰が知っていましたか?)
java - sax パーサーによる sgml の解析
私の宿題では、いくつかのsgmlファイルを解析する必要があります。を使用してSAXParserいます。単純なファイルでは正しく機能しxmlます。しかし、宿題ファイルを解析したい場合、sgmlこのエラーが発生します:
ドキュメントからの知識はありませんdtd。私のコードは次のとおりです。
このエラーを防ぐにはどうすればよいですか?
下手な英語ですみません
c# - sgml/xml のパラメーター エンティティ参照は .NET を使用して解析できますか?
以下のデータを XDocument で解析しようとすると、次のエラーが発生します。
「XMLException: パラメータ エンティティ参照は内部マークアップでは許可されていません」
解析しようとしているデータの例を次に示します。
上記のファイルを解析しようとしているコードは次のとおりです。
組み込みの .NET xml 解析ライブラリを取得してエンティティ参照を処理する方法、または少なくとも埋め込まれた !Doctype を無視してルート要素を解析する方法はありますか?
注: 私は、パラメータ エンティティ参照が XML 内で有効であるという仮定の下で作業しています。(こちらをご覧ください)
python - Python: SGML の解析
Python で次のような SGML を解析しようとしています。
<BODY>ここでは、タグ内のすべてのもの (つまり ) を探しています["Sample One", "Sample Two"]。
BeautifulSoup を使用してみましたが、最初の行の が気に入らず、<!DOCTYPE>すべてが のようなルート タグにラップされることも期待されます<everything></everything>。これらの変更を BeautifulSoup に渡す前に手動で変更することはできますが、少しハッキリしすぎているように感じます。
私は SGML の初心者であり、BeautifulSoup と結婚していないので、どんな提案も歓迎します。
(好奇心旺盛な方へ: 私の特定のユースケースは、reuters21578 データセットです。)