問題タブ [sgml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
417 参照

xml - DTD 解析: 別のパラメーター エンティティ参照を含むパラメーター エンティティ参照名 - 整形式ですか?

私は DTD パーサーを書いていますが、パラメーター エンティティを展開する方法が少しわかりません。たとえば、この DTD の抜粋は有効ですか?

より具体的には、エンティティ gh が正しく展開されるかどうか知りたいです。私の意見では %ef; 最初に 'c' に展開し、次に新しく形成された PE 参照 %abcd; に展開する必要があります。%xx に展開する必要があります。等々。

私が見たほとんどのパーサーは、%ab を PE 参照として識別し、その PE が定義されていないために失敗します。しかし、パーサーがこのように動作することを要求する標準にはまったく参照が見つかりませんでした。私が見つけた唯一の参考文献は、 Included as PEではなく、Included in Literalでした。ここでは、置換テキストを 0x20 の先頭と 0x20 の後に 1 つずつ拡大する必要があると述べていますが、リテラルではありません。

ポインタはありますか?ありがとうございました。

0 投票する
1 に答える
449 参照

sgml - SGML属性での使用が禁止されているASCII文字はどれですか?

空白、引用符、等号、およびタブとは別に、ASCIIの印刷可能なサブセットの他のどの文字をSGMLの属性名として使用することが禁止されていますか?

0 投票する
1 に答える
471 参照

c# - OFXパーサー。XMLテキストリーダーの例外を無視する

私はカスタムOFX->XMLパーサーをc#で書いています。

現在、標準のXMLTextReaderを使用しています。

ofx形式は次の構造を持つ可能性があります。

要素がテキスト要素の場合、前の要素には終了タグがありません。追加したいです。しかし、私は持っています:

7行目の位置10の「SEVERITY」開始タグが「STATUS」の終了タグと一致しません。行8、位置9。

しかし、while(reader.Read())ブロックをtry-catchすると、適切な構造が得られますが、 </SEVERITY>タグまでしか取得できません。

そのような例外を無視する方法はありますか?

0 投票する
6 に答える
1359 参照

html - 終了タグは、終了タグが省略された、閉じられていない間にあるすべての開始タグを閉じる必要がありますか?

HTML 4.01標準を読んでいるのは間違っていますか、それともGoogleですか?HTML 4.01では、次のように記述します。

GoogleChromeでのレンダリングは次のとおりです。

プレーン+ em +ストロング-em

これは、基礎となるSGMLルールを次のように要約するHTML 4.01標準と矛盾しているようです。「終了タグが閉じて、一致する開始タグに戻り、すべての閉じられていない介在する開始タグと省略された終了タグ」。¹

つまり、</em>終了タグは<em>開始タグだけでなく、閉じられていない介在する<strong>開始タグも閉じる必要があり、レンダリングは次のようになります。

プレーン+ em +ストロング-em

コメント提供者は、タグを開いたままにしておくのは悪い習慣であると指摘しましたが、これは学術的な例にすぎません。同様に良い例は次のとおり<em> +em <strong> +strong </em> -em </strong>です。HTML 4.01標準から、要素が重複しているためにこのコードフラグメントが意図したとおりに機能しないことがわかりました。つまり、</em>終了タグは暗黙的にを閉じる必要があり<strong>ます。それが意図したとおりに機能したという事実は驚くべきことであり、これが私の質問につながったものです。

そして、私は質問で誤った二分法を提案したことがわかりました。Googleも私もHTML4.01標準を間違って読んでいませんでした。w3.orgの私的な特派員は、 MartinBryanによって説明されたWebSGMLとHTML4.0を指摘しました。これは、次のように説明しています。より高いレベルの要素の終了タグに遭遇します。(ただし、終了タグを省略できない埋め込み要素がまだ開いている場合、プログラムはコーディングでエラーを報告します。)” <a href="http://www.is-thought.co.uk/book/sgml-9.htm#Omitting" rel="nofollow">²(強調を追加)ブライアンによるSGML標準の要約は正しく、HTML4.01の要約は間違っています。

0 投票する
1 に答える
3423 参照

python - 美しいスープのUnicodeEncodeError(python 2.7.1)

ここではpython 2.7.1でBeautiful Soup 3.2を使用しています。

私は最近、簡単なものを機能させようとしていますが、かなりトリッキーなようです:

私は次のことを行います:

ただし、次のエラーが表示されます。

同じループをもう一度実行すると、次のようになることもあります。

このエラーを回避するにはどうすればよいですか? 明らかに、sgmllib.py に問題があります。

私はSOFからいくつかの解決策を試しました:

*]soup = BeautifulSoup(page, fromEncoding=<encoding of the page>) 試行結果: Dosent 作業、同じエラー。

*] sgmllib.py を 2.7.2 バージョンから 2.7.1 バージョンにアップグレードしようとしました。結果: うまくいきませんでしたが、同じエラーが発生しました。

*]html = BeautifulSoup(page.encode('utf-8')) 試行結果: Dosent 作業、同じエラー。

このエンコード エラーを解決する方法についての提案をいただければ幸いです。

0 投票する
2 に答える
144 参照

terminology - 「マークアップは厳密でなければならない」とはどういう意味ですか?

一般化されたマークアップのISO定義は次のように述べています。

プログラムやデータベースなどの厳密に定義されたオブジェクトの処理に使用できる手法をドキュメントの処理にも使用できるように、マークアップは厳密にする必要があります。

この文脈で「厳密」とはどういう意味ですか?

私は次のような論文を見つけました:

...タイプ定義とマークアップされたドキュメントを合わせて[...]は、機械処理に必要な厳密に記述されたドキュメントを構成します。

...しかし、正確な定義についてはまだはっきりしていません。

0 投票する
1 に答える
308 参照

regex - Perlを使用してSGML DTDからテキストコンテンツを抽出する方法は?

Perl を使用して DTD からすべてのコンテンツを抽出することを検討していますが、どの方法が最適かわかりません。XML を操作するためのモジュールがあることは知っていますが、SGML を操作するこのタイプのモジュールがあるかどうか、またはこの操作のために正規表現を作成する必要があるかどうかはわかりません。

非常に単純なパターン マッチングを除いて、正規表現の経験があまりなく、SGML と Perl は初めてです。

0 投票する
1 に答える
311 参照

python - SGMLParserを使用してHTMLで指定されたテキストを抽出する方法

クラス拡張SGMLParserを作成します。

非常に単純なコード。IMOstart_title<title>、タグに遭遇handle_dataしたときに呼び出され、通常のテキストに遭遇したときに呼び出されました。今、私は<title>との間のテキストを抽出したい</title>、例えば

Webpage titlebetween<title>タグを印刷したいのですが、タグを使用すると、とhandle_dataを含むすべての単純なテキストが出力されます。タグの間にテキストを出力する方法は?Webpage titleSimple text<title>

0 投票する
3 に答える
988 参照

xml - Perl を使用して SGML を XML ファイルに解析するための正しい構文は?

私は Perl の初心者で、SGML ファイルを読み込んで解析し、XML に変換して、すべての要素のキーと値のペアを取得しようとしています。SGML::DTDParseおよびXML::Simpleモジュールを見つけたのは、これがタスクに必要なものだと思うからです。私の問題は、DTDParse に関するドキュメントやコード例が見つからないことです。

私のコードは以下の通りです:

次のように dtdParse $file 行でエラーが発生します。「スクリプト名」でパッケージまたはオブジェクト参照なしでメソッド「dtdParse」を呼び出すことはできません

ここで適切な構文に関するアイデアはありますか?これはタスクの有効なアプローチですか?

コードをもう一度作り直して、これで dtd 解析を行うことができました:

ただし、解析されたファイルをxmlと見なすことができるとは思わないため、解析されたファイルからすべての要素を取得する正しい方法はforループです。

0 投票する
1 に答える
94 参照

perl - PerlのSGMLDTDからすべての情報を取得する

SGML DTDから情報(要素、属性など)を取得したいモジュール使用SGML :: DTDの助けを借りて要素を取得しようとしましたが、これは機能していません。DTDに異なる属性を持つ重複要素が含まれている場合、要素を1回だけ取得するとします。

私はこれを試しました:@allelements=$dtd->get_elements(0);

SGML DTDおよびSGMLパーサーから値を取得するために使用できる他のモジュールはありますか?