3

基本的な構造を維持しながら HTML 形式のテキストをプレーン テキストに変換する方法を探しています。

<p>This is a paragraph.</p>
<ol>
  <li>List item 1.</li>
  <li>List item 2.</li>
</ol>
<p>This is an <a href="www.google.com">anchor</a>.</p>

なる:

これは段落です。

  • リスト項目 1。
  • リスト項目 2。

これはアンカー (www.google.com) です。

非常に多数の HTML 形式のテンプレートを効果的に達成する方法についてのアイデアはありますか?

  • 構造の外側で最も重要な部分は、アンカーを維持することです。
4

1 に答える 1

3

lynx などのテキストベースのブラウザーを使用して、stdout に出力します。すべての微調整のニーズに合うかどうかはわかりませんが、非常に迅速かつ簡単に開始できます

lynx -crawl -dump http://stackoverflow.com/questions/13279364/convert-html-to-plain-text-and-keep-basic-formatting

(実際、あなたのリストは

1. List item 1.
2. List item 2.

順序付きリストなので)

編集:実際に実際のユースケースを詳しく調べたところ、完全に機能しました:

> echo '<p>This is a paragraph.</p>
<ol>
  <li>List item 1.</li>
  <li>List item 2.</li>
</ol>
<p>This is an <a href="http://www.google.com">anchor</a>.</p>' | lynx -stdin -dump

になる

   This is a paragraph.
    1. List item 1.
    2. List item 2.

   This is an [1]anchor.

References

   1. http://www.google.com/
于 2012-11-07T22:35:38.190 に答える