いくつかのオープンソースソフトウェアによって出力されるテーブルがありますが、実際のテーブル形式では出力されません。
<table>
<thead>
<td>Heading</td>
<thead>
<tbody>
<tr>
<td>Content</td>
</tr>
<tbody>
</table
代わりに、ソフトウェアを開発した人々は、そのようにテーブルを出力するのは良い考えだと判断しました
+------------+-------------+-------+-------------+------------+---------------+----------+
| HEADING 1 | HEADING 2 | ETC | ANOTHER | HEADING3 | HEADING4 | SML |
+------------+-------------+-------+-------------+------------+---------------+----------+
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
| content | more content | cont | More more | content | content 2.0 | litl |
+------------+-------------+-------+-------------+------------+--------------+----------+
| TOTALS AGENTS:21 | total| total| total| total| total|
+------------+-------------+-------+-------------+------------+--------------+----------+
したがって、データを取得するためのWebスクレイパーを作成することはできません。または、すべてが1つの<pre> </pre>
タグにラップされているため、データを取得するためのスクレイパーを作成できるかどうかはわかりません。代わりに、私はルビーと正規表現を使用して仕事を成し遂げようと試みてきましたが、これまでのところ、すべての主要なものを取り除くことができ|
ました。また、見出しを得ることができました。+-------+-----
パターンをずっと繰り返すことはそれ自体を繰り返したくないのですが、今のところ十分に話しますこれが私がこれまでに使用したコードです
text.lines.to_a.each do |line|
line.sub(/^\| |^\+*-*\+*\-*/) do |match|
puts "Regexp Match: " << match
end
STDIN.getc
puts "New Line "<< line
end
たとえば、最初の行の出力+-----------------+----------
はCSV形式のみであるGsub
ため、残り|
の'を',
に置き換えるために使用します。
PHPまたはRubyを使用できるので、どんな答えでも大歓迎です