文字列からデータを抽出するエレガントな方法は何ですか (おそらくブースト ライブラリを使用)?
Content-Type: text/plain
Content-Length: 15
Content-Date: 2/5/2013
Content-Request: Save
hello world
上記の文字列があり、hello world テキストを含むすべてのフィールドを抽出したいとします。誰かが私を正しい方向に向けることができますか?
試す
HTTPServer と Client の実装が付属
リクエスト/レスポンス処理付き
ブースト スピリットのデモ: http://liveworkspace.org/code/3K5TzT
単純な文法を指定する必要があります (HTTP のすべての微妙な点を「キャッチ」したい場合は、複雑な文法を指定する必要があります)。
#include <boost/fusion/adapted.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/karma.hpp>
typedef std::map<std::string, std::string> Headers;
typedef std::pair<std::string, std::string> Header;
struct Request { Headers headers; std::vector<char> content; };
BOOST_FUSION_ADAPT_STRUCT(Request, (Headers, headers)(std::vector<char>, content))
namespace qi = boost::spirit::qi;
namespace karma = boost::spirit::karma;
template <typename It, typename Skipper = qi::blank_type>
struct parser : qi::grammar<It, Request(), Skipper>
{
parser() : parser::base_type(start)
{
using namespace qi;
header = +~char_(":\n") > ": " > *(char_ - eol);
start = header % eol >> eol >> eol >> *char_;
}
private:
qi::rule<It, Header(), Skipper> header;
qi::rule<It, Request(), Skipper> start;
};
bool doParse(const std::string& input)
{
auto f(begin(input)), l(end(input));
parser<decltype(f), qi::blank_type> p;
Request data;
try
{
bool ok = qi::phrase_parse(f,l,p,qi::blank,data);
if (ok)
{
std::cout << "parse success\n";
std::cout << "data: " << karma::format_delimited(karma::auto_, ' ', data) << "\n";
}
else std::cerr << "parse failed: '" << std::string(f,l) << "'\n";
if (f!=l) std::cerr << "trailing unparsed: '" << std::string(f,l) << "'\n";
return ok;
} catch(const qi::expectation_failure<decltype(f)>& e)
{
std::string frag(e.first, e.last);
std::cerr << e.what() << "'" << frag << "'\n";
}
return false;
}
int main()
{
const std::string input =
"Content-Type: text/plain\n"
"Content-Length: 15\n"
"Content-Date: 2/5/2013\n"
"Content-Request: Save\n"
"\n"
"hello world";
bool ok = doParse(input);
return ok? 0 : 255;
}
これはCで書かれたかなりコンパクトなものです: https://github.com/openwebos/nodejs/blob/master/deps/http_parser/http_parser.c
いくつかの解決策があります。フォーマットがとても簡単な場合は、ファイルを1行ずつ読み取るだけです。行がキーで始まる場合は、それを分割して値を取得できます。そうでない場合、値は行自体です。それはSTLで非常に簡単にそして非常にエレガントに行うことができます。
文法がより複雑で、タグにブーストを追加した場合、ブーストスピリットを使用してそれを解析し、そこから値を取得することを検討できます。
空白を使用string::find
してそれらがどこにあるかを見つけ、その位置からコピーすることができます。'\n'
自分で解析するコードを書きたい場合は、まずHTTP 仕様を調べてください。これにより、文法が得られます。
generic-message = start-line
*(message-header CRLF)
CRLF
[ message-body ]
start-line = Request-Line | Status-Line
したがって、最初に行うことは、CRLF でsplit()を使用して、複合行に分割することです。次に、結果のベクトルを反復処理できます。空白の CRLF である要素に到達するまでは、ヘッダーを解析しているため、最初の「:」で分割してキーと値を取得します。
空の要素にヒットすると、応答本文が解析されます。
警告:過去にこれを自分で行ったことがありますが、すべてのWebサーバーが行末について一貫しているわけではなく(CRのみまたはLFのみが場所にある場合があります)、すべてのブラウザー/他の抽象化レイヤーが何と一致しているわけではありません。彼らはあなたに渡します。そのため、予期しない場所に余分な CRLF が見つかったり、予期した場所に CRLF が見つからないことがあります。幸運を。
ループを手動でアンロールする準備ができている場合std::istringstream
は、抽出演算子の通常のオーバーロード (日付の操作などの適切なマニピュレータをget_time()
使用) を使用して、簡単な方法でデータを抽出できます。
もう 1 つの可能性は、 を使用std::regex
してすべてのパターンに一致させ、<string>:<string>
すべての一致を反復処理することです (egrep
処理する行が複数ある場合、文法は有望と思われます)。
または、難しい方法で文字列に特定の構文がある場合は、Boost.Spiritを使用して簡単に文法を定義し、パーサーを生成できます。
C+11 にアクセスできる場合は、std::regex ( http://en.cppreference.com/w/cpp/regex ) を使用できます。
std::string input = "Content-Type: text/plain";
std::regex contentTypeRegex("Content-Type: (.+)");
std::smatch match;
if (std::regex_match(input, match, contentTypeRegex)) {
std::ssub_match contentTypeMatch = match[1];
std::string contentType = contentTypeMatch.str();
std::cout << contentType;
}
//else not found
ここでコンパイル/実行中のバージョン: http://ideone.com/QTJrue
この正規表現は非常に単純化されたケースですが、複数のフィールドに対して同じ原則です。