3

文字列からデータを抽出するエレガントな方法は何ですか (おそらくブースト ライブラリを使用)?

Content-Type: text/plain
Content-Length: 15
Content-Date: 2/5/2013
Content-Request: Save

hello world

上記の文字列があり、hello world テキストを含むすべてのフィールドを抽出したいとします。誰かが私を正しい方向に向けることができますか?

4

8 に答える 8

4

試す

  • http://pocoproject.org/

    HTTPServer と Client の実装が付属

  • http://cpp-netlib.github.com/

    リクエスト/レスポンス処理付き

  • ブースト スピリットのデモ: http://liveworkspace.org/code/3K5TzT

    単純な文法を指定する必要があります (HTTP のすべての微妙な点を「キャッチ」したい場合は、複雑な文法を指定する必要があります)。

    #include <boost/fusion/adapted.hpp>
    #include <boost/spirit/include/qi.hpp>
    #include <boost/spirit/include/karma.hpp>
    
    typedef std::map<std::string, std::string> Headers;
    typedef std::pair<std::string, std::string> Header;
    struct Request { Headers headers; std::vector<char> content; };
    
    BOOST_FUSION_ADAPT_STRUCT(Request, (Headers, headers)(std::vector<char>, content))
    
    namespace qi    = boost::spirit::qi;
    namespace karma = boost::spirit::karma;
    
    template <typename It, typename Skipper = qi::blank_type>
        struct parser : qi::grammar<It, Request(), Skipper>
    {
        parser() : parser::base_type(start)
        {
            using namespace qi;
    
            header = +~char_(":\n") > ": " > *(char_ - eol);
            start = header % eol >> eol >> eol >> *char_;
        }
    
      private:
        qi::rule<It, Header(),  Skipper> header;
        qi::rule<It, Request(), Skipper> start;
    };
    
    bool doParse(const std::string& input)
    {
        auto f(begin(input)), l(end(input));
    
        parser<decltype(f), qi::blank_type> p;
        Request data;
    
        try
        {
            bool ok = qi::phrase_parse(f,l,p,qi::blank,data);
            if (ok)   
            {
                std::cout << "parse success\n";
                std::cout << "data: " << karma::format_delimited(karma::auto_, ' ', data) << "\n";
            }
            else      std::cerr << "parse failed: '" << std::string(f,l) << "'\n";
    
            if (f!=l) std::cerr << "trailing unparsed: '" << std::string(f,l) << "'\n";
            return ok;
        } catch(const qi::expectation_failure<decltype(f)>& e)
        {
            std::string frag(e.first, e.last);
            std::cerr << e.what() << "'" << frag << "'\n";
        }
    
        return false;
    }
    
    int main()
    {
        const std::string input = 
            "Content-Type: text/plain\n"
            "Content-Length: 15\n"
            "Content-Date: 2/5/2013\n"
            "Content-Request: Save\n"
            "\n"
            "hello world";
    
        bool ok = doParse(input);
    
        return ok? 0 : 255;
    }
    
于 2013-02-05T19:47:02.183 に答える
4

これはCで書かれたかなりコンパクトなものです: https://github.com/openwebos/nodejs/blob/master/deps/http_parser/http_parser.c

于 2013-02-05T19:49:37.397 に答える
2

いくつかの解決策があります。フォーマットがとても簡単な場合は、ファイルを1行ずつ読み取るだけです。行がキーで始まる場合は、それを分割して値を取得できます。そうでない場合、値は行自体です。それはSTLで非常に簡単にそして非常にエレガントに行うことができます。

文法がより複雑で、タグにブーストを追加した場合、ブーストスピリットを使用してそれを解析し、そこから値を取得することを検討できます。

于 2013-02-05T19:46:53.777 に答える
2

私が思うに、最も簡単な解決策は、正規表現を使用することです。C++ 11には標準の正規表現があり、一部はboostにあります。

于 2013-02-05T19:47:42.950 に答える
1

空白を使用string::findしてそれらがどこにあるかを見つけ、その位置からコピーすることができます。'\n'

于 2013-02-05T19:47:21.723 に答える
1

自分で解析するコードを書きたい場合は、まずHTTP 仕様を調べてください。これにより、文法が得られます。

    generic-message = start-line
                      *(message-header CRLF)
                      CRLF
                      [ message-body ]
    start-line      = Request-Line | Status-Line

したがって、最初に行うことは、CRLF でsplit()を使用して、複合行に分割することです。次に、結果のベクトルを反復処理できます。空白の CRLF である要素に到達するまでは、ヘッダーを解析しているため、最初の「:」で分割してキーと値を取得します。

空の要素にヒットすると、応答本文が解析されます。

警告:過去にこれを自分で行ったことがありますが、すべてのWebサーバーが行末について一貫しているわけではなく(CRのみまたはLFのみが場所にある場合があります)、すべてのブラウザー/他の抽象化レイヤーが何と一致しているわけではありません。彼らはあなたに渡します。そのため、予期しない場所に余分な CRLF が見つかったり、予期した場所に CRLF が見つからないことがあります。幸運を。

于 2013-02-05T19:54:54.260 に答える
0

ループを手動でアンロールする準備ができている場合std::istringstreamは、抽出演算子の通常のオーバーロード (日付の操作などの適切なマニピュレータをget_time()使用) を使用して、簡単な方法でデータを抽出できます。

もう 1 つの可能性は、 を使用std::regexしてすべてのパターンに一致させ、<string>:<string>すべての一致を反復処理することです (egrep処理する行が複数ある場合、文法は有望と思われます)。

または、難しい方法で文字列に特定の構文がある場合は、Boost.Spiritを使用して簡単に文法を定義し、パーサーを生成できます。

于 2013-02-05T19:47:15.027 に答える
0

C+11 にアクセスできる場合は、std::regex ( http://en.cppreference.com/w/cpp/regex ) を使用できます。

std::string input = "Content-Type: text/plain";
std::regex contentTypeRegex("Content-Type: (.+)");

std::smatch match;

if (std::regex_match(input, match, contentTypeRegex)) {
     std::ssub_match contentTypeMatch = match[1];
     std::string contentType = contentTypeMatch.str();
     std::cout << contentType;
}
//else not found

ここでコンパイル/実行中のバージョン: http://ideone.com/QTJrue

この正規表現は非常に単純化されたケースですが、複数のフィールドに対して同じ原則です。

于 2013-02-05T20:02:52.530 に答える