c++ - C++ 文字列からデータを抽出する

Question

文字列からデータを抽出するエレガントな方法は何ですか (おそらくブーストライブラリを使用)?

Content-Type: text/plain
Content-Length: 15
Content-Date: 2/5/2013
Content-Request: Save

hello world

上記の文字列があり、hello world テキストを含むすべてのフィールドを抽出したいとします。誰かが私を正しい方向に向けることができますか?

score 4 · Accepted Answer

試す

http://pocoproject.org/

HTTPServer と Client の実装が付属
http://cpp-netlib.github.com/

リクエスト/レスポンス処理付き

ブーストスピリットのデモ: http://liveworkspace.org/code/3K5TzT

単純な文法を指定する必要があります (HTTP のすべての微妙な点を「キャッチ」したい場合は、複雑な文法を指定する必要があります)。

#include <boost/fusion/adapted.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/karma.hpp>

typedef std::map<std::string, std::string> Headers;
typedef std::pair<std::string, std::string> Header;
struct Request { Headers headers; std::vector<char> content; };

BOOST_FUSION_ADAPT_STRUCT(Request, (Headers, headers)(std::vector<char>, content))

namespace qi    = boost::spirit::qi;
namespace karma = boost::spirit::karma;

template <typename It, typename Skipper = qi::blank_type>
    struct parser : qi::grammar<It, Request(), Skipper>
{
    parser() : parser::base_type(start)
    {
        using namespace qi;

        header = +~char_(":\n") > ": " > *(char_ - eol);
        start = header % eol >> eol >> eol >> *char_;
    }

  private:
    qi::rule<It, Header(),  Skipper> header;
    qi::rule<It, Request(), Skipper> start;
};

bool doParse(const std::string& input)
{
    auto f(begin(input)), l(end(input));

    parser<decltype(f), qi::blank_type> p;
    Request data;

    try
    {
        bool ok = qi::phrase_parse(f,l,p,qi::blank,data);
        if (ok)   
        {
            std::cout << "parse success\n";
            std::cout << "data: " << karma::format_delimited(karma::auto_, ' ', data) << "\n";
        }
        else      std::cerr << "parse failed: '" << std::string(f,l) << "'\n";

        if (f!=l) std::cerr << "trailing unparsed: '" << std::string(f,l) << "'\n";
        return ok;
    } catch(const qi::expectation_failure<decltype(f)>& e)
    {
        std::string frag(e.first, e.last);
        std::cerr << e.what() << "'" << frag << "'\n";
    }

    return false;
}

int main()
{
    const std::string input = 
        "Content-Type: text/plain\n"
        "Content-Length: 15\n"
        "Content-Date: 2/5/2013\n"
        "Content-Request: Save\n"
        "\n"
        "hello world";

    bool ok = doParse(input);

    return ok? 0 : 255;
}

score 4 · Accepted Answer

これはCで書かれたかなりコンパクトなものです: https://github.com/openwebos/nodejs/blob/master/deps/http_parser/http_parser.c

score 2 · Accepted Answer

いくつかの解決策があります。フォーマットがとても簡単な場合は、ファイルを1行ずつ読み取るだけです。行がキーで始まる場合は、それを分割して値を取得できます。そうでない場合、値は行自体です。それはSTLで非常に簡単にそして非常にエレガントに行うことができます。

文法がより複雑で、タグにブーストを追加した場合、ブーストスピリットを使用してそれを解析し、そこから値を取得することを検討できます。

score 2 · Accepted Answer

私が思うに、最も簡単な解決策は、正規表現を使用することです。C++ 11には標準の正規表現があり、一部はboostにあります。

score 1 · Accepted Answer

空白を使用string::findしてそれらがどこにあるかを見つけ、その位置からコピーすることができます。'\n'

score 1 · Accepted Answer

自分で解析するコードを書きたい場合は、まずHTTP 仕様を調べてください。これにより、文法が得られます。

    generic-message = start-line
                      *(message-header CRLF)
                      CRLF
                      [ message-body ]
    start-line      = Request-Line | Status-Line

したがって、最初に行うことは、CRLF でsplit()を使用して、複合行に分割することです。次に、結果のベクトルを反復処理できます。空白の CRLF である要素に到達するまでは、ヘッダーを解析しているため、最初の「:」で分割してキーと値を取得します。

空の要素にヒットすると、応答本文が解析されます。

警告：過去にこれを自分で行ったことがありますが、すべてのWebサーバーが行末について一貫しているわけではなく（CRのみまたはLFのみが場所にある場合があります）、すべてのブラウザー/他の抽象化レイヤーが何と一致しているわけではありません。彼らはあなたに渡します。そのため、予期しない場所に余分な CRLF が見つかったり、予期した場所に CRLF が見つからないことがあります。幸運を。

score 0 · Accepted Answer

ループを手動でアンロールする準備ができている場合std::istringstreamは、抽出演算子の通常のオーバーロード (日付の操作などの適切なマニピュレータをget_time()使用) を使用して、簡単な方法でデータを抽出できます。

もう 1 つの可能性は、を使用std::regexしてすべてのパターンに一致させ、<string>:<string>すべての一致を反復処理することです (egrep処理する行が複数ある場合、文法は有望と思われます)。

または、難しい方法で文字列に特定の構文がある場合は、Boost.Spiritを使用して簡単に文法を定義し、パーサーを生成できます。

score 0 · Accepted Answer

C+11 にアクセスできる場合は、std::regex ( http://en.cppreference.com/w/cpp/regex ) を使用できます。

std::string input = "Content-Type: text/plain";
std::regex contentTypeRegex("Content-Type: (.+)");

std::smatch match;

if (std::regex_match(input, match, contentTypeRegex)) {
     std::ssub_match contentTypeMatch = match[1];
     std::string contentType = contentTypeMatch.str();
     std::cout << contentType;
}
//else not found

ここでコンパイル/実行中のバージョン: http://ideone.com/QTJrue

この正規表現は非常に単純化されたケースですが、複数のフィールドに対して同じ原則です。

c++ - C++ 文字列からデータを抽出する

8 に答える 8

Related

Reference