0

私は大規模なデータセットを扱っています。stxxl で使用したいクラスに文字列を格納する方法を教えてください。私はいくつかの議論を読みましたが、文字列はPOD型ではないため、stxxl::vectorに格納できないと言われていましたが、試してみてデータを確認したところ、すべて問題ないようです。ここでアプローチも見ましたhttps://github.com/Project-OSRM/osrm-backend/blob/725b93a961625a7b04d54806d7e0f80252a6bcd0/extractor/extraction_containers.hpp、stxxl::vectorを使用しているため、stdをサポートするようにライブラリが更新された可能性があります: :ストリング?

class HighWay
{
private:
    uint64_t id; 
    string name;
    int speed;
    string attributes; //additional attributes of way
    string edges; //written uint64_t from,uint64_t to, int distance  written as string
    string nodes; //vector<uint64_t> written as string
public:
    HighWay() = default;
    void setId(uint64_t _id) {
        id = boost::lexical_cast<string>(_id);
    }
void setName(string _name) {
    name = _name;
}
void setSpeed(int _speed) {
    speed = _speed;
}
void setAttributes(string _attributes) {
    attributes = _attributes;
}
void setEdges(string _edges) {
    edges = _edges;
}

void setNodes(vector<uint64_t>refs) {
    stringstream s;
    uint64_t i = 0;
    for (; i < refs.size()-1;i++) {
        s << boost::lexical_cast<uint64_t>(refs[i]) << " ";
    }
    s << boost::lexical_cast<uint64_t>(refs[i]);

    nodes = s.str();
}

uint64_t getId() {
    return id;
}
string getName() {
    return name;
}
int getSpeed() {
    return speed;
}
string getAttributes() {
    return attributes;
}
string getEdges() {
    return edges;
}

std::vector<int64_t> getNodes() {
    stringstream s(nodes);
    uint64_t node;
    std::vector<int64_t> result;
    while (s >> node) {
        result.push_back(static_cast<int64_t>(node));
    }

    return result;
}
};

また、文字列を POD として格納し、文字列を char のベクトルに格納し、配列内の上限と下限のインデックスを記憶するマップに格納するコードも作成しました。しかし、このアプローチは、アプリケーションで使用される多くの std::map につながります。

//class to store in map
struct TypeName{
    uint64_t start;
    uint64_t end;
};

std::istream& operator >> (std::istream& i, TypeName& entry)
{
    i >> entry.start;
    i >> entry.end;
    return i;
}
std::ostream& operator << (std::ostream& i, const TypeName& entry)
{
    i << entry.start << " ";
    i << entry.end;
    return i;
}

struct PoiCategories{
   uint64_t start;
   uint64_t end;
};

std::istream& operator >> (std::istream& i,PoiCategories& entry)
{
    i >> entry.start;
    i >> entry.end;
    return i;
}

std::ostream& operator << (std::ostream& i, const PoiCategories& entry)
{
    i << entry.start << " ";
    i << entry.end;
    return i;
}

 //object i want to store
struct Poi {
    Poi() = default;
    uint64_t id;
    char type;
    uint64_t id_in_pois; //id in vector pois

void addCategories(
    vector<int> &kats, //categories to insert
    stxxl::vector<uint64_t> &categories, //vector to store category
    std::unordered_map <uint64_t, PoiCategories> &idPoi_categories //index to vector categories to retrieve all categories for Poi
    )
{
    size_t  start = categories.size();
    for (auto & kat : kats) {
        categories.push_back(kat);
    }
    size_t end = categories.size() - 1;
    idPoi_categories.insert(make_pair(id, PoiCategories{start, end }));


}

vector<int> getCategories(
    stxxl::vector<uint64_t> &categories,
    std::unordered_map <uint64_t, PoiKategorie> &idPoi_categories
    )
{
    std::vector<int> result;
    PoiCategories bounds = idPoi_categories.find(id)->second;
    for (size_t i = bounds.start; i <= bounds.end; i++) {
        result.push_back(categories[i]);
    }

    return result;
}

};

私のアプリケーションの問題は、主に通りと POI の名前であるいくつかの文字列データを保存していることです。多分私は間違ったライブラリを使用しています。もしそうなら、前処理中にデータを保存するためのより良いアプローチをお勧めできますか?

4

1 に答える 1

0

確かに禁止されていますが、POD なしの規則に違反した場合の症状は、一般的に予測できません。文字列がすべてメモリに収まる限り、うまく機能するように見えるかもしれませんが、その場合はとにかく STXXL は必要ありません。

于 2015-05-11T12:22:42.227 に答える