C++ 11を使用して文字列を分割する最も簡単な方法は何ですか?
この post で使用されているメソッドを見てきましたが、新しい標準を使用してより冗長な方法で行う必要があると感じています。
編集:vector<string>
結果として、単一の文字で区切ることができます。
std::regex_token_iterator
は、正規表現に基づいて一般的なトークン化を実行します。単一の文字で単純な分割を行うのはやり過ぎかもしれないし、そうでないかもしれませんが、それは機能し、あまり冗長ではありません:
std::vector<std::string> split(const string& input, const string& regex) {
// passing -1 as the submatch index parameter performs splitting
std::regex re(regex);
std::sregex_token_iterator
first{input.begin(), input.end(), re, -1},
last;
return {first, last};
}
文字列を分割する(冗長ではないかもしれません)方法を以下に示します( post に基づいて)。
#include <string>
#include <sstream>
#include <vector>
std::vector<std::string> split(const std::string &s, char delim) {
std::stringstream ss(s);
std::string item;
std::vector<std::string> elems;
while (std::getline(ss, item, delim)) {
elems.Push_back(item);
// elems.Push_back(std::move(item)); // if C++11 (based on comment from @mchiasson)
}
return elems;
}
boost
を使用して、文字列を分割し、抽出した要素をベクトルに入力する例を次に示します。
#include <boost/algorithm/string.hpp>
std::string my_input("A,B,EE");
std::vector<std::string> results;
boost::algorithm::split(results, my_input, is_any_of(","));
assert(results[0] == "A");
assert(results[1] == "B");
assert(results[2] == "EE");
別の正規表現ソリューション 他の回答に触発された
std::string s{"String to split here, and here, and here,..."};
std::regex regex{R"([\s,]+)"}; // split on space and comma
std::sregex_token_iterator it{s.begin(), s.end(), regex, -1};
std::vector<std::string> words{it, {}};
#include <iostream>
#include <algorithm>
#include <vector>
#include <string>
using namespace std;
vector<string> split(const string& str, int delimiter(int) = ::isspace){
vector<string> result;
auto e=str.end();
auto i=str.begin();
while(i!=e){
i=find_if_not(i,e, delimiter);
if(i==e) break;
auto j=find_if(i,e, delimiter);
result.Push_back(string(i,j));
i=j;
}
return result;
}
int main(){
string line;
getline(cin,line);
vector<string> result = split(line);
for(auto s: result){
cout<<s<<endl;
}
}
私の選択はboost::tokenizer
しかし、私は重いタスクを持っていないし、巨大なデータでテストしませんでした。ラムダを変更したBoostドキュメントの例:
#include <iostream>
#include <boost/tokenizer.hpp>
#include <string>
#include <vector>
int main()
{
using namespace std;
using namespace boost;
string s = "This is, a test";
vector<string> v;
tokenizer<> tok(s);
for_each (tok.begin(), tok.end(), [&v](const string & s) { v.Push_back(s); } );
// result 4 items: 1)This 2)is 3)a 4)test
return 0;
}
これがより冗長であるかどうかはわかりませんが、javascriptなどの動的言語に慣れている人にとっては、簡単に理解できるかもしれません。使用する唯一のC++ 11機能はラムダです。
#include <algorithm>
#include <string>
#include <cctype>
#include <iostream>
#include <vector>
int main()
{
using namespace std;
string s = "hello how are you won't you tell me your name";
vector<string> tokens;
string token;
for_each(s.begin(), s.end(), [&](char c) {
if (!isspace(c))
token += c;
else
{
if (token.length()) tokens.Push_back(token);
token.clear();
}
});
if (token.length()) tokens.Push_back(token);
return 0;
}
これが私の答えです。詳細で読みやすく、効率的です。
std::vector<std::string> tokenize(const std::string& s, char c) {
auto end = s.cend();
auto start = end;
std::vector<std::string> v;
for( auto it = s.cbegin(); it != end; ++it ) {
if( *it != c ) {
if( start == end )
start = it;
continue;
}
if( start != end ) {
v.emplace_back(start, it);
start = end;
}
}
if( start != end )
v.emplace_back(start, end);
return v;
}
以下は、std :: string :: find()のみを使用するC++ 11ソリューションです。区切り文字には、任意の長さの文字を使用できます。解析されたトークンは、出力イテレータを介して出力されます。これは通常、私のコードではstd :: back_inserterです。
私はこれをUTF-8でテストしていませんが、入力と区切り文字が両方とも有効なUTF-8文字列である限り機能するはずです。
#include <string>
template<class Iter>
Iter splitStrings(const std::string &s, const std::string &delim, Iter out)
{
if (delim.empty()) {
*out++ = s;
return out;
}
size_t a = 0, b = s.find(delim);
for ( ; b != std::string::npos;
a = b + delim.length(), b = s.find(delim, a))
{
*out++ = std::move(s.substr(a, b - a));
}
*out++ = std::move(s.substr(a, s.length() - a));
return out;
}
いくつかのテストケース:
void test()
{
std::vector<std::string> out;
size_t counter;
std::cout << "Empty input:" << std::endl;
out.clear();
splitStrings("", ",", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
std::cout << "Non-empty input, empty delimiter:" << std::endl;
out.clear();
splitStrings("Hello, world!", "", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
std::cout << "Non-empty input, non-empty delimiter"
", no delimiter in string:" << std::endl;
out.clear();
splitStrings("abxycdxyxydefxya", "xyz", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
std::cout << "Non-empty input, non-empty delimiter"
", delimiter exists string:" << std::endl;
out.clear();
splitStrings("abxycdxy!!xydefxya", "xy", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
std::cout << "Non-empty input, non-empty delimiter"
", delimiter exists string"
", input contains blank token:" << std::endl;
out.clear();
splitStrings("abxycdxyxydefxya", "xy", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
std::cout << "Non-empty input, non-empty delimiter"
", delimiter exists string"
", nothing after last delimiter:" << std::endl;
out.clear();
splitStrings("abxycdxyxydefxy", "xy", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
std::cout << "Non-empty input, non-empty delimiter"
", only delimiter exists string:" << std::endl;
out.clear();
splitStrings("xy", "xy", std::back_inserter(out));
counter = 0;
for (auto i = out.begin(); i != out.end(); ++i, ++counter) {
std::cout << counter << ": " << *i << std::endl;
}
}
期待される出力:
空の入力: 0: 空でない入力、空の区切り文字: 0:Hello、world! 空でない入力、非-空の区切り文字、文字列に区切り文字なし: 0:abxycdxyxydefxya 空でない入力、空でない区切り文字、区切り文字が存在する文字列: 0:ab 1 :cd 2:!! 3:def 4:a 空でない入力、空でない区切り文字、区切り文字が存在する文字列、入力に空白トークンが含まれる: 0:ab 1:cd 2: 3:def 4:a 空でない入力、空でない区切り文字、区切り文字が存在する文字列、最後の区切り文字の後には何もありません: 0:ab 1:cd 2: 3:def 4: 空でない入力、空でない区切り文字、区切り文字のみが存在する文字列: 0: 1:
#include <string>
#include <vector>
#include <sstream>
inline vector<string> split(const string& s) {
vector<string> result;
istringstream iss(s);
for (string w; iss >> w; )
result.Push_back(w);
return result;
}