文字列の列の各行で特定の文字の出現回数を計算する方法は？

Question

特定の変数にテキスト文字列が含まれるdata.frameがあります。個々の文字列内の特定の文字の出現回数をカウントしたいです。

例：

q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not"))

文字列に "a"の出現回数（つまりc（2,1,0））を含むq.dataの新しい列を作成したい。

私が管理している唯一の複雑なアプローチは次のとおりです。

string.counter<-function(strings, pattern){ counts<-NULL for(i in 1:length(strings)){ counts[i]<-length(attr(gregexpr(pattern,strings[i])[[1]], "match.length")[attr(gregexpr(pattern,strings[i])[[1]], "match.length")>0]) } return(counts) } string.counter(strings=q.data$string, pattern="a") number string number.of.a 1 1 greatgreat 2 2 2 magic 1 3 3 not 0

Dason · Accepted Answer

Stringrパッケージは、あなたが興味のあることをするように見えるstr_count関数を提供します

# Load your example data q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not"), stringsAsFactors = F) library(stringr) # Count the number of 'a's in each element of string q.data$number.of.a <- str_count(q.data$string, "a") q.data # number string number.of.a #1 1 greatgreat 2 #2 2 magic 1 #3 3 not 0

Josh O&#39;Brien · Answer

ベースRを離れたくない場合は、かなり簡潔で表現力豊かな可能性があります。

x <- q.data$string lengths(regmatches(x, gregexpr("a", x))) # [1] 2 1 0

42- · Answer

nchar(as.character(q.data$string)) -nchar( gsub("a", "", q.data$string)) [1] 2 1 0

Ncharに渡す前に、因子変数を文字に強制していることに注意してください。正規表現関数は内部的にそれを行うように見えます。

ベンチマーク結果は次のとおりです（テストのサイズを3000行に拡大）

 q.data<-q.data[rep(1:NROW(q.data), 1000),] str(q.data) 'data.frame': 3000 obs. of 3 variables: $ number : int 1 2 3 1 2 3 1 2 3 1 ... $ string : Factor w/ 3 levels "greatgreat","magic",..: 1 2 3 1 2 3 1 2 3 1 ... $ number.of.a: int 2 1 0 2 1 0 2 1 0 2 ... benchmark( Dason = { q.data$number.of.a <- str_count(as.character(q.data$string), "a") }, Tim = {resT <- sapply(as.character(q.data$string), function(x, letter = "a"){ sum(unlist(strsplit(x, split = "")) == letter) }) }, DWin = {resW <- nchar(as.character(q.data$string)) -nchar( gsub("a", "", q.data$string))}, Josh = {x <- sapply(regmatches(q.data$string, gregexpr("g",q.data$string )), length)}, replications=100) #----------------------- test replications elapsed relative user.self sys.self user.child sys.child 1 Dason 100 4.173 9.959427 2.985 1.204 0 0 3 DWin 100 0.419 1.000000 0.417 0.003 0 0 4 Josh 100 18.635 44.474940 17.883 0.827 0 0 2 Tim 100 3.705 8.842482 3.646 0.072 0 0

Zhang Tao · Answer

sum(charToRaw("abc.d.aa") == charToRaw('.'))

良いオプションです。

markus · Answer

stringiパッケージは、stri_countおよびstri_count_fixed関数を提供します。これらは非常に高速です。

stringi::stri_count(q.data$string, fixed = "a") # [1] 2 1 0

ベンチマーク

@ 42-'s answer の最速のアプローチと、30.000要素のベクトルの stringrパッケージの同等の関数との比較。

library(microbenchmark) benchmark <- microbenchmark( stringi = stringi::stri_count(test.data$string, fixed = "a"), baseR = nchar(test.data$string) - nchar(gsub("a", "", test.data$string, fixed = TRUE)), stringr = str_count(test.data$string, "a") ) autoplot(benchmark)

data

q.data <- data.frame(number=1:3, string=c("greatgreat", "magic", "not"), stringsAsFactors = FALSE) test.data <- q.data[rep(1:NROW(q.data), 10000),]

tim riffe · Answer

誰かがもっとうまくできると確信していますが、これはうまくいきます：

sapply(as.character(q.data$string), function(x, letter = "a"){ sum(unlist(strsplit(x, split = "")) == letter) }) greatgreat magic not 2 1 0

または関数内：

countLetter <- function(charvec, letter){ sapply(charvec, function(x, letter){ sum(unlist(strsplit(x, split = "")) == letter) }, letter = letter) } countLetter(as.character(q.data$string),"a")

Benbob · Answer

あなただけの文字列の分割を使用することができます

require(roperators) my_strings <- c('Apple', banana', 'pear', 'melon') my_strings %s/% 'a'

これにより、1、3、1、0が得られます。正規表現と単語全体で文字列分割を使用することもできます。

Giovanni Campagnoli · Answer

私見は最も簡単でクリーンな方法です：

q.data$number.of.a <- lengths(gregexpr('a', q.data$string)) # number string number.of.a` #1 1 greatgreat 2` #2 2 magic 1` #3 3 not 0`

cineS. · Answer

アマルジートと同じようにキャラクターを数えます。しかし、私はそれを1行で行うことを好みます。

HowManySpaces<-nchar(DF$string)-nchar(gsub(" ","",DF$string)) # count spaces in DF$string

Yoshiaki · Answer

以下の質問はここに移動されましたが、このページはファラエルの質問に直接答えていないようです。 Rの101の番号1を見つける方法

念のため、ここに答えを書きます。

library(magrittr) n %>% # n is a number you'd like to inspect as.character() %>% str_count(pattern = "1")

https://stackoverflow.com/users/8931457/farah-el

Finn &#197;rup Nielsen · Answer

https://stackoverflow.com/a/12430764/589165 のバリエーションは

> nchar(gsub("[^a]", "", q.data$string)) [1] 2 1 0

Amarjeet · Answer

s <- "aababacababaaathhhhhslsls jsjsjjsaa ghhaalll" p <- "a" s2 <- gsub(p,"",s) numOcc <- nchar(s) - nchar(s2)

効率的なものではないかもしれませんが、私の目的を解決します。