Rにtm
パッケージを使用したコーパスがあります。ストップワードを削除するためにremoveWords
関数を適用しています
tm_map(abs, removeWords, stopwords("english"))
このリストに独自のカスタムストップワードを追加する方法はありますか?
stopwords
は単語のベクトルを提供するだけで、これに独自の単語をc
ombineするだけです。
tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words"))
カスタムを保存stop words
csvファイル内(例:Word.csv
)。
library(tm)
stopwords <- read.csv("Word.csv", header = FALSE)
stopwords <- as.character(stopwords$V1)
stopwords <- c(stopwords, stopwords())
次に、custom words
をテキストファイルに追加します。
text <- VectorSource(text)
text <- VCorpus(text)
text <- tm_map(text, content_transformer(tolower))
text <- tm_map(text, removeWords, stopwords)
text <- tm_map(text, stripWhitespace)
text[[1]]$content
textProcessor
パッケージを使用することもできます。それはかなりうまくいきます:
textProcessor(documents,
removestopwords = TRUE, customstopwords = NULL)
カスタムストップワードのベクトルを作成し、次のようなステートメントを使用できます。
tm_map(abs, removeWords, c(stopwords("english"), myStopWords))
Tm installに付属するストップワードのデフォルトリストに独自のストップワードを追加することができます。 「tm」パッケージには、ストップワードを含む多くのデータファイルが含まれています。ストップワードファイルには多くの言語が含まれています。ストップワードディレクトリにあるenglish.datファイルを追加、削除、または更新できます。
ストップワードディレクトリを見つける最も簡単な方法は、ファイルブラウザを介してシステム内の「ストップワード」ディレクトリを検索することです。そして、他の多くの言語ファイルとともにenglish.datを見つける必要があります。 RStudioからenglish.datファイルを開きます。これにより、ファイルの編集が可能になります。必要に応じて、独自の単語を追加したり、既存の単語を削除したりできます。他の言語でストップワードを編集する場合も同じプロセスです。