web-dev-qa-db-ja.com

R tmでカスタムストップワードを追加する

Rにtmパッケージを使用したコーパスがあります。ストップワードを削除するためにremoveWords関数を適用しています

tm_map(abs, removeWords, stopwords("english")) 

このリストに独自のカスタムストップワードを追加する方法はありますか?

14
Brian

stopwordsは単語のベクトルを提供するだけで、これに独自の単語をcombineするだけです。

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words")) 
35
James

カスタムを保存stop words csvファイル内(例:Word.csv)。

library(tm)
stopwords <- read.csv("Word.csv", header = FALSE)
stopwords <- as.character(stopwords$V1)
stopwords <- c(stopwords, stopwords())

次に、custom wordsをテキストファイルに追加します。

text <- VectorSource(text)
text <- VCorpus(text)
text <- tm_map(text, content_transformer(tolower))
text <- tm_map(text, removeWords, stopwords)
text <- tm_map(text, stripWhitespace)

text[[1]]$content
4
Reza Rahimi

textProcessorパッケージを使用することもできます。それはかなりうまくいきます:

textProcessor(documents, 
  removestopwords = TRUE, customstopwords = NULL)
2

カスタムストップワードのベクトルを作成し、次のようなステートメントを使用できます。

tm_map(abs, removeWords, c(stopwords("english"), myStopWords)) 
1
Jeff J.

Tm installに付属するストップワードのデフォルトリストに独自のストップワードを追加することができます。 「tm」パッケージには、ストップワードを含む多くのデータファイルが含まれています。ストップワードファイルには多くの言語が含まれています。ストップワードディレクトリにあるenglish.datファイルを追加、削除、または更新できます。
ストップワードディレクトリを見つける最も簡単な方法は、ファイルブラウザを介してシステム内の「ストップワード」ディレクトリを検索することです。そして、他の多くの言語ファイルとともにenglish.datを見つける必要があります。 RStudioからenglish.datファイルを開きます。これにより、ファイルの編集が可能になります。必要に応じて、独自の単語を追加したり、既存の単語を削除したりできます。他の言語でストップワードを編集する場合も同じプロセスです。

1
BMALURU