Rのデータフレーム列からアクセントを削除する

Question

Data.tableベースを取得しました。このdata.tableに用語列を取得しました

class(base$term) [1] character length(base$term) [1] 27486

文字列からアクセントを削除できます。文字列のベクトルからアクセントを削除できます。

iconv("Millésime",to="ASCII//TRANSLIT") [1] "Millesime" iconv(c("Millésime","boulangère"),to="ASCII//TRANSLIT") [1] "Millesime" "boulangere"

しかし、何らかの理由で、用語列にまったく同じ関数を適用すると機能しません

base$terme[2] [1] "Millésime" iconv(base$terme[2],to="ASCII//TRANSLIT") [1] "MillACsime"

誰かがここで何が起こっているのか知っていますか？

hans glick · Answer

問題を解決する方法をわかりました：

Encoding(base$terme[2]) [1] "UTF-8" iconv(base$terme[2],from="UTF-8",to="ASCII//TRANSLIT") [1] "Millesime"

@nicolaに感謝

Jeldrik · Answer

stringi パッケージを使用する方が簡単かもしれません。これにより、事前にエンコーディングを確認する必要がありません。さらに stringi はオペレーティングシステム全体で一貫しており、inconvは一貫していません。

library(stringi) base <- data.table(terme = c("Millésime", "boulangère", "üéâäàåçêëèïîì")) base[, terme := stri_trans_general(str = terme, id = "Latin-ASCII")] > base terme 1: Millesime 2: boulangere 3: ueaaaaceeeiii

Alexandre Lima · Answer

この機能を適用できます

 rm_accent <- function(str,pattern="all") { if(!is.character(str)) str <- as.character(str) pattern <- unique(pattern) if(any(pattern=="Ç")) pattern[pattern=="Ç"] <- "ç" symbols <- c( acute = "áéíóúÁÉÍÓÚýÝ", Grave = "àèìòùÀÈÌÒÙ", circunflex = "âêîôûÂÊÎÔÛ", tilde = "ãõÃÕñÑ", umlaut = "äëïöüÄËÏÖÜÿ", cedil = "çÇ" ) nudeSymbols <- c( acute = "aeiouAEIOUyY", Grave = "aeiouAEIOU", circunflex = "aeiouAEIOU", tilde = "aoAOnN", umlaut = "aeiouAEIOUy", cedil = "cC" ) accentTypes <- c("´","`","^","~","¨","ç") if(any(c("all","al","a","todos","t","to","tod","todo")%in%pattern)) # opcao retirar todos return(chartr(paste(symbols, collapse=""), paste(nudeSymbols, collapse=""), str)) for(i in which(accentTypes%in%pattern)) str <- chartr(symbols[i],nudeSymbols[i], str) return(str) }