read.csvの正しいエンコーディングを検出する方法は？

Question

このファイル（http://b7hq6v.alterupload.com/en/）があり、Rでread.csv。しかし、正しいエンコードを検出できません。これは一種のUTF-8のようです。 WindowsXPマシンでR 2.12.1を使用しています。ヘルプはありますか？

Marek · Accepted Answer

まず最初に StackOverflowのより一般的な質問に基づく 100％の確実性でファイルのエンコードを検出することはできません。

私はこれに何度も苦労し、非自動ソリューションに来ました：

iconvlistを使用して、可能なすべてのエンコードを取得します。

codepages <- setNames(iconvlist(), iconvlist())

次に、それぞれを使用してデータを読み取ります

x <- lapply(codepages, function(enc) try(read.table("encoding.asc", fileEncoding=enc, nrows=3, header=TRUE, sep="	"))) # you get lots of errors/warning here

ここで重要なのは、ファイルの構造（セパレーター、ヘッダー）を知ることです。 fileEncoding引数を使用してエンコードを設定します。数行のみを読み取ります。
これで結果を検索できました：

unique(do.call(rbind, sapply(x, dim))) # [,1] [,2] # 437 14 2 # CP1200 3 29 # CP12000 0 1

正しいもののように思えますが、3行29列なので、それらを見てみましょう：

maybe_ok <- sapply(x, function(x) isTRUE(all.equal(dim(x), c(3,29)))) codepages[maybe_ok] # CP1200 UCS-2LE UTF-16 UTF-16LE UTF16 UTF16LE # "CP1200" "UCS-2LE" "UTF-16" "UTF-16LE" "UTF16" "UTF16LE"

あなたもデータを見ることができます

x[maybe_ok]

ファイルについては、このエンコードはすべて同一のデータを返します（一部には冗長性があるため）。

特定のファイルがわからない場合は、ワークフローにいくつかの変更を加えてreadLinesを使用する必要があります（たとえば、fileEncodingは使用できません。lengthの代わりにdim _、正しいものを見つけるためにさらに魔法をかける）。

Enrique P&#233;rez Herrero · Answer

パッケージreadr、 https://cran.r-project.org/web/packages/readr/readr.pdf には、計算するguess_encodingという関数が含まれていますファイルがいくつかのエンコーディングでエンコードされる確率：

guess_encoding("your_file", n_max = 1000)

daroczig · Answer

最初に、ファイルのエンコードが何であるか、Rで実行できないこと（少なくとも私が知っている限り）を把握する必要があります。外部ツールを使用できます。 Perlから、pythonまたは例えばLinux/UNIXでのfileユーティリティ。

@ssmitが示唆したように、ここにUTF-16LE（Unicode）エンコーディングがあるため、このエンコーディングでファイルをロードし、readLinesを使用して最初の（たとえば）10行に何があるかを確認します。

> f <- file('encoding.asc', open="r", encoding="UTF-16LE") # UTF-16LE, which is "called" Unicode in Windows > readLines(f,10) [1] "	Fe 2	Zn	O	C	Si	Mn	P	S	Al	N	Cr	Ni	Mo	Cu	V	Nb 2	Ti	B	Zr	Ca	H	Co	Mg	Pb 2	W	Cl	Na 3	Ar" [2] "" [3] "0	0,003128	3,82E-05	0,0004196	0	0,001869	0,005836	0,004463	0,002861	0,02148	0	0,004768	0,0003052	0	0,0037	0,0391	0,06409	0,1157	0,004654	0	0	0	0,00824	7,63E-05	0,003891	0,004501	0	0,001335	0,01175" [4] "0,0005	0,003265	3,05E-05	0,0003662	0	0,001709	0,005798	0,004395	0,002808	0,02155	0	0,004578	0,0002441	0	0,003601	0,03897	0,06406	0,1158	0,0047	0	0	0	0,008026	6,10E-05	0,003876	0,004425	0	0,001343	0,01157" [5] "0,001	0,003332	2,54E-05	0,0003052	0	0,001704	0,005671	0,0044	0,002823	0,02164	0	0,004603	0,0003306	0	0,003611	0,03886	0,06406	0,1159	0,004705	0	0	0	0,008036	5,09E-05	0,003815	0,004501	0	0,001246	0,01155" [6] "0,0015	0,003313	2,18E-05	0,0002616	0	0,001678	0,005689	0,004447	0,002921	0,02171	0	0,004621	0,0003488	0	0,003597	0,03889	0,06404	0,1158	0,004752	0	0	0	0,008022	4,36E-05	0,003815	0,004578	0	0,001264	0,01144" [7] "0,002	0,003313	2,18E-05	0,0002834	0	0,001591	0,005646	0,00436	0,003008	0,0218	0	0,004643	0,0003488	0	0,003619	0,03895	0,06383	0,1159	0,004752	0	0	0	0,008	4,36E-05	0,003771	0,004643	0	0,001351	0,01142" [8] "0,0025	0,003488	2,18E-05	0,000218	0	0,001657	0,00558	0,004338	0,002986	0,02175	0	0,004469	0,0002616	0	0,00351	0,03889	0,06374	0,1159	0,004621	0	0	0	0,008131	4,36E-05	0,003771	0,004708	0	0,001243	0,01125" [9] "0,003	0,003619	0	0,0001526	0	0,001591	0,005668	0,004207	0,00303	0,02169	0	0,00449	0,0002834	0	0,00351	0,03874	0,06383	0,116	0,004665	0	0	0	0,007956	0	0,003749	0,004796	0	0,001286	0,01125" [10] "0,0035	0,003422	0	4,36E-05	0	0,001482	0,005711	0,004185	0,003292	0,02156	0	0,004665	0,0003488	0	0,003553	0,03852	0,06391	0,1158	0,004708	0	0	0	0,007717	0	0,003597	0,004905	0	0,00133	0,01136"

これから、ヘッダーがあり、2行目に空白行があることがわかります（read.table関数を使用してデフォルトでスキップされます）、区切り記号はと10進数です文字は,です。

> f <- file('encoding.asc', open="r", encoding="UTF-16LE") > df <- read.table(f, sep='	', dec=',', header=TRUE)

そして、私たちが持っているものを見てください：

> head(df) X Fe.2 Zn O C Si Mn P S 1 0.0000 0.003128 3.82e-05 0.0004196 0 0.001869 0.005836 0.004463 0.002861 2 0.0005 0.003265 3.05e-05 0.0003662 0 0.001709 0.005798 0.004395 0.002808 3 0.0010 0.003332 2.54e-05 0.0003052 0 0.001704 0.005671 0.004400 0.002823 4 0.0015 0.003313 2.18e-05 0.0002616 0 0.001678 0.005689 0.004447 0.002921 5 0.0020 0.003313 2.18e-05 0.0002834 0 0.001591 0.005646 0.004360 0.003008 6 0.0025 0.003488 2.18e-05 0.0002180 0 0.001657 0.005580 0.004338 0.002986 Al N Cr Ni Mo Cu V Nb.2 Ti B Zr 1 0.02148 0 0.004768 0.0003052 0 0.003700 0.03910 0.06409 0.1157 0.004654 0 2 0.02155 0 0.004578 0.0002441 0 0.003601 0.03897 0.06406 0.1158 0.004700 0 3 0.02164 0 0.004603 0.0003306 0 0.003611 0.03886 0.06406 0.1159 0.004705 0 4 0.02171 0 0.004621 0.0003488 0 0.003597 0.03889 0.06404 0.1158 0.004752 0 5 0.02180 0 0.004643 0.0003488 0 0.003619 0.03895 0.06383 0.1159 0.004752 0 6 0.02175 0 0.004469 0.0002616 0 0.003510 0.03889 0.06374 0.1159 0.004621 0 Ca H Co Mg Pb.2 W Cl Na.3 Ar 1 0 0 0.008240 7.63e-05 0.003891 0.004501 0 0.001335 0.01175 2 0 0 0.008026 6.10e-05 0.003876 0.004425 0 0.001343 0.01157 3 0 0 0.008036 5.09e-05 0.003815 0.004501 0 0.001246 0.01155 4 0 0 0.008022 4.36e-05 0.003815 0.004578 0 0.001264 0.01144 5 0 0 0.008000 4.36e-05 0.003771 0.004643 0 0.001351 0.01142 6 0 0 0.008131 4.36e-05 0.003771 0.004708 0 0.001243 0.01125

ElToro1966 · Answer

readr-packageの使用に加えて、stringi :: stri_enc_detect2。この関数は、ロケールが既知で、何らかの形式のUTFまたはASCIIを処理している場合に特に効率的です。 ".. itは（経験的に）stri_enc_detect2ICUベースの[stringi :: stri_enc_detectguess_encoding] UTF- *テキストが提供されている場合。」

stringi :: stri_enc_detectの詳細。

stringi :: stri_enc_detect2の詳細。

guess_encodingの変更要求