そのため、このウィキペディアのダンプには約10GBのサイズがあり、「enwiki-latest-pages-articles.xml.bz2」という名前が付けられています。ダンプを解凍するために、ターミナルで次のコマンドを試しました。
tar jxf enwiki-latest-pages-articles.xml.bz2
そして
tar xvf enwiki-latest-pages-articles.xml.bz2
ただし、どちらも次のエラーを返します
tar: This does not look like a tar archive
tar: Skipping to next header
アーカイブは.tar。*ファイルではないため、tar
コマンドは使用できません。 bzip2ファイルを圧縮解除するには、次のコマンドを使用します(これにより、元の.bz2ファイルは保持されません)。
bzip2 -d enwiki-latest-pages-articles.xml.bz2
抽出して元のファイルを保持する場合は、次のコマンドを実行します。
bzip2 -dk enwiki-latest-pages-articles.xml.bz2
ソース: https://superuser.com/questions/480950/how-to-decompress-a-bz2-file
bunzip2
を使用するだけです:
bunzip2 enwiki-latest-pages-articles.xml.bz2
gzip
圧縮ファイルの場合:
gunzip enwiki-latest-pages-articles.xml.gz