CSVファイルに変換したいJSONファイルがあります。 Pythonでこれを行うにはどうすればいいですか?
私は試した:
import json
import csv
f = open('data.json')
data = json.load(f)
f.close()
f = open('data.csv')
csv_file = csv.writer(f)
for item in data:
f.writerow(item)
f.close()
しかし、うまくいきませんでした。私はDjangoを使用していますが、受け取ったエラーは次のとおりです。
file' object has no attribute 'writerow'
それで、それから私は以下を試みました:
import json
import csv
f = open('data.json')
data = json.load(f)
f.close()
f = open('data.csv')
csv_file = csv.writer(f)
for item in data:
csv_file.writerow(item)
f.close()
それから私はエラーを得ます:
sequence expected
サンプルjsonファイル:
[
{
"pk": 22,
"model": "auth.permission",
"fields": {
"codename": "add_logentry",
"name": "Can add log entry",
"content_type": 8
}
},
{
"pk": 23,
"model": "auth.permission",
"fields": {
"codename": "change_logentry",
"name": "Can change log entry",
"content_type": 8
}
},
{
"pk": 24,
"model": "auth.permission",
"fields": {
"codename": "delete_logentry",
"name": "Can delete log entry",
"content_type": 8
}
},
{
"pk": 4,
"model": "auth.permission",
"fields": {
"codename": "add_group",
"name": "Can add group",
"content_type": 2
}
},
{
"pk": 10,
"model": "auth.permission",
"fields": {
"codename": "add_message",
"name": "Can add message",
"content_type": 4
}
}
]
この問題がすでに解決されているかどうかはわかりませんが、参考のために行ったことを貼り付けてみましょう。
まず、JSONにはオブジェクトがネストされているため、通常は直接CSVに変換することはできません。これを次のように変更する必要があります。
{
"pk": 22,
"model": "auth.permission",
"codename": "add_logentry",
"content_type": 8,
"name": "Can add log entry"
},
......]
これからCSVを生成するためのコードは次のとおりです。
import csv
import json
x = """[
{
"pk": 22,
"model": "auth.permission",
"fields": {
"codename": "add_logentry",
"name": "Can add log entry",
"content_type": 8
}
},
{
"pk": 23,
"model": "auth.permission",
"fields": {
"codename": "change_logentry",
"name": "Can change log entry",
"content_type": 8
}
},
{
"pk": 24,
"model": "auth.permission",
"fields": {
"codename": "delete_logentry",
"name": "Can delete log entry",
"content_type": 8
}
}
]"""
x = json.loads(x)
f = csv.writer(open("test.csv", "wb+"))
# Write CSV Header, If you dont need that, remove this line
f.writerow(["pk", "model", "codename", "name", "content_type"])
for x in x:
f.writerow([x["pk"],
x["model"],
x["fields"]["codename"],
x["fields"]["name"],
x["fields"]["content_type"]])
次のように出力されます。
pk,model,codename,name,content_type
22,auth.permission,add_logentry,Can add log entry,8
23,auth.permission,change_logentry,Can change log entry,8
24,auth.permission,delete_logentry,Can delete log entry,8
私はあなたのJSONファイルが辞書のリストにデコードされると仮定しています。まず、JSONオブジェクトを平坦化する関数が必要です。
def flattenjson( b, delim ):
val = {}
for i in b.keys():
if isinstance( b[i], dict ):
get = flattenjson( b[i], delim )
for j in get.keys():
val[ i + delim + j ] = get[j]
else:
val[i] = b[i]
return val
あなたのJSONオブジェクトでこのスニペットを実行した結果:
flattenjson( {
"pk": 22,
"model": "auth.permission",
"fields": {
"codename": "add_message",
"name": "Can add message",
"content_type": 8
}
}, "__" )
です
{
"pk": 22,
"model": "auth.permission',
"fields__codename": "add_message",
"fields__name": "Can add message",
"fields__content_type": 8
}
この関数をJSONオブジェクトの入力配列の各辞書に適用した後:
input = map( lambda x: flattenjson( x, "__" ), input )
そして、関連する列名を見つけます。
columns = [ x for row in input for x in row.keys() ]
columns = list( set( columns ) )
これをcsvモジュールで実行するのは難しくありません。
with open( fname, 'wb' ) as out_file:
csv_w = csv.writer( out_file )
csv_w.writerow( columns )
for i_r in input:
csv_w.writerow( map( lambda x: i_r.get( x, "" ), columns ) )
これが役に立つことを願っています!
pandas
library 、を使うと、2つのコマンドを使うのと同じくらい簡単です!
pandas.read_json()
JSON文字列をパンダオブジェクト(シリーズまたはデータフレーム)に変換します。次に、結果がdf
として格納されているとします。
df.to_csv()
これは文字列を返すか、csvファイルに直接書き込むことができます。
前回の回答の冗長性に基づいて、ショートカットのパンダに感謝します。
JSONは多種多様なデータ構造を表すことができます。JSの "オブジェクト"はPythonの辞書(文字列キーを含む)に大体似ています。JSの "配列"はPythonのリストに大体似ています。 leaf "要素は数字か文字列です。
CSVは基本的に2-Dテーブルのみを表すことができます - オプションで "ヘッダー"の最初の行、つまり "列名"を使用すると、通常の解釈ではなく辞書のリストとしてテーブルを解釈できます。リスト(やはり、「リーフ」要素は数値または文字列になります)。
そのため、一般的な場合では、任意のJSON構造をCSVに変換することはできません。いくつかの特殊なケースでは、(それ以上ネストしない配列の配列、すべて同じキーを持つオブジェクトの配列)できます。もしあれば、あなたの問題に当てはまる特別なケースはどれですか。解決策の詳細は、どの特別な場合を持っているかによって異なります。あなたがどれが当てはまるかについてさえ言及していないという驚くべき事実を考えれば、私はあなたが制約を考慮しなかったかもしれず、実際にはどちらの場合も当てはまらず、そしてあなたの問題を解決することは不可能です。しかし明確にしてください!
flatオブジェクトの任意のJSONリストをcsvに変換する一般的な解決策。
コマンドラインの最初の引数としてinput.jsonファイルを渡します。
import csv, json, sys
input = open(sys.argv[1])
data = json.load(input)
input.close()
output = csv.writer(sys.stdout)
output.writerow(data[0].keys()) # header row
for row in data:
output.writerow(row.values())
あなたのJSONデータがdata.json
と呼ばれるファイルにあると仮定すれば、このコードはあなたのために働くべきです。
import json
import csv
with open("data.json") as file:
data = json.load(file)
with open("data.csv", "w") as file:
csv_file = csv.writer(file)
for item in data:
csv_file.writerow([item['pk'], item['model']] + item['fields'].values())
csv.DictWriter()
を使いやすくなるでしょう、詳細な実装は以下のようになります。
def read_json(filename):
return json.loads(open(filename).read())
def write_csv(data,filename):
with open(filename, 'w+') as outf:
writer = csv.DictWriter(outf, data[0].keys())
writer.writeheader()
for row in data:
writer.writerow(row)
# implement
write_csv(read_json('test.json'), 'output.csv')
これはすべてのJSONオブジェクトが同じフィールドを持つことを前提としていることに注意してください。
これが 参照 です。
私は Danが提案した解決策 で問題を抱えていました、しかしこれは私のために働きました:
import json
import csv
f = open('test.json')
data = json.load(f)
f.close()
f=csv.writer(open('test.csv','wb+'))
for item in data:
f.writerow([item['pk'], item['model']] + item['fields'].values())
"test.json"には次のものが含まれています。
[
{"pk": 22, "model": "auth.permission", "fields":
{"codename": "add_logentry", "name": "Can add log entry", "content_type": 8 } },
{"pk": 23, "model": "auth.permission", "fields":
{"codename": "change_logentry", "name": "Can change log entry", "content_type": 8 } }, {"pk": 24, "model": "auth.permission", "fields":
{"codename": "delete_logentry", "name": "Can delete log entry", "content_type": 8 } }
]
前の回答で述べたように、jsonをcsvに変換することの難しさは、jsonファイルが入れ子になった辞書を含むことができ、それゆえ多次元データ構造対2Dデータ構造であるcsvであることができるからです。しかし、多次元構造をcsvに変換するための良い方法は、主キーと結びつく複数のcsvを持つことです。
あなたの例では、最初のcsv出力はあなたの列として列 "pk"、 "モデル"、 "フィールド"を持っています。 "pk"と "model"の値は簡単に取得できますが、 "fields"列にはディクショナリが含まれているため、それは独自のcsvでなければならず、 "codename"が主キーとして表示されるので最初のcsvを完成させるために "fields"を使います。 2番目のcsvには、2つのcsvを結び付けるために使用できる主キーとしてcodenameを持つ "fields"列の辞書が含まれています。
これは、入れ子になった辞書を2 csvに変換するjsonファイルの解決策です。
import csv
import json
def readAndWrite(inputFileName, primaryKey=""):
input = open(inputFileName+".json")
data = json.load(input)
input.close()
header = set()
if primaryKey != "":
outputFileName = inputFileName+"-"+primaryKey
if inputFileName == "data":
for i in data:
for j in i["fields"].keys():
if j not in header:
header.add(j)
else:
outputFileName = inputFileName
for i in data:
for j in i.keys():
if j not in header:
header.add(j)
with open(outputFileName+".csv", 'wb') as output_file:
fieldnames = list(header)
writer = csv.DictWriter(output_file, fieldnames, delimiter=',', quotechar='"')
writer.writeheader()
for x in data:
row_value = {}
if primaryKey == "":
for y in x.keys():
yValue = x.get(y)
if type(yValue) == int or type(yValue) == bool or type(yValue) == float or type(yValue) == list:
row_value[y] = str(yValue).encode('utf8')
Elif type(yValue) != dict:
row_value[y] = yValue.encode('utf8')
else:
if inputFileName == "data":
row_value[y] = yValue["codename"].encode('utf8')
readAndWrite(inputFileName, primaryKey="codename")
writer.writerow(row_value)
Elif primaryKey == "codename":
for y in x["fields"].keys():
yValue = x["fields"].get(y)
if type(yValue) == int or type(yValue) == bool or type(yValue) == float or type(yValue) == list:
row_value[y] = str(yValue).encode('utf8')
Elif type(yValue) != dict:
row_value[y] = yValue.encode('utf8')
writer.writerow(row_value)
readAndWrite("data")
私はこの質問がされてから長い時間が経ったことを知っています、しかし私は私が他のみんなの答えに加えて、私が非常に簡潔な方法で説明すると思うブログ記事を共有するかもしれないと思った。
これが link です
employ_data = open('/tmp/EmployData.csv', 'w')
csvwriter = csv.writer(employ_data)
count = 0
for emp in emp_data:
if count == 0:
header = emp.keys()
csvwriter.writerow(header)
count += 1
csvwriter.writerow(emp.values())
employ_data.close()
これを解決するための私の簡単な方法:
Json_to_csv.pyのような新しいPythonファイルを作成してください。
このコードを追加:
import csv, json, sys
#if you are not using utf-8 files, remove the next line
sys.setdefaultencoding("UTF-8")
#check if you pass the input file and output file
if sys.argv[1] is not None and sys.argv[2] is not None:
fileInput = sys.argv[1]
fileOutput = sys.argv[2]
inputFile = open(fileInput)
outputFile = open(fileOutput, 'w')
data = json.load(inputFile)
inputFile.close()
output = csv.writer(outputFile)
output.writerow(data[0].keys()) # header row
for row in data:
output.writerow(row.values())
このコードを追加したら、ファイルを保存して端末で実行します。
python json_to_csv.py input.txt output.csv
これがお役に立てば幸いです。
SEEYA!
それはそれを行うための非常に賢い方法ではありませんが、私は同じ問題を抱えており、これは私のために働いた:
import csv
f = open('data.json')
data = json.load(f)
f.close()
new_data = []
for i in data:
flat = {}
names = i.keys()
for n in names:
try:
if len(i[n].keys()) > 0:
for ii in i[n].keys():
flat[n+"_"+ii] = i[n][ii]
except:
flat[n] = i[n]
new_data.append(flat)
f = open(filename, "r")
writer = csv.DictWriter(f, new_data[0].keys())
writer.writeheader()
for row in new_data:
writer.writerow(row)
f.close()
これは比較的うまくいきます。それはcsvファイルにそれを書くためにjsonを平らにします。入れ子になった要素は管理されます:)
これはpython 3用です
import json
o = json.loads('your json string') # Be careful, o must be a list, each of its objects will make a line of the csv.
def flatten(o, k='/'):
global l, c_line
if isinstance(o, dict):
for key, value in o.items():
flatten(value, k + '/' + key)
Elif isinstance(o, list):
for ov in o:
flatten(ov, '')
Elif isinstance(o, str):
o = o.replace('\r',' ').replace('\n',' ').replace(';', ',')
if not k in l:
l[k]={}
l[k][c_line]=o
def render_csv(l):
ftime = True
for i in range(100): #len(l[list(l.keys())[0]])
for k in l:
if ftime :
print('%s;' % k, end='')
continue
v = l[k]
try:
print('%s;' % v[i], end='')
except:
print(';', end='')
print()
ftime = False
i = 0
def json_to_csv(object_list):
global l, c_line
l = {}
c_line = 0
for ov in object_list : # Assumes json is a list of objects
flatten(ov)
c_line += 1
render_csv(l)
json_to_csv(o)
楽しい。
import json,csv
t=''
t=(type('a'))
json_data = []
data = None
write_header = True
item_keys = []
try:
with open('kk.json') as json_file:
json_data = json_file.read()
data = json.loads(json_data)
except Exception as e:
print( e)
with open('bar.csv', 'at') as csv_file:
writer = csv.writer(csv_file)#, quoting=csv.QUOTE_MINIMAL)
for item in data:
item_values = []
for key in item:
if write_header:
item_keys.append(key)
value = item.get(key, '')
if (type(value)==t):
item_values.append(value.encode('utf-8'))
else:
item_values.append(value)
if write_header:
writer.writerow(item_keys)
write_header = False
writer.writerow(item_values)
アレックの答え は素晴らしいですが、複数レベルのネストがある場合には機能しません。これは、複数レベルのネストをサポートする修正バージョンです。また、ネストされたオブジェクトが既に独自のキー(例:Firebase Analytics/BigTable/BigQuery data)を指定している場合、ヘッダー名が少しわかりやすくなります:
"""Converts JSON with nested fields into a flattened CSV file.
"""
import sys
import json
import csv
import os
import jsonlines
from orderedset import OrderedSet
# from https://stackoverflow.com/a/28246154/473201
def flattenjson( b, prefix='', delim='/', val=None ):
if val == None:
val = {}
if isinstance( b, dict ):
for j in b.keys():
flattenjson(b[j], prefix + delim + j, delim, val)
Elif isinstance( b, list ):
get = b
for j in range(len(get)):
key = str(j)
# If the nested data contains its own key, use that as the header instead.
if isinstance( get[j], dict ):
if 'key' in get[j]:
key = get[j]['key']
flattenjson(get[j], prefix + delim + key, delim, val)
else:
val[prefix] = b
return val
def main(argv):
if len(argv) < 2:
raise Error('Please specify a JSON file to parse')
filename = argv[1]
allRows = []
fieldnames = OrderedSet()
with jsonlines.open(filename) as reader:
for obj in reader:
#print obj
flattened = flattenjson(obj)
#print 'keys: %s' % flattened.keys()
fieldnames.update(flattened.keys())
allRows.append(flattened)
outfilename = filename + '.csv'
with open(outfilename, 'w') as file:
csvwriter = csv.DictWriter(file, fieldnames=fieldnames)
csvwriter.writeheader()
for obj in allRows:
csvwriter.writerow(obj)
if __== '__main__':
main(sys.argv)
これを試して
import csv, json, sys
input = open(sys.argv[1])
data = json.load(input)
input.close()
output = csv.writer(sys.stdout)
output.writerow(data[0].keys()) # header row
for item in data:
output.writerow(item.values())
内部のリストでJSONをサポートするためのAlec McGailの答えを修正
def flattenjson(self, mp, delim="|"):
ret = []
if isinstance(mp, dict):
for k in mp.keys():
csvs = self.flattenjson(mp[k], delim)
for csv in csvs:
ret.append(k + delim + csv)
Elif isinstance(mp, list):
for k in mp:
csvs = self.flattenjson(k, delim)
for csv in csvs:
ret.append(csv)
else:
ret.append(mp)
return ret
ありがとうございます。
あなたはJSONファイルをCSVファイルに変換するためにこのコードを使用することができます。
import os
import pandas as pd
import json
import numpy as np
data = []
os.chdir('D:\\Your_directory\\folder')
with open('file_name.json', encoding="utf8") as data_file:
for line in data_file:
data.append(json.loads(line))
dataframe = pd.DataFrame(data)
## Saving the dataframe to a csv file
dataframe.to_csv("filename.csv", encoding='utf-8',index= False)
このコードは任意のJSONファイルに対して機能します。
# -*- coding: utf-8 -*-
"""
Created on Mon Jun 17 20:35:35 2019
author: Ram
"""
import json
import csv
with open("file1.json") as file:
data = json.load(file)
# create the csv writer object
pt_data1 = open('pt_data1.csv', 'w')
csvwriter = csv.writer(pt_data1)
count = 0
for pt in data:
if count == 0:
header = pt.keys()
csvwriter.writerow(header)
count += 1
csvwriter.writerow(pt.values())
pt_data1.close()
驚いたことに、ここに投稿された答えのどれもすべての可能なシナリオ(例えば、入れ子にされた辞書、入れ子にされたリスト、なしの値など)を正しく扱っていないことがわかりました。
このソリューションはすべてのシナリオで機能します。
def flatten_json(json):
def process_value(keys, value, flattened):
if isinstance(value, dict):
for key in value.keys():
process_value(keys + [key], value[key], flattened)
Elif isinstance(value, list):
for idx, v in enumerate(value):
process_value(keys + [str(idx)], v, flattened)
else:
flattened['__'.join(keys)] = value
flattened = {}
for key in json.keys():
process_value([key], json[key], flattened)
return flattened
データは辞書形式になっているように見えるので、適切なヘッダー情報を含む行を実際に出力するには、実際にはcsv.DictWriter()を使用する必要があります。これにより、変換をより簡単に処理できるようになります。その後、fieldnamesパラメータは、最初の行の出力がcsv.DictReader()による読み取りおよび処理を可能にするようにしながら、順序を正しく設定します。
たとえば、Mike Repassを使用した
output = csv.writer(sys.stdout)
output.writerow(data[0].keys()) # header row
for row in data:
output.writerow(row.values())
ただし、初期設定をoutput = csv.DictWriter(filesetting、fieldnames = data [0] .keys())に変更するだけです。
辞書内の要素の順序は定義されていないため、フィールド名エントリを明示的に作成する必要があるかもしれません。あなたがそうすれば、作家は働きます。その後、書き込みは最初に示したように機能します。
残念ながら、私は素晴らしい@Alec McGailの答えに少し貢献するという評判を得ていません。私はPython3を使用していたので、@ Alexis Rのコメントに従って、マップをリストに変換する必要がありました。
さらに私は、csv作成者がファイルに余分なCRを追加していることを発見しました(csvファイルの中にデータがある各行に空の行があります)。このスレッドに対する@Jason R. Coombsの回答に従うと、解決策は非常に簡単でした。 PythonのCSVでは、余分なキャリッジリターンが追加されています
Csv.writerにlineterminator = '\ n'パラメータを追加するだけです。それは次のようになります。csv_w = csv.writer( out_file, lineterminator='\n' )