次のようなJsonファイルがあります。それは辞書のリストです。
[{"city": "ab", "trips": 4, "date": "2014-01-25", "value": 4.7, "price": 1.1, "request_date": "2014-06-17", "medium": "iPhone", "%price": 15.4, "type": true, "Weekly_pct": 46.2, "avg_dist": 3.67, "avg_price": 5.0}, {"city": "bc", "trips": 0, "date": "2014-01-29", "value": 5.0, "price": 1.0, "request_date": "2014-05-05", "medium": "Android", "%price": 0.0, "type": false, "weekly_pct": 50.0, "avg_dist": 8.26, "avg_price": 5.0}.....]
これを使用してこれを読んだとき:
data=pd.read_json('dataset.json')
次のエラーが表示されます。
ValueError:期待されるオブジェクトまたは値
私もこれを試しました:
from ast import literal_eval
with open('dataset.json') as f:
data = literal_eval(f.read())
df = pd.DataFrame(data)
次のエラーが発生します。
ValueError:不正な形式の文字列
編集:
Json.loadsでさえ機能しません。これを試しました:
import json
data=json.loads('dataset.json')
ValueError:JSONオブジェクトをデコードできませんでした
Jsonファイルは13.5MBですが、大量のデータがあるようです。
モジュラーjson
を使用して読み取りfile.json
その後 DataFrame constructor
:
import pandas as pd
import json
with open('file.json') as f:
data = json.load(f)
print data
[{u'city': u'ab', u'medium': u'iPhone', u'request_date': u'2014-06-17', u'price': 1.1, u'Weekly_pct': 46.2, u'value': 4.7, u'%price': 15.4, u'avg_price': 5.0, u'date': u'2014-01-25', u'avg_dist': 3.67, u'type': True, u'trips': 4}, {u'city': u'bc', u'medium': u'Android', u'request_date': u'2014-05-05', u'price': 1.0, u'weekly_pct': 50.0, u'value': 5.0, u'%price': 0.0, u'avg_price': 5.0, u'date': u'2014-01-29', u'avg_dist': 8.26, u'type': False, u'trips': 0}]
print pd.DataFrame(data)
%price Weekly_pct avg_dist avg_price city date medium price \
0 15.4 46.2 3.67 5.0 ab 2014-01-25 iPhone 1.1
1 0.0 NaN 8.26 5.0 bc 2014-01-29 Android 1.0
request_date trips type value weekly_pct
0 2014-06-17 4 True 4.7 NaN
1 2014-05-05 0 False 5.0 50.0
あなたはPandasに「レコード」フォーマット(JSONが辞書のリストのように表示される)がdatasets.json
。
res = pd.read_json('input/dataset.json', orient='records')
print(res.iloc[:, :5])
%price Weekly_pct avg_dist avg_price city
0 15.4 46.2 3.67 5 ab
1 0.0 NaN 8.26 5 bc
同じエラーが発生しました。ファイルが見つかりませんでした。パスを変更し、pd.read_json
は正常に機能しました。 json.loads
に関しては、 this が役立つ場合があります。
Pd.read_jsonが失敗したとき、次のように機能しました。ファイルを開き、通常のjson.loadでロードしてから、pandasデータフレームにロードします。
import pandas as pd
import json
openfile=open('file.json')
jsondata=json.load(openfile)
df=pd.DataFrame(jsondata)
openfile.close()
print(df)