describe()
関数のみを認識しています。 str()
、summary()
、およびhead()
に類似した他の関数はありますか?
summary()
〜describe()
head()
〜head()
str()
に相当するものについてはわかりません。
In pandas info()
メソッドは、Rのstr()
のような非常によく似た出力を作成します。
> str(train)
'data.frame': 891 obs. of 13 variables:
$ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ...
$ Survived : int 0 1 1 1 0 0 0 0 1 1 ...
$ Pclass : int 3 1 3 1 3 3 1 3 3 2 ...
$ Name : Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 191 358 277 16 559 520 629 417 581 ...
$ Sex : Factor w/ 2 levels "female","male": 2 1 1 1 2 2 2 2 1 1 ...
$ Age : num 22 38 26 35 35 NA 54 2 27 14 ...
$ SibSp : int 1 1 0 1 0 0 0 3 0 1 ...
$ Parch : int 0 0 0 0 0 0 0 1 2 0 ...
$ Ticket : Factor w/ 681 levels "110152","110413",..: 524 597 670 50 473 276 86 396 345 133 ...
$ Fare : num 7.25 71.28 7.92 53.1 8.05 ...
$ Cabin : Factor w/ 148 levels "","A10","A14",..: 1 83 1 57 1 1 131 1 1 1 ...
$ Embarked : Factor w/ 4 levels "","C","Q","S": 4 2 4 4 4 3 4 4 4 2 ...
$ Child : num 0 0 0 0 0 NA 0 1 0 1 ...
train.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Sex 891 non-null object
Age 714 non-null float64
SibSp 891 non-null int64
Parch 891 non-null int64
Ticket 891 non-null object
Fare 891 non-null float64
Cabin 204 non-null object
Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB
これにより、Rのstr()
に類似した出力が提供されます。初期値の代わりに一意の値を提示します。
def rstr(df): return df.shape, df.apply(lambda x: [x.unique()])
print(rstr(iris))
((150, 5), sepal_length [[5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.4, 4.8, 4.3,...
sepal_width [[3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 2.9, 3.7,...
petal_length [[1.4, 1.3, 1.5, 1.7, 1.6, 1.1, 1.2, 1.0, 1.9,...
petal_width [[0.2, 0.4, 0.3, 0.1, 0.5, 0.6, 1.4, 1.5, 1.3,...
class [[Iris-setosa, Iris-versicolor, Iris-virginica]]
dtype: object)
パンダは、広範囲にわたる R/Rライブラリとの比較 を提供します。最も明らかな違いは、Rは関数型プログラミングを好みますが、Pandasはオブジェクト指向で、データフレームをキーオブジェクトとして使用することです。RとPython that Pythonは配列を0から開始しますが、Rは1から開始します。
R | Pandas
-------------------------------
summary(df) | df.describe()
head(df) | df.head()
dim(df) | df.shape
slice(df, 1:10) | df.iloc[:9]
Rのstr()
関数に相当するPython)では、dtypes
メソッドを使用します。これにより、各列のデータ型が提供されます。
In [22]: df2.dtypes
Out[22]:
Survived int64
Pclass int64
Sex object
Age float64
SibSp int64
Parch int64
Ticket object
Fare float64
Cabin object
Embarked object
dtype: object
いくつかの例をリストしているので、str()
は今でも好きです。 info
の紛らわしい点は、その動作がpandas.options.display.max_info_columns
などの環境設定に依存することです。
最良の代替案は、固定動作を強制する他のパラメーターを使用してinfo
を呼び出すことです。
df.info(null_counts=True, verbose=True)
そして、あなたの他の機能のために:
summary(df) | df.describe()
head(df) | df.head()
dim(df) | df.shape
Rについてはあまり知りませんが、ここにいくつかのリードがあります。
str =>
難しいもの... dir()を使用できる関数の場合、データセットでdir()を使用するとすべてのメソッドが提供されるので、多分それは望んでいないことです...
summary => describe.
結果をカスタマイズするには、パラメーターを参照してください。
head => your can use head(), or use slices.
すでにあなたのように頭。 ds ds[:10]
というデータセットの最初の10行を取得するには、tail ds[:-10]
と同じ