web-dev-qa-db-ja.com

NumPy配列のNaNを最も近い非NaN値に置き換えます

次のようなNumPy配列aがあります。

_>>> str(a)
'[        nan         nan         nan  1.44955726  1.44628034  1.44409573\n  1.4408188   1.43657094  1.43171624  1.42649744  1.42200684  1.42117704\n  1.42040255  1.41922908         nan         nan         nan         nan\n         nan         nan]'
_

各NaNを最も近い非NaN値に置き換えて、最初のすべてのNaNが_1.449..._に設定され、最後のすべてのNaNが_1.419..._に設定されるようにします。

このような特定の場合にこれを行う方法を見ることができますが、一般に、配列の最初と最後に任意の長さのNaNを使用して、任意の長さの配列に対してこれを実行できる必要があります(NaNはありません数字の真ん中)。何か案は?

NaNはnp.isnan()で簡単に見つけることができますが、各NaNに最も近い値を取得する方法を理解できません。

19
robintw

各NaNを最も近い非NaN値に置き換えたい...数字の中央にNaNはありません

以下はそれを行います:

ind = np.where(~np.isnan(a))[0]
first, last = ind[0], ind[-1]
a[:first] = a[first]
a[last + 1:] = a[last]

これは、Pythonループ、再帰、リスト内包表記などを必要としない、まっすぐなnumpyソリューションです。

20
NPE

別の解決策として(これは、中央の配列NaNsも線形補間します):

import numpy as np

# Generate data...
data = np.random.random(10)
data[:2] = np.nan
data[-1] = np.nan
data[4:6] = np.nan

print data

# Fill in NaN's...
mask = np.isnan(data)
data[mask] = np.interp(np.flatnonzero(mask), np.flatnonzero(~mask), data[~mask])

print data

これにより、次のようになります。

[        nan         nan  0.31619306  0.25818765         nan         nan
  0.27410025  0.23347532  0.02418698         nan]

[ 0.31619306  0.31619306  0.31619306  0.25818765  0.26349185  0.26879605
  0.27410025  0.23347532  0.02418698  0.02418698]
37
Joe Kington

NaNsには、それ自体とは異なるものを比較するという興味深い特性があるため、非nan要素のインデックスをすばやく見つけることができます。

idx = np.nonzero(a==a)[0]

これで、nanを目的の値に簡単に置き換えることができます。

for i in range(0, idx[0]):
    a[i]=a[idx[0]]
for i in range(idx[-1]+1, a.size)
    a[i]=a[idx[-1]]

最後に、これを関数に入れることができます。

import numpy as np

def FixNaNs(arr):
    if len(arr.shape)>1:
        raise Exception("Only 1D arrays are supported.")
    idxs=np.nonzero(arr==arr)[0]

    if len(idxs)==0:
        return None

    ret=arr

    for i in range(0, idxs[0]):
        ret[i]=ret[idxs[0]]

    for i in range(idxs[-1]+1, ret.size):
        ret[i]=ret[idxs[-1]]

    return ret

編集

痛い、C++から来て、私はいつもリスト範囲を忘れています... @aixのソリューションは、私のC++のループよりもはるかにエレガントで効率的です、私の代わりにそれを使用してください。

4
Matteo Italia

再帰的な解決策!

def replace_leading_NaN(a, offset=0):
    if a[offset].isNaN():
        new_value = replace_leading_NaN(a, offset + 1)
        a[offset] = new_value
        return new_value
    else:
        return a[offset]

def replace_trailing_NaN(a, offset=-1):
    if a[offset].isNaN():
        new_value = replace_trailing_NaN(a, offset - 1)
        a[offset] = new_value
        return new_value
    else:
        return a[offset]
1
Taymon

私は問題に遭遇し、散在するNaNのカスタムソリューションを見つけなければなりませんでした。以下の関数は、NaNを右側の最初の数字に置き換えます。存在しない場合は、左側の最初の数字に置き換えます。それを境界発生の平均に置き換えるために、さらに操作を行うことができます。

import numpy as np

Data = np.array([np.nan,1.3,np.nan,1.4,np.nan,np.nan])

nansIndx = np.where(np.isnan(Data))[0]
isanIndx = np.where(~np.isnan(Data))[0]
for nan in nansIndx:
    replacementCandidates = np.where(isanIndx>nan)[0]
    if replacementCandidates.size != 0:
        replacement = Data[isanIndx[replacementCandidates[0]]]
    else:
        replacement = Data[isanIndx[np.where(isanIndx<nan)[0][-1]]]
    Data[nan] = replacement

結果は次のとおりです。

>>> Data
array([ 1.3,  1.3,  1.4,  1.4,  1.4,  1.4])
1
user7769718

単純なpythonイテレータを使用したソリューションを次に示します。特に大きな配列の場合、実際にはnumpy.whereよりも効率的です!同様のコードの比較を参照してください ここ

import numpy as np

a = np.array([np.NAN, np.NAN, np.NAN, 1.44955726, 1.44628034, 1.44409573, 1.4408188, 1.43657094, 1.43171624,  1.42649744, 1.42200684, 1.42117704, 1.42040255, 1.41922908, np.NAN, np.NAN, np.NAN, np.NAN, np.NAN, np.NAN])

mask = np.isfinite(a)

# get first value in list
for i in range(len(mask)):
    if mask[i]:
        first = i
        break

# get last vaue in list
for i in range(len(mask)-1, -1, -1):
    if mask[i]:
        last = i
        break

# fill NaN with near known value on the edges
a = np.copy(a)
a[:first] = a[first]
a[last + 1:] = a[last]

print(a)

出力:

[1.44955726 1.44955726 1.44955726 1.44955726 1.44628034 1.44409573
 1.4408188  1.43657094 1.43171624 1.42649744 1.42200684 1.42117704
 1.42040255 1.41922908 1.41922908 1.41922908 1.41922908 1.41922908
 1.41922908 1.41922908]

ここで要求されたように、最初と最後のNaNのみを置き換えます。

0
davidak

私はこのようなものを手に入れました

i = [i for i in range(len(a)) if not np.isnan(a[i])]
a = [a[i[0]] if x < i[0] else (a[i[-1]] if x > i[-1] else a[x]) for x in range(len(a))]

2行に分割されており、そのうちの1つにある場合はインラインでネストされているため、少し不格好です。

0
ameer