numpy配列のNaN値を前方に埋める最も効率的な方法

Question

問題の例

簡単な例として、以下に定義されているnumpy配列arrを考えます。

import numpy as np arr = np.array([[5, np.nan, np.nan, 7, 2], [3, np.nan, 1, 8, np.nan], [4, 9, 6, np.nan, np.nan]])

コンソール出力では、arrは次のようになります。

array([[ 5., nan, nan, 7., 2.], [ 3., nan, 1., 8., nan], [ 4., 9., 6., nan, nan]])

配列nanのarrの値を行ごとに「フォワードフィル」したいと思います。つまり、各nan値を左から最も近い有効な値に置き換えることを意味します。望ましい結果は次のようになります。

array([[ 5., 5., 5., 7., 2.], [ 3., 3., 1., 8., 8.], [ 4., 9., 6., 6., 6.]])

これまで試しました

Forループを使用してみました：

for row_idx in range(arr.shape[0]): for col_idx in range(arr.shape[1]): if np.isnan(arr[row_idx][col_idx]): arr[row_idx][col_idx] = arr[row_idx][col_idx - 1]

また、中間ステップとしてpandasデータフレームを使用しようとしました（pandasデータフレームには、前方充填のための非常にきちんとした組み込みメソッドがあるため）：

import pandas as pd df = pd.DataFrame(arr) df.fillna(method='ffill', axis=1, inplace=True) arr = df.as_matrix()

上記の戦略はどちらも望ましい結果を生み出しますが、私は疑問を抱き続けます：numpyベクトル化された操作のみを使用する戦略は最も効率的なものではないでしょうか？

概要

Numpy配列のnan値を「フォワードフィル」するための別のより効率的な方法はありますか？（たとえば、numpyのベクトル化された操作を使用して）

更新：ソリューションの比較

これまでのところ、すべてのソリューションの時間を測ろうとしました。これが私のセットアップスクリプトです。

import numba as nb import numpy as np import pandas as pd def random_array(): choices = [1, 2, 3, 4, 5, 6, 7, 8, 9, np.nan] out = np.random.choice(choices, size=(1000, 10)) return out def loops_fill(arr): out = arr.copy() for row_idx in range(out.shape[0]): for col_idx in range(1, out.shape[1]): if np.isnan(out[row_idx, col_idx]): out[row_idx, col_idx] = out[row_idx, col_idx - 1] return out @nb.jit def numba_loops_fill(arr): '''Numba decorator solution provided by shx2.''' out = arr.copy() for row_idx in range(out.shape[0]): for col_idx in range(1, out.shape[1]): if np.isnan(out[row_idx, col_idx]): out[row_idx, col_idx] = out[row_idx, col_idx - 1] return out def pandas_fill(arr): df = pd.DataFrame(arr) df.fillna(method='ffill', axis=1, inplace=True) out = df.as_matrix() return out def numpy_fill(arr): '''Solution provided by Divakar.''' mask = np.isnan(arr) idx = np.where(~mask,np.arange(mask.shape[1]),0) np.maximum.accumulate(idx,axis=1, out=idx) out = arr[np.arange(idx.shape[0])[:,None], idx] return out

このコンソール入力が続きます：

%timeit -n 1000 loops_fill(random_array()) %timeit -n 1000 numba_loops_fill(random_array()) %timeit -n 1000 pandas_fill(random_array()) %timeit -n 1000 numpy_fill(random_array())

このコンソール出力になります：

1000 loops, best of 3: 9.64 ms per loop 1000 loops, best of 3: 377 µs per loop 1000 loops, best of 3: 455 µs per loop 1000 loops, best of 3: 351 µs per loop

Divakar · Accepted Answer

ここに一つのアプローチがあります-

mask = np.isnan(arr) idx = np.where(~mask,np.arange(mask.shape[1]),0) np.maximum.accumulate(idx,axis=1, out=idx) out = arr[np.arange(idx.shape[0])[:,None], idx]

別の配列を作成せずに、NaNをarr自体に入力したくない場合は、最後の手順をこれに置き換えます-

arr[mask] = arr[np.nonzero(mask)[0], idx[mask]]

サンプル入力、出力-

In [179]: arr Out[179]: array([[ 5., nan, nan, 7., 2., 6., 5.], [ 3., nan, 1., 8., nan, 5., nan], [ 4., 9., 6., nan, nan, nan, 7.]]) In [180]: out Out[180]: array([[ 5., 5., 5., 7., 2., 6., 5.], [ 3., 3., 1., 8., 8., 5., 5.], [ 4., 9., 6., 6., 6., 6., 7.]])

shx2 · Answer

Numba を使用します。これにより、大幅に高速化されます。

import numba @numba.jit def loops_fill(arr): ...

christian_bock · Answer

前方充填後の先頭のnp.nanの問題に興味がある人のために、以下が機能します：

mask = np.isnan(arr) first_non_zero_idx = (~mask!=0).argmax(axis=1) #Get indices of first non-zero values arr = [ np.hstack([ [arr[i,first_nonzero]]*(first_nonzero), arr[i,first_nonzero:]]) for i, first_nonzero in enumerate(first_non_zero_idx) ]

cchwala · Answer

NaN値の後方充填を探してここに来た人のために、私は上記のDivakarによって提供されたソリューションを修正して、まさにそれを行いました。秘Theは、最大値を除く最小値を使用して、反転した配列で累積を行わなければならないことです。

コードは次のとおりです。

 # As provided in the answer by Divakar def ffill(arr): mask = np.isnan(arr) idx = np.where(~mask, np.arange(mask.shape[1]), 0) np.maximum.accumulate(idx, axis=1, out=idx) out = arr[np.arange(idx.shape[0])[:,None], idx] return out # My modification to do a backward-fill def bfill(arr): mask = np.isnan(arr) idx = np.where(~mask, np.arange(mask.shape[1]), mask.shape[1] - 1) idx = np.minimum.accumulate(idx[:, ::-1], axis=1)[:, ::-1] out = arr[np.arange(idx.shape[0])[:,None], idx] return out # Test both functions arr = np.array([[5, np.nan, np.nan, 7, 2], [3, np.nan, 1, 8, np.nan], [4, 9, 6, np.nan, np.nan]]) print('Array:') print(arr) print('
ffill') print(ffill(arr)) print('
bfill') print(bfill(arr))

出力：

Array: [[ 5. nan nan 7. 2.] [ 3. nan 1. 8. nan] [ 4. 9. 6. nan nan]] ffill [[5. 5. 5. 7. 2.] [3. 3. 1. 8. 8.] [4. 9. 6. 6. 6.]] bfill [[ 5. 7. 7. 7. 2.] [ 3. 1. 1. 8. nan] [ 4. 9. 6. nan nan]]

編集：MS_のコメントに従って更新