Daskを使用して計算タスクを実行しているときにJupyternotebookにプログレスバーを表示したいのですが、大きなcsvファイル+ 4GBの「id」列のすべての値をカウントしています。
import dask.dataframe as dd
df = dd.read_csv('data/train.csv')
df.id.count().compute()
単一のマシンスケジューラを使用している場合は、次を実行します。
from dask.diagnostics import ProgressBar
ProgressBar().register()
http://dask.pydata.org/en/latest/diagnostics-local.html
分散スケジューラを使用している場合は、次を実行します。
from dask.distributed import progress
result = df.id.count.persist()
progress(result)
または、ダッシュボードを使用します
http://dask.pydata.org/en/latest/diagnostics-distributed.html