web-dev-qa-db-ja.com

Dask Computeタスクの進捗状況を確認する方法は?

Daskを使用して計算タスクを実行しているときにJupyternotebookにプログレスバーを表示したいのですが、大きなcsvファイル+ 4GBの「id」列のすべての値をカウントしています。

import dask.dataframe as dd

df = dd.read_csv('data/train.csv')
df.id.count().compute()
16
Ambigus9

単一のマシンスケジューラを使用している場合は、次を実行します。

from dask.diagnostics import ProgressBar
ProgressBar().register()

http://dask.pydata.org/en/latest/diagnostics-local.html

分散スケジューラを使用している場合は、次を実行します。

from dask.distributed import progress

result = df.id.count.persist()
progress(result)

または、ダッシュボードを使用します

http://dask.pydata.org/en/latest/diagnostics-distributed.html

17
MRocklin