web-dev-qa-db-ja.com

Linux 3.0.0-12-serverでkworkerが多くのリソースを消費するのはなぜですか?

先週の金曜日、Ubuntuサーバーを11.10にアップグレードしました。現在は3.0.0-12サーバーカーネルで実行されています。それ以来、全体的なパフォーマンスは劇的に低下しています。アップグレード前のシステム負荷は約0.3でしたが、現在16ギガバイトのRAM(10GB空き、スワップは使用されていません)の8コアCPUシステムでは22から30です。

[md1_raid1]と[btrfs-transacti]が多くのリソースを消費したため、BTRFSファイルシステムドライバーとその下にあるMDアレイのせいにしました。しかし、すべての[kworker/*:*]はさらに多くを消費します。

sarは、金曜日から次のようなものを常に出力しています。

11:25:01        CPU     %user     %Nice   %system   %iowait    %steal     %idle 
11:35:01        all      1,55      0,00     70,98      8,99      0,00     18,48 
11:45:01        all      1,51      0,00     68,29     10,67      0,00     19,53 
11:55:01        all      1,40      0,00     65,52     13,53      0,00     19,55 
12:05:01        all      0,95      0,00     66,23     10,73      0,00     22,10 

そしてiostatは非常に低い書き込み率を確認します:

sda             129,26      3059,12       614,31  258226022   51855269          
sdb              98,78        24,28      3495,05    2049471  295023077          
md1             191,96       202,63       611,95   17104003   51656068          
md0               0,01         0,02         0,00       1980        109          

問題は、kworkerスレッドがなぜ多くのリソースを消費するのか(およびどれを)追跡することができるかです。またはそれ以上:これは3.0カーネルの既知の問題ですか?カーネルパラメータで調整できますか?

編集:

カーネルをBTRFS開発者の推奨に従って最新バージョン3.1に更新しました。しかし、残念ながら、これによって何も変化はありませんでした。

19
mailq

私は lkmlのこのスレッド を見つけました。これはあなたの質問に少し答えます。 (Linus自身でさえ、これらのスレッドの起源を見つける方法に戸惑っていたようです。)

基本的に、これを行うには2つの方法があります。

$ echo workqueue:workqueue_queue_work > /sys/kernel/debug/tracing/set_event
$ cat /sys/kernel/debug/tracing/trace_pipe > out.txt
(wait a few secs)

これには、カーネルでコンパイルする ftrace が必要です。

mount -t debugfs nodev /sys/kernel/debug

Linuxの関数トレーサー機能の詳細については、 ftrace.txtドキュメント を参照してください。

これは、すべてのスレッドが行っていることを出力し、複数の小さなジョブをトレースするのに役立ちます。

cat /proc/THE_OFFENDING_KWORKER/stack

これは、多くの作業を行う単一スレッドのスタックを出力します。これにより、この特定のスレッドがCPUを占有する原因を特定できる場合があります(たとえば)。 THE_OFFENDING_KWORKERは、プロセスリスト内のkworkerのpidです。

18
anarcat

解決策は次のとおりです。原因を特定する方法がわかりません。今のところ誰も教えてくれなかった。

しかし、BTRFS開発者と話し合ったところ、非常に短い時間で多くの小さなファイルを書き込むときに、btrfsドライバーにバグがあることが明らかになりました。これは、3.0から3.1までのカーネルの問題です。多分それは3.2で修正されます。

その間に、問題を解決する現在のカーネルのパッチを入手しました。

5
mailq

同様の問題がありました。 kworkerのスレッドスタックを確認します。

while true ; do clear ; grep -n ^ /proc/24910/stack | sort -rn | cut -d: -f 2- ; sleep 1 ; done

[<ffffffffffffffff>] 0xffffffffffffffff
[<ffffffff810908f0>] kthread+0x0/0xe0
[<ffffffff81576432>] ret_from_fork+0x42/0x70
[<ffffffff810908f0>] kthread+0x0/0xe0
[<ffffffff810909b1>] kthread+0xc1/0xe0
[<ffffffff8108b520>] worker_thread+0x0/0x550
[<ffffffff8108b573>] worker_thread+0x53/0x550
[<ffffffff8108aa4b>] process_one_work+0x14b/0x420
[<ffffffff81405a3d>] rpm_idle+0x1ad/0x220
[<ffffffff8140509d>] __rpm_callback+0x2d/0xb0
[<ffffffffa01aef16>] usb_runtime_idle+0x26/0x30 [usbcore]
[<ffffffffa01aeef0>] usb_runtime_idle+0x0/0x30 [usbcore]
[<ffffffff8140686c>] __pm_runtime_suspend+0x5c/0x90
[<ffffffff81405b19>] __pm_runtime_idle+0x69/0x90
[<ffffffff81405295>] rpm_suspend+0x105/0x620
[<ffffffff8140513f>] rpm_callback+0x1f/0x70
[<ffffffff8140509d>] __rpm_callback+0x2d/0xb0
[<ffffffffa01aee50>] usb_runtime_suspend+0x0/0x80 [usbcore]
[<ffffffffa01aee7e>] usb_runtime_suspend+0x2e/0x80 [usbcore]
[<ffffffffa01adc4f>] usb_suspend_both+0xef/0x1f0 [usbcore]
[<ffffffffa01adb06>] usb_resume_interface.isra.6+0xa6/0x100 [usbcore]
[<ffffffffa01a0c63>] hub_resume+0x23/0x60 [usbcore]
[<ffffffffa01a0636>] hub_activate+0xc6/0x5c0 [usbcore]
[<ffffffffa01a9d3f>] usb_kill_urb+0x3f/0xa0 [usbcore]
[<ffffffffa019d249>] hub_port_status+0xd9/0x120 [usbcore]
[<ffffffff81088a4f>] __queue_work+0x12f/0x340
[<ffffffff810888b6>] insert_work+0x46/0xb0
[<ffffffffa01aa6d4>] usb_control_msg+0xc4/0x110 [usbcore]
[<ffffffffa01aa55a>] usb_start_wait_urb+0x9a/0x150 [usbcore]
[<ffffffff810a36f7>] update_curr+0xd7/0x120

私はそれがUSBモジュールだと思った。私は以前別のマシンを使用していたので、すべてのUSBと[uex] hciモジュールをrmmodして、キーボードをオフにしたことがわかったため(ctrl-shift-sysrq-Uでさえも!)、次のようにしました。

MODS="uvcvideo ohci_hcd ehci_hcd xhci_hcd ohci_pci ehci_pci xhci_pci usbcore"
( echo $MODS $MODS | xargs -n 1 rmmod -v ; sleep 3 ; echo $MODS | xargs -n 1 modprobe -v ; )

root@hp:~# ( echo $MODS $MODS | xargs -n 1 rmmod -v ; sleep 3 ; echo $MODS | xargs -n 1 modprobe -v ; )
rmmod: ERROR: Module ohci_hcd is in use by: ohci_pci
rmmod: ERROR: Module ehci_hcd is in use by: ehci_pci
rmmod: ERROR: Module xhci_hcd is in use by: xhci_pci
rmmod: ERROR: Module uvcvideo is not currently loaded
rmmod: ERROR: Module ohci_pci is not currently loaded
rmmod: ERROR: Module ehci_pci is not currently loaded
rmmod: ERROR: Module xhci_pci is not currently loaded
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/media/usb/uvc/uvcvideo.ko 
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/usb/Host/ehci-hcd.ko 
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/usb/Host/ohci-hcd.ko 
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/usb/Host/xhci-hcd.ko 
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/usb/Host/ehci-pci.ko 
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/usb/Host/ohci-pci.ko 
insmod /lib/modules/4.1.0-2-AMD64/kernel/drivers/usb/Host/xhci-pci.ko 

トリックをしました:

grep -n ^ /proc/24910/stack | sort -rn | cut -d: -f 2-
[<ffffffffffffffff>] 0xffffffffffffffff
[<ffffffff810908f0>] kthread+0x0/0xe0
[<ffffffff81576432>] ret_from_fork+0x42/0x70
[<ffffffff810908f0>] kthread+0x0/0xe0
[<ffffffff810909b1>] kthread+0xc1/0xe0
[<ffffffff8108b520>] worker_thread+0x0/0x550
[<ffffffff8108b5ec>] worker_thread+0xcc/0x550

だから私の主な容疑者はこのガジェット:RTL8723B * WIFI + Bluetoothモジュールです。電源管理コードがそれが同じデバイスであることを認識しているかどうか疑問に思っています。未使用のBTアダプターの電源を切ります。

環境:

root@hp:~# lsusb
    Bus 005 Device 001: ID 1d6b:0001 Linux Foundation 1.1 root hub
    Bus 002 Device 002: ID 0c45:651b Microdia 
    Bus 002 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
    Bus 004 Device 001: ID 1d6b:0001 Linux Foundation 1.1 root hub
    Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
    Bus 003 Device 002: ID 0bda:b001 Realtek Semiconductor Corp. 
    Bus 003 Device 001: ID 1d6b:0001 Linux Foundation 1.1 root hub
    Bus 009 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
    Bus 008 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
    Bus 007 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
    Bus 006 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub

root@hp:~# lsmod | grep usb
    btusb                  45056  0
    btbcm                  16384  1 btusb
    btintel                16384  1 btusb
    bluetooth             438272  5 bnep,btbcm,btusb,btintel
    usbcore               200704  8 btusb,uvcvideo,ohci_hcd,ohci_pci,ehci_hcd,ehci_pci,xhci_hcd,xhci_pci
    usb_common             16384  1 usbcore

root@hp:~# lsb_release -a
    No LSB modules are available.
    Distributor ID:    Debian
    Description:    Debian GNU/Linux stable-updates (sid)
    Release:    stable-updates
    Codename:    sid

root@hp:~# uname -a
    Linux hp 4.1.0-2-AMD64 #1 SMP Debian 4.1.6-1 (2015-08-23) x86_64 GNU/Linux

root@hp:~# dmesg | tail -n 20
    [97865.088740] usb 2-4: SerialNumber: HP Webcam
    [97865.091557] uvcvideo: Found UVC 1.00 device HP Webcam (0c45:651b)
    [97865.105948] input: HP Webcam as /devices/pci0000:00/0000:00:13.2/usb2/2-4/2-4:1.0/input/input17
    [97865.189817] usb 3-3: new full-speed USB device number 2 using ohci-pci
    [97865.350981] usb 3-3: No LPM exit latency info found, disabling LPM.
    [97865.368958] usb 3-3: New USB device found, idVendor=0bda, idProduct=b001
    [97865.368969] usb 3-3: New USB device strings: Mfr=1, Product=2, SerialNumber=3
    [97865.368976] usb 3-3: Product: Bluetooth Radio 
    [97865.368981] usb 3-3: Manufacturer: Realtek 
    [97865.368985] usb 3-3: SerialNumber: 00e04c000001
    [97865.375859] Bluetooth: hci0: rtl: examining hci_ver=06 hci_rev=000b lmp_ver=06 lmp_subver=8723
    [97865.375867] Bluetooth: hci0: rtl: loading rtl_bt/rtl8723b_fw.bin
    [97865.375896] usb 3-3: firmware: failed to load rtl_bt/rtl8723b_fw.bin (-2)
    [97865.375902] usb 3-3: Direct firmware load for rtl_bt/rtl8723b_fw.bin failed with error -2
    [97865.375907] Bluetooth: hci0: Failed to load rtl_bt/rtl8723b_fw.bin
    [97865.397812] Bluetooth: hci0: rtl: examining hci_ver=06 hci_rev=000b lmp_ver=06 lmp_subver=8723
    [97865.397821] Bluetooth: hci0: rtl: loading rtl_bt/rtl8723b_fw.bin
    [97865.397850] usb 3-3: firmware: failed to load rtl_bt/rtl8723b_fw.bin (-2)
    [97865.397856] usb 3-3: Direct firmware load for rtl_bt/rtl8723b_fw.bin failed with error -2
    [97865.397861] Bluetooth: hci0: Failed to load rtl_bt/rtl8723b_fw.bin
2
jmullee

echo N>/sys/module/drm_kms_helper/parameters/poll(rootモード)

Intelグラフィックカードの問題

私のためではありません。デフォルトはNです。

0
error