サイトのドメイン名を列挙するために使用されるpythonプログラムを作成しています。たとえば、「a.google.com」。
まず、threading
モジュールを使用してこれを行いました。
import string
import time
import socket
import threading
from threading import Thread
from queue import Queue
'''
enumerate a site's domain name like this:
1-9 a-z + .google.com
1.google.com
2.google.com
.
.
1a.google.com
.
.
zz.google.com
'''
start = time.time()
def create_Host(char):
'''
if char is '1-9a-z'
create char like'1,2,3,...,zz'
'''
for i in char:
yield i
for i in create_Host(char):
if len(i)>1:
return False
for c in char:
yield c + i
char = string.digits + string.ascii_lowercase
site = '.google.com'
def getaddr():
while True:
url = q.get()
try:
res = socket.getaddrinfo(url,80)
print(url + ":" + res[0][4][0])
except:
pass
q.task_done()
NUM=1000 #thread's num
q=Queue()
for i in range(NUM):
t = Thread(target=getaddr)
t.setDaemon(True)
t.start()
for Host in create_Host(char):
q.put(Host+site)
q.join()
end = time.time()
print(end-start)
'''
used time:
9.448670148849487
'''
後で、コルーチンがスレッドよりも速い場合があるという本を読みました。そこで、asyncio
を使用するようにコードを書き直しました。
import asyncio
import string
import time
start = time.time()
def create_Host(char):
for i in char:
yield i
for i in create_Host(char):
if len(i)>1:
return False
for c in char:
yield c + i
char = string.digits + string.ascii_lowercase
site = '.google.com'
@asyncio.coroutine
def getaddr(loop, url):
try:
res = yield from loop.getaddrinfo(url,80)
print(url + ':' + res[0][4][0])
except:
pass
loop = asyncio.get_event_loop()
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_Host(char)])
loop.run_until_complete(coroutines)
end = time.time()
print(end-start)
'''
time
120.42313003540039
'''
asyncio
のgetaddrinfo
バージョンが非常に遅いのはなぜですか?どういうわけかコルーチンを誤用していますか?
まず、Linuxマシンで見られるようなパフォーマンスの違いを再現することはできません。スレッドバージョンでは約20〜25秒、asyncio
バージョンでは24〜34秒が一貫して表示されます。
では、なぜasyncio
が遅いのですか?これに寄与するいくつかのことがあります。まず、asyncio
バージョンは順番に印刷する必要がありますが、スレッドバージョンは印刷しません。印刷はI/Oであるため、GILは実行中に解放できます。つまり、2つ以上のスレッドがまったく同時に印刷できる可能性がありますが、実際には頻繁には発生しない可能性があり、パフォーマンスにそれほど大きな違いはない可能性があります。
次に、さらに重要なことに、asyncio
のgetaddrinfo
バージョンは実際には ThreadPoolExecutor
でsocket.getaddrinfo
を呼び出すだけです =:
def getaddrinfo(self, Host, port, *,
family=0, type=0, proto=0, flags=0):
if self._debug:
return self.run_in_executor(None, self._getaddrinfo_debug,
Host, port, family, type, proto, flags)
else:
return self.run_in_executor(None, socket.getaddrinfo,
Host, port, family, type, proto, flags)
これにはデフォルトのThreadPoolExecutor
を使用しています 5つのスレッドしかない :
# Argument for default thread pool executor creation.
_MAX_WORKERS = 5
これは、このユースケースに必要な並列処理ほどではありません。 threading
バージョンのように動作させるには、loop.set_default_executor
を介してデフォルトのエグゼキュータとして設定することにより、1000スレッドでThreadPoolExecutor
を使用する必要があります。
loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(1000))
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_Host(char)])
loop.run_until_complete(coroutines)
これにより、動作はthreading
と同等になりますが、ここでの現実は非同期I/Oを実際には使用していない-threading
別のAPI。したがって、ここでできる最善のことは、threading
の例と同じパフォーマンスです。
最後に、各例で同等のコードを実際に実行しているわけではありません。threading
バージョンはqueue.Queue
を共有するワーカーのプールを使用していますが、asyncio
バージョンはすべてのコルーチンを生成しています。 URLリスト内の単一のアイテム。 asyncio
バージョンを作成してasyncio.Queue
とコルーチンのプールを使用すると、printステートメントを削除してより大きなデフォルトのエグゼキューターを作成することに加えて、両方のバージョンで基本的に同じパフォーマンスが得られます。新しいasyncio
コードは次のとおりです。
import asyncio
import string
import time
from concurrent.futures import ThreadPoolExecutor
start = time.time()
def create_Host(char):
for i in char:
yield i
for i in create_Host(char):
if len(i)>1:
return False
for c in char:
yield c + i
char = string.digits + string.ascii_lowercase
site = '.google.com'
@asyncio.coroutine
def getaddr(loop, q):
while True:
url = yield from q.get()
if not url:
break
try:
res = yield from loop.getaddrinfo(url,80)
except:
pass
@asyncio.coroutine
def load_q(loop, q):
for Host in create_Host(char):
yield from q.put(Host+site)
for _ in range(NUM):
yield from q.put(None)
NUM = 1000
q = asyncio.Queue()
loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(NUM))
coros = [asyncio.async(getaddr(loop, q)) for i in range(NUM)]
loop.run_until_complete(load_q(loop, q))
loop.run_until_complete(asyncio.wait(coros))
end = time.time()
print(end-start)
そしてそれぞれの出力:
dan@dandesk:~$ python3 threaded_example.py
20.409344911575317
dan@dandesk:~$ python3 asyncio_example.py
20.39924192428589
ただし、ネットワークによって多少のばらつきがあることに注意してください。どちらもこれより数秒遅くなることがあります。