Flaskで非常に大きなファイルアップロード(1 GB以上)を処理する最良の方法は何ですか?
私のアプリケーションは基本的に複数のファイルを受け取り、それらに1つの一意のファイル番号を割り当て、ユーザーが選択した場所に応じてサーバーに保存します。
ファイルアップロードをバックグラウンドタスクとして実行して、ユーザーがブラウザーを1時間スピンせずに、すぐに次のページに進むことができるようにするにはどうすればよいですか?
私は、ファイルを小さなパーツ/チャンクの多くで単に送信する非常に簡単な回避方法を考えています。したがって、この作業を行うには、フロントエンド(ウェブサイト)とバックエンド(サーバー)の2つの部分があります。フロントエンド部分には、Dropzone.js
これには追加の依存関係はなく、適切なCSSが含まれています。クラスdropzone
をフォームに追加するだけで、特別なドラッグアンドドロップフィールドの1つに自動的に変換されます(クリックして選択することもできます)。
ただし、デフォルトでは、dropzoneはファイルをチャンクしません。幸いなことに、簡単に有効にできます。 DropzoneJS
およびchunking
を有効にしたサンプルファイルアップロードフォームを次に示します。
<html lang="en">
<head>
<meta charset="UTF-8">
<link rel="stylesheet"
href="https://cdnjs.cloudflare.com/ajax/libs/dropzone/5.4.0/min/dropzone.min.css"/>
<link rel="stylesheet"
href="https://cdnjs.cloudflare.com/ajax/libs/dropzone/5.4.0/min/basic.min.css"/>
<script type="application/javascript"
src="https://cdnjs.cloudflare.com/ajax/libs/dropzone/5.4.0/min/dropzone.min.js">
</script>
<title>File Dropper</title>
</head>
<body>
<form method="POST" action='/upload' class="dropzone dz-clickable"
id="dropper" enctype="multipart/form-data">
</form>
<script type="application/javascript">
Dropzone.options.dropper = {
paramName: 'file',
chunking: true,
forceChunking: true,
url: '/upload',
maxFilesize: 1025, // megabytes
chunkSize: 1000000 // bytes
}
</script>
</body>
</html>
そして、フラスコを使用したバックエンド部分は次のとおりです。
import logging
import os
from flask import render_template, Blueprint, request, make_response
from werkzeug.utils import secure_filename
from pydrop.config import config
blueprint = Blueprint('templated', __name__, template_folder='templates')
log = logging.getLogger('pydrop')
@blueprint.route('/')
@blueprint.route('/index')
def index():
# Route to serve the upload form
return render_template('index.html',
page_name='Main',
project_name="pydrop")
@blueprint.route('/upload', methods=['POST'])
def upload():
file = request.files['file']
save_path = os.path.join(config.data_dir, secure_filename(file.filename))
current_chunk = int(request.form['dzchunkindex'])
# If the file already exists it's ok if we are appending to it,
# but not if it's new file that would overwrite the existing one
if os.path.exists(save_path) and current_chunk == 0:
# 400 and 500s will tell dropzone that an error occurred and show an error
return make_response(('File already exists', 400))
try:
with open(save_path, 'ab') as f:
f.seek(int(request.form['dzchunkbyteoffset']))
f.write(file.stream.read())
except OSError:
# log.exception will include the traceback so we can see what's wrong
log.exception('Could not write to file')
return make_response(("Not sure why,"
" but we couldn't write the file to disk", 500))
total_chunks = int(request.form['dztotalchunkcount'])
if current_chunk + 1 == total_chunks:
# This was the last chunk, the file should be complete and the size we expect
if os.path.getsize(save_path) != int(request.form['dztotalfilesize']):
log.error(f"File {file.filename} was completed, "
f"but has a size mismatch."
f"Was {os.path.getsize(save_path)} but we"
f" expected {request.form['dztotalfilesize']} ")
return make_response(('Size mismatch', 500))
else:
log.info(f'File {file.filename} has been uploaded successfully')
else:
log.debug(f'Chunk {current_chunk + 1} of {total_chunks} '
f'for file {file.filename} complete')
return make_response(("Chunk upload successful", 200))
使用する copy_current_request_context
、それはコンテキストrequest
。を複製するので、スレッドなどを使用してタスクをバックグラウンドで実行できます。
たぶん例はそれを明確にするでしょう。私は3.37Gファイル-debian-9.5.0-AMD64-DVD-1.isoでテストしました。
# coding:utf-8
from flask import Flask,render_template,request,redirect,url_for
from werkzeug.utils import secure_filename
import os
from time import sleep
from flask import copy_current_request_context
import threading
import datetime
app = Flask(__name__)
@app.route('/upload', methods=['POST','GET'])
def upload():
@copy_current_request_context
def save_file(closeAfterWrite):
print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + " i am doing")
f = request.files['file']
basepath = os.path.dirname(__file__)
upload_path = os.path.join(basepath, '',secure_filename(f.filename))
f.save(upload_path)
closeAfterWrite()
print(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S') + " write done")
def passExit():
pass
if request.method == 'POST':
f= request.files['file']
normalExit = f.stream.close
f.stream.close = passExit
t = threading.Thread(target=save_file,args=(normalExit,))
t.start()
return redirect(url_for('upload'))
return render_template('upload.html')
if __name__ == '__main__':
app.run(debug=True)
これはtempalteであり、templates\upload.htmlである必要があります
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
<h1>example</h1>
<form action="" enctype='multipart/form-data' method='POST'>
<input type="file" name="file">
<input type="submit" value="upload">
</form>
</body>
</html>
ファイルをアップロードするとき、ページを離れて続行することはできません。アップロードを続行するには、ページを開いたままにする必要があります。
アップロードを処理するためだけに新しいタブを開き、アップロードが完了する前にユーザーが誤って新しいタブを閉じたときにユーザーに警告することができます。そうすれば、アップロードはユーザーが元のページで行っていることとは別個になるため、アップロードをキャンセルせずにナビゲートできます。アップロードタブは、終了したときに閉じることもできます。
index.js
// get value from <input id="upload" type="file"> on page
var upload = document.getElementById('upload');
upload.addEventListener('input', function () {
// open new tab and stick the selected file in it
var file = upload.files[0];
var uploadTab = window.open('/upload-page', '_blank');
if (uploadTab) {
uploadTab.file = file;
} else {
alert('Failed to open new tab');
}
});
upload-page.js
window.addEventListener('beforeunload', function () {
return 'The upload will cancel if you leave the page, continue?';
});
window.addEventListener('load', function () {
var req = new XMLHttpRequest();
req.addEventListener('progress', function (evt) {
var percentage = '' + (evt.loaded / evt.total * 100) + '%';
// use percentage to update progress bar or something
});
req.addEventListener('load', function () {
alert('Upload Finished');
window.removeEventListener('beforeunload');
window.close();
});
req.addRequestHeader('Content-Type', 'application/octet-stream');
req.open('POST', '/upload/'+encodeURIComponent(window.file.name));
req.send(window.file);
});
サーバーでは、request.streamを使用して、アップロードされたファイルをチャンクで読み取ることができるため、最初にメモリ全体が読み込まれるのを待つ必要がなくなります。
server.py
@app('/upload/<filename>', methods=['POST'])
def upload(filename):
filename = urllib.parse.unquote(filename)
bytes_left = int(request.headers.get('content-length'))
with open(os.path.join('uploads', filename), 'wb') as upload:
chunk_size = 5120
while bytes_left > 0:
chunk = request.stream.read(chunk_size)
upload.write(chunk)
bytes_left -= len(chunk)
return make_response('Upload Complete', 200)
オクテットストリームの代わりにFormData apiを使用できるかもしれませんが、フラスコでそれらをストリーミングできるかどうかはわかりません。