バックグラウンドタスクで複数のワーカーを使用する-Fast-API
ユーザーがアップロードしたファイルを処理しようとしています。ただし、アップロードが完了したらユーザーが応答を受け取り、接続を終了して、ファイルの処理を続行するようにします。したがって、BackgroundTasks.add_tasksを使用しており、コードは次のようになります。
class Line(BaseModel):
line: str
@app.post("/foo")
async def foo(line: Line):
""" Processing line generate results"""
...
result = ... # processing line.line
print(results)
return results
@app.post("/upload")
async def upload(background_tasks: BackgroundTasks, csv: UploadFile = File(...)):
background_tasks.add_task(process, csv)
return response.text("CSV has been uploaded successfully")
async def process(csv):
""" Processing CSV and generate data"""
tasks = [foo(line) for line in csv]
result = await asyncio.gather(*tasks)
残念ながら、上記のコードは1つずつしか実行されません。さらに、すべての結果が処理されるまで待ってから、fooのprintステートメントが機能する必要があります。つまり、すべてのnが処理された後、すべてのprintステートメントが表示されたときに、csvにn行あるとします。私のプログラムは20人のワーカーで実行されますが、このプロセスの実行中は、CPUの約1%しか使用しません(fooは計算タスクではなく、IO /ネットワークにバインドされたタスクです)。これにより、バックグラウンドプロセスは1人のワーカーでのみ実行されていると思います。私は次のようにProcessPoolExecutorを試しました:
loop = asyncio.get_event_loop()
lines = [line_0, line_1, ..., line_n] # Extracted all lines from CSV
with ProcessPoolExecutor() as executor:
results = [loop.run_in_executor(executor, lambda: foo(line)) for line in lines]
results = loop.run_until_complete(*results)
ただし、次のエラーが発生します。
processpoolexecutorはローカルオブジェクトをpickle化できません
私は自分のアプローチを次のように変更することで、なんとかそのエラーを克服することができました。
results = [loop.run_in_executor(executor, lambda: foo(line)) for line in lines]
に:
results = [asyncio.ensure_future(foo(line=Line(line)) for line in lines]
ただし、次のエラーが発生します。
uvloop.loop.Loop.run_in_executorのファイル "uvloop / loop.pyx"、行2658 AttributeError: 'Loop'オブジェクトに属性 'submit'がありません
要約すると、1行を処理するには、「/ foo」エンドポイントに到達します。ここで、200行のcsvを処理したいと思います。したがって、最初にユーザーからファイルを受け取り、成功メッセージを返し、その接続を終了します。次に、csvがバックグラウンドタスクに追加され、各行が「/ foo」エンドポイントにマップされ、各行の結果が表示されます。ただし、これまでに試したすべてのアプローチは、1つのスレッドのみを使用しているようで、各行を1つずつ処理しています。Apache JMeterのようなツールを使用できるように、「/ foo」エンドポイントを同時に複数回ヒットするかのように、複数の行を一緒に処理できるアプローチが必要です。
回答
エンドポイントを使用せずに並行して処理を行うことができます。以下は、foo
コードに基づいた(エンドポイントを使用しない)簡略化された例です。
import asyncio
import sys
import uvicorn
from fastapi import FastAPI, BackgroundTasks, UploadFile, File
from loguru import logger
logger.remove()
logger.add(sys.stdout, colorize=True, format="<green>{time:HH:mm:ss}</green> | {level} | <level>{message}</level>")
app = FastAPI()
async def async_io_bound(line: str):
await asyncio.sleep(3) # Pretend this is IO operations
return f"Line '{line}' processed"
async def process(csv):
""" Processing CSV and generate data"""
tasks = [async_io_bound(line) for line in csv]
logger.info("start processing")
result = await asyncio.gather(*tasks)
for i in result:
logger.info(i)
@app.post("/upload-to-process")
async def upload(background_tasks: BackgroundTasks, csv: UploadFile = File(...)):
background_tasks.add_task(process, csv.file)
return {"result": "CSV has been uploaded successfully"}
if __name__ == "__main__":
uvicorn.run("app3:app", host="localhost", port=8001)
出力の例(すべての行が並行して処理されました):
INFO: ::1:52358 - "POST /upload-to-process HTTP/1.1" 200 OK
13:21:31 | INFO | start processing
13:21:34 | INFO | Line 'b'one, two\n'' processed
13:21:34 | INFO | Line 'b'0, 1\n'' processed
13:21:34 | INFO | Line 'b'1, 1\n'' processed
13:21:34 | INFO | Line 'b'2, 1\n'' processed
13:21:34 | INFO | Line 'b'3, 1\n'' processed
13:21:34 | INFO | Line 'b'4, 1\n'' processed
13:21:34 | INFO | Line 'b'5, 1\n'' processed
13:21:34 | INFO | Line 'b'6, 1\n'' processed
13:21:34 | INFO | Line 'b'7, 1\n'' processed
13:21:34 | INFO | Line 'b'8, 1\n'' processed
13:21:34 | INFO | Line 'b'9, 1\n'' processed