ApacheMXNet-システムコンポーネント
ここでは、ApacheMXNetのシステムコンポーネントについて詳しく説明します。まず、MXNetの実行エンジンについて学習します。
実行エンジン
ApacheMXNetの実行エンジンは非常に用途が広いです。ディープラーニングだけでなく、ドメイン固有の問題にも使用できます。依存関係に従って一連の関数を実行します。依存関係のある関数はシリアル化されるのに対し、依存関係のない関数は並列実行できるように設計されています。
コアインターフェース
以下に示すAPIは、ApacheMXNetの実行エンジンのコアインターフェイスです。
virtual void PushSync(Fn exec_fun, Context exec_ctx,
std::vector<VarHandle> const& const_vars,
std::vector<VarHandle> const& mutate_vars) = 0;
上記のAPIには次のものがあります-
exec_fun − MXNetのコアインターフェイスAPIを使用すると、exec_funという名前の関数を、そのコンテキスト情報と依存関係とともに実行エンジンにプッシュできます。
exec_ctx −上記の関数exec_funが実行されるコンテキスト情報。
const_vars −これらは関数が読み取る変数です。
mutate_vars −これらは変更される変数です。
実行エンジンは、共通変数を変更する2つの関数の実行がプッシュ順にシリアル化されることをユーザーに保証します。
関数
以下は、ApacheMXNetの実行エンジンの関数タイプです。
using Fn = std::function<void(RunContext)>;
上記の関数では、 RunContextランタイム情報が含まれています。実行時情報は、実行エンジンによって決定される必要があります。の構文RunContext 次のとおりです-
struct RunContext {
// stream pointer which could be safely cast to
// cudaStream_t* type
void *stream;
};
以下に、実行エンジンの機能に関するいくつかの重要なポイントを示します。
すべての機能は、MXNetの実行エンジンの内部スレッドによって実行されます。
関数のブロックを実行エンジンにプッシュするのはよくありません。これにより、関数が実行スレッドを占有し、合計スループットも低下するためです。
このMXNetには、次のような別の非同期機能があります。
using Callback = std::function<void()>;
using AsyncFn = std::function<void(RunContext, Callback)>;
これで AsyncFn 関数はスレッドの大部分を渡すことができますが、実行エンジンは関数を呼び出すまで関数が終了したとは見なしません。 callback 関数。
環境
に Context、実行する関数のコンテキストを指定できます。これには通常、次のものが含まれます。
関数をCPUで実行するかGPUで実行するか。
コンテキストでGPUを指定する場合、どのGPUを使用するか。
ContextとRunContextには大きな違いがあります。コンテキストにはデバイスタイプとデバイスIDがありますが、RunContextには実行時にのみ決定できる情報があります。
VarHandle
関数の依存関係を指定するために使用されるVarHandleは、関数が変更または使用できる外部リソースを表すために使用できるトークン(特に実行エンジンによって提供される)のようなものです。
しかし、なぜVarHandleを使用する必要があるのかという疑問が生じます。これは、ApacheMXNetエンジンが他のMXNetモジュールから切り離されるように設計されているためです。
以下は、VarHandleに関するいくつかの重要なポイントです。
軽量であるため、変数を作成、削除、またはコピーしても、運用コストはほとんどかかりません。
不変の変数、つまりで使用される変数を指定する必要があります。 const_vars。
可変変数、つまりで変更される変数を指定する必要があります。 mutate_vars。
関数間の依存関係を解決するために実行エンジンが使用する規則は、関数の1つが少なくとも1つの共通変数を変更する場合、任意の2つの関数の実行がプッシュ順にシリアル化されることです。
新しい変数を作成するには、 NewVar() API。
変数を削除するには、 PushDelete API。
簡単な例でその動作を理解しましょう-
F1とF2という2つの関数があり、両方とも変数V2を変更するとします。その場合、F2がF1の後にプッシュされると、F2はF1の後に実行されることが保証されます。一方、F1とF2の両方がV2を使用している場合、実際の実行順序はランダムになる可能性があります。
押して待つ
Push そして wait 実行エンジンのさらに2つの便利なAPIです。
以下はの2つの重要な機能です Push API:
すべてのプッシュAPIは非同期です。つまり、プッシュされた関数が終了したかどうかに関係なく、API呼び出しはすぐに返されます。
プッシュAPIはスレッドセーフではありません。つまり、一度に1つのスレッドのみがエンジンAPI呼び出しを行う必要があります。
ここで、Wait APIについて話すと、次の点がそれを表しています。
ユーザーが特定の関数が終了するのを待ちたい場合は、クロージャーにコールバック関数を含める必要があります。インクルードしたら、関数の最後で関数を呼び出します。
一方、ユーザーが特定の変数を含むすべての関数が終了するのを待ちたい場合は、ユーザーが使用する必要があります WaitForVar(var) API。
プッシュされたすべての関数が終了するのを誰かが待ちたい場合は、 WaitForAll () API。
関数の依存関係を指定するために使用され、トークンのようなものです。
演算子
Apache MXNetの演算子は、実際の計算ロジックと補助情報を含み、システムが最適化を実行するのを支援するクラスです。
オペレーターインターフェース
Forward は、構文が次のコアオペレータインターフェイスです。
virtual void Forward(const OpContext &ctx,
const std::vector<TBlob> &in_data,
const std::vector<OpReqType> &req,
const std::vector<TBlob> &out_data,
const std::vector<TBlob> &aux_states) = 0;
の構造 OpContext、で定義 Forward() 以下のとおりであります:
struct OpContext {
int is_train;
RunContext run_ctx;
std::vector<Resource> requested;
}
ザ・ OpContextオペレーターの状態(トレインフェーズまたはテストフェーズ)、オペレーターを実行する必要のあるデバイス、および要求されたリソースについて説明します。実行エンジンのさらに2つの便利なAPI。
上から Forward コアインターフェースでは、要求されたリソースを次のように理解できます-
in_data そして out_data 入力テンソルと出力テンソルを表します。
req 計算結果がどのように書き込まれるかを示します out_data。
ザ・ OpReqType -として定義することができます
enum OpReqType {
kNullOp,
kWriteTo,
kWriteInplace,
kAddTo
};
など Forward 演算子、オプションで実装できます Backward 次のようなインターフェース-
virtual void Backward(const OpContext &ctx,
const std::vector<TBlob> &out_grad,
const std::vector<TBlob> &in_data,
const std::vector<TBlob> &out_data,
const std::vector<OpReqType> &req,
const std::vector<TBlob> &in_grad,
const std::vector<TBlob> &aux_states);
さまざまなタスク
Operator インターフェイスにより、ユーザーは次のタスクを実行できます-
ユーザーはインプレース更新を指定でき、メモリ割り当てコストを削減できます
それをよりきれいにするために、ユーザーはPythonからいくつかの内部引数を隠すことができます。
ユーザーは、テンソルと出力テンソルの間の関係を定義できます。
計算を実行するために、ユーザーはシステムから追加の一時スペースを取得できます。
オペレータープロパティ
畳み込みニューラルネットワーク(CNN)では、1つの畳み込みにいくつかの実装があることを認識しています。それらから最高のパフォーマンスを達成するために、これらのいくつかの畳み込みを切り替えたい場合があります。
これが、ApacheMXNetがオペレーターセマンティックインターフェイスを実装インターフェイスから分離している理由です。この分離は、次の形式で行われます。OperatorProperty 以下からなるクラス-
InferShape − InferShapeインターフェースには、以下の2つの目的があります。
最初の目的は、各入力テンソルと出力テンソルのサイズをシステムに通知して、前にスペースを割り当てることができるようにすることです。 Forward そして Backward コール。
2番目の目的は、実行する前にサイズチェックを実行してエラーがないことを確認することです。
構文は以下のとおりです-
virtual bool InferShape(mxnet::ShapeVector *in_shape,
mxnet::ShapeVector *out_shape,
mxnet::ShapeVector *aux_shape) const = 0;
Request Resource−システムがcudnnConvolutionForwardなどの操作の計算ワークスペースを管理できる場合はどうなりますか?システムは、スペースの再利用などの最適化を実行できます。ここで、MXNetは、次の2つのインターフェイスを使用してこれを簡単に実現します-
virtual std::vector<ResourceRequest> ForwardResource(
const mxnet::ShapeVector &in_shape) const;
virtual std::vector<ResourceRequest> BackwardResource(
const mxnet::ShapeVector &in_shape) const;
しかし、もし ForwardResource そして BackwardResource空でない配列を返しますか?その場合、システムは対応するリソースをctx のパラメータ Forward そして Backward のインターフェース Operator。
Backward dependency − Apache MXNetには、後方依存関係を処理するために、次の2つの異なる演算子シグネチャがあります−
void FullyConnectedForward(TBlob weight, TBlob in_data, TBlob out_data);
void FullyConnectedBackward(TBlob weight, TBlob in_data, TBlob out_grad, TBlob in_grad);
void PoolingForward(TBlob in_data, TBlob out_data);
void PoolingBackward(TBlob in_data, TBlob out_data, TBlob out_grad, TBlob in_grad);
ここで、注意すべき2つの重要なポイント-
FullyConnectedForwardのout_dataは、FullyConnectedBackwardでは使用されません。
PoolingBackwardには、PoolingForwardのすべての引数が必要です。
だからこそ FullyConnectedForward、 out_data一度消費されたテンソルは、後方関数がそれを必要としないため、安全に解放できます。このシステムの助けを借りて、できるだけ早くいくつかのテンソルをゴミとして収集することができました。
In place Option− Apache MXNetは、メモリ割り当てのコストを節約するために、ユーザーに別のインターフェイスを提供します。このインターフェースは、入力テンソルと出力テンソルの両方が同じ形状である要素ごとの操作に適しています。
以下は、インプレース更新を指定するための構文です。
演算子の作成例
OperatorPropertyの助けを借りて、演算子を作成できます。これを行うには、以下の手順に従います-
virtual std::vector<std::pair<int, void*>> ElewiseOpProperty::ForwardInplaceOption(
const std::vector<int> &in_data,
const std::vector<void*> &out_data)
const {
return { {in_data[0], out_data[0]} };
}
virtual std::vector<std::pair<int, void*>> ElewiseOpProperty::BackwardInplaceOption(
const std::vector<int> &out_grad,
const std::vector<int> &in_data,
const std::vector<int> &out_data,
const std::vector<void*> &in_grad)
const {
return { {out_grad[0], in_grad[0]} }
}
ステップ1
Create Operator
まず、OperatorPropertyに次のインターフェイスを実装します。
virtual Operator* CreateOperator(Context ctx) const = 0;
例を以下に示します-
class ConvolutionOp {
public:
void Forward( ... ) { ... }
void Backward( ... ) { ... }
};
class ConvolutionOpProperty : public OperatorProperty {
public:
Operator* CreateOperator(Context ctx) const {
return new ConvolutionOp;
}
};
ステップ2
Parameterize Operator
畳み込み演算子を実装する場合は、カーネルサイズ、ストライドサイズ、パディングサイズなどを知っている必要があります。理由は、これらのパラメーターを呼び出す前にオペレーターに渡す必要があるためです。Forward または backward インターフェース。
このために、私たちは定義する必要があります ConvolutionParam 以下のような構造-
#include <dmlc/parameter.h>
struct ConvolutionParam : public dmlc::Parameter<ConvolutionParam> {
mxnet::TShape kernel, stride, pad;
uint32_t num_filter, num_group, workspace;
bool no_bias;
};
今、これを入れる必要があります ConvolutionOpProperty そしてそれを次のようにオペレーターに渡します-
class ConvolutionOp {
public:
ConvolutionOp(ConvolutionParam p): param_(p) {}
void Forward( ... ) { ... }
void Backward( ... ) { ... }
private:
ConvolutionParam param_;
};
class ConvolutionOpProperty : public OperatorProperty {
public:
void Init(const vector<pair<string, string>& kwargs) {
// initialize param_ using kwargs
}
Operator* CreateOperator(Context ctx) const {
return new ConvolutionOp(param_);
}
private:
ConvolutionParam param_;
};
ステップ3
Register the Operator Property Class and the Parameter Class to Apache MXNet
最後に、OperatorプロパティクラスとパラメータクラスをMXNetに登録する必要があります。それは次のマクロの助けを借りて行うことができます-
DMLC_REGISTER_PARAMETER(ConvolutionParam);
MXNET_REGISTER_OP_PROPERTY(Convolution, ConvolutionOpProperty);
上記のマクロでは、最初の引数は名前文字列で、2番目の引数はプロパティクラス名です。