強化学習による流体混合の最適化

Rapporti scientifici Volume 12,

Scientific Reports volume 12、記事番号: 14268 (2022) この記事を引用

2471 アクセス

2 引用

103 オルトメトリック

メトリクスの詳細

流体の混合は、さまざまな工業プロセスにおいて非常に重要です。本研究では、強化学習(RL)がグローバル・イン・タイム最適化に適しているという特徴に着目し、受動スカラー場の流体混合最適化にRLを活用することを提案する。移流拡散方程式で記述される 2 次元流体混合問題の場合、訓練されたミキサーは事前知識がなくても指数関数的に高速な混合を実現します。最適な混合プロセスには、熟練したミキサーによるよどみ点の周りでの伸縮と折り畳みが不可欠です。さらに、この研究では、訓練されたミキサーの物理的に合理的な転移学習方法、つまり、特定のペクレ数で訓練されたミキサーを別のペクレ数での混合問題に再利用する方法を導入します。層流混合の最適化結果に基づいて、乱流混合を含む工業用混合問題への提案手法の適用について議論します。

流体の混合は、さまざまな工業プロセスにおいて基本的な役割を果たします。ただし、ほとんどの混合プロセスは、数学的な最適化ではなく、物理実験による試行錯誤の方法を使用して経験的に設計されています。乱流は「効果的なミキサー」1 ですが、場合によっては (バイオリアクターや食品工業プロセスのミキサーなど)、強いせん断流が混合する材料に損傷を与えるため、乱流混合は適切ではありません。さらに、マイクロミキサー内で乱流を維持することは、レイノルズ数が低いため困難です。これには、層流による混合の強化が必要になります。したがって、層流による混合の最適化が重要です。いくつかの分析研究では、層流混合プロトコルの効率を評価しています2、3、4、5。たとえば、混合速度の指数関数的な限界が証明されています。ただし、建設的な最適化手法に関する研究は依然として限られています。

この研究では、建設的な手法として強化学習 (RL) に基づく混合最適化を提案します。流体混合の最適化に対する RL アルゴリズムの有効性を説明するために、まずその数学的枠組みを要約します。 RL アルゴリズムはマルコフ決定プロセス (MDP)6,7 に従って定式化されます: \(M= \{ {S}, {A}, p_{0}, P, R\}\)。ここで、S は状態の集合、 \({S}=\{s_1, \cdots s_{|{S}|} \}\); A はアクションのセットを示します、 \({A}=\{ a_{1}, \cdots a_{|{A}|} \}\); \(p_{0}\) は初期状態の確率分布 \(p_{0}: {S} \rightarrow [0,1]\) を表します。 P は遷移確率 \(P: {S} \times {S}\times {A} \rightarrow [0,1]\) を示します。 R は報酬関数 \(R:{S} \times {A} \rightarrow \mathbb {R}\) を示します。初期状態 \(s_{0}\) は \(p_{0}(\cdot )\) によって決定され、次のステップでは、状態は遷移確率 \(P(\cdot |s_{0},a_{0})\)、これにはアクション \(a_0\) が必要です。アクションは、ポリシー \(\pi : {S} \rightarrow {A}\) によって \(a=\pi (s)\) として決定されます。 RL アルゴリズムは、累積報酬の期待値 \(\sum _{t=0}^{\infty } \ を最大化する、指定された MDP に対する最適なポリシー \(\pi ^*\) を決定するために実装されています。ガンマ ^{t} R_{t+1}\)。ここで、 \(\gamma \in (0,1)\) は割引係数、 \(R_{t+1}:=R(s_{t},a_{t})\) を表します。

RL アルゴリズムは、瞬間的な報酬 \(R_{t}\) (つまり、ローカルインタイム) ではなく、累積的な報酬 (つまり、グローバルインタイム) を最大化します。したがって、グローバルインタイム最適化問題に適しています。効率的な混合プロトコルの設計は、グローバル・イン・タイム最適化問題の 1 つです。これは、最終的なスカラー場が、流体の流れによる伸縮や分子拡散との結合を含む、混合プロセス全体におけるアクションの時間的順序に依存するためです。説明的な例は、ヴィレルモーの歴史事項8に示されています。 RL アルゴリズムは、核融合 12 や乱流モデリング 13 など、流体力学におけるさまざまな問題 9、10、11 を解決するのに有効であるにもかかわらず、流体混合問題は未解明のままです。

RL アルゴリズムは、グローバル・イン・タイム最適化問題には適していますが、次元の呪いとして知られる一般に高次元状態空間の問題には適していません6。特に、流体混合の状態空間の高次元性により、RL アルゴリズムの実装が困難になります。この研究では、速度場が所定の場の重ね合わせによって与えられる、Mathew et al.2 によって定式化された最適化問題を調査します。これにより、流体運動の状態空間の次元が 1 に縮小されます 2。後で \(\theta \) で示される単一のパラメータが流体の動きの状態を決定します。この最適化問題は、電磁駆動の流れを使用した物理実験に基づいています14。共役勾配降下法は、流体混合最適化のプロトタイプとして導入されました2。 RL アルゴリズムが自由度を減らして流れ場を処理できるようにするために、同じ最適化問題に焦点を当てます。

この論文では、RL アルゴリズムが流体混合の最適化に適していることを初めて実証します。このアルゴリズムは効果的な流量制御を特定し、事前知識がなくても指数関数的に高速な混合を実現します。効率的な混合の背後にあるメカニズムは、力学システム理論の観点から固定点の周りの流れに焦点を当てることによって明らかにされます15,16。本研究はまた、混合に対する拡散効果を考慮することにより、訓練されたミキサに対する効果的な転移学習手法を提案する。層流混合の最適化結果に基づいて、「結論と考察」セクションで、乱流混合を含む工業用混合問題への提案手法の適用について議論します。

Mathew et al.2 によって定式化された次の最適化問題をベンチマーク問題として考慮します。この最適化問題では、速度場 \(u(x,y,t) = \alpha _{1}(t) u_{1}(x ,y) + \alpha _{2}(t) u_{2}(x,y)\) が使用されます。ここで、 \(u_1(x,y) = (-\sin (2 \pi x)\cos (2 \pi y), \cos (2 \pi x) \sin (2 \pi y))\) となります。 \(u_2(x,y) = u_1(x-0.25,y-0.25)\) (図 1a を参照)。パッシブスカラー c(x, y, t) の時間発展は、2 次元トーラス \(\mathbb {T}^2\) (周期境界条件) 上の移流拡散方程式によって記述されます。

ここで、 \(\text {Pe} \in (0,\infty ]\) はペクレ数を表します。流量制御の制約として、運動エネルギーの時間積分 \(\frac{1}{2} \ int _0^{1} \int _{\mathbb {T}^2} u^{2} d\mathbf{x} dt = \int _0^{1} \alpha _i(t) R_{ij} \alpha _j (t) dt =:\mathscr {E}\) は固定です。ここで \(R_{ij}:= \frac{1}{2} \int _{\mathbb {T}^2} u_i \cdot u_j d\mathbf{x}~~(i=1,2,~j=1,2)\). \(\alpha (t)=2\sqrt{\mathscr {E}} (\cos \ theta (t), \sin \theta (t))\) により、制約は常に満たされます。また、Mathew et al.2 と同様に \(\mathscr {E}=1.25\) を設定します。この問題では、速度場 u(x, y, t) は、流れパラメーターと呼ばれる単一のパラメーター \(\theta (t)\) によって決定されます。

強化学習 (RL) アルゴリズムを使用した流体混合の最適化: (a) \(u_{1}(x,y)\) (左) と \(u_{2}(x,y)\) の速度ベクトル場(右) 2 次元トーラス \(\mathbb {T}^2\) 上。 (b) 最適化された流れによって移流されたスカラー場 c(x, t) の時間発展のスナップショット。 (c) n 番目のエピソードの混合分散 \(\Phi _{n}(t)~(t \in [0,1])\) (\(n=1\), 800, 1600, 2400 、3200、および4000）。 (d) 各エピソードの終了時の混合分散 \(\Phi _{n}(t=1)\)。

スカラー場の分散は、混合の程度を測定するためによく使用されます。ただし、これは拡散が存在しない場合の保存量であるため (つまり、 \(\frac{d}{dt} \int _{\mathbb {T}^2} c^{p}dx \equiv 0~~( \forall p \in \mathbb {N})\))、混合プロセスの尺度としては不適切です。代わりに、 \(\Phi (c)=\Vert c \Vert ^2_{H^{-1/2}} := \sum _{k} \frac{1}{\ で定義される混合分散を採用します。 sqrt{1+ (2 \pi \Vert k \Vert )^2}} | c_k |^2\)、ここで \(c_k\) はスカラー場のフーリエ係数を表します17。混合分散は、混合スカラー場のマルチスケール特性を特徴付けるために元々導入された混合ノルムと同等です17。さらに、Mathew et al.17 は、\(\Phi (c)\) の減衰、\(L^{2}\) の弱い収束、および定理 3.2 のエルゴード力学系の混合が等価であることを示しました。定理の拡張については Lin et al.3 も参照)。最適化問題を要約すると、RL アルゴリズムを使用して、混合プロセスの最後に混合分散を最小化する関数 \(\theta : [0,1] \rightarrow \mathbb {R}\) を決定します。 \(\ファイ ( c (\cdot , t=1))\)。

\(\Delta t=0.001\) による時間積分には 4 次のルンゲ・クッタ法を、グリッドによる空間離散化にはフーリエスペクトル法を使用して、移流拡散方程式 (式 1) の数値シミュレーションを実行します。 \(250 \times 250\) の値。これは Mathew et al.2 で使用されたものと同じです。

ここでは、行動価値関数 (Q 関数) \(Q^{\pi }(s,a):= \mathbb {E}[ \sum _{t=0}^{\infty }] の最適化を考えます。 \gamma ^{t} R_{t+1}|S_{0}=s, A_{0}=a]\) をポリシー \(\pi \) の代わりに使用し、最適な Q 関数 \(Q ^*: {S} \times {A} \rightarrow \mathbb {R}\)。バナハの不動点定理は、そのような最適な Q 関数がベルマン演算子の不動点として存在することを数学的に保証します 6,7。最適なポリシーは \(\pi ^{*}(s) := \mathrm{argmax}_{a \in {A}} Q^{*}(s,a)\) として得られます。

RL アルゴリズムの標準実装として、ディープ Q ネットワーク 18 を採用します。これは、 \(Q^w: \mathbb {R}^{N_s} \times {A} \ で表されるディープニューラルネットワークを使用して Q 関数を近似します。右矢印 \mathbb {R}\)。ここで、\(N_s\) と w は、それぞれニューラルネットワークの状態空間の次元と接続重みを示します。ネットワークへの入力は、スカラー場 c(x, y, t) と速度場 u(x, y, t) です。 \(\mathbb {T}^2\) 上のこれらのフィールドの値は、正方格子 \(83\times 83\) 上で観測され、MDP の状態 s は速度の観測値として定義されます。フィールド、\(u(x_{i}, y_{i}, t)~~(i =1,\ldots , N_O)\)、\(N_O=83\times 83\)、およびスカラーのフィールド最後の 5 つのステップにわたるフィールド。つまり、 \(s_{t} := (u (x_{i},y_{i}, t), \{ c(x_{i}, y_{i}, \tau ) \}_{\tau = t,~t- \Delta t_{O},\ldots ,~t - 4 \Delta t_{O}}) \in \mathbb {R}^{N_s}\), and \(\Delta t_O\)は連続した観測の時間間隔を示します。したがって、状態空間の次元は \(N_s=7 \times N_O\) になります。ネットワークは 4 つの隠れ層で構成され、各活性化関数は Mnih et al.18 の ReLU です。割引係数は \(\gamma =0.99\) です。ディープ Q ネットワーク構造とその実装の詳細については、「補足情報」で説明されています。初期分布 \(p_{0}\) は、 \(\theta (0)=0\) および \(c(x,y,0)=\sin (2 \pi) のようなデルタ関数によって与えられます。 y)\)。

連続する観測の時間間隔は、\(\Delta t_O=0.004\) (ベンチマーク問題 2 で使用したのと同じ値) および \(\Delta t_Q=5 \Delta t_O\) です。ここで、\(\Delta t_Q\ ) は、Q 関数の連続更新の時間間隔を示します。したがって、\(\Delta t_Q\) の各周期について、RL アルゴリズムは、固定速度場を使用した移流拡散方程式 (式 1) によって決定されるスカラー場を観測します。次に、Q 関数、つまりニューラルネットワークの重みが更新されます。エピソードの 1 単位は 1 つの混合プロセス、つまり \(0 \le t \le 1\) の移流拡散方程式 (式 1) の初期値問題を解くことに対応します。トレーニングの合計エピソード数 \(N_{e}\) は \(N_{e}=4000\) です。エピソード数が多い \(N_{e} = 5000\) の結果は、\(N_{e} = 4000\) の結果と定性的に同一です。

MDP のアクション A として、RL アルゴリズムはフローパラメーターの値 \(\theta (t)~~(0\le t\le 1)\) を変更できます。速度場 u(x, y, t) は単一パラメータ \(\theta (t)\) によって決定され、フロー制御は \(\theta (t)\) を変更することで実現されます。流れパラメータの時間的変化の離散化は、 \(\theta (t + \Delta t_{Q}) = \theta (t) + \omega \Delta t_{Q}\) で、 \(\omega \in \ { 0, \omega _{+}, \omega _{-}\}(={A})\)、ここで \(\omega _{+}=\pi /(4\Delta t_{Q})\ ) および \(\omega _{-}=-\pi /(4\Delta t_{Q})\)。アクション \(\omega \) は、\(\varepsilon \) の値を 1 から 0.001 まで線形に変化させる \(\varepsilon \)-greedy メソッド 6,7,18 に従って選択されます。

報酬関数 R は、混合分散 \(\Phi \) を使用して定義されます。これは、 \(\Phi \) の値が小さくなるように、 \(\Phi \) の単調減少関数になるように設定されています。 ) は、より適切な混合スカラー場を表します。

ここで、\(\tilde{\Phi }\)、\(\Phi _{0}\)、および \(\Phi _{T}\) は、混合のしきい値、初期値、目標値を示します。それぞれ分散。定義により、最初は \(R=-1\) となり、混合分散 \(\Phi \) が目標値に達すると \(R = +1\) になります。 \(\tilde{\Phi }\) と \(\Phi _{T}\) の値は、ペクレ数に基づいて設定されます: \((\tilde{\Phi },~\Phi _{T}) =(1 \times 10^{-2},~4 \times 10^{-3})\) for \(\text {Pe} =\infty \) および \((\tilde{\Phi },~ \Phi _{T})=(5 \times 10^{-3},~1 \times 10^{-4})\) for \(\text {Pe}=100\)。

最適化の結果は、拡散がない場合に表示されます (\(\text {Pe}=\infty \))。ディープ Q ネットワークによって近似された最適なポリシー \(\pi ^*: \mathbb {R}^{N_s} \rightarrow {A}\) は、RL ベースの最適化から得られます。その後、状態ベクトル \(s_t \in \mathbb {R}^{N_s}\) が \(\omega _t = \pi ^*(s_t)\) を通じて最適なアクションを決定します。これにより、スカラー場を移流する次の間隔 \(\Delta t_Q\) 中の速度場が決定され、プロセスは次の観測に進みます。最適なポリシー \(\pi ^*\) に基づくこのフローコントローラーは、トレーニングされたミキサーと呼ばれます。図 1b は、左から右のパネルに、トレーニングされたミキサーがスカラー場 c(x, t) を時間とともに進化させることを示しています。ここで、黒と白の色は、それぞれスカラーフィールドの高い値と低い値に対応します。トレーニングされたミキサーは、スカラー場の複雑な層構造を生成します。次のサブセクションでは、2 つの色の間の界面の連続的な伸縮と折り畳みについて詳細に説明します。

混合分散 \(\Phi _{n}(t)~~(n=1,\ldots , 4000)\) を図 1c に示します。トレーニングの初期段階 (つまり、\(n=1, 800,\) や 1600 などの合計エピソードの前半) では、\(\epsilon \)-greedy メソッドを使用した RL アルゴリズムによって、ランダムに行動する。この「ランダムミキサー」はミックスの分散を減らすことができますが、以下で説明するように、このような混合は非効率的です。

Mathew ら 2 は、提案された共役勾配降下法の結果が \(\Phi (t=1) \simeq 6 \times 10^{-3}\) になると報告しました。この混合分散の値は、基準として比較に使用されます。全エピソードの前半では、混合プロセス終了時の混合分散 \(\Phi _{n}(t=1)\) が基準値よりも大きくなります。つまり、ミキサーのトレーニングが不十分であると、混合が非効率になります。逆に、\(\Phi _{n}(t=1)\) は、合計エピソードの後半、\(n=2400\)、3200、および 4000 で減少します。特に \(3 \times 10^ \(n=4000\) の場合、{-3}< \Phi _n(t=1) < 4 \times 10^{-3}\) であり、基準値とほぼ同じ (わずかに小さい) です。興味深いことに、 \(n=3200\) や \(n=4000\) などの後半のエピソードでは、混合分散が \(0.3 \le t \le 1\) で指数関数的に急速に減少しています。ここでは混合分散を使用した定量的な比較に焦点を当てていますが、Mathew et al.2 による方法と RL ベースの方法の間には定性的な違いがいくつかあります。「結論と考察」セクションでは、RL ベースの方法の重要な利点を説明します。

図 1d は、各混合プロセスの終了時の混合分散 \(\Phi _n(t=1)\) を示しています。これは、 \(\varepsilon\) の貪欲な手法と、ポリシー \ が適用されるという事実により変動します。 (Q^{w}\) は収束しません。ただし、エピソードが進行するにつれて変動は減少します。図も参照してください。「補足情報」のS1とS2。 RL アルゴリズムは、混合分散 \(\Phi _n(t=1)\) を大幅に減少させます。つまり、RL ベースの最適化により、混合が効果的に強化されます。

エピソード n のフローパラメーターは \(\theta _{n}(t)\) で表されます。トレーニングの前半 \(n<2000\) では、 \(\varepsilon \) 貪欲な手法により、流れパラメータ \(\theta _{n}(t)\) が時間とともにランダムに進化します。そして政策が収束していないという事実。ただし、エピソードが進行するにつれて、次のように、プロセスの最終段階を除いて \(\theta _{n}(t)\) は単一の関数 \(\theta ^*(t)\) に収束します。図2a。 \(\theta _{n}(t)\) の時系列は、速度場 (つまり \(\theta _{n}(t)\)) が各区間で固定されているため、方形波で構成されます。 (\デルタ t_Q\)。 \(\theta ^{*}(t)\) に対応する学習済みミキサーによる最適な混合プロセスは、次の 3 つの段階に分かれています。

初期段階 (\(0< t \le 0.3\)): 流量パラメーターは定数です。 \(\theta ^{*}(t) =\pi /4\)、定常流を示します、\(u(x,y)= - c \sin 2 \pi (x+y),~ v(x ,y)= c \sin 2 \pi (x+y)~~(c:\text {const.})\)。速度ベクトルは対角線に平行です。たとえば、直線 \(x+y=1/4\) に沿った流れは、速度ベクトル \((u,v)=( -c,c)\)。

中間段階 (\(0.3 < t \le 0.7\)): 流量パラメーターは直線的に変化します。 \(\theta ^{*}(t) = \omega ^{*} t~~(\omega ^{*} \simeq 16)\)、一定の角周波数を持つ時間的に周期的な流れを示します。

最終段階 (\(0.7 < t \le 1\)): 流量パラメータの時間発展に共通の特徴はありません。

訓練されたミキサーの特性。 (a) n 番目のエピソードの流れパラメータ \(\theta _{n}(t)\) の時系列: \(n=2000\)、3000、4000。縦軸は \( \theta _{n}(t)/\pi \) であり、水平の点線は \(k/4~(k \in \mathbb {Z})\) を表します。挿入図: 角周波数が一定である流れパラメーターの場合の混合分散 \(\Phi (t=1)\) \(\theta (t)= \omega t\)。水平の一点鎖線は、学習済みミキサーによる混合分散の値を示します。 (b) 訓練されたミキサーによる速度ベクトル場の時間発展。青い線と赤い点はそれぞれ材料線と固定点の 1 つを表します: \(t=0,~0.1,~0.2,~0.3,~0.36,~0.46,~0.54\) と 0.68。 (c) 完全ランダム化ミキサーと部分ランダム化ミキサー I および II による混合分散の確率密度関数 \(\Phi (t=1)\) を上から下のパネルに示します。 (d) 訓練されたミキサー (左) と完全にランダム化されたミキサー (右) による混合プロセスの終了時のスカラーフィールド \(c(x,t=1)\)。

最終段階における流れパラメータ \(\theta (t)\) の異なる時間発展により、最終的には混合分散の値 \(\Phi (t=1)\) がほぼ同じになります。プロセスの。したがって、ミキシングにおいて重要な工程は最終段階ではなく、初期および中期である。この点を裏付ける数値実験を次のサブセクションで示します。

図2bは、最後のエピソードで得られた流れパラメータ、つまり\(\theta _{n}(t)~(n=4000)\)に対応する速度場の時間発展を示しています。各パネルの青い線は、流れによって移流された材料ラインを示し、最初はライン \(y=0.5\) とともに配置されます。図2bの上のパネルは初期段階の流れを示しており、材料ラインがドメインの対角長になるように引き伸ばされます。その後、図 2b の下段に示すように、中間段階では流れは時間的に周期的になります。各速度場には 8 つの固定 (よどみ) 点 \(u_1\) と \(u_2\) があります。それらの半分は楕円形です。つまり、ヤコビアン行列は純粋に虚数の固有値を持ちます。残りの半分は鞍点です。つまり、ヤコビアン行列は実数固有値 15、16 を持ちます。そのうちの 1 つ \((x,y)=(0.5,0.5)\) に焦点を当てます。これは、図 2b の各パネルの赤い点で参照として示されています。固定点の周りの物質線は、固定点が鞍の場合は不安定な固有方向に沿って引き伸ばされますが、固定点が楕円の場合は折り畳まれます (\(\pi /2\) 回転します)。 8 つの固定点の周囲での局所的な伸縮と折り畳みが同時に発生し、効率的な混合が行われます。一定の角周波数 \(\theta (t)=\omega ^{*} t\) を使用したトレーニング済みミキサーによる特定のプロトコルの使用については、「結論と考察」セクションで説明します。

注目すべきことに、固定点のサドル型と楕円型の連続切り替えの周期を決定する中盤の流れの周期 \(2\pi /\omega ^*\) は、次の意味で最適です。。 RL アルゴリズムとは別に、混合プロセス全体を通じて、一定の角周波数 \(\omega \) で \(\theta (t)= \omega t\) によって決定される流れによって移流されるスカラー場の数値シミュレーションを実行します。 , \(0\le t \le 1\)。図 2a の挿入図は、 \(\omega \in [0,30]\) に対して評価された \(\Phi (t=1)\) を示しています。この設定における \(\Phi (t=1)\) の最小値は \(\omega \simeq \omega ^{*}\) で得られます。これは、RL アルゴリズムが事前知識なしに最適な角周波数 \(\omega ^{*}\) を決定し、トレーニングされたミキサーがプロセスの中間段階で最適な周期を持つ時間的に周期的なフローを使用することを意味します。

初期および中間段階の訓練されたミキサーによるフローを特徴付けるために、ランダム化ミキサーと呼ばれる 3 つの異なる混合プロセスを導入します。

完全にランダム化されたミキサー: 3 つのアクション \(\omega \in \{ 0, \omega _{+}, \omega _{-}\}\) の 1 つを独立して実行するランダムコントローラーを使用します。すべてのステージの確率 (\(0 \le t \le 1\))。

部分的にランダム化されたミキサー I: 初期段階 (\(0 \le t < 0.3\)) にはトレーニング済みミキサーを使用し、その後 \(0.3 \le t \le 1\) にはランダムコントローラーの使用に切り替えます。

部分的にランダム化されたミキサー II: 初期段階と中間段階 (\(0 \le t < 0.7\)) にはトレーニング済みミキサーを使用し、その後 \(0.7 \le t \le 1\) にはランダムコントローラーの使用に切り替えます。

数値シミュレーションは、各制御ごとに独立して 200 回実行されます。図2cは、混合プロセスの終了時の混合分散 \(\Phi (t=1)\) の確率密度関数 (PDF) を示しています。灰色の実線は、学習済みミキサーによる混合分散の値 \(\Phi _{n}(t=1)~(n=4000)\) を示します (「補足情報」の図 S1 を参照)。トレーニング済みミキサーの関連 PDF)。

図2cの上のパネルは、完全にランダム化されたミキサーの場合のPDFを示しており、ミックス分散はトレーニングされたミキサーの基準値よりも大きくなります。図 2d の左と右のパネルは、訓練されたミキサーと、混合分散 \( \Phi (t=1)\)、PDF の中央値に近い。「補足情報」のビデオ 1 と 2 は、それぞれトレーニング済みミキサーと完全にランダム化されたミキサーによって混合されたスカラーフィールドに対応します。完全にランダム化されたミキサーによって生成されたスカラーフィールドには、大きな混合されていないブロブが残ります。つまり、RL アルゴリズムを用いたトレーニングミキサーが有効です。図２ｃの２番目のパネルは、部分的にランダム化されたミキサＩの場合のＰＤＦを示しており、完全にランダム化されたミキサよりも効果的である。ただし、部分的にランダム化されたミキサー I の結果とトレーニングされたミキサーの結果の間には、かなりのギャップが存在します。このことは、中盤の混合プロセスも重要であることを示しています。最後に、図 2c の 3 番目のパネルは、部分的にランダム化されたミキサー II によって生成された PDF を示しています。結果は、トレーニングされたミキサーを使用して得られた結果とほぼ同じです。したがって、部分的にランダム化されたミキサー II の有効性は、トレーニングされたミキサーの有効性と同じです。これらの観察は、初期および中間段階での混合プロセスが混合効率にとって不可欠であるのに対し、最終段階での混合プロセスはそうではないことを示しています。

このサブセクションでは、有限ペクレ数を使用した移流拡散方程式 (式 1) で記述される混合の RL 最適化に対する拡散効果を考察します。問題設定の詳細は、ペクレ数の値を除き、前のセクションと同じです。 RL ベースの最適化は、\(\text {Pe}=10^2, 10^3\) および \(10^4\) の場合の混合問題に適用され、この場合と同様に効果的です。ペクレ数に関係なく、\(\text {Pe}=\infty \) の値になります。たとえば、\(\text {Pe}=100\) では、図の挿入図に示すように、混合分散 \(\Phi _{n}(t)\) は、後のエピソードほど急速に減少します。 3b では、\(n=1,600,1200,1800,2400\)、3000 およびより軽い (太い) 曲線がより大きな n に対応します。 \(n\ge 1200\) の \(\Phi _{n}(t)\) の曲線がほぼ同じであることに注目します。これは、RL アルゴリズムが \(n=1200 で最適なポリシーを見つけるために収束することを意味します) \)。興味深いことに、この収束は \(\text {Pe}=\infty \) の場合よりも高速です (図 1c)。収束に必要なエピソード数は \(\text {Pe}=\infty \) で \(n \simeq 3000\) です。ただし、 \(\text {Pe}=100\) 付近の収束には \(n \simeq 1200\) で十分と思われます。

(a) \(\text {Pe} =\infty \) および (b) \(\text {における \(0 \le t \le 1\) の混合分散 \(\Phi (t)\) Pe} =100\)。太い青線と細い赤線は、それぞれ \(\text {Pe}_T =\infty \) と \(\text {Pe}_T =100\) でトレーニングされたミキサーの結果を表します。実線、破線、一点鎖線は、学習に使用した乱数が異なる場合の結果に対応します。挿入図: n の \(\text {Pe} =100\) および \(\text {Pe}_{T} = 100\) における混合分散 \(\Phi _{n}(t)\) - 番目のエピソード: \(n=1, 600, 1200, 1800, 2400\)、および 3000。ここで、より軽い (より太い) 曲線は、より大きな n に対応します。

拡散効果は後段のフロー制御に現れます。ミキサーが初期段階で微細な層状構造を生成することに成功すると、混合の後期段階では拡散効果により流量制御の重要性が低くなります。言い換えれば、ペクレ数が低い場合、RL アルゴリズムが混合の初期段階で最適な混合制御を見つけると、ミキサーによる制御に関係なく、拡散によって混合分散が急速に減少するため、何も学習する必要はありません。これにより、上記で観察されたより高速な収束が得られる可能性があります。低いペクレ数での高速収束がトレーニングミキサーに与える影響については、「結論と考察」セクションで説明します。

この拡散効果は、訓練されたミキサーの非対称伝達性を意味します。つまり、高いペクレ数でトレーニングされたミキサーは、より低いペクレ数での混合に使用できますが、その逆は成り立ちません。 \(\text {Pe}_T\) をミキサーがトレーニングされるペクレ数とすると、非対称伝達性は次のように言い換えられます。トレーニングされたミキサーは、 \((0 の範囲の同じ混合プロセスに再利用できます) ,\text {Pe}_T]\) 図 3a は、\(0 \le t \le 1\) における \(\text {Pe} = \infty \)。青い太い線は \(\text {Pe}_T =\infty \) の場合の結果を示し、細い赤い線は \(\text {Pe}_T の場合の結果を示します) =100\). 図 3a、b では、実線、破線、および一点鎖線は、学習用に異なる乱数を使用した結果を示しています。 \(\text {Pe}_T =\infty \) で学習したミキサー\(\text {Pe}=\infty \) に使用すると、プロセス全体で指数関数的に高速な混合が実現します。一方、 \(\text {Pe}_T =100\) でトレーニングされたミキサーは、プロセスの前半だけ指数関数的に速く混合しますが、後半は混合できません。

図3bは、 \(\text {Pe} =100\) における \(0 \le t \le 1\) の混合分散 \(\Phi (t)\) を示しています。図 3a と同様に、青い太い線は \(\text {Pe}_T =\infty \) の場合の結果を表し、細い赤い線は \(\text {Pe} の場合の結果を表します) _T =100\)。 \(\text {Pe}=\infty \) の場合とは異なり、\(\text {Pe}_T =100\) と \(\text {Pe}_T = \infty \)、どちらの場合も指数関数的に高速な混合が実現します。要約すると、 \(\text {Pe}_T=\infty \) のミキサーは \(\text {Pe}=100\) でのミキシングに使用できますが、その逆は成り立ちません。したがって、より高いペクレ数でトレーニングされたミキサーは、より広範囲の \(\text {Pe}\) の混合プロセスに使用できます。

RL アルゴリズムが流体混合の最適化に適している理由を示すことで、概念実証として、RL アルゴリズムを使用して訓練されたミキサーが 2 次元流体混合問題に有効であることを実証しました (図 1)。ミキサーの RL ベースのトレーニングの開発への道を開きます。提案手法は、先駆的な研究で研究された混合最適化のベンチマーク問題に焦点を当てて定量的に評価されました。混合分散値の比較に加えて、RL ベースの方法は、Mathew らによって提案された方法と比較して、より制限された条件で最適化問題を解決することに注目します2。たとえば、今回の設定では、速度場の状態の数は \(\theta = 0,\pi /4, \ldots , 7\pi /4\) の 8 つに制限されています。さらに、提案された方法はより柔軟です。つまり、ニューラルネットワークへの入力としてスカラーと速度フィールドのみを使用します。これらのフィールドが観測できれば、たとえこれらのフィールドの進化方程式が未知であっても、物理的な実装は原理的に可能です。たとえば、粒状流体や粘弾性流体の混合の問題は不可欠です。しかし、このような複雑な物質の進化方程式は必ずしも確立されていないため、共役勾配降下法2をこれらの産業上の基本的な問題に適用することはできません。一方、RL ベースの方法は方程式が不要であるため、混合状態の感覚データがニューラルネットワークへの入力として利用できる場合に適用できます。

最適化された混合プロセスは 3 つの異なる段階に分割されました。特に興味深いのは、中間段階では、最適化されたフローが一定の角周波数で時間的に周期的であることです。ここでは、RL アルゴリズムが角周波数を一定にする理由について説明します。両方の速度場の固定点 \(u_{1}\) と \(u_{2}\) は同じ位置にあり、定義域 \(\mathbb {T}^{2) 内に均一に配置されています。 }\)。角周波数が一定でない場合、固定点の鞍型と楕円型の間の切り替え周期が場所ごとに異なる可能性があります。この空間的な違いにより、スカラー場が不均一になります。不均一性により、小さな波数のフーリエ係数の振幅が増加し、それによってミックス分散が増加します。その結果、角周波数の時間変化により、ミックス分散の値が大きくなります。 RL アルゴリズムは、この望ましくない影響を回避するために一定の角周波数を採用します。前述の解釈の詳細な正当化は今後の課題の 1 つです。

関連する今後のもう 1 つの作業は、最適な混合をより詳細に理解することです。たとえば、部分的にランダム化されたミキサー II (図 2c) の結果が最適化されるという意味で、最終段階での流れパラメーターのランダムな変動 (\(t>0.7\)) は最適な混合には必須ではないと主張します (図 2c)。と訓練されたミキサー (「補足情報」の図 S1) はほぼ同一です。ただし、これらの PDF 間には小さな違いがあり、最終段階でのアクションのランダム化により、最適化された混合プロセスにおいて、RL アルゴリズムが必須であると見なす一部のアクションが削除される可能性があることを示唆しています。

実用化するには学習コストの削減が重要です。学習コストの削減における転移学習の有効性にもかかわらず、流体力学の問題への応用は依然として限られています19。この点において、この研究は、訓練されたミキサーの非対称伝達性に関する物理的に合理的な概念を導入しました。この研究の実証 (図 3) は、転移学習の観点から、訓練されたミキサーが使用される場合、ソースドメイン \(\text {Pe}_{T}\) のペクレ数ができるだけ高くなければならないことを示しています。より広範囲に再利用することが求められます。ミキサーが高いペクレ数でトレーニングされている場合、ミキサーはスカラーフィールドを混合して細かい縞模様の構造を作成する方法を学習できます。訓練されたミキサーをより低いペクレ数に移すと、混合プロセスの開始時に微細な構造が形成されます。次に、後段の訓練されたミキサーの動作に関係なく、拡散によってそのような構造を平滑化すると、混合分散が減少します。したがって、訓練されたミキサーを高いペクレ数から低いペクレ数に移行することが効果的です。

学習コストの別の側面に関して、より低いペクレ数での混合の学習はより速く収束することがわかりました (図 3b の挿入図)。したがって、ペクレ数での高速学習が必要な場合は、ソースドメイン \(\text {Pe}_{T}\) のペクレ数をできるだけ低くする必要があります。前の段落の議論と合わせて考えると、上記の議論は、広範な転送可能性と高速学習の間のトレードオフを示唆しています。言い換えれば、各アプリケーションでこれら 2 つの利点のバランスを取るソースドメインの最適なペクレ数が存在します。この研究は、異なるペクレ数での訓練されたミキサーの転移に限定されていますが、訓練されたミキサーの転移学習法の将来の開発は重要になる可能性があります。

この研究で議論した数学的おもちゃ問題と工業プロセスにおける既存の混合問題の間には大きなギャップが存在します。しかし、この研究の結果は、これらのギャップを克服するいくつかの方向性を示しています。まず、乱流混合に対するこの研究の意味について説明します。乱流は、マルチスケールの逆回転するコヒーレント渦の対で構成され 20、強力な乱流混合は、各スケールでのそのような渦の対の周囲での効果的な混合から生じます 1。転移学習法で観察されるように、スカラー混合は、より大きなスケールからより小さなスケールへと発生します。乱流混合の時間スケールはスケールが小さいほど短いため、全体の混合効率は最大スケールでの混合によって決まります。したがって、提案されたトレーニング方法には、速度とスカラー場を最大スケールで測定するだけで十分である可能性があります。層流混合と乱流混合の間には大きなギャップがあるにもかかわらず、本研究からの洞察は乱流を使用するミキサーのトレーニングに役立つでしょう。

さらに、産業では、化学反応を伴う混相流や熱流を考慮する必要がある場合があり、これにより流れ力学の複雑さが増大します。このような場合、Brunton11 で説明されているように、発展方程式や物理的制約などの事前知識を RL ベースの最適化に組み込むことが効果的である可能性があります。産業混合問題における RL ベースの最適化のもう 1 つの将来の課題として、初期スカラー場の変化に関して、得られたポリシーを使用した混合制御のロバスト性を研究することが重要です。さらに、この研究ではディープ Q ネットワークが最初のステップとして採用されていますが、このような複雑なフローには、より具体的で最先端の RL アルゴリズムの実装が必要です。提案された方法を拡張して流体力学の知識と適切な RL 実装技術を組み込むことで、層流や乱流を伴う工業プロセスでも混合をさらに強化できます。

現在の研究中に使用および/または分析されたデータセットは、合理的な要求に応じて責任著者から入手できます。

Goto, S. & Kida, S. 乱流における線と表面の伸びのレイノルズ数依存性: 折り畳み効果。 J.流体メカ。 586、59–81 (2007)。

記事 ADS MathSciNet Google Scholar

Mathew, G.、Mezic, I.、Grivopoulos, S.、Vaidya, U.、Petzold, L. ストーク流体流における混合の最適制御。 J.流体メカ。 580、261–281 (2007)。

記事 ADS MathSciNet CAS Google Scholar

リン、Z.、ティフォー、J.-L. & Doering、CR 受動的スカラー混合のための最適な撹拌戦略。 J.流体メカ。 675、465–476 (2011)。

記事 ADS MathSciNet CAS Google Scholar

Seis, C. 非圧縮性流体の流れによる最大の混合。非線形性 26、3279–3289 (2013)。

記事 ADS MathSciNet Google Scholar

Alberti, G.、Crippa, G.、Mazzucato, AL 非圧縮性の流れによる指数関数的自己相似混合。混雑する。数学。社会 32、445–490 (2019)。

記事 MathSciNet Google Scholar

Szepesvàri、C. 強化学習のアルゴリズム。 (人工知能と機械学習に関する総合講義、モーガンおよびクレイプール出版社、2010 年)

RS サットン & AG バルト『強化学習: はじめに』 (MIT Press、2018)。

数学 Google Scholar

Villermaux、E. 混合と撹拌。アン。 Rev. Fluid Mech. 51、245–273 (2019)。

記事 ADS MathSciNet Google Scholar

Garnier、P. et al. 流体力学の深層強化学習に関するレビュー。計算します。 Fluids 225、104973–104996 (2021)。

記事 MathSciNet Google Scholar

Brunton, SL、Noack, BR & Koumoutsakos, P. 流体力学の機械学習。アン。 Rev. Fluid Mech. 52、477–508 (2020)。

記事 ADS Google Scholar

ブラントン、SL 流体力学の研究に機械学習を適用しています。 Acta Mechanica Sinica。 37、1718–1726。 https://doi.org/10.1007/s10409-021-01143-6 (2021)。

記事 ADS Google Scholar

Degrave, J. et al. 深層強化学習によるトカマクプラズマの磁気制御。ネイチャー 602、414–419 (2022)。

記事 ADS CAS Google Scholar

Novati, G.、de Laroussilhe, HL、Koumoutsakos, P. マルチエージェント強化学習による乱流モデリングの自動化。ナット。マッハ。知性。 3、87–96 (2021)。

記事 Google Scholar

Rothstein, D.、Henry, E.、Gollub, J. 一時的なカオス流体混合における永続的なパターン。 Nature 401、770–772 (1999)。

記事 ADS CAS Google Scholar

Wiggins, S. & Ottino, JM カオスミキシングの基礎。フィロス。トランス。 R. Soc. ロンド。シリーズ A 数学。物理学。工学科学。 362、937–970 (2004)。

記事 ADS MathSciNet Google Scholar

Aref、H.ら。カオスな移流のフロンティア。現代物理学牧師。 89、025007 (2017)。

記事 ADS MathSciNet Google Scholar

Mathew, G.、Mezic, I.、Petzold, L. 混合のためのマルチスケールメジャー。 Physica D 非線形現象 211、23–46 (2005)。

記事 ADS MathSciNet CAS Google Scholar

Mnih、V. et al. 深層強化学習による人間レベルの制御。ネイチャー 518、529–533 (2015)。

記事 ADS CAS Google Scholar

犬伏正人 & 後藤真人. 非線形力学の転移学習と流体乱流への応用。物理学。 Rev. E. 102、043301(8) (2020)。

記事 ADS Google Scholar

Goto, S.、Saito, Y. & Kawahara, G. 高レイノルズ数における空間周期乱流における逆平行渦管の階層。物理学。 Rev. Fluids 2、064603 (2017)。

記事 ADS Google Scholar

リファレンスをダウンロードする

本研究の一部は、JSPS 若手研究者向け科学研究費補助金 19K14591 および JSPS 科学研究費補助金 19KK0067、20H02068、20K20973、22K03420 の支援を受けました。

小西幹人氏と後藤進氏も同様に貢献しました。

大阪大学大学院基礎工学研究科（〒560-8531 大阪市）

Mikito Konishi, Masanobu Inubushi & Susumu Goto

東京理科大学応用数学科、東京理科大学、〒162-8601

Masanobu Inubushi

PubMed Google Scholar でこの著者を検索することもできます

MK と MI は数値実験を考案し、実行しました。 MK、MI、SG が結果を分析しました。著者全員が原稿をレビューしました。

Correspondence to Masanobu Inubushi.

著者らは競合する利害関係を宣言していません。

シュプリンガーネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

小西正人、犬伏正人、後藤真司、強化学習による流体混合の最適化。 Sci Rep 12、14268 (2022)。 https://doi.org/10.1038/s41598-022-18037-7

引用をダウンロード

受信日: 2022 年 3 月 25 日

受理日: 2022 年 8 月 4 日

公開日: 2022 年 8 月 22 日

DOI: https://doi.org/10.1038/s41598-022-18037-7

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

Terra Quantum、シミュレーターにより流体混合の設計がスピードアップされると発表

インスタントコーヒーを淹れる以外の15の使い方

ニュース

強化学習による流体混合の最適化