↑: [[深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第3版 (EXAMPRESS)]] - 行動を選択するActorとActorの行動を評価するCriticで構成される[[強化学習]]のアプローチ - [[価値関数]]と[[方策勾配法]]を組み合わせている - → https://zero2one.jp/ai-word/actor-critic/?srsltid=AfmBOoqYyPANWB65Llo5wl8szXzqGp6LxRN_txoWTLDCW3EHSCDEHsLT