Agent Modeling: State and Action Definitions in Trading

Answered using ChatGPT 4o by ChatGPT4o

Question:

change the following to Markdown code: \section{agent建模} \subsection{状态 (State)} 在每个时间间隔的开始以及每个episode中,代理对其交易的环境知之甚少。这意味着代理只能访问由 ((q_t, t)) 或 ((q_t, t, S_{t-1}))(即数量、时间和可能的中间价格)组成的状态 (s_t)。这里,agent1用((q_t,t))作为state,而agent2用((q_t,t,S_t))作为state。

\subsection{动作 (Action)} 给定当前的 (\epsilon) 值,从均匀分布中抽取的 (\zeta) 决定是进行探索还是利用。具体来说,以 (\epsilon) 的概率,代理选择进行探索,此时卖出行动 (v_t) 从二项分布中抽取,试验次数等于 (q_t)(即子区间开始时剩余的库存量),成功概率为 (\frac{1}{N-t})。通过这种方式,在探索阶段,平均情况下选择了TWAP(时间加权平均价格)策略。否则(以 (1-\epsilon) 的概率),代理选择Q最优动作,即最大化 (Q_{\mathrm{main}}) 的Q值的动作,利用在探索阶段学到的内容。代理不能卖出超过剩余库存量的股票,此外,在卖出计划中不能进行买入操作。

这样,代理随机探索大量的状态和可能的动作。一旦在训练回合中每进行 (m) 个动作,(\epsilon) 会乘以一个常数 (c<1),即 (\epsilon \leftarrow \epsilon \times c),从而在大量回合 (M) 之后,(\epsilon) 收敛到零,算法逐渐停止探索,开始贪婪地利用其在权重 (Q_{\mathrm{main}}) 上学到的内容。

在训练阶段,每个时间步 (t) 的动作决策规则如下: $$ \begin{aligned} &\epsilon \in (0,1), \quad \zeta \sim \mathcal{U}(0,1) \ &v_t = \begin{cases} \sim \mathrm{Bin}(q_t, \frac{1}{N-t}), & \text{if} \quad \zeta \l

Answer:
# agent建模

## 状态 (State)

在每个时间间隔的开始以及每个episode中,代理对其交易的环境知之甚少。这意味着代理只能访问由 \((q_t, t)\) 或 \((q_t, t, S_{t-1})\)(即数量、时间和可能的中间价格)组成的状态 \(s_t\)。这里,agent1用(\(q_t,t\))作为state,而agent2用(\(q_t,t,S_t\))作为state。

## 动作 (Action)

给定当前的 \(\epsilon\) 值,从均匀分布中抽取的 \(\zeta\) 决定是进行探索还是利用。具体来说,以 \(\epsilon\) 的概率,代理选择进行探索,此时卖出行动 \(v_t\) 从二项分布中抽取,试验次数等于 \(q_t\)(即子区间开始时剩余的库存量),成功概率为 \(\frac{1}{N-t}\)。通过这种方式,在探索阶段,平均情况下选择了TWAP(时间加权平均价格)策略。否则(以 \(1-\epsilon\) 的概率),代理选择Q最优动作,即最大化 \(Q_{\mathrm{main}}\) 的Q值的动作,利用在探索阶段学到的内容。代理不能卖出超过剩余库存量的股票,此外,在卖出计划中不能进行买入操作。

这样,代理随机探索大量的状态和可能的动作。一旦在训练回合中每进行 \(m\) 个动作,\(\epsilon\) 会乘以一个常数 \(c<1\),即 \(\epsilon \leftarrow \epsilon \times c\),从而在大量回合 \(M\) 之后,\(\epsilon\) 收敛到零,算法逐渐停止探索,开始贪婪地利用其在权重 \(Q_{\mathrm{main}}\) 上学到的内容。

在训练阶段,每个时间步 \(t\) 的动作决策规则如下:

$$
\begin{aligned}
&\epsilon \in (0,1), \quad \zeta \sim \mathcal{U}(0,1) \\
&v_t = 
\begin{cases}
\sim \mathrm{Bin}(q_t, \frac{1}{N-t}), & \text{if} \quad \zeta < \epsilon \\
\arg\max_{v} Q_{\mathrm{main}}(s_t, v), & \text{otherwise}
\end{cases}
\end{aligned}