Agent Modeling: State and Action Definitions in Trading

Question:

change the following to Markdown code: \section{agent建模} \subsection{状态 (State)} 在每个时间间隔的开始以及每个episode中，代理对其交易的环境知之甚少。这意味着代理只能访问由 ((q_t, t)) 或 ((q_t, t, S_{t-1}))（即数量、时间和可能的中间价格）组成的状态 (s_t)。这里，agent1用（(q_t,t)）作为state，而agent2用((q_t,t,S_t))作为state。

\subsection{动作 (Action)} 给定当前的 (\epsilon) 值，从均匀分布中抽取的 (\zeta) 决定是进行探索还是利用。具体来说，以 (\epsilon) 的概率，代理选择进行探索，此时卖出行动 (v_t) 从二项分布中抽取，试验次数等于 (q_t)（即子区间开始时剩余的库存量），成功概率为 (\frac{1}{N-t})。通过这种方式，在探索阶段，平均情况下选择了TWAP（时间加权平均价格）策略。否则（以 (1-\epsilon) 的概率），代理选择Q最优动作，即最大化 (Q_{\mathrm{main}}) 的Q值的动作，利用在探索阶段学到的内容。代理不能卖出超过剩余库存量的股票，此外，在卖出计划中不能进行买入操作。

这样，代理随机探索大量的状态和可能的动作。一旦在训练回合中每进行 (m) 个动作，(\epsilon) 会乘以一个常数 (c<1)，即 (\epsilon \leftarrow \epsilon \times c)，从而在大量回合 (M) 之后，(\epsilon) 收敛到零，算法逐渐停止探索，开始贪婪地利用其在权重 (Q_{\mathrm{main}}) 上学到的内容。

在训练阶段，每个时间步 (t) 的动作决策规则如下： $$ \begin{aligned} &\epsilon \in (0,1), \quad \zeta \sim \mathcal{U}(0,1) \ &v_t = \begin{cases} \sim \mathrm{Bin}(q_t, \frac{1}{N-t}), & \text{if} \quad \zeta \l

Answer:

# agent建模

## 状态 (State)

在每个时间间隔的开始以及每个episode中，代理对其交易的环境知之甚少。这意味着代理只能访问由 \((q_t, t)\) 或 \((q_t, t, S_{t-1})\)（即数量、时间和可能的中间价格）组成的状态 \(s_t\)。这里，agent1用（\(q_t,t\)）作为state，而agent2用(\(q_t,t,S_t\))作为state。

## 动作 (Action)

给定当前的 \(\epsilon\) 值，从均匀分布中抽取的 \(\zeta\) 决定是进行探索还是利用。具体来说，以 \(\epsilon\) 的概率，代理选择进行探索，此时卖出行动 \(v_t\) 从二项分布中抽取，试验次数等于 \(q_t\)（即子区间开始时剩余的库存量），成功概率为 \(\frac{1}{N-t}\)。通过这种方式，在探索阶段，平均情况下选择了TWAP（时间加权平均价格）策略。否则（以 \(1-\epsilon\) 的概率），代理选择Q最优动作，即最大化 \(Q_{\mathrm{main}}\) 的Q值的动作，利用在探索阶段学到的内容。代理不能卖出超过剩余库存量的股票，此外，在卖出计划中不能进行买入操作。

这样，代理随机探索大量的状态和可能的动作。一旦在训练回合中每进行 \(m\) 个动作，\(\epsilon\) 会乘以一个常数 \(c<1\)，即 \(\epsilon \leftarrow \epsilon \times c\)，从而在大量回合 \(M\) 之后，\(\epsilon\) 收敛到零，算法逐渐停止探索，开始贪婪地利用其在权重 \(Q_{\mathrm{main}}\) 上学到的内容。

在训练阶段，每个时间步 \(t\) 的动作决策规则如下：

$$
\begin{aligned}
&\epsilon \in (0,1), \quad \zeta \sim \mathcal{U}(0,1) \\
&v_t = 
\begin{cases}
\sim \mathrm{Bin}(q_t, \frac{1}{N-t}), & \text{if} \quad \zeta < \epsilon \\
\arg\max_{v} Q_{\mathrm{main}}(s_t, v), & \text{otherwise}
\end{cases}
\end{aligned}

Agent Modeling: State and Action Definitions in Trading

Answered using ChatGPT 4o by ChatGPT4o