欢迎来到我的博客
这是我的第一篇技术博客文章,用来测试 Markdown 渲染效果。
代码高亮测试
下面是一段 JavaScript 代码:
function greet(name) {
return `Hello, ${name}!`;
}
console.log(greet('World'));
Python 示例
def fibonacci(n):
if n <= 1:
return n
return fibonacci(n - 1) + fibonacci(n - 2)
for i in range(10):
print(fibonacci(i))
表格测试
| 技术栈 | 版本 | 用途 |
|---|
| Astro | 6.x | 静态站点生成 |
| Tailwind | 4.x | CSS 框架 |
| TypeScript | 5.x | 类型安全 |
列表测试
- 有序列表项 1
- 有序列表项 2
引用测试
这是一段引用文字。
可以跨越多行。
行内代码
这是一段 inline code 示例,以及一个链接 Astro 官网。
粗体文本 和 斜体文本 以及 删除线。
PPO 算法数学公式测试
策略比率 (Policy Ratio)
rt(θ)=πθold(at∣st)πθ(at∣st)
PPO-Clip 目标函数
LCLIP(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]
优势函数 (Advantage Function)
A^t=δt+(γλ)δt+1+⋯+(γλ)T−t+1δT−1
其中 TD 残差:
δt=rt+γV(st+1)−V(st)
价值函数损失
LVF(θ)=Et[(Vθ(st)−Vttarget)2]
行内公式测试
PPO 的核心思想是限制策略更新幅度,通过裁剪系数 ϵ(通常设为 0.1 或 0.2)来确保新策略 πθ 不会偏离旧策略 πθold 太远。
熵奖励 (Entropy Bonus)
LENT(θ)=Et[H(πθ(⋅∣st))]
综合损失函数
L(θ)=Et[−LCLIP(θ)+c1LVF(θ)−c2LENT(θ)]
其中 c1 和 c2 是超参数。