trinity.algorithm.advantage_fn.ppo_advantage module

Contents

trinity.algorithm.advantage_fn.ppo_advantage module#

PPO’s GAE advantage computation

Ref: volcengine/verl

class trinity.algorithm.advantage_fn.ppo_advantage.PPOAdvantageFn(gamma: float = 1.0, lam: float = 1.0)[source]#

Bases: AdvantageFn

__init__(gamma: float = 1.0, lam: float = 1.0) → None[source]#

classmethod default_args() → Dict[source]#

Returns:: The default init arguments for the advantage function.
Return type:: Dict