carmo

`CARMO`

Bases: BaseLLMReward, BaseListWiseReward
Context-Aware Reward Modeling
Source code in rm_gallery/gallery/rm/carmo.py
class CARMO(BaseLLMReward, BaseListWiseReward):
    """Context-Aware Reward Modeling"""

    def _before_evaluate(self, sample: DataSample, **kwargs) -> dict:
        instruction = sample.input[-1].content

        query = CriteriaGenerationPrompt.format(instruction=instruction)
        response = self.llm.simple_chat(query)
        principles = CriteriaGenerationPrompt.parse(response).principles
        completions = [output.answer.content for output in sample.output]

        return dict(
            principles=principles,
            instruction=instruction,
            completions=completions,
        )

    def _after_evaluate(
        self, response: RelativeEvaluationPrompt, sample: DataSample, **kwargs
    ) -> RewardResult:
        """
        Converts LLM response to list-wise ranking metrics.

        Parameters:
            response (RelativeEvaluationPrompt): Parsed LLM comparison

        Returns:
            RewardResult: Relative ranking of responses
        """
        scores = [0 for i in range(len(sample.output))]
        scores[response.best - 1] = 1
        return RewardResult(
            name=self.name,
            details=[
                RewardDimensionWithRank(
                    name=self.name, reason=response.reason, rank=scores
                )
            ],
        )