RLHFLow Reward Models - a RLHFlow Collection

RLHFlow 's Collections

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

RLHFLow Reward Models

updated Aug 21

Reward models trained by RLHFlow codebase (https://github.com/RLHFlow/RLHF-Reward-Modeling/)

RLHFlow/ArmoRM-Llama3-8B-v0.1

Text Classification • Updated Sep 23 • 12.7k • 141
RLHFlow/pair-preference-model-LLaMA3-8B

Text Generation • Updated 16 days ago • 1.49k • 36
sfairXC/FsfairX-LLaMA3-RM-v0.1

Text Classification • Updated 16 days ago • 23.3k • 48

Note Bradley-Terry reward model trained with RLHFlow codebase
RLHF Workflow: From Reward Modeling to Online RLHF

Paper • 2405.07863 • Published May 13 • 67

Note Tech report that covers Pairwise Preference Model
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

Paper • 2406.12845 • Published Jun 18 • 1

Note Tech report for ArmoRM