RLHF4MATH

AI & ML interests

None defined yet.

models 8

RLHF4MATH/CodeGemma-7B-it-M-DPO

Text Generation • Updated Jul 26 • 10

RLHF4MATH/Gemma-7B-it-M-DPO

Text Generation • Updated Jul 26 • 5

RLHF4MATH/Gemma-9B-it-SFT3epoch

Text Generation • Updated Jul 26 • 5

RLHF4MATH/Mistral-7B-pt-SFT2epoch

Text Generation • Updated Jul 26 • 5

RLHF4MATH/Code-Gemma-7B-it-SFT3epoch

Text Generation • Updated Jul 26 • 5

RLHF4MATH/Gemma-7B-it-SFT3epoch

Text Generation • Updated Jul 26 • 11

RLHF4MATH/Gemma-2-9B-it-M-DPO

Text Generation • Updated Jul 15 • 5

RLHF4MATH/Mistral-7B-pt-M-DPO

Text Generation • Updated Jul 13 • 8

datasets 6

RLHF4MATH/Gemma-7B-1.1-it-iter1-random-pairs

Viewer • Updated Jul 27 • 19k • 40

RLHF4MATH/SFT_510K

Viewer • Updated Jul 25 • 512k • 40

RLHF4MATH/prompt_iter4

Viewer • Updated Jul 25 • 20.8k • 38

RLHF4MATH/prompt_iter3

Viewer • Updated Jul 25 • 20.8k • 38

RLHF4MATH/prompt_iter2

Viewer • Updated Jul 25 • 20.8k • 38

RLHF4MATH/prompt_iter1

Viewer • Updated Jul 25 • 20.8k • 36