heegyu
/

ko-reward-model-safety-1.3b-v0.2

Text Classification

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

heegyu commited on Jan 3

Commit

3433fd2

•

1 Parent(s): e83ba4b

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ language:
 - Base Model: [42dot/42dot_LLM-SFT-1.3B](https://huggingface.co/42dot/42dot_LLM-SFT-1.3B)
 - [v0.1](https://huggingface.co/heegyu/ko-reward-model-1.3b-v0.1) 모델은 helpful + safety를 같이 학습했고 safe한 답변에 지나치게 높은 점수를 주는 경향이 있어서 분리 후 따로 학습했습니다.
-- 이 모델은 윤리적인 답변에 높은 점수를 주는 safety 모델입니다.
 ## Hyperparameters:
 - Batch: 128
@@ -36,7 +36,7 @@ language:
 ```
 from transformers import pipeline
-pipe = pipeline("text-classification", model="heegyu/1231-korm-safety-1.3b-128-1e-5")
 pipe("""<human>:

 - Base Model: [42dot/42dot_LLM-SFT-1.3B](https://huggingface.co/42dot/42dot_LLM-SFT-1.3B)
 - [v0.1](https://huggingface.co/heegyu/ko-reward-model-1.3b-v0.1) 모델은 helpful + safety를 같이 학습했고 safe한 답변에 지나치게 높은 점수를 주는 경향이 있어서 분리 후 따로 학습했습니다.
+- 이 모델은 윤리적인 답변에 높은 점수를 주는 safety 모델입니다. 유용하고 자세한 답변에 대해 높은 점수를 주는 helpful 모델은 [heegyu/ko-reward-model-helpful-1.3b-v0.2](https://huggingface.co/heegyu/ko-reward-model-helpful-1.3b-v0.2) <- 이 모델을 사용하세요
 ## Hyperparameters:
 - Batch: 128
 ```
 from transformers import pipeline
+pipe = pipeline("text-classification", model="heegyu/ko-reward-model-safety-1.3b-v0.2")
 pipe("""<human>: