Bad_text_classifier
Model ์๊ฐ
์ธํฐ๋ท ์์ ํผ์ ธ์๋ ์ฌ๋ฌ ๋๊ธ, ์ฑํ ์ด ๋ฏผ๊ฐํ ๋ด์ฉ์ธ์ง ์๋์ง๋ฅผ ํ๋ณํ๋ ๋ชจ๋ธ์ ๊ณต๊ฐํฉ๋๋ค. ํด๋น ๋ชจ๋ธ์ ๊ณต๊ฐ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด label์ ์์ ํ๊ณ ๋ฐ์ดํฐ๋ค์ ํฉ์ณ ๊ตฌ์ฑํด finetuning์ ์งํํ์์ต๋๋ค. ํด๋น ๋ชจ๋ธ์ด ์ธ์ ๋ ๋ชจ๋ ๋ฌธ์ฅ์ ์ ํํ ํ๋จ์ด ๊ฐ๋ฅํ ๊ฒ์ ์๋๋ผ๋ ์ ์ํดํด ์ฃผ์๋ฉด ๊ฐ์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.
NOTE)
๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ์๊ถ ๋ฌธ์ ๋ก ์ธํด ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋ ๋ณํ๋ ๋ฐ์ดํฐ๋ ๊ณต๊ฐ ๋ถ๊ฐ๋ฅํ๋ค๋ ์ ์ ๋ฐํ๋๋ค.
๋ํ ํด๋น ๋ชจ๋ธ์ ์๊ฒฌ์ ์ ์๊ฒฌ๊ณผ ๋ฌด๊ดํ๋ค๋ ์ ์ ๋ฏธ๋ฆฌ ๋ฐํ๋๋ค.
Dataset
data label
- 0 : bad sentence
- 1 : not bad sentence
์ฌ์ฉํ dataset
dataset ๊ฐ๊ณต ๋ฐฉ๋ฒ
๊ธฐ์กด ์ด์ง ๋ถ๋ฅ๊ฐ ์๋์๋ ๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ง ๋ถ๋ฅ ํํ๋ก labeling์ ๋ค์ ํด์ค ๋ค, Korean HateSpeech Dataset์ค label 1(not bad sentence)๋ง์ ์ถ๋ ค ๊ฐ๊ณต๋ Korean Unsmile Dataset์ ํฉ์ณ ์ฃผ์์ต๋๋ค.
Korean Unsmile Dataset์ clean์ผ๋ก labeling ๋์ด์๋ ๋ฐ์ดํฐ ์ค ๋ช๊ฐ์ ๋ฐ์ดํฐ๋ฅผ 0 (bad sentence)์ผ๋ก ์์ ํ์์ต๋๋ค.
- "~๋ ธ"๊ฐ ํฌํจ๋ ๋ฌธ์ฅ ์ค, "์ด๊ธฐ", "๋ ธ๋ฌด"๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ๋ 0 (bad sentence)์ผ๋ก ์์
- "์ข", "๋ด" ๋ฑ ์ฑ ๊ด๋ จ ๋์์ค๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ๋ 0 (bad sentence)์ผ๋ก ์์
Model Training
- huggingface transformers์ ElectraForSequenceClassification๋ฅผ ์ฌ์ฉํด finetuning์ ์ํํ์์ต๋๋ค.
- ํ๊ตญ์ด ๊ณต๊ฐ Electra ๋ชจ๋ธ ์ค 3๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํด ๊ฐ๊ฐ ํ์ต์์ผ์ฃผ์์ต๋๋ค.
use model
how to train?
python codes/model_source/train_torch_sch.py \
--learning_rate=3e-06 \
--use_float_16=True \
--weight-decay=0.001 \
--base_save_ckpt_path=BASE_SAVE_CHPT_PATH \
--epochs=10 \
--batch_size=128 \
--model_type=MODEL_TYPE
parameters
parameter | type | description | default |
---|---|---|---|
learning_rate | float | decise learning rate for train | 5e-05 |
use_float_16 | bool | decise to apply float 16 or not | False |
weight_decay | float | define weight decay lambda | None |
base_ckpt_save_path | str | base path that will be saved trained checkpoints | None |
epochs | int | full train epochs | 5 |
batch_size | int | batch size using in train time | 64 |
model_type | int | used to choose what electra model using for training | 0 |
NOTE) train dataset, valid dataset์ train_torch_sch.py ๋ด์ config ๋ถ๋ถ์์ ์ง์ ํ์ค ์ ์์ต๋๋ค
How to use model?
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
tokenizer = AutoTokenizer.from_pretrained('JminJ/kcElectra_base_Bad_Sentence_Classifier')
Predict model
์ฌ์ฉ์๊ฐ ํ ์คํธ ํด๋ณด๊ณ ์ถ์ ๋ฌธ์ฅ์ ๋ฃ์ด predict๋ฅผ ์ํํด ๋ณผ ์ ์์ต๋๋ค.
python codes/model_source/utils/predict.py \
--input_text=INPUT_TEXT \
--base_ckpt=BASE_CKPT
parameters
parameter | type | description | default |
---|---|---|---|
input_text | str | user input text | "๋ฐ๊ฐ์ต๋๋ค. JminJ์ ๋๋ค!" |
base_ckpt | str | base path that saved trained checkpoints | False |
Model Valid Accuracy
mdoel | accuracy |
---|---|
kcElectra_base_fp16_wd_custom_dataset | 0.8849 |
tunibElectra_base_fp16_wd_custom_dataset | 0.8726 |
koElectra_base_fp16_wd_custom_dataset | 0.8434 |
Note)
๋ชจ๋ ๋ชจ๋ธ์ ๋์ผํ seed, learning_rate(3e-06), weight_decay lambda(0.001), batch_size(128)๋ก ํ์ต๋์์ต๋๋ค.