Upload tokenizer

Files changed (3) hide show

special_tokens_map.json CHANGED Viewed

@@ -18,13 +18,7 @@
  "rstrip": false,
  "single_word": false
  },
- "pad_token": {
- "content": "</s>",
- "lstrip": false,
- "normalized": false,
- "rstrip": false,
- "single_word": false
- },
  "unk_token": {
  "content": "<unk>",
  "lstrip": false,

  "rstrip": false,
  "single_word": false
  },
+ "pad_token": "<unk>",
  "unk_token": {
  "content": "<unk>",
  "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -134,6 +134,7 @@
  "end_of_word_suffix": null,
  "fuse_unk": true,
  "byte_fallback": true,
  "vocab": {
  "<unk>": 0,
  "<s>": 1,

  "end_of_word_suffix": null,
  "fuse_unk": true,
  "byte_fallback": true,
+ "ignore_merges": false,
  "vocab": {
  "<unk>": 0,
  "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,6 +1,7 @@
 {
  "add_bos_token": true,
  "add_eos_token": false,
  "added_tokens_decoder": {
  "0": {
  "content": "<unk>",
@@ -37,9 +38,9 @@
  "clean_up_tokenization_spaces": false,
  "eos_token": "</s>",
  "legacy": true,
- "model_max_length": 4096,
- "pad_token": "</s>",
- "padding_side": "right",
  "sp_model_kwargs": {},
  "spaces_between_special_tokens": false,
  "tokenizer_class": "LlamaTokenizer",

 {
  "add_bos_token": true,
  "add_eos_token": false,
+ "add_prefix_space": null,
  "added_tokens_decoder": {
  "0": {
  "content": "<unk>",
  "clean_up_tokenization_spaces": false,
  "eos_token": "</s>",
  "legacy": true,
+ "model_max_length": 1000000000000000019884624838656,
+ "pad_token": "<unk>",
+ "padding_side": "left",
  "sp_model_kwargs": {},
  "spaces_between_special_tokens": false,
  "tokenizer_class": "LlamaTokenizer",