desarrolloasesoreslocales/legal-mistral-v2

Browse files

Files changed (9) hide show

README.md +21 -5
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701082638.1525e7447fdd.42121.0 +3 -0
runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701084875.1525e7447fdd.42121.1 +3 -0
runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701085039.1525e7447fdd.42121.2 +3 -0
runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701089676.1525e7447fdd.42121.3 +3 -0
trainer_state.json +274 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -4,18 +4,18 @@ base_model: mistralai/Mistral-7B-Instruct-v0.1
 tags:
 - generated_from_trainer
 model-index:
-- name: legal-mistral-v0.1
  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# legal-mistral-v0.1
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.8913
 ## Model description
@@ -40,13 +40,29 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.6658 | 1.0 | 60 | 2.8913 |
 ### Framework versions

 tags:
 - generated_from_trainer
 model-index:
+- name: legal-mistral
  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# legal-mistral
 This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.1](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3540
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.4243 | 0.17 | 10 | 2.5809 |
+| 2.32 | 0.34 | 20 | 2.5187 |
+| 2.2652 | 0.52 | 30 | 2.4796 |
+| 2.2424 | 0.69 | 40 | 2.4498 |
+| 2.1759 | 0.86 | 50 | 2.4304 |
+| 2.1698 | 1.03 | 60 | 2.4161 |
+| 2.1337 | 1.21 | 70 | 2.4035 |
+| 2.1193 | 1.38 | 80 | 2.3962 |
+| 2.0928 | 1.55 | 90 | 2.3852 |
+| 2.1072 | 1.72 | 100 | 2.3763 |
+| 2.0701 | 1.9 | 110 | 2.3709 |
+| 2.0584 | 2.07 | 120 | 2.3670 |
+| 2.0569 | 2.24 | 130 | 2.3638 |
+| 2.0396 | 2.41 | 140 | 2.3619 |
+| 2.0406 | 2.59 | 150 | 2.3584 |
+| 2.0259 | 2.76 | 160 | 2.3552 |
+| 2.0492 | 2.93 | 170 | 2.3540 |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -16,10 +16,10 @@
  "rank_pattern": {},
  "revision": null,
  "target_modules": [
- "k_proj",
  "v_proj",
  "q_proj",
- "o_proj"
  ],
  "task_type": "CAUSAL_LM"
 }

  "rank_pattern": {},
  "revision": null,
  "target_modules": [
  "v_proj",
  "q_proj",
+ "o_proj",
+ "k_proj"
  ],
  "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:815ccb1ea1421334dfd279256070f1a9335bcefc6b46a948074095a698d82b14
 size 27297032

 version https://git-lfs.github.com/spec/v1
+oid sha256:79aac1fb92330370ca501799bc5ff5b833c46ab0f8c2b4165b1e74838a6e15c8
 size 27297032

runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701082638.1525e7447fdd.42121.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6a0cf23bc541ad5b991e7ab621dcf911e2561c57dacfc1be12b910e2bf62334
+size 10032

runs/Nov27_10-57-12_1525e7447fdd/events.out.tfevents.1701084875.1525e7447fdd.42121.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04a4c301c129b65bffac58990cbc8b484fb8049325750a98af88983b2c6a003b
+size 354

runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701085039.1525e7447fdd.42121.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6306c4c7d639e9241f6a08b297e31ca15c9a54ba4668c3de20553e75cf70e4c6
+size 12179

runs/Nov27_11-36-57_1525e7447fdd/events.out.tfevents.1701089676.1525e7447fdd.42121.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:593c19c5868d5d3625b143d50c3707883970743dad00846480aabb78de858d2a
+size 630

trainer_state.json ADDED Viewed

	@@ -0,0 +1,274 @@

+{
+ "best_metric": 2.3539514541625977,
+ "best_model_checkpoint": "desarrolloasesoreslocales/legal-mistral/checkpoint-170",
+ "epoch": 3.0,
+ "eval_steps": 10,
+ "global_step": 174,
+ "is_hyper_param_search": false,
+ "is_local_process_zero": true,
+ "is_world_process_zero": true,
+ "log_history": [
+ {
+ "epoch": 0.17,
+ "learning_rate": 1.885057471264368e-05,
+ "loss": 2.4243,
+ "step": 10
+ },
+ {
+ "epoch": 0.17,
+ "eval_loss": 2.5809202194213867,
+ "eval_runtime": 79.9298,
+ "eval_samples_per_second": 11.623,
+ "eval_steps_per_second": 1.464,
+ "step": 10
+ },
+ {
+ "epoch": 0.34,
+ "learning_rate": 1.770114942528736e-05,
+ "loss": 2.32,
+ "step": 20
+ },
+ {
+ "epoch": 0.34,
+ "eval_loss": 2.5187058448791504,
+ "eval_runtime": 79.9944,
+ "eval_samples_per_second": 11.613,
+ "eval_steps_per_second": 1.463,
+ "step": 20
+ },
+ {
+ "epoch": 0.52,
+ "learning_rate": 1.6551724137931037e-05,
+ "loss": 2.2652,
+ "step": 30
+ },
+ {
+ "epoch": 0.52,
+ "eval_loss": 2.479558229446411,
+ "eval_runtime": 79.9192,
+ "eval_samples_per_second": 11.624,
+ "eval_steps_per_second": 1.464,
+ "step": 30
+ },
+ {
+ "epoch": 0.69,
+ "learning_rate": 1.540229885057471e-05,
+ "loss": 2.2424,
+ "step": 40
+ },
+ {
+ "epoch": 0.69,
+ "eval_loss": 2.449814796447754,
+ "eval_runtime": 80.3275,
+ "eval_samples_per_second": 11.565,
+ "eval_steps_per_second": 1.457,
+ "step": 40
+ },
+ {
+ "epoch": 0.86,
+ "learning_rate": 1.4252873563218392e-05,
+ "loss": 2.1759,
+ "step": 50
+ },
+ {
+ "epoch": 0.86,
+ "eval_loss": 2.430422782897949,
+ "eval_runtime": 80.3296,
+ "eval_samples_per_second": 11.565,
+ "eval_steps_per_second": 1.456,
+ "step": 50
+ },
+ {
+ "epoch": 1.03,
+ "learning_rate": 1.310344827586207e-05,
+ "loss": 2.1698,
+ "step": 60
+ },
+ {
+ "epoch": 1.03,
+ "eval_loss": 2.4160897731781006,
+ "eval_runtime": 79.8167,
+ "eval_samples_per_second": 11.639,
+ "eval_steps_per_second": 1.466,
+ "step": 60
+ },
+ {
+ "epoch": 1.21,
+ "learning_rate": 1.1954022988505748e-05,
+ "loss": 2.1337,
+ "step": 70
+ },
+ {
+ "epoch": 1.21,
+ "eval_loss": 2.40354585647583,
+ "eval_runtime": 79.8387,
+ "eval_samples_per_second": 11.636,
+ "eval_steps_per_second": 1.465,
+ "step": 70
+ },
+ {
+ "epoch": 1.38,
+ "learning_rate": 1.0804597701149427e-05,
+ "loss": 2.1193,
+ "step": 80
+ },
+ {
+ "epoch": 1.38,
+ "eval_loss": 2.3962202072143555,
+ "eval_runtime": 79.8113,
+ "eval_samples_per_second": 11.64,
+ "eval_steps_per_second": 1.466,
+ "step": 80
+ },
+ {
+ "epoch": 1.55,
+ "learning_rate": 9.655172413793105e-06,
+ "loss": 2.0928,
+ "step": 90
+ },
+ {
+ "epoch": 1.55,
+ "eval_loss": 2.3851864337921143,
+ "eval_runtime": 79.8078,
+ "eval_samples_per_second": 11.64,
+ "eval_steps_per_second": 1.466,
+ "step": 90
+ },
+ {
+ "epoch": 1.72,
+ "learning_rate": 8.505747126436782e-06,
+ "loss": 2.1072,
+ "step": 100
+ },
+ {
+ "epoch": 1.72,
+ "eval_loss": 2.376269817352295,
+ "eval_runtime": 79.9299,
+ "eval_samples_per_second": 11.623,
+ "eval_steps_per_second": 1.464,
+ "step": 100
+ },
+ {
+ "epoch": 1.9,
+ "learning_rate": 7.35632183908046e-06,
+ "loss": 2.0701,
+ "step": 110
+ },
+ {
+ "epoch": 1.9,
+ "eval_loss": 2.3708786964416504,
+ "eval_runtime": 79.9941,
+ "eval_samples_per_second": 11.613,
+ "eval_steps_per_second": 1.463,
+ "step": 110
+ },
+ {
+ "epoch": 2.07,
+ "learning_rate": 6.206896551724138e-06,
+ "loss": 2.0584,
+ "step": 120
+ },
+ {
+ "epoch": 2.07,
+ "eval_loss": 2.3670151233673096,
+ "eval_runtime": 80.0335,
+ "eval_samples_per_second": 11.608,
+ "eval_steps_per_second": 1.462,
+ "step": 120
+ },
+ {
+ "epoch": 2.24,
+ "learning_rate": 5.057471264367817e-06,
+ "loss": 2.0569,
+ "step": 130
+ },
+ {
+ "epoch": 2.24,
+ "eval_loss": 2.3638148307800293,
+ "eval_runtime": 80.0359,
+ "eval_samples_per_second": 11.607,
+ "eval_steps_per_second": 1.462,
+ "step": 130
+ },
+ {
+ "epoch": 2.41,
+ "learning_rate": 3.908045977011495e-06,
+ "loss": 2.0396,
+ "step": 140
+ },
+ {
+ "epoch": 2.41,
+ "eval_loss": 2.3619213104248047,
+ "eval_runtime": 80.0238,
+ "eval_samples_per_second": 11.609,
+ "eval_steps_per_second": 1.462,
+ "step": 140
+ },
+ {
+ "epoch": 2.59,
+ "learning_rate": 2.7586206896551725e-06,
+ "loss": 2.0406,
+ "step": 150
+ },
+ {
+ "epoch": 2.59,
+ "eval_loss": 2.3583548069000244,
+ "eval_runtime": 80.0658,
+ "eval_samples_per_second": 11.603,
+ "eval_steps_per_second": 1.461,
+ "step": 150
+ },
+ {
+ "epoch": 2.76,
+ "learning_rate": 1.6091954022988506e-06,
+ "loss": 2.0259,
+ "step": 160
+ },
+ {
+ "epoch": 2.76,
+ "eval_loss": 2.3552348613739014,
+ "eval_runtime": 80.0434,
+ "eval_samples_per_second": 11.606,
+ "eval_steps_per_second": 1.462,
+ "step": 160
+ },
+ {
+ "epoch": 2.93,
+ "learning_rate": 4.5977011494252875e-07,
+ "loss": 2.0492,
+ "step": 170
+ },
+ {
+ "epoch": 2.93,
+ "eval_loss": 2.3539514541625977,
+ "eval_runtime": 80.0092,
+ "eval_samples_per_second": 11.611,
+ "eval_steps_per_second": 1.462,
+ "step": 170
+ },
+ {
+ "epoch": 3.0,
+ "step": 174,
+ "total_flos": 7.500749066993664e+16,
+ "train_loss": 2.138888589267073,
+ "train_runtime": 4525.1585,
+ "train_samples_per_second": 3.032,
+ "train_steps_per_second": 0.038
+ },
+ {
+ "epoch": 3.0,
+ "eval_loss": 2.3539514541625977,
+ "eval_runtime": 80.117,
+ "eval_samples_per_second": 11.596,
+ "eval_steps_per_second": 1.46,
+ "step": 174
+ }
+ ],
+ "logging_steps": 10,
+ "max_steps": 174,
+ "num_train_epochs": 3,
+ "save_steps": 10,
+ "total_flos": 7.500749066993664e+16,
+ "trial_name": null,
+ "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:342b6ccdadecbe9a6352620fb41fe4266c70447541ea26bed264fab8d9534f34
 size 4600

 version https://git-lfs.github.com/spec/v1
+oid sha256:84acc7450e4d937cd2b7e05c91d789543976e763d2b1cbde1597d35322b38146
 size 4600