Training in progress, epoch 0

Browse files

Files changed (5) hide show

all_results.json +8 -0
model.safetensors +1 -1
runs/Apr07_09-39-35_3c5a76d36ea5/events.out.tfevents.1712485033.3c5a76d36ea5.215.1 +3 -0
train_results.json +8 -0
trainer_state.json +792 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.99,
+    "total_flos": 3.3497451642252165e+18,
+    "train_loss": 0.5573047858584188,
+    "train_runtime": 2153.5042,
+    "train_samples_per_second": 62.689,
+    "train_steps_per_second": 0.489
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5037fe396d1fbdc2d3461eb8ddbc810611508cc1f39fc289cd07cdbdfead0ad1
 size 110367448

 version https://git-lfs.github.com/spec/v1
+oid sha256:27b9f1f7bb1403785b476f43a32fd83b1ee073ce0a37d2d8fe21ba5ae1a2f85c
 size 110367448

runs/Apr07_09-39-35_3c5a76d36ea5/events.out.tfevents.1712485033.3c5a76d36ea5.215.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bdb335c0f3dd1b08140a7cad3a4c0e7c4f4dc779a1730148c8c8b74bd9356ce
+size 13005

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.99,
+    "total_flos": 3.3497451642252165e+18,
+    "train_loss": 0.5573047858584188,
+    "train_runtime": 2153.5042,
+    "train_samples_per_second": 62.689,
+    "train_steps_per_second": 0.489
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,792 @@

+{
+  "best_metric": 0.9738,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-1053",
+  "epoch": 2.9936034115138592,
+  "eval_steps": 500,
+  "global_step": 1053,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 5.0049214363098145,
+      "learning_rate": 4.716981132075472e-06,
+      "loss": 2.3305,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 5.08838415145874,
+      "learning_rate": 9.433962264150944e-06,
+      "loss": 2.2965,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 6.870338439941406,
+      "learning_rate": 1.4150943396226415e-05,
+      "loss": 2.1733,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 6.763277530670166,
+      "learning_rate": 1.8867924528301888e-05,
+      "loss": 1.9936,
+      "step": 40
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 7.859236717224121,
+      "learning_rate": 2.358490566037736e-05,
+      "loss": 1.7305,
+      "step": 50
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 19.806703567504883,
+      "learning_rate": 2.830188679245283e-05,
+      "loss": 1.4335,
+      "step": 60
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 17.265830993652344,
+      "learning_rate": 3.30188679245283e-05,
+      "loss": 1.2302,
+      "step": 70
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 10.891965866088867,
+      "learning_rate": 3.7735849056603776e-05,
+      "loss": 1.0525,
+      "step": 80
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 12.098174095153809,
+      "learning_rate": 4.245283018867925e-05,
+      "loss": 0.9623,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 15.227210998535156,
+      "learning_rate": 4.716981132075472e-05,
+      "loss": 0.9037,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 10.019371032714844,
+      "learning_rate": 4.978880675818374e-05,
+      "loss": 0.8151,
+      "step": 110
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 9.77025318145752,
+      "learning_rate": 4.9260823653643085e-05,
+      "loss": 0.7041,
+      "step": 120
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 13.53752326965332,
+      "learning_rate": 4.8732840549102435e-05,
+      "loss": 0.697,
+      "step": 130
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 13.287837028503418,
+      "learning_rate": 4.820485744456177e-05,
+      "loss": 0.7026,
+      "step": 140
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 12.724205017089844,
+      "learning_rate": 4.767687434002112e-05,
+      "loss": 0.6429,
+      "step": 150
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 12.56704330444336,
+      "learning_rate": 4.7148891235480466e-05,
+      "loss": 0.6533,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 13.585038185119629,
+      "learning_rate": 4.662090813093981e-05,
+      "loss": 0.6176,
+      "step": 170
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 9.79969596862793,
+      "learning_rate": 4.609292502639916e-05,
+      "loss": 0.611,
+      "step": 180
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 16.163864135742188,
+      "learning_rate": 4.55649419218585e-05,
+      "loss": 0.6085,
+      "step": 190
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 14.128802299499512,
+      "learning_rate": 4.503695881731785e-05,
+      "loss": 0.6155,
+      "step": 200
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 11.335792541503906,
+      "learning_rate": 4.45089757127772e-05,
+      "loss": 0.6233,
+      "step": 210
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 10.187098503112793,
+      "learning_rate": 4.398099260823654e-05,
+      "loss": 0.5814,
+      "step": 220
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 8.651871681213379,
+      "learning_rate": 4.3453009503695884e-05,
+      "loss": 0.537,
+      "step": 230
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 12.85684585571289,
+      "learning_rate": 4.292502639915523e-05,
+      "loss": 0.553,
+      "step": 240
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 11.812779426574707,
+      "learning_rate": 4.239704329461457e-05,
+      "loss": 0.5439,
+      "step": 250
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 12.811570167541504,
+      "learning_rate": 4.186906019007392e-05,
+      "loss": 0.5379,
+      "step": 260
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 7.732424259185791,
+      "learning_rate": 4.1341077085533265e-05,
+      "loss": 0.5575,
+      "step": 270
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 15.759660720825195,
+      "learning_rate": 4.081309398099261e-05,
+      "loss": 0.491,
+      "step": 280
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 11.291988372802734,
+      "learning_rate": 4.028511087645195e-05,
+      "loss": 0.5135,
+      "step": 290
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 11.919870376586914,
+      "learning_rate": 3.97571277719113e-05,
+      "loss": 0.4864,
+      "step": 300
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 11.872406959533691,
+      "learning_rate": 3.9229144667370646e-05,
+      "loss": 0.4965,
+      "step": 310
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 10.008932113647461,
+      "learning_rate": 3.870116156282999e-05,
+      "loss": 0.5295,
+      "step": 320
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 8.790617942810059,
+      "learning_rate": 3.817317845828934e-05,
+      "loss": 0.5108,
+      "step": 330
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 8.419012069702148,
+      "learning_rate": 3.764519535374868e-05,
+      "loss": 0.483,
+      "step": 340
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 10.467920303344727,
+      "learning_rate": 3.711721224920803e-05,
+      "loss": 0.5161,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9576,
+      "eval_loss": 0.12418650835752487,
+      "eval_runtime": 62.9479,
+      "eval_samples_per_second": 79.431,
+      "eval_steps_per_second": 2.494,
+      "step": 351
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 10.26750373840332,
+      "learning_rate": 3.658922914466738e-05,
+      "loss": 0.4429,
+      "step": 360
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 8.352232933044434,
+      "learning_rate": 3.6061246040126714e-05,
+      "loss": 0.4627,
+      "step": 370
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 8.920843124389648,
+      "learning_rate": 3.5533262935586064e-05,
+      "loss": 0.5083,
+      "step": 380
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 13.514233589172363,
+      "learning_rate": 3.500527983104541e-05,
+      "loss": 0.4609,
+      "step": 390
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 11.564621925354004,
+      "learning_rate": 3.447729672650475e-05,
+      "loss": 0.4598,
+      "step": 400
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 11.314290046691895,
+      "learning_rate": 3.3949313621964095e-05,
+      "loss": 0.4097,
+      "step": 410
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 8.917102813720703,
+      "learning_rate": 3.3421330517423445e-05,
+      "loss": 0.4289,
+      "step": 420
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 10.122758865356445,
+      "learning_rate": 3.289334741288279e-05,
+      "loss": 0.4413,
+      "step": 430
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 13.456986427307129,
+      "learning_rate": 3.236536430834213e-05,
+      "loss": 0.4601,
+      "step": 440
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 8.762724876403809,
+      "learning_rate": 3.183738120380148e-05,
+      "loss": 0.4447,
+      "step": 450
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 8.276448249816895,
+      "learning_rate": 3.130939809926082e-05,
+      "loss": 0.4482,
+      "step": 460
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 10.242718696594238,
+      "learning_rate": 3.078141499472017e-05,
+      "loss": 0.4513,
+      "step": 470
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 8.58539867401123,
+      "learning_rate": 3.0253431890179517e-05,
+      "loss": 0.4348,
+      "step": 480
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 11.27660846710205,
+      "learning_rate": 2.972544878563886e-05,
+      "loss": 0.4532,
+      "step": 490
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 8.342896461486816,
+      "learning_rate": 2.9197465681098207e-05,
+      "loss": 0.4256,
+      "step": 500
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 11.779293060302734,
+      "learning_rate": 2.8669482576557548e-05,
+      "loss": 0.4486,
+      "step": 510
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 8.870821952819824,
+      "learning_rate": 2.8141499472016898e-05,
+      "loss": 0.4073,
+      "step": 520
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 10.537642478942871,
+      "learning_rate": 2.7613516367476245e-05,
+      "loss": 0.4492,
+      "step": 530
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 8.932671546936035,
+      "learning_rate": 2.7085533262935585e-05,
+      "loss": 0.4127,
+      "step": 540
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 11.623788833618164,
+      "learning_rate": 2.6557550158394935e-05,
+      "loss": 0.481,
+      "step": 550
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 6.948116302490234,
+      "learning_rate": 2.6029567053854276e-05,
+      "loss": 0.4122,
+      "step": 560
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 9.48883056640625,
+      "learning_rate": 2.5501583949313622e-05,
+      "loss": 0.4364,
+      "step": 570
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 9.34141731262207,
+      "learning_rate": 2.497360084477297e-05,
+      "loss": 0.4163,
+      "step": 580
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 10.4086275100708,
+      "learning_rate": 2.4445617740232313e-05,
+      "loss": 0.4138,
+      "step": 590
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 6.621527671813965,
+      "learning_rate": 2.391763463569166e-05,
+      "loss": 0.4253,
+      "step": 600
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 9.12219524383545,
+      "learning_rate": 2.3389651531151003e-05,
+      "loss": 0.4129,
+      "step": 610
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 9.151737213134766,
+      "learning_rate": 2.286166842661035e-05,
+      "loss": 0.4341,
+      "step": 620
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 11.085309028625488,
+      "learning_rate": 2.2333685322069694e-05,
+      "loss": 0.4137,
+      "step": 630
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 8.884044647216797,
+      "learning_rate": 2.180570221752904e-05,
+      "loss": 0.3768,
+      "step": 640
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 9.140060424804688,
+      "learning_rate": 2.1277719112988384e-05,
+      "loss": 0.4154,
+      "step": 650
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 10.162819862365723,
+      "learning_rate": 2.074973600844773e-05,
+      "loss": 0.413,
+      "step": 660
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 8.661388397216797,
+      "learning_rate": 2.0221752903907075e-05,
+      "loss": 0.3951,
+      "step": 670
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 12.425116539001465,
+      "learning_rate": 1.9693769799366422e-05,
+      "loss": 0.4274,
+      "step": 680
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 10.024824142456055,
+      "learning_rate": 1.9165786694825765e-05,
+      "loss": 0.3992,
+      "step": 690
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 8.589755058288574,
+      "learning_rate": 1.863780359028511e-05,
+      "loss": 0.3889,
+      "step": 700
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9668,
+      "eval_loss": 0.09703098982572556,
+      "eval_runtime": 62.5186,
+      "eval_samples_per_second": 79.976,
+      "eval_steps_per_second": 2.511,
+      "step": 703
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 9.084307670593262,
+      "learning_rate": 1.810982048574446e-05,
+      "loss": 0.3593,
+      "step": 710
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 8.581757545471191,
+      "learning_rate": 1.7581837381203803e-05,
+      "loss": 0.3759,
+      "step": 720
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 7.489439487457275,
+      "learning_rate": 1.7053854276663146e-05,
+      "loss": 0.3639,
+      "step": 730
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 7.076328277587891,
+      "learning_rate": 1.6525871172122493e-05,
+      "loss": 0.3823,
+      "step": 740
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 7.6811442375183105,
+      "learning_rate": 1.5997888067581837e-05,
+      "loss": 0.377,
+      "step": 750
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 8.395451545715332,
+      "learning_rate": 1.5469904963041184e-05,
+      "loss": 0.3762,
+      "step": 760
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 10.683780670166016,
+      "learning_rate": 1.4941921858500529e-05,
+      "loss": 0.381,
+      "step": 770
+    },
+    {
+      "epoch": 2.22,
+      "grad_norm": 9.537813186645508,
+      "learning_rate": 1.4413938753959874e-05,
+      "loss": 0.3947,
+      "step": 780
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 7.627201557159424,
+      "learning_rate": 1.388595564941922e-05,
+      "loss": 0.3918,
+      "step": 790
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 10.89393424987793,
+      "learning_rate": 1.3357972544878563e-05,
+      "loss": 0.4007,
+      "step": 800
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 11.160614967346191,
+      "learning_rate": 1.2829989440337912e-05,
+      "loss": 0.3564,
+      "step": 810
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 9.594536781311035,
+      "learning_rate": 1.2302006335797255e-05,
+      "loss": 0.3642,
+      "step": 820
+    },
+    {
+      "epoch": 2.36,
+      "grad_norm": 10.04773998260498,
+      "learning_rate": 1.17740232312566e-05,
+      "loss": 0.3751,
+      "step": 830
+    },
+    {
+      "epoch": 2.39,
+      "grad_norm": 7.632706642150879,
+      "learning_rate": 1.1246040126715946e-05,
+      "loss": 0.3802,
+      "step": 840
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 7.586816310882568,
+      "learning_rate": 1.0718057022175291e-05,
+      "loss": 0.3842,
+      "step": 850
+    },
+    {
+      "epoch": 2.44,
+      "grad_norm": 10.282231330871582,
+      "learning_rate": 1.0190073917634636e-05,
+      "loss": 0.3813,
+      "step": 860
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 9.297379493713379,
+      "learning_rate": 9.662090813093982e-06,
+      "loss": 0.3579,
+      "step": 870
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 10.13786792755127,
+      "learning_rate": 9.134107708553327e-06,
+      "loss": 0.3521,
+      "step": 880
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 11.372087478637695,
+      "learning_rate": 8.606124604012672e-06,
+      "loss": 0.3649,
+      "step": 890
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 10.296939849853516,
+      "learning_rate": 8.078141499472017e-06,
+      "loss": 0.4226,
+      "step": 900
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 12.837827682495117,
+      "learning_rate": 7.5501583949313625e-06,
+      "loss": 0.3595,
+      "step": 910
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 12.584282875061035,
+      "learning_rate": 7.022175290390708e-06,
+      "loss": 0.3474,
+      "step": 920
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 8.62096118927002,
+      "learning_rate": 6.494192185850054e-06,
+      "loss": 0.3698,
+      "step": 930
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 7.057333946228027,
+      "learning_rate": 5.966209081309398e-06,
+      "loss": 0.3093,
+      "step": 940
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 9.453765869140625,
+      "learning_rate": 5.438225976768744e-06,
+      "loss": 0.3887,
+      "step": 950
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 5.629605293273926,
+      "learning_rate": 4.910242872228089e-06,
+      "loss": 0.3508,
+      "step": 960
+    },
+    {
+      "epoch": 2.76,
+      "grad_norm": 10.514436721801758,
+      "learning_rate": 4.382259767687434e-06,
+      "loss": 0.3404,
+      "step": 970
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 11.674103736877441,
+      "learning_rate": 3.854276663146779e-06,
+      "loss": 0.317,
+      "step": 980
+    },
+    {
+      "epoch": 2.81,
+      "grad_norm": 8.024503707885742,
+      "learning_rate": 3.326293558606125e-06,
+      "loss": 0.3626,
+      "step": 990
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 10.710383415222168,
+      "learning_rate": 2.79831045406547e-06,
+      "loss": 0.321,
+      "step": 1000
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 10.499631881713867,
+      "learning_rate": 2.2703273495248154e-06,
+      "loss": 0.3551,
+      "step": 1010
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 8.840764999389648,
+      "learning_rate": 1.7423442449841606e-06,
+      "loss": 0.3597,
+      "step": 1020
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 9.39499568939209,
+      "learning_rate": 1.2143611404435059e-06,
+      "loss": 0.3473,
+      "step": 1030
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 8.382072448730469,
+      "learning_rate": 6.863780359028511e-07,
+      "loss": 0.3382,
+      "step": 1040
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 8.499634742736816,
+      "learning_rate": 1.5839493136219642e-07,
+      "loss": 0.3445,
+      "step": 1050
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.9738,
+      "eval_loss": 0.08292504400014877,
+      "eval_runtime": 62.7202,
+      "eval_samples_per_second": 79.719,
+      "eval_steps_per_second": 2.503,
+      "step": 1053
+    },
+    {
+      "epoch": 2.99,
+      "step": 1053,
+      "total_flos": 3.3497451642252165e+18,
+      "train_loss": 0.5573047858584188,
+      "train_runtime": 2153.5042,
+      "train_samples_per_second": 62.689,
+      "train_steps_per_second": 0.489
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1053,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 3.3497451642252165e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}