d-matrix
/

gpt2

Text Generation

English

Eval Results

Model card Files Files and versions Community

wanzin commited on Feb 23

Commit

271eb00

•

1 Parent(s): 95db0b0

updating the configs of gpt2-xl

Browse files

Files changed (2) hide show

config.json +4 -3
configs/BASIC.yaml +193 -193

config.json CHANGED Viewed

@@ -15,10 +15,11 @@
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 1024,
- "n_embd": 768,
- "n_head": 12,
- "n_layer": 12,
  "n_positions": 1024,
  "resid_pdrop": 0.1,
  "summary_activation": null,
  "summary_first_dropout": 0.1,

  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 1024,
+ "n_embd": 1600,
+ "n_head": 25,
+ "n_layer": 48,
  "n_positions": 1024,
+ "output_past": true,
  "resid_pdrop": 0.1,
  "summary_activation": null,
  "summary_first_dropout": 0.1,

configs/BASIC.yaml CHANGED Viewed

@@ -39,26 +39,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.0.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.0.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.0.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.0.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -110,26 +110,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.1.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.1.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.1.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.1.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -181,26 +181,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.10.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.10.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.10.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.10.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -252,26 +252,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.11.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.11.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.11.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.11.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -323,26 +323,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.12.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.12.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.12.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.12.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -394,26 +394,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.13.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.13.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.13.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.13.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -465,26 +465,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.14.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.14.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.14.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.14.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -536,26 +536,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.15.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.15.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.15.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.15.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -607,26 +607,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.16.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.16.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.16.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.16.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -678,26 +678,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.17.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.17.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.17.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.17.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -749,26 +749,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.18.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.18.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.18.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.18.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -820,26 +820,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.19.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.19.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.19.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.19.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -891,26 +891,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.2.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.2.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.2.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.2.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -962,26 +962,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.20.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.20.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.20.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.20.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1033,26 +1033,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.21.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.21.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.21.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.21.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1104,26 +1104,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.22.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.22.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.22.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.22.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1175,26 +1175,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.23.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.23.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.23.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.23.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1246,26 +1246,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.24.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.24.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.24.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.24.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1317,26 +1317,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.25.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.25.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.25.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.25.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1388,26 +1388,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.26.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.26.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.26.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.26.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1459,26 +1459,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.27.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.27.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.27.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.27.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1530,26 +1530,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.28.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.28.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.28.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.28.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1601,26 +1601,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.29.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.29.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.29.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.29.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1672,26 +1672,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.3.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.3.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.3.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.3.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1743,26 +1743,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.30.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.30.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.30.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.30.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1814,26 +1814,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.31.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.31.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.31.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.31.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1885,26 +1885,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.32.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.32.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.32.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.32.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -1956,26 +1956,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.33.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.33.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.33.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.33.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2027,26 +2027,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.34.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.34.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.34.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.34.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2098,26 +2098,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.35.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.35.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.35.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.35.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2169,26 +2169,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.36.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.36.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.36.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.36.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2240,26 +2240,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.37.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.37.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.37.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.37.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2311,26 +2311,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.38.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.38.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.38.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.38.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2382,26 +2382,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.39.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.39.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.39.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.39.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2453,26 +2453,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.4.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.4.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.4.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.4.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2524,26 +2524,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.40.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.40.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.40.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.40.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2595,26 +2595,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.41.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.41.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.41.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.41.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2666,26 +2666,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.42.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.42.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.42.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.42.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2737,26 +2737,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.43.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.43.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.43.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.43.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2808,26 +2808,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.44.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.44.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.44.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.44.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2879,26 +2879,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.45.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.45.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.45.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.45.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -2950,26 +2950,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.46.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.46.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.46.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.46.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3021,26 +3021,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.47.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.47.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.47.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.47.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3092,26 +3092,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.5.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.5.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.5.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.5.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3163,26 +3163,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.6.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.6.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.6.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.6.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3234,26 +3234,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.7.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.7.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.7.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.7.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3305,26 +3305,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.8.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.8.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.8.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.8.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3376,26 +3376,26 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.h.9.attn.softmax:
- approximation_function: SOFTMAX(base2,float16)
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.9.ln_1:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.9.ln_2:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.9.mlp.act:
- approximation_function: GELU(poly2,float16)
  input_format: SAME
  instance: GELU
  output_format: SAME
@@ -3421,7 +3421,7 @@ model:
  instance: Dropout
  output_format: SAME
  transformer.ln_f:
- approximation_function: LAYERNORM(fallback,4,float16)
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm

  instance: Dropout
  output_format: SAME
  transformer.h.0.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.0.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.0.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.0.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.1.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.1.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.1.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.1.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.10.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.10.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.10.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.10.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.11.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.11.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.11.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.11.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.12.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.12.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.12.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.12.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.13.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.13.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.13.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.13.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.14.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.14.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.14.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.14.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.15.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.15.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.15.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.15.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.16.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.16.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.16.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.16.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.17.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.17.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.17.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.17.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.18.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.18.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.18.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.18.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.19.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.19.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.19.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.19.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.2.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.2.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.2.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.2.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.20.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.20.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.20.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.20.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.21.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.21.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.21.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.21.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.22.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.22.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.22.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.22.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.23.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.23.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.23.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.23.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.24.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.24.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.24.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.24.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.25.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.25.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.25.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.25.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.26.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.26.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.26.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.26.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.27.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.27.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.27.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.27.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.28.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.28.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.28.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.28.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.29.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.29.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.29.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.29.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.3.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.3.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.3.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.3.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.30.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.30.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.30.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.30.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.31.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.31.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.31.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.31.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.32.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.32.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.32.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.32.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.33.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.33.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.33.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.33.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.34.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.34.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.34.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.34.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.35.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.35.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.35.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.35.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.36.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.36.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.36.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.36.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.37.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.37.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.37.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.37.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.38.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.38.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.38.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.38.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.39.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.39.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.39.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.39.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.4.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.4.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.4.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.4.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.40.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.40.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.40.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.40.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.41.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.41.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.41.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.41.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.42.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.42.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.42.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.42.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.43.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.43.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.43.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.43.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.44.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.44.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.44.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.44.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.45.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.45.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.45.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.45.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.46.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.46.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.46.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.46.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.47.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.47.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.47.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.47.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.5.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.5.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.5.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.5.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.6.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.6.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.6.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.6.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.7.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.7.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.7.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.7.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.8.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.8.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.8.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.8.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.h.9.attn.softmax:
+ approximation_function: NONE
  input_format: SAME
  instance: Softmax
  output_format: SAME
  transformer.h.9.ln_1:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.9.ln_2:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm
  output_format: SAME
  weight_format: SAME
  transformer.h.9.mlp.act:
+ approximation_function: NONE
  input_format: SAME
  instance: GELU
  output_format: SAME
  instance: Dropout
  output_format: SAME
  transformer.ln_f:
+ approximation_function: NONE
  bias_format: SAME
  input_format: SAME
  instance: LayerNorm