dacorvo HF Staff commited on Feb 26

Commit

133a75e

verified ·

1 Parent(s): 36544c0

Synchronizing local compiler cache.

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +41 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/60feecaa0c4c075e2f3e46a3f55d9a273f0ddd75a0ecf64e4ae27352e0819506/d2b71947244dfeb32006.json +87 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/af58eb15d8e02338dc2f2e880e9c6ec803a98278914b3606acdcc252e7e18429/7ce147881fb65af8c501.json +95 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/e0b6d1e2424243dcd9ff1755e02969dcc312d14df531d876c5c2892f285b2863/4815ed12326933e8588b.json +95 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/qwen3/Qwen/Qwen3-Embedding-0.6B/d2b71947244dfeb32006.json +87 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/qwen3/Qwen/Qwen3-Embedding-4B/4815ed12326933e8588b.json +95 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/qwen3/Qwen/Qwen3-Embedding-8B/7ce147881fb65af8c501.json +95 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/60feecaa0c4c075e2f3e46a3f55d9a273f0ddd75a0ecf64e4ae27352e0819506/edf2cd849e7234866f5f.json +87 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/6454afdf3e9d66c7226c13a575b718845c25e53b0699600ba2bb4f883e9d841b/4725d0f98e9d733a5354.json +62 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/6454afdf3e9d66c7226c13a575b718845c25e53b0699600ba2bb4f883e9d841b/79d1effc3dea92153467.json +62 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/6454afdf3e9d66c7226c13a575b718845c25e53b0699600ba2bb4f883e9d841b/dd5885d59f14f083843e.json +62 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/llama/llamafactory/tiny-random-Llama-3/79d1effc3dea92153467.json +62 -0
neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/qwen3/Qwen/Qwen3-Embedding-0.6B/edf2cd849e7234866f5f.json +87 -0
neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/wrapped_neff.hlo +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.neff +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/wrapped_neff.hlo +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/model.neff +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_11086318750207148626+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.21.33363.0+82129205/MODULE_11086318750207148626+e30acd3a/model.done +0 -0
neuronxcc-2.21.33363.0+82129205/MODULE_11086318750207148626+e30acd3a/model.hlo_module.pb +3 -0

.gitattributes CHANGED Viewed

@@ -6527,3 +6527,44 @@ neuronxcc-2.21.33363.0+82129205/MODULE_8221872293709102527+fad94d7c/model.neff f
 neuronxcc-2.21.33363.0+82129205/MODULE_e521a14f8c961dcc16f7+a32116a7/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.21.33363.0+82129205/MODULE_5d75eac36946f6ceb5eb+24129607/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.21.33363.0+82129205/MODULE_066fa9e2a211ec056b7c+24129607/model.neff filter=lfs diff=lfs merge=lfs -text

 neuronxcc-2.21.33363.0+82129205/MODULE_e521a14f8c961dcc16f7+a32116a7/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.21.33363.0+82129205/MODULE_5d75eac36946f6ceb5eb+24129607/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.21.33363.0+82129205/MODULE_066fa9e2a211ec056b7c+24129607/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_2848c32ef7df1e905c25+4c66bb54/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_2848c32ef7df1e905c25+4c66bb54/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_2d7bd8426bc64772d217+3ac48cd0/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_2d7bd8426bc64772d217+3ac48cd0/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_38bbf770dc53dec9b3ad+ab05f199/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_38bbf770dc53dec9b3ad+ab05f199/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_3ba57e5cd85f7007611f+a32116a7/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_3bc44e72dfcbe8801f60+8731b5fe/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_3bc44e72dfcbe8801f60+8731b5fe/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_52d7e7948bb9b090f5a0+c6cd0101/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_52d7e7948bb9b090f5a0+c6cd0101/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_5b6831fd1af971b2989b+1f9760b2/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_5b6831fd1af971b2989b+1f9760b2/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_75515a835d4f41d9da4b+423750a9/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_75515a835d4f41d9da4b+423750a9/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_82ceef97adb975a6d90e+aae46d5f/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_82ceef97adb975a6d90e+aae46d5f/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_84fd59187fd6be117f3a+fb4cc044/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_8c1d2cb1156a1d0a82e3+7b1e013e/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_8c1d2cb1156a1d0a82e3+7b1e013e/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_90b73fb771aa346bb48e+ac10809c/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_90b73fb771aa346bb48e+ac10809c/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_9d7acc11312c2c31d32e+ac382b22/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_9d7acc11312c2c31d32e+ac382b22/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_9e5c74e26f840e51f8bf+390d6e68/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_9e5c74e26f840e51f8bf+390d6e68/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_b06034c7057d53a7c643+02353d68/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_b06034c7057d53a7c643+02353d68/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_bda1a1078d90ee07a4bc+dfab41ff/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_bda1a1078d90ee07a4bc+dfab41ff/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_dd8016818616bef1560e+504b22d7/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_dd8016818616bef1560e+504b22d7/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_e7fddd20b107d5347811+fb4cc044/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_f56ba7a38230d2656ddd+fb50064a/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_f56ba7a38230d2656ddd+fb50064a/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_fe766d9ae8b638251045+301c8a7e/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_fe766d9ae8b638251045+301c8a7e/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_fe9e0a803d755853d3c7+60b6a716/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.21.33363.0+82129205/MODULE_fe9e0a803d755853d3c7+60b6a716/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/60feecaa0c4c075e2f3e46a3f55d9a273f0ddd75a0ecf64e4ae27352e0819506/d2b71947244dfeb32006.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-0.6B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-0.6B",
+    "checkpoint_revision": "c54f2e6e80b2d7b7de06f51cec4959f6b3e03418",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 1,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.5",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 1
+  },
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151669
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/af58eb15d8e02338dc2f2e880e9c6ec803a98278914b3606acdcc252e7e18429/7ce147881fb65af8c501.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-8B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-8B",
+    "checkpoint_revision": "1d8ad4ca9b3dd8059ad90a75d4983776a23d44af",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 1,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.5",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 1
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151665
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/e0b6d1e2424243dcd9ff1755e02969dcc312d14df531d876c5c2892f285b2863/4815ed12326933e8588b.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-4B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 4,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-4B",
+    "checkpoint_revision": "5cf2132abc99cad020ac570b19d031efec650f2b",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 4,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.5",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151665
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/qwen3/Qwen/Qwen3-Embedding-0.6B/d2b71947244dfeb32006.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-0.6B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-0.6B",
+    "checkpoint_revision": "c54f2e6e80b2d7b7de06f51cec4959f6b3e03418",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 1,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.5",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 1
+  },
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151669
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/qwen3/Qwen/Qwen3-Embedding-4B/4815ed12326933e8588b.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-4B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 4,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-4B",
+    "checkpoint_revision": "5cf2132abc99cad020ac570b19d031efec650f2b",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 4,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.5",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151665
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.5/qwen3/Qwen/Qwen3-Embedding-8B/7ce147881fb65af8c501.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-8B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-8B",
+    "checkpoint_revision": "1d8ad4ca9b3dd8059ad90a75d4983776a23d44af",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 1,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.5",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 1
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151665
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/60feecaa0c4c075e2f3e46a3f55d9a273f0ddd75a0ecf64e4ae27352e0819506/edf2cd849e7234866f5f.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-0.6B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 4,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-0.6B",
+    "checkpoint_revision": "c54f2e6e80b2d7b7de06f51cec4959f6b3e03418",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 4,
+    "max_context_length": 8192,
+    "max_topk": 256,
+    "n_active_tokens": 8192,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.6.dev1",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 8192,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151669
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/6454afdf3e9d66c7226c13a575b718845c25e53b0699600ba2bb4f883e9d841b/4725d0f98e9d733a5354.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "float16",
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 1,
+    "max_context_length": 512,
+    "max_topk": 256,
+    "n_active_tokens": 512,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.4.6.dev1",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 512,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "float16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/6454afdf3e9d66c7226c13a575b718845c25e53b0699600ba2bb4f883e9d841b/79d1effc3dea92153467.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "float16",
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.4.6.dev1",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "float16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/6454afdf3e9d66c7226c13a575b718845c25e53b0699600ba2bb4f883e9d841b/dd5885d59f14f083843e.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "float16",
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 2,
+    "capacity_factor": null,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": true,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 2,
+    "max_context_length": 128,
+    "max_topk": 256,
+    "n_active_tokens": 128,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.4.6.dev1",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 128,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn2",
+    "torch_dtype": "float16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/llama/llamafactory/tiny-random-Llama-3/79d1effc3dea92153467.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "float16",
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 1,
+    "capacity_factor": null,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 1,
+    "max_context_length": 1024,
+    "max_topk": 256,
+    "n_active_tokens": 1024,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.4.6.dev1",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 1024,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "float16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.21.33363.0+82129205/0_REGISTRY/0.4.6.dev1/qwen3/Qwen/Qwen3-Embedding-0.6B/edf2cd849e7234866f5f.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-Embedding-0.6B",
+  "_task": "feature-extraction",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "batch_size": 4,
+    "capacity_factor": null,
+    "checkpoint_id": "Qwen/Qwen3-Embedding-0.6B",
+    "checkpoint_revision": "c54f2e6e80b2d7b7de06f51cec4959f6b3e03418",
+    "continuous_batching": false,
+    "ep_degree": 1,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "local_ranks_size": 2,
+    "max_batch_size": 4,
+    "max_context_length": 8192,
+    "max_topk": 256,
+    "n_active_tokens": 8192,
+    "neuronxcc_version": "2.21.33363.0+82129205",
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.4.6.dev1",
+    "output_logits": false,
+    "pp_degree": 1,
+    "sequence_length": 8192,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": "trn1",
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2
+  },
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151669
+}

neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1", "--enable-saturate-infinity", "--auto-cast=none", "--model-type=transformer", "-O1", "--logfile=/tmp/nxdi_test_2e06d251-55b0-4587-80ed-65525f987744/compiler_workdir/ChunkedPrefillAttentionModule/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]

neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f759930af897434853a4b2faf85253d6dee4aa57720d02fd5206dc173982e14b
+size 16230

neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/model.neff ADDED Viewed

Binary file (72.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_023068ea127f216b3230+18260fcf/wrapped_neff.hlo ADDED Viewed

Binary file (76 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1", "--enable-saturate-infinity", "--auto-cast=none", "--model-type=transformer", "-O1", "--logfile=/tmp/nxdi_test_6ca317f1-4eb2-420e-ae59-e329a688937a/compiler_workdir/NeuronLlamaMLP/_tp0_bk0/log-neuron-cc.txt", "--enable-internal-neff-wrapper"]

neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:993f99d2d09d34bd152af4c7f96a1e6e1d8788e1cd4aefb845c601d2f4d5fcfb
+size 1931

neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/model.neff ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cce4a92dd89a520b72d3146ca2905b351f9fc41ea2c6420132d0e212c370fa2
+size 134144

neuronxcc-2.21.33363.0+82129205/MODULE_0243dc050d4687db06f4+12f2698a/wrapped_neff.hlo ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:005209541674e03d171a4d2bb9d3dbe7429f18eae8814dbc87f869181bc9fdd4
+size 136222

neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d578702d0ba7a5003e02fbdec8b30f3cdaa8d03fdd29311f557bbda052ff1839
+size 1121

neuronxcc-2.21.33363.0+82129205/MODULE_10217061096959125489+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0113611968c8ed0cbeaea5ff3bba2ce4eecd5fc989e2592c6b8ac5fdf09c91c2
+size 1562

neuronxcc-2.21.33363.0+82129205/MODULE_10244305442015770634+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a35335d3e96ee86956cdf93862bf42ae6f83017e9b331b77531ad6942a62366d
+size 1269

neuronxcc-2.21.33363.0+82129205/MODULE_10606948783918825529+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:153fdddade7e1b284f8d78df84523bd332eccc7ddfc7a0698ad8653d560c55ca
+size 1124

neuronxcc-2.21.33363.0+82129205/MODULE_10645643398657092095+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7434cf1ede5dc6759a8ad5cdc472fb8e1668b1a8bd8dd7e7e08b5c09401b8065
+size 1562

neuronxcc-2.21.33363.0+82129205/MODULE_10661660426924300837+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7000c9195e6c3c9abfcbac09928468ef4c204488094a046ec7abfd1b7ea8657
+size 1563

neuronxcc-2.21.33363.0+82129205/MODULE_10746122569655005679+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.21.33363.0+82129205/MODULE_11086318750207148626+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.21.33363.0+82129205/MODULE_11086318750207148626+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.21.33363.0+82129205/MODULE_11086318750207148626+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fcfd4f1816e23bee263009b76a032d3de2454e4937f73423fade31c7a0f0278
+size 1562