想知道如果需要测出和leaderboard 上相近的结果 哪些配置需要注意呢
比如Qwen3-235B-A22B-Thinking-2507 context 256k 那么最大模型输出长度应该设置为多少 vllm max model length 应该设置为多少
是否需要YARN, 是否需要使用Ultra-Long Texts 的Dual Chunk Attention 也就是 1M 模式
已经是thinking模型的情况下是否需要--length
如果作者能方便给出这些最新模型(Qwen3 等后续模型)的config, 这会对后续研究者很大帮助!
感谢! 期待您的回复