Skip to content

Qwen3-235B-A22B-Thinking-2507测试的配置问题 #139

@YutingLi0606

Description

@YutingLi0606

想知道如果需要测出和leaderboard 上相近的结果 哪些配置需要注意呢
比如Qwen3-235B-A22B-Thinking-2507 context 256k 那么最大模型输出长度应该设置为多少 vllm max model length 应该设置为多少
是否需要YARN, 是否需要使用Ultra-Long Texts 的Dual Chunk Attention 也就是 1M 模式
已经是thinking模型的情况下是否需要--length

如果作者能方便给出这些最新模型(Qwen3 等后续模型)的config, 这会对后续研究者很大帮助!
感谢! 期待您的回复

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions