Deepseek 大概真的是国产大模型王者了。V3 和 Claude 3.5 Sonnet 打得有来有回,除了少点人味儿之外(毕竟大概率蒸馏了 GPT-4o),输出都挺让人满意的,token 价格却几乎相当于白送;R1 只用 12000 个 token 完美解决了 o1 至少用 30000 token 才解决的问题,更别提 token 单价的差距。
月之暗面的长上下文能力确实挺震撼的,是能塞下一整本课本的级别。但陷入无意义重复的情况也很多,正如网上那张给猫取名的梗图那样。
新秀 MiniMax-01 调得就没那么细心了,整体质量略逊于 Deepseek V3,但考虑到这玩意巨巨巨巨巨长的上下文,倒是可以成为 Kimi 的上位替代。
阿里通义不知道在干嘛,QvQ 除了名字比较萌之外,自个儿推理好久经常都是错的。当然这毕竟是个小模型,72B 的参数量比起别人成千上万亿参数的 MoE 确实有着量级上的差距。14B 的小模型质量确实还是不错的。
希望有一天我可以不再需要订阅 ChatGPT Plus。