DeepSeek发布Prover-V2模型 参数量达6710亿
04-30 18:42 星期三
【DeepSeek发布Prover-V2模型 参数量达6710亿】《科创板日报》30日讯,DeepSeek今日于AI开源社区Hugging Face上发布了一个名为DeepSeek-Prover-V2-671B的新模型。据悉,DeepSeek-Prover-V2-671B使用了更高效的safetensors文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的Prover-V1.5数学模型升级版本。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达16.38万,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。
财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
热门评论
cls-em51x6回复1天前·安徽0
[微笑]
cls-fbve4o回复1天前·江苏0
以后散户更没有好日子过了,Deepseek越先进,收割散户越厉害
cls-1818819回复1天前·上海0
[强]
132******80回复1天前·河南0
不及预期
cls-1386668回复1天前·湖南0
股民虽然做出了牺牲,还是值得
cls-dzipgf回复1天前·北京0
cls-至正中和回复1天前·湖北0
厉害厉害
cls-传承之路1234回复1天前·辽宁0
R2呢[doge]
cls--Chase-回复1天前·湖北0
或许根本没有R2
cls-隐者J叔回复1天前·四川0
今天已经埋伏相关概念股,假期期间开始发酵
cls-二十三四月回复1天前·北京0
没有R2?那看个毛线
cls-缓慢获利回复1天前·山东0
算力还缺不了[允悲][允悲][允悲]
cls-Compounder2023回复1天前·山东0
今天智谱AI走势可以,提前了解此信息的做个短差价,都是知识。
天天只想着开盘回复1天前·广西2
参数比阿里的强。R2跳票了。先上这个前菜预热下。主菜不出意外过节时发布
cls-1885857回复1天前·福建0
看多国产大模型,看空算力
冬阳83回复1天前·上海0
和过完年热度差太多了
cls-t19839回复1天前·福建1
已经不像首次出现轰动了
新用户回复1天前·河南4
R2如果发布就是利好兑现 R2没有及时发布,就是不及预期 怎么搞
cls-1865942回复1天前·江西1
加红啊
cls-1732551回复1天前·重庆6
都知道的消息 量化平铺了
MJ66回复1天前·广西0
r2难产了
海伦姐夫回复1天前·上海0
这不加红?
 30回复1天前·安徽0
每次ds启动,天娱都是一字板启动。
嘎嘎嘎的日记回复1天前·云南1
666
Soat回复1天前·广东0
不及预期[微笑]