清华干了件大事!让 AI 大模型不再“天价烧钱”!
清华又搞出大新闻!直接突破了 AI 大模型的算力难题,这下子满血版 DeepSeek 在家用显卡上就能跑起来,运行成本更是从 100 多万“唰”地降到 2 万!这变化,简直像坐过山车一样刺激!
之前,那个有 671B 参数的 MoE 架构大模型 DeepSeek - R1 想推理可太难了,推理服务器动不动就因为负荷太高“罢工”,要是用专属版云服务器,那成本高得离谱,一般中小团队根本负担不起。市面上那些本地部署方案呢,都是缩水版,根本没法满足需求。
但现在,清华大学 KVCache.AI 团队和趋境科技一起发布了 KTransformers 开源项目,更新之后,情况完全不一样了!
他们用了异构计算策略,再加上稀疏性、量化与算子优化,还有 CUDA Graph 加速这些技术,就成功让 DeepSeek - R1、V3 的 671B 满血版,能在只有 24G 显存的 4090D 设备上本地运行。这速度也相当惊人,预处理速度最高能到 286 tokens/s,推理生成速度最高有 14 tokens/s。
这意味着啥呢?
以后个人开发者自己在家就能轻松跑千亿模型,创业公司花个 2 万左右,就能搭建本地 AI 服务器。高校实验室呢,几台 4090 显卡组个集群,性能比得上百万级的超算!
清华这次突破,就是在跟那些搞技术封锁的人说“不”!以后,搞 AI 研究开发的人肯定越来越多,AI 在各个领域的应用也会越来越广。
为清华团队点赞,期待他们带来更多惊喜!