找回密码
 点击注册
搜索
楼主: YinJi

成本仅国外30分之1,中国大模型已追上美国了吗

[复制链接]
 楼主| 发表于 2025-1-29 14:26:12 | 显示全部楼层

中国不只有DeepSeek,阿里除夕夜抛出重磅新模型,是时候整体重估中国AI资产了吗?

  来源:硬AI

  当阿里云展现出“强大模型+充足算力+完整云平台”的组合优势时,是否印证了类似去年北美云计算服务商的投资逻辑?

  农历除夕夜,在全球华人喜迎新春之时,纽约证券交易所的电子屏上,阿里巴巴美股股价在收盘前出现显著异动——从涨幅1%快速拉升至6.7%。

  行情异动的背后,是一场没有硝烟的技术奇袭。

  1月29日凌晨,阿里通义千问团队悄然上线的大模型Qwen2.5-Max,在多个权威基准测试中展现出与全球顶级模型比肩的性能。

  继DeepSeek之后,Qwen2.5-Max的发布是中国AI阵营在高性能、低成本技术路线上的又一重要突破。

  市场人士分析称,此前过度聚焦DeepSeek,却忽视了包括阿里通义在内的中国AI整体性追赶。行业媒体《信息平权》表示,若阿里Qwen-2.5-max这次的确性能超过V3,可以对其RL推理模型给予更大期待。

  进一步,当阿里云展现出“强大模型+充足算力+完整云平台”的组合优势时,是否印证了类似去年北美云计算服务商的投资逻辑?如果美股因AI整体增值10万亿美元,中国AI资产的重估时机是否已至?

阿里巴巴股票

阿里巴巴股票


  全面对标全球顶级模型,百万token里程碑

  Qwen2.5-Max采用超大规模MoE(混合专家)架构,基于超过20万亿token的预训练数据。

  在测试大学水平知识的MMLU-Pro、评估编程能力的LiveCodeBench、综合能力评估的LiveBench,以及近似人类偏好的Arena-Hard等多个权威评测中,该模型均展现出与DeepSeek V3、GPT-4和Claude-3.5-Sonnet比肩,甚至领先的性能。

  阿里团队表示,随着后训练技术的不断进步,下一个版本将有望达到更高水平。

Qwen2.5-Max

Qwen2.5-Max


  Qwen2.5团队同步发布了两个创新型号:Qwen2.5-7b-instruct-1m和Qwen2.5-14b-instruct-1m。这些开源模型支持高达100万token的上下文窗口,成为业内首个达到此规模的公开可用模型。

  这些模型使用稀疏注意力,只关注上下文中最重要的部分。这种方法处理百万token输入的速度比传统方法快3到7倍,输出长度可达8000个token。然而,这需要模型识别上下文文档中的关键段落——这是当前语言模型经常难以完成的任务。

  在测试中,14B型号和Qwen2.5-Turbo在查找非常长的文档中的隐藏数字时都达到了完美的准确性。较小的7B型号也表现良好,只有轻微的错误。

  在RULER、LV-Eval和LongbenchChat等要求更高的复杂的上下文测试中,百万token模型的表现优于128K token模型,尤其是在超过64K token的序列中,14B型号甚至在RULER中得分超过90分——这是Qwen系列的第一次——在多个数据集上持续击败gpt - 4o mini。

Qwen2.5-Max

Qwen2.5-Max


  是时候整体重估中国AI资产了吗?

  如果说DeepSeek V3的横空出世展现了中国AI的锐度,那么本次阿里的突破则体现了产业生态的深度进化。

  在Qwen2.5-Max发布当天,阿里云百炼平台同步开放了完整的工具链支持,开发者可以直接在云端调用。这种“超算集群+开源生态+云原生”的三位一体架构,与北美AWS、Azure、GCP三大云服务商的商业模式形成镜像。

  此外,根据我们之前提到的摩根士丹利最新研报,低成本高性能模型也将重塑数据中心和软件行业格局:

对于中国数据中心而言,短期内,如果大型科技公司采用类似技术路线,可能减少AI训练相关需求。但从长远来看,低成本模型将推动推理需求增长,对一线城市数据中心形成利好;

对于中国软件行业,AI模型成本的降低将降低应用程序运行AI功能的门槛,从供给侧改善行业环境。

  如果阿里Qwen-2.5-max的性能确实展现出预期水平,加之其低成本优势与完整云生态,或引发DeepSeek之后的中国AI资产新一轮重估。

回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:27:58 | 显示全部楼层

美军对中国DeepSeek“出手”:美国海军要求避免以任何形式使用中国公司的DeepSeek模型

  据参考消息报道,台湾“中央社”1月28日引述美国消费者新闻与商业频道的报道称,美国海军基于“潜在安全和道德问题”,已要求人员避免以任何形式使用中国公司的DeepSeek模型。

  中国公司的DeepSeek模型产品推出后,跃上美国苹果App商店免费下载排行榜冠军,撼动科技圈和华尔街。除掀起广泛讨论外,也引发所谓“安全隐忧”。

  报道称,美国海军向美国消费者新闻与商业频道证实,已向相关人员发出邮件示警,提醒“不得以任何形式下载、安装或使用DeepSeek模型”。

  截至28日,DeepSeek仍处于App商店下载榜首。

  新闻多一点

  DeepSeek正在经历安全考验

  1月28日,DeepSeek(深度求索)官网服务状态页面显示:近期DeepSeek线上服务受到大规模恶意攻击,为持续提供服务,暂时限制了+86手机号以外的注册方式,已注册用户可以正常登录,感谢理解和支持。

  奇安信(25.040, -0.32, -1.26%)Xlab实验室的监测显示,DeepSeek近一个月来一直遭受大量海外攻击,1月27日起手段升级,除了DDos攻击,Xlab实验室还发现了大量的密码爆破攻击,DeepSeek的AI服务和数据正在经历前所未有的安全考验。实验室相关专家表示,攻击未来将持续。

  “通过我们的持续监测,近期DeepSeek遭到了大规模、持续性的DDoS攻击,攻击可能从1月3日、4日就开始,27日、28日攻击手段升级,导致防御难度显著增加,甚至对注册访问造成了影响。”奇安信XLab实验室第一时间披露并还原了本次DeepSeek遭DDoS攻击事件的幕后细节。

DeepSeek遭攻击指令趋势图

DeepSeek遭攻击指令趋势图


  攻击指令趋势图(图片来自奇安信集团)

  奇安信:攻击从1月3日开始,27日手段变化,更难防范

  作为国内领先的AI大模型之一,DeepSeek近一周全球爆红,不仅引发了硅谷的震动,更让华尔街陷入了恐慌,在外网被不少人称为“神秘的东方力量”,而国内网友更称其为“国产AI之光”。

  奇安信XLab实验室长期关注了DeepSeek上线以来的网络攻击状况,发现其具有持续时间长、变化快等特点,具体可以分为三个阶段:

  第一阶段,1月3日、4日、6日、7日、13日,出现疑似HTTP代理攻击。在该时间段,Xlab可以看到大量通过代理去链接DeepSeek的代理请求,很可能也是HTTP代理攻击。

  第二阶段,1月20日、22-26日,攻击方法转为SSDP、NTP反射放大。该时间段,XLab监测发现的主要攻击方式是SSDP、NTP反射放大,少量HTTP代理攻击。通常SSDP、NTP反射放大这种攻击的防御要简单一些,容易清洗。

  第三阶段,1月27、28号,攻击数量激增,手段转为应用层攻击。从27日开始,XLab发现的主要攻击方式换成了HTTP代理攻击,攻击此类应用层攻击模拟正常用户行为,与经典的SSDP、NTP反射放大攻击相比,其防御难度显著增加。

  XLab还发现,1月28日攻击峰值出现在北京时间03:00-04:00(UTC+8),对应北美东部时区14:00-15:00(UTC-5)。该时间窗口选择显示攻击存在跨境特征,且不排除针对海外服务可用性的定向打击意图。

  此外,1月28号03点开始,本次DDoS攻击还伴随着大量的暴力破解攻击。XLab的数据识别这些IP有一半是VPN出口,推测也有可能是因为DeepSeek限制海外手机用户导致的情况。

  DeepSeek响应及时

  面对27日、28日深夜突然升级的大规模DDoS攻击,DeepSeek第一时间进行了响应和处理。XLab基于大网的passivedns数据,看到DeepSeek在28号凌晨00:58分在攻击者发起HTTP代理攻击这种有效且破坏力巨大的攻击时做过一次IP切换,这个切换时间和上面截图Deepseek自己的公告时间线符合,应该是为了更好的安全防御。这也更印证了XLab此前对本次DDoS攻击的判断。

  XLab安全专家指出,此次大规模攻击事件并非孤立事件,近年来,针对高科技企业的网络攻击呈现出愈演愈烈的趋势。

  专家认为,此次DeepSeek被攻击事件,再次说明网络安全无小事。越来越多有组织的专业团队参与,给防御造成了极大挑战。只有政府、企业和用户共同努力,才能构建安全、可靠的网络环境,为国家高科技产业发展保驾护航。

回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:28:29 | 显示全部楼层

谷歌前CEO评Deepseek:它标志着全球AI竞赛的“转折点”

  财联社1月29日讯(编辑 周子意)前谷歌首席执行官埃里克·施密特(Eric Schmidt)周二(1月28日)在一篇专栏文章中呼吁美国加大开源人工智能的努力,以应对中国人工智能大模型DeepSeek的崛起。

  施密特还一改去年“美国领先”的说辞,在专栏文章中表示,DeepSeek的崛起标志着全球人工智能竞赛的“转折点”,证明中国可以用更少的资源与大型科技公司竞争。

  施密特指出,为了与DeepSeek相抗衡,美国必须开发更多的开源模型,投资于像“星际之门(Stargate)”这样的人工智能基础设施,并鼓励领先的实验室分享他们的训练方法。

  “星际之门”是OpenAI、软银和甲骨文联手打造的一个人工智能项目,初始投资为1000亿美元,并计划在未来四年内扩展至5000亿美元。

  施密特此前也曾多次敦促美国投资人工智能,因为他个人的投资也可能会从中受益。施密特的White Stork初创公司或许可以为美国军方提供人工智能无人机。他还是体系化人工智能Holistic AI(帮助公司遵守人工智能法规)以及人工智能编程辅助工具Augment(GitHub Copilot的竞争对手)的投资者。

  全球人工智能行业近日正迎来一股“东方力量”,即杭州深度求索上周发布的DeepSeek R1模型。据该公司声称,相较于美国大型科技公司为聊天机器人(18.160, -1.47, -7.49%)投入的数十亿美元,该公司仅以一小部分成本就构建了能与OpenAI最强推理模型o1相匹敌的大模型DeepSeek。

  据悉,DeepSeek AI助手背后训练旗舰v3模型的成本仅为560万美元。

  DeepSeek R1的推出也在科技行业引发了冲击波,导致包括微软、Meta和英伟达在内的主要科技公司的股价在本周经历了大幅下跌。

  美银证券分析师Justin Post在本周一(127日)的一份报告中写道,“如果模型培训成本被证明可以显著降低,我们预计使用云人工智能服务的广告、旅游和其他消费应用公司将在短期内获得成本效益,而与超大规模人工智能相关的长期收入和成本可能会降低。”

回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:31:12 | 显示全部楼层

白宫称正调查DeepSeek对所谓“国家安全”有何影响

看看新闻

当地时间1月28日,美国新任白宫新闻秘书卡罗琳·莱维特进行了她的首次简报会,其中提及了中国人工智能初创公司深度求索(DeepSeek)。

关于DeepSeek,莱维特表示,特朗普认为该公司发布的人工智能模型是对美国人工智能行业的一个警钟。国家安全委员会正在调查DeepSeek可能有什么影响。她同时称,白宫正在努力“确保美国人工智能的主导地位”,特朗普此前签署行政命令撤销了对人工智能行业的一些繁琐监管。
回复

使用道具 举报

 楼主| 发表于 2025-1-29 14:32:24 | 显示全部楼层

彭博社:深度求索相关组织或窃取OpenAI数据 微软调查

美国微软公司和OpenAI据报正在调查与中国人工智能公司深度求索(DeepSeek)有关的一个组织,是否以未经授权的方式,取得OpenAI技术输出的数据。

彭博社星期三(1月29日)引述要求不具名的知情人士报道,微软的安全研究人员去年秋季观察到他们认为可能是与深度求索有关联的个人,使用了OpenAI应用程序编程接口(API)窃取大量数据。

软件开发人员可付费得到API使用许可证,将OpenAI的专有人工智能模型集成到他们自己的应用。

知情人士称,作为OpenAI技术合作伙伴和最大投资者的微软,已将这个情况通知了OpenAI。

OpenAI没有回应彭博社的置评请求,微软则拒绝置评。深度求索和其创始人梁文锋创立的对冲基金幻方(High-Flyer)也尚未通过电邮回应置评请求。

深度求索1月20日发布的推理模型DeepSeek-R1,在测试表现、训练成本和开源开放程度等多个基准测试中均超越美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。

美国总统特朗普的人工智能总管萨克斯星期二(28日)称,有充分证据能证明深度求索依靠OpenAI模型的输出,开发自己的技术。

另据路透社报道,白宫新闻秘书莱维特星期二说,美国官员正在评估深度求索对国家安全的影响,国家安全委员会正在审查深度求索应用的影响。

联合早报
回复

使用道具 举报

 楼主| 发表于 2025-1-29 17:17:52 | 显示全部楼层

白宫AI顾问eepSeek“很可能”窃取了美国技术

观察者网

随着关于中国人工智能大模型DeepSeek-R1的讨论不断升温,美方又开始急赤白脸了,白宫人工智能“沙皇”已经等不及要给中国泼脏水了。

据福克斯新闻28日报道,当地时间周二,特朗普提名的白宫人工智能顾问大卫·萨克斯(David Sacks)接受该媒体采访时宣称,DeepSeek“有可能”窃取了美国的知识产权才得以崛起。

而他所谓的“窃取”,实际上是DeepSeek-R1在训练过程中进行的“模型蒸馏”技术。这是一种在资源受限场景中常用的技术,具有降低计算成本、提升推理速度等优势,在多个领域都有广泛的应用场景。

“人工智能领域中有一种技术叫‘蒸馏’,你会听到很多关于它的说法,它是指一个模型从另一个模型中学习。”萨克斯声称,“有大量证据表明,DeepSeek的做法是从OpenAI的模型中提炼知识,我认为OpenAI对此并不高兴。”

节目中,萨克斯并未就这一指控提出任何证据佐证。但他仍渲染威胁称,未来几个月美国领先的人工智能公司将采取措施,试图防止“模型蒸馏”的发生。他补充说,“这肯定会减缓一些模仿模型的发展速度。”

特朗普提名的白宫人工智能顾问大卫·萨克斯(David Sacks)接受该媒体采访时

特朗普提名的白宫人工智能顾问大卫·萨克斯(David Sacks)接受该媒体采访时


大卫·萨克斯(右)。福克斯新闻视频截图

随后,OpenAI在一份声明中也附和这一毫无根据的说法称,总部位于中国以及其他地方的许多公司一直在试图提炼美国领先人工智能公司的模型。

一名发言人对福克斯新闻说,作为人工智能的领先构建者,OpenAI采取了反制措施保护知识产权,“我们相信,在我们前进的过程中,与美国政府密切合作,以最好的方式保护最先进的模型,使其免受竞争对手夺取美国技术努力的影响,这一点至关重要。”

根据DeepSeek公布的技术论文显示,DeepSeek-R1在训练过程中实验了三种技术路径:直接强化学习、多阶段渐进训练和模型蒸馏,其中R1首次证明了直接强化学习的有效性。

在DeepSeek上询问有关问题时,其回复显示“DeepSeek-R1主要基于自研技术,专注于对开源模型(如Qwen系列、Llama系列等)进行蒸馏优化,以提升推理效率和性能。”

此外,DeepSeek在发布并开源其R1版模型的同时,又蒸馏出了六个小模型并同样完全开源,旨在回馈开源社区。

DeepSeek-R1蒸馏小模型对比情况

DeepSeek-R1蒸馏小模型对比情况


DeepSeek-R1蒸馏小模型对比情况。DeepSeek微信公众号

中国人工智能公司深度求索(DeepSeek)日前发布的大模型DeepSeek-R1,以更低的成本和更小的算力规模,实现了足以匹敌美国顶尖AI模型的效果,震撼业界的同时引发多国关注。美国主要人工智能和半导体公司的股价应声暴跌。

据福克斯新闻报道,萨克斯在节目中指出,DeepSeek-R1的性能基本与四个月前推出的OpenAI o1正式版相当,由此可见中国公司“正在迅速追赶”美国,“我认为,我们大概比他们领先3至6个月,但他们追赶的速度相当快。”

他继而表示,美国还没有失去领先地位,拥有大量芯片让美国仍握有很大优势,“我认为美国可以继续在这个领域保持领先,尤其是在基础设施建设和拥有最先进芯片方面。”

萨克斯也承认,DeepSeek确实展示了人工智能模型提高效率的新方法,可以被美国企业所学习采用。“但你仍然希望能够扩展和计算,而数据中心对此至关重要”,他补充说。

紧接着,萨克斯又将矛头对准刚刚离任的拜登政府,指责其任内在美国人工智能公司中推广“多元、公平及包容”计划(DEI),导致这些企业浪费了许多本该用于研发的精力。

他说,“我认为,我们的人工智能公司有点分心了。老实说,我认为他们可能还有点自满。他们没有意识到这些中国公司离他们有多近。他们在DEI这样的事情上浪费了很多时间。 ”

萨克斯提到,特朗普阵营所谓的“觉醒病毒”在人工智能上的体现——谷歌推出的一款人工智能模型曾被指“反白人”,它生成的大多数人像都是黑人,甚至连美国第一任总统华盛顿都变成了“黑人”。

“这种‘觉醒’人工智能,生产的大多是像‘黑人华盛顿’这样的东西。”他说,“当你自满时,以为没有全球竞争的时候,你就会沉迷于干这种事情。”

萨克斯敦促说,美国人工智能公司不应被无关紧要的事情分散注意力,“正如特朗普总统所说,我认为这(Deepseek)是一记警钟,他们现在必须专注于拼搏和竞争。”

谷歌人工智能模型Gemini生成的“黑人版美国国父”

谷歌人工智能模型Gemini生成的“黑人版美国国父”


谷歌人工智能模型Gemini生成的“黑人版美国国父”

另据路透社报道,同日,美国新任白宫新闻秘书卡罗琳·莱维特举行了她的首次简报会,其中提及中国人工智能公司DeepSeek。

莱维特表示,美国国家安全委员会正在审查DeepSeek所开发的人工智能模型对美国国家安全的影响。她重申了特朗普前一天的言论,称DeepSeek给美国人工智能行业敲响了警钟。

她同时称,白宫正在努力“确保美国人工智能的主导地位”,特朗普此前签署行政命令撤销了对人工智能行业的一些繁琐监管。

当地时间周一,美国总统特朗普在谈及该模型时说,中国公司发布的最新人工智能技术应该成为对美国公司的鞭策。同时他也表示,中国公司开发出了比美国更快、更便宜的人工智能模型是件好事。

“我一直在阅读有关中国和中国一些公司的消息,特别是有一家公司想出了一种更快、更便宜的人工智能方法。如果这是真的,那很好,我认为这是一个非常积极的发展。”他在佛罗里达州对众议院共和党人发表讲话时说,“这意味着,你不必花费数十亿美元,也可以得到同样的解决方案。中国公司发布的DeepSeek应该为我们的行业敲响警钟,我们需要在竞争中集中精力取胜。”

西方首个刺头!澳大利亚部长:小心DeepSeek

据英国广播公司(BBC)报道,在中国人工智能公司深度求索(DeepSeek)爆火并冲击业界后,澳大利亚工业和科学部长埃德·胡西克成为第一位对DeepSeek的隐私问题提出担忧的西方政府成员。

当地时间1月28日,胡西克在受访时表示,关于DeepSeek仍有许多问题悬而未决,其中就包括“数据与隐私管理”方面。

他说:“我对此会格外谨慎,这类问题需要仔细权衡。”

报道称,DeepSeek尚未回应BBC的置评请求,但目前英美两国的用户并未表现出此类担忧。

澳大利亚工业和科学部长埃德·胡西克

澳大利亚工业和科学部长埃德·胡西克


澳大利亚工业和科学部长埃德·胡西克 《澳大利亚人》

此前,欧洲一家隐私保护组织对微信、Temu等6家中国企业提起投诉,称这些公司违反欧盟数据隐私法。

中国外交部发言人郭嘉昆1月17日对此表示,中国政府高度重视并依法保护数据隐私与安全,从来没有也不会要求企业或个人以违反当地法律的方式为中国政府采集或提供位于外国境内的数据、信息和情报。有关方面应当尊重市场经济和公平竞争原则,为中国企业提供公平、透明、非歧视的营商环境。


回复

使用道具 举报

 楼主| 发表于 2025-1-30 08:48:49 | 显示全部楼层

美国AI巨头CEO万字檄文eepSeek崛起,应加码管制

赛博禅心

就在刚刚,美国的另一家 AI 巨头 Anthropic 的 CEO - Dario Amodei 发表了一篇长达万字的深度分析报告。报告核心观点:DeepSeek 的突破,更加印证了美国对华芯片出口管制政策的必要性和紧迫性。

Anthropic 的 CEO - Dario Amodei

 Anthropic 的 CEO - Dario Amodei


先补充下前提,这几天,DeepSeek 刷屏、刷屏、再刷屏。

并在新春之际,给欧美股市带来了一抹中国红(暴跌)

新春之际,给欧美股市带来了一抹中国红(暴跌)

新春之际,给欧美股市带来了一抹中国红(暴跌)


赛博禅心在此前也通过多个纬度,对此进行了一系列报道:

顺道着...昨天凌晨,Qwen 也发了大货:

Qwen 也发了大货

Qwen 也发了大货


金色传说大聪明,公众号:赛博禅心春晚硬科技盘点:我很少用“浪漫”形容一场绽放

我们回过头来看看 Dario Amodei 这篇报告,里面首先肯定了 DeepSeek 的技术突破:其最新模型在特定基准测试中已逼近美国顶尖水平,模型训练效率提升显著,并尝试将中国 AI 进步纳入全球技术演进坐标系进行定位,从三个维度:

算力规模定律: 指出中国超大规模算力基建的持续投入,正在重塑全球 AI 研发的地缘格局。国家级数字基础设施的战略布局,为中国企业突破"算力鸿沟"提供了底层支撑。

效率跃迁曲线: 强调全球 AI 行业正经历训练成本指数级下降的技术革命。DeepSeek 的成本控制突破,本质上是把握技术演进窗口期的战略成果。

范式革新动能: 着重分析中国团队在强化学习等新兴训练范式中的创新实践,揭示后发者通过技术路线创新实现弯道超车的可能性。

基于此,Dario Amodei 的结论颇具启示性:DeepSeek 的突破绝非孤立现象,而是中国科技创新体系系统性进化的产物。尽管报告刻意淡化"颠覆性创新"的叙事,但字里行间对中国 AI 发展势能的警惕已跃然纸上。

在政策维度,报告剑指芯片出口管制的战略困境。Dario Amodei 坦承,DeepSeek 的突破正在倒逼美国重新评估技术封锁政策的有效性。这种政策层面的连锁反应,恰印证了中国 AI 突围对全球技术秩序的重构效应。其核心论断直指要害——算力霸权已成为 AI 竞赛的胜负手,而中国在自主可控产业链建设方面的进展,正在动摇传统技术封锁的逻辑基础。  

报告同时指出,在国家安全与技术发展间,需要寻求动态平衡,这也是当下全球的时代命题:当技术演进速度,已超越政策调整速度,如何在开放与风控中建立新范式,已成为关键中的关键。

需要说一下,Dario Amodei 是前 OpenAI 的研究员,后来离开 OpenAI 后成立其直接竞争对手 Anthropic。这篇报告在保持学术矜持的表象下,已然承认中国 AI 崛起的事实,也预示着创新格局正在发生范式转变——从单一中心的技术辐射,向多极共生的生态演进。

文章发布在 Dario Amodei  的个人博客:https://darioamodei.com/on-deepseek-and-export-controls

我把它也翻译成了中文,如下:

关于 DeepSeek 与出口管制

几周前,我曾撰文呼吁美国应加强对华芯片出口管制。此后不久,中国人工智能公司 DeepSeek 便成功地——至少在某些方面——以更低的成本,实现了与美国顶尖人工智能模型相近的性能水平。

在此,我暂且不讨论 DeepSeek 是否对 Anthropic 等美国人工智能企业构成威胁(尽管我认为许多关于 DeepSeek 威胁美国人工智能领导地位的说法被严重夸大了)。

我更关注的是,DeepSeek 的成果发布是否削弱了芯片出口管制政策的合理性。我的看法是否定的。事实上,我认为 DeepSeek 的进展反而令出口管制政策显得比一周前更具存在意义上的重要性。

出口管制服务于一个至关重要的目标:确保民主国家在人工智能发展中保持领先地位。需要明确的是,出口管制并非逃避美中竞争的手段。最终,如果美国和其他民主国家的 AI 公司想要胜出,就必须开发出比中国更卓越的模型。但是,在力所能及的情况下,我们不应将技术优势拱手让给中国。

人工智能发展的三大动态

在阐述我的政策主张之前,我将先介绍理解人工智能系统至关重要的三个基本动态:

规模定律 (Scaling laws)。 人工智能的一个特性——我和我的联合创始人在 OpenAI 工作时就率先记录了这一特性——即在其他条件相同的情况下,扩大人工智能系统的训练规模,能够全面且平滑地提升其在各种认知任务上的表现。

例如,一个耗资 100 万美元的模型可能解决 20%的重要编程任务,一个耗资 1000 万美元的模型可能解决 40%,一个耗资 1 亿美元的模型可能解决 60%,以此类推。这些差异在实践中往往具有巨大的影响——十倍的性能提升可能相当于本科生和博士生技能水平之间的差距——因此,各公司都在大力投资于训练这些模型。

曲线偏移 (Shifting the curve)。  人工智能领域不断涌现各种大大小小的创新理念,旨在提高效率或效能。这些创新可能体现在模型架构的改进上(例如对当今所有模型都采用的 Transformer 基础架构进行微调),也可能仅仅是更高效地在底层硬件上运行模型的方法。

新一代硬件的出现也具有相同的效果。这些创新通常会使成本曲线发生偏移:如果某项创新带来了 2 倍的“算力倍增效应”(CM),那么原本需要花费 1000 万美元才能完成 40%编程任务,现在只需 500 万美元即可实现;原本需要 1 亿美元才能完成 60%的任务,现在只需 5000 万美元,以此类推。每一家前沿人工智能公司都会定期发现许多这样的算力倍增效应:小型创新(约 1.2 倍)时有发生,中型创新(约 2 倍)也偶有出现,而大型创新(约 10 倍)则较为罕见。

由于拥有更智能系统的价值极高,这种曲线偏移通常会导致公司在模型训练上投入更多而非更少的资金:成本效率的提升最终完全用于训练更智能的模型,唯一制约因素仅为公司的财务资源。人们自然而然地倾向于“先贵后贱”的思维模式——仿佛人工智能是一种质量恒定的单一事物,当它变得更便宜时,我们就会用更少的芯片来训练它。但关键在于规模曲线:当曲线偏移时,我们只是更快地沿着曲线前进,因为曲线尽头的价值实在太高了。

2020 年,我的团队发表了一篇论文,指出算法进步带来的曲线偏移约为每年 1.68 倍。此后,这个速度可能已显著加快;而且这还没有考虑效率和硬件的进步。我估计今天的数字可能约为每年 4 倍。此处还有另一项估计。训练曲线的偏移也会带动推理曲线的偏移,因此,多年来,在模型质量保持不变的情况下,价格大幅下降的情况一直都在发生。例如,Claude 3.5 Sonnet 的 API 价格比原版 GPT-4 低约 10 倍,但其发布时间比 GPT-4 晚了 15 个月,且在几乎所有基准测试中都优于 GPT-4。

范式转变 (Shifting the paradigm)。  有时,被规模化的底层事物会发生细微变化,或者在训练过程中会加入一种新的规模化方式。在 2020 年至 2023 年期间,主要的规模化对象是预训练模型:即使用越来越多的互联网文本进行训练,并在其基础上进行少量其他训练的模型。

2024 年,使用强化学习(RL)训练模型生成思维链的想法已成为新的规模化重点。Anthropic、DeepSeek 和许多其他公司(或许最引人注目的是 OpenAI,他们在 9 月份发布了 o1-preview 模型)都发现,这种训练方式极大地提高了模型在某些特定、可客观衡量的任务上的性能,例如数学、编程竞赛以及与这些任务相似的推理。这种新范式包括首先使用普通的预训练模型,然后在第二阶段使用强化学习来添加推理技能。

重要的是,由于这种类型的强化学习是全新的,我们仍处于规模曲线的早期阶段:所有参与者在第二阶段(强化学习阶段)的投入都很少。投入 100 万美元而不是 10 万美元就足以获得巨大的收益。各公司目前都在迅速努力将第二阶段的投入规模扩大到数亿美元甚至数十亿美元,但至关重要的是要理解,我们正处在一个独特的“交叉点”,即存在一种强大的新范式,它正处于规模曲线的早期阶段,因此可以迅速取得重大进展。

DeepSeek 的模型

上述三个动态可以帮助我们理解 DeepSeek 近期发布的模型。大约一个月前,DeepSeek 发布了一个名为“DeepSeek-V3”的模型,这是一个纯粹的预训练模型——即上述第三点中描述的第一阶段。上周,他们又发布了“R1”,在 V3 的基础上增加了第二阶段。从外部无法完全了解这些模型的全部信息,但以下是我对这两次发布的最佳理解。

DeepSeek-V3 实际上是真正的创新所在,一个月前就应该引起人们的注意(我们当然注意到了)。作为一款预训练模型,它在某些重要任务上的表现似乎已接近美国最先进的模型水平,但训练成本却大大降低(不过,我们发现,特别是 Claude 3.5 Sonnet 在某些其他关键任务上,例如实际编程方面,仍然明显更胜一筹)。DeepSeek 团队通过一些真正令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率方面。特别是在名为“键值缓存 (Key-Value cache)”的某一方面管理以及推动“混合专家 (mixture of experts)”方法更进一步的应用上,取得了创新性的改进。

然而,有必要进行更深入的分析:

DeepSeek 并未“以 600 万美元的成本实现了美国人工智能公司数十亿美元投入的效果”。我只能代表 Anthropic 发言,Claude 3.5 Sonnet 是一款中等规模的模型,训练成本为数千万美元(我不会给出确切数字)。此外,3.5 Sonnet 的训练方式与任何规模更大或成本更高的模型无关(与某些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,而 DeepSeek 的模型是在 11 月/12 月训练的,但 Sonnet 在许多内部和外部评估中仍然显著领先。因此,我认为一个公正的说法是:“DeepSeek 生产出了一款性能接近美国 7-10 个月前模型的模型,成本大幅降低(但远未达到人们所说的比例)”。

如果成本曲线的历史下降趋势约为每年 4 倍,这意味着在正常的商业进程中——在 2023 年和 2024 年发生的历史成本下降等正常趋势下——我们预计现在会出现一款比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型。

由于 DeepSeek-V3 的性能不如那些美国前沿模型——假设在规模曲线上落后约 2 倍,我认为这对于 DeepSeek-V3 来说已经相当慷慨了——这意味着,如果 DeepSeek-V3 的训练成本比美国一年前开发的现有模型低约 8 倍,那将是完全正常、完全符合“趋势”的。我不会给出具体数字,但从前一点可以清楚地看出,即使你完全相信 DeepSeek 宣称的训练成本,他们的表现充其量也只是符合趋势,甚至可能还达不到。例如,这远不如最初的 GPT-4 到 Claude 3.5 Sonnet 的推理价格差异(10 倍),而 3.5 Sonnet 是一款比 GPT-4 更出色的模型。

总而言之,DeepSeek-V3 并非一项独特的突破,也并非从根本上改变了大型语言模型 (LLM) 的经济性;它只是持续成本降低曲线上一个预期的点。这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。这在以前从未发生过,并且具有地缘政治意义。然而,美国公司很快也会效仿——而且他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在实现通常的成本降低趋势。

DeepSeek 和美国人工智能公司都比以往拥有更多的资金和更多的芯片来训练其明星模型。额外的芯片用于研发支持模型背后的理念,有时也用于训练尚未准备就绪(或需要多次尝试才能成功)的更大模型。有报道称——我们无法确定其真实性——DeepSeek 实际上拥有 50,000 块 Hopper 架构的芯片,我猜这与美国主要人工智能公司拥有的芯片数量在 2-3 倍的差距内(例如,比 xAI 的 “Colossus” 集群少 2-3 倍)。这 50,000 块 Hopper 芯片的成本约为 10 亿美元。因此,DeepSeek 作为一家公司的总支出(与训练单个模型的支出不同)与美国人工智能实验室的支出并没有天壤之别。

值得注意的是,“规模曲线”分析有些过于简化,因为模型在某种程度上是存在差异的,并且各有优缺点;规模曲线数字是一个粗略的平均值,忽略了许多细节。我只能谈谈 Anthropic 的模型,但正如我上面暗示的那样,Claude 在编程和与人进行良好设计的互动风格方面非常出色(很多人用它来寻求个人建议或支持)。在这些以及一些额外的任务上,DeepSeek 完全无法与之相提并论。这些因素在规模数字中并未体现出来。

上周发布的 R1 模型引发了公众的广泛关注(包括英伟达股价下跌约 17%),但从创新或工程角度来看,它远不如 V3 有趣。R1 模型增加了第二阶段的训练——强化学习,在前一节的第 3 点中对此进行了描述——并且基本上复制了 OpenAI 在 o1 模型中所做的工作(他们似乎处于相似的规模,结果也相似)。然而,由于我们正处于规模曲线的早期阶段,只要它们从强大的预训练模型起步,多家公司就有可能生产出这种类型的模型。在 V3 的基础上生产 R1 模型的成本可能非常低廉。因此,我们正处于一个有趣的“交叉点”,暂时会出现多家公司都能生产出优秀的推理模型的情况。但随着所有公司在这种模型的规模曲线上进一步前进,这种情况将迅速消失。

出口管制

以上所有内容都只是我主要关注话题——对华芯片出口管制——的铺垫。根据上述事实,我对当前形势的看法如下:

即使曲线周期性地发生偏移,训练特定智能水平模型的成本迅速下降,但各公司在训练强大人工智能模型上的支出却持续增加。这仅仅是因为训练更智能模型的经济价值实在太大了,以至于任何成本上的节省几乎都立即被抵消——它们被重新投入到制造更智能的模型中,花费的仍然是最初计划支出的巨额资金。DeepSeek 开发的效率创新,如果美国实验室尚未发现,也将很快被美国和中国实验室应用于训练数十亿美元的模型。这些模型将比他们之前计划训练的数十亿美元模型性能更优——但他们仍然会花费数十亿美元。这个数字将继续上升,直到我们达到人工智能在几乎所有事情上都比几乎所有人类更智能的程度。

制造出在几乎所有事情上,都比几乎所有人类更智能的人工智能,将需要数百万块芯片、数百亿美元(至少),并且最有可能在 2026-2027 年实现。DeepSeek 的成果发布并没有改变这一点,因为它们大致符合一直被纳入这些计算的预期成本降低曲线。

这意味着在 2026-2027 年,我们可能会最终进入两个截然不同的世界之一。在美国,多家公司肯定会拥有所需的数百万块芯片(以数百亿美元的成本)。问题是中国是否也能获得数百万块芯片?

如果中国能够做到,我们将生活在一个两极世界中,美国和中国都将拥有强大的人工智能模型,这将导致科学和技术的飞速发展——我称之为“数据中心里的天才之国”。两极世界不一定会无限期地保持平衡。即使美国和中国在人工智能系统方面势均力敌,中国似乎也更有可能将更多的才能、资本和关注力投入到该技术的军事应用中。结合其庞大的工业基础和军事战略优势,这可能有助于中国在全球舞台上取得支配地位,不仅在人工智能领域,而且在所有领域。

如果中国无法获得数百万块芯片,我们将(至少暂时)生活在一个单极世界中,只有美国及其盟友拥有这些模型。单极世界是否会持久尚不清楚,但至少存在一种可能性,即由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可能会转化为持久的优势。因此,在这个世界中,美国及其盟友可能会在全球舞台上取得支配且持久的领先地位。

有效执行的出口管制是唯一能够阻止中国获得数百万块芯片的手段,因此也是我们最终会进入单极世界还是两极世界的最重要决定因素。

DeepSeek 的出色表现并不意味着出口管制失败。正如我上面所述,DeepSeek 拥有相当数量的芯片,因此他们能够开发并训练出一个强大的模型并不令人意外。他们的资源约束程度并不比美国人工智能公司高多少,出口管制也不是导致他们“创新”的主要因素。他们只是非常有才华的工程师,并表明中国是美国的一个强大竞争对手。

DeepSeek 也不能证明中国总能通过走私获得所需的芯片,或者证明管制措施总是存在漏洞。我不认为出口管制的目的曾经是阻止中国获得数万块芯片。10 亿美元的经济活动可以被掩盖,但 1000 亿美元甚至 100 亿美元的经济活动却很难隐藏。数百万块芯片在物理上也可能难以走私。

审视一下目前报道的 DeepSeek 拥有的芯片也具有启发意义。根据 SemiAnalysis 的说法,这是一个由 H100、H800 和 H20 组成的混合体,总计 5 万块。H100 自发布以来就受到出口管制禁令的限制,因此如果 DeepSeek 拥有任何 H100,那一定是走私来的(请注意,英伟达已声明 DeepSeek 的进展“完全符合出口管制规定”)。H800 在 2022 年最初的出口管制措施下是允许的,但在 2023 年 10 月管制措施更新时被禁止,因此这些芯片可能是在禁令之前发货的。H20 的训练效率较低,采样效率较高——并且仍然是允许出口的,尽管我认为应该禁止出口。

总而言之,DeepSeek 人工智能芯片舰队的很大一部分似乎是由以下芯片组成:尚未被禁止的芯片(但应该被禁止);在被禁止之前发货的芯片;以及一些非常可能走私来的芯片。这表明出口管制实际上正在发挥作用并不断调整:漏洞正在被堵塞;否则,他们很可能拥有全部由顶级的 H100 组成的芯片舰队。如果我们能够足够快地堵塞漏洞,我们或许能够阻止中国获得数百万块芯片,从而增加美国领先的单极世界出现的可能性。

考虑到我对出口管制和美国国家安全的关注,我想明确一点。我不认为 DeepSeek 本身是对手,重点也不是专门针对他们。在他们接受的采访中,他们看起来像是聪明的、充满好奇心的研究人员,只是想创造有用的技术。

如果中国能够在人工智能领域与美国匹敌,这个他们会是令人恐慌的。出口管制是我们阻止这种情况发生的最有力工具之一,认为技术变得更强大、性价比更高就应该放松出口管制,这种想法根本毫无道理。


回复

使用道具 举报

发表于 2025-1-30 15:29:05 | 显示全部楼层
OpenAI展开调查eepSeek或用被禁止技术开发模型

腾讯科技

1月30日消息,OpenAI在美国东部时间1月29日确认,正在调查中国人工智能初创公司DeepSeek是否使用明令禁止的技术来训练其新推出的聊天机器人。

OpenAI发言人表示,该公司正在审查相关迹象,确认DeepSeek是否通过“蒸馏”(distillation)技术,从OpenAI的工具中提取了大量数据来帮助开发其自身技术。

根据OpenAI的服务条款,客户被明确禁止使用其人工智能模型的输出来开发具有竞争性的模型。

尽管OpenAI尚未明确表示将对DeepSeek采取何种具体措施,但该公司发言人强调:“我们将采取积极主动的措施来保护我们的技术,并将继续与美国政府密切合作,保护在此地(美国)构建的最先进模型。”此前,OpenAI曾表示已封禁了其怀疑存在“蒸馏”行为的账户,并与微软合作,识别这些尝试背后的主体。截至目前,微软与DeepSeek均对此报道未予置评。

在OpenAI证实对DeepSeek展开调查之前,微软和OpenAI正在联合调查一家与DeepSeek有关联的团体,它被怀疑未经授权获取了OpenAI技术输出的数据。

早在去年秋季,微软的安全研究人员就发现,可能与DeepSeek相关的个人,利用OpenAI的应用程序接口(API)提取了大量数据。作为OpenAI的技术合作伙伴及最大投资者,微软在发现这一情况后,立即通知了OpenAI。

此类行为可能违反OpenAI的服务条款,因为OpenAI明确禁止用户未经授权使用其API输出数据来训练竞争性模型。尽管DeepSeek声称其模型性能与全球顶尖人工智能模型相当,但OpenAI怀疑其背后可能并非完全依靠自主研发。此外,这一事件也引发了对行业现状的担忧:那些投入巨额美元训练先进模型的公司,可能难以阻止竞争对手复制其成果。

一些DeepSeek用户注意到,其聊天机器人有时会给出与OpenAI模型输出相似的文本。例如,一位Reddit用户分享的截图显示,DeepSeek聊天机器人曾表示:“根据OpenAI的政策,我必须避免声称自己具有意识或感知能力。”

DeepSeek在1月20日发布其新模型R1后,引发了市场的广泛关注。该模型在性能上表现出色,但其训练所用的芯片相对不够先进,这本应是难以实现的。这种现象引发了对“蒸馏”技术的讨论。蒸馏是一种通过大型模型的输出来训练小型、高效模型的方法,DeepSeek被指控利用OpenAI模型的输出进行蒸馏,从而开发出自己的技术。

特朗普时期的人工智能负责人、硅谷风险投资家大卫·萨克斯(David Sacks)明确指责DeepSeek使用了OpenAI模型的蒸馏技术来构建自身模型。“有大量证据表明DeepSeek从OpenAI模型中提取了知识,我认为OpenAI对此并不满意,”萨克斯表示,但未详细说明证据。

DeepSeek则声称,其高性能人工智能模型是通过巧妙编程实现的,例如从较不强大的芯片中挖掘更多算力。此外,DeepSeek承认使用了蒸馏技术,但声称是用于其自身模型的优化。

回复

使用道具 举报

发表于 2025-1-31 11:03:19 | 显示全部楼层

当DeepSeek遇到华为,老黄和老美好日子到头了

军情作家陈曦

DeepSeek的大火,让英伟达股价暴跌,不过这也是黄仁勋意料之中的事情,他在DeepSeek爆火之前就提到,如果有一家AI公司,可以不使用最先进芯片,就训练出一流水准的AI,英伟达估值就达不到3万亿美元。

DeepSeek出现之后,英伟达的股价和老黄的个人资产,都大幅缩水。证明了老黄的判断。

但这还不是最关键的。

如果说DeepSeek不需要顶尖英伟达芯片,也能训练出一流的大模型,那么英伟达实际上还是绕不过去的,甚至会因为训练成本的降低,导致更多AI企业的出现,英伟达各个级别的AI芯片,也都能继续出货。

真正让老黄好日子结束的,不只是DeepSeek,还有一个关键的因素——华为。

当DeepSeek遇到华为,老黄和老美好日子到头了

当DeepSeek遇到华为,老黄和老美好日子到头了


DeepSeek

华为可以平替英伟达?

现在因为DeepSeek的爆火,出现的另一个变量是,DeepSeek可以使用华为的昇腾平台,在成本低了70%的情况下,任务性能损失在5%左右。

目前,华为面向数据中心的高性能AI训练芯片是昇腾910,对标英伟达的A100、H100等产品。

而DeepSeek使用的显卡,只是英伟达更低一级的平台——H800。

这意味着,DeepSeek是可以绕过美国的芯片管制的。

而经过迭代的昇腾910B,接近英伟达A800水平,已实现了从设计到量产的全国产化链条。

华为的芯片与英伟达的芯片,在制程、性能方面,肯定是有差距的,但是在DeepSeek的加持下,性能差距不再是问题。

这意味着,DeepSeek在训练AI大模型方面,可以用华为平台平替英伟达的平台,不用再担心卡脖子,且即便芯片水平相对落后,最终DeepSeek训练出来的大模型,也能抹平差距,实现了全产业的国产化,不用再担心卡脖子。

当DeepSeek遇到华为,老黄和老美好日子到头了

当DeepSeek遇到华为,老黄和老美好日子到头了


华为

一加一大于二

反过来看,DeepSeek的技术,对中国芯片领域的发展,起到了极大的推动作用。

目前华为的昇腾910B,与英伟达的A100还存在代差,但这种硬件层面的代差,却通过DeepSeek在软件层面弥补了。

DeepSeek的AI算法,能够提升芯片利用率,降低大模型训练的能耗,缩短推理延迟。

DeepSeek还能结合昇腾芯片的特性,根据任务需求实时调整算力分配。

最终DeepSeek加华为,并进行针对性的优化,让训练周期从数月缩短至数周,成本降低40%以上,而且在等效7nm的工艺下,实现了接近5nm芯片的训练效率。

这也是为什么有人说的DeepSeek是魔法,是来自东方的“神秘力量”。

当DeepSeek遇到华为,老黄和老美好日子到头了

当DeepSeek遇到华为,老黄和老美好日子到头了


DeepSeek和英伟达

形成闭环,一起突围

现在芯片领域和人工智能领域是美国集中打压中国的两个领域。

华为被压制多年之后,已经有了明显起色,甚至已经可以支撑中国人工智能企业赶超国际一流水平。

而在DeepSeek起飞之后,还能够“反哺”硬件领域。

比如说,与华为海思芯片设计流程结合,加速国产7nm/5nm芯片设计迭代。

这能使设计周期缩短30%,减少对Synopsys/Cadence工具的依赖。

此外,DeepSeek开源AI模型与华为昇腾平台深度融合,可以提供“算法+芯片”一站式解决方案,这可以吸引开发者从CUDA生态迁移到新的国产平台。

而CUDA就是英伟达的核心中的核心,是老黄顶着巨大营收压力,甚至被推翻的压力打造出来的,也是英伟达在AI时代起飞的根本原因。

现在华为和DeepSeek的配合,不说直接颠覆CUDA生态,起码对开发者来说,有着巨大的吸引力。

而这意味着,未来将形成国产AI技术标准。

这就不只是成本的问题了,还有最最关键的安全问题,在确保安全可控的情况下,技术也处在全球顶尖水平,有望双双打破美国在芯片和人工智能领域的霸权地位。

回复

使用道具 举报

 楼主| 发表于 2025-2-1 09:41:21 | 显示全部楼层

DeepSeek绕过CUDA?业内:或为适配国产GPU做准备

DeepTech

尽管春节假期已经过半,但是“来自东方的神秘力量的 DeepSeek”仍在引起全世界热议,各路业内人士也仍在从不同角度分析 DeepSeek 的模型和技术文章。

韩国 Mirae Asset Securities Research 的一名分析师在 X 撰写长文分析称:“这一突破是通过实施大量细粒度优化和使用英伟达的汇编式 PTX 编程,而非通过英伟达 CUDA 中的某些功能来实现的。”

也就是说 DeepSeek 在研发大模型时绕过了 CUDA。CUDA(Compute Unified Device Architecture,统一计算架构),是由英伟达开发的一种通用编程框架,它允许开发者利用英伟达的图形处理器(GPU,Graphics Processing Unit)进行通用计算。

如果 DeepSeek 真的绕过了 CUDA,那么这能说明什么?围绕这一主题,DeepTech 采访了北京航空航天大学黄雷副教授。

对于程序开发人员来说,CUDA 好比是一种高级语言,开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在 GPU 等硬件上具体如何执行计算的,从而能够降低开发难度。

举例来说,假如一个人会写汇编语言,虽然能非常高效地操作计算机,但是,汇编语言对于非专业出身的人员难度非常高,哪怕执行一个给变量赋值操作都需要好几条命令,并且还要了解寄存器、内存等计算机基础概念。

因此,开发者们纷纷转去使用高级语言进行编程。这时,要想实现同样操作,开发者只需使用一个变量赋值就可以。CUDA 便是为了方便开发基于 GPU 的算法设计的。

大模型开发商在使用英伟达的 GPU 的时候,一般是基于 CUDA 去做研发。使用 CUDA 的话对于开发者的要求较低,因为 CUDA 里面已经封装好一些函数,使用时直接调用接口就行,完全无需理会太多的细节,但是这样肯定会损失执行效率。

也就是说,CUDA 等于是给开发者框定好了一些常用东西所以具有通用性,这在容易使用的同时也会损失一些灵活性。譬如其设计的矩阵乘法算子,数据加载传输算子等,是深度学习开发者常用的算子,因此其在设计时会考虑通用性(即平均条件下最优)。

但对于有特定需求的 GPU 开发者来说,除了开发常用的能力之外,它还需要有更强大的能力,如比较精细地控制某个节点上某个 GPU 主要是用来干啥,以及如何精细化不同 GPU 之间传输数据、权重和梯度等,这在大模型这种要求多机多卡训练时比较常见。对于这些特定需求下的高效编程,CUDA 目前还未针对性设计一个高效的解决方案。

前面提到,由于 CUDA 是通用型编程框架,因此会损失一些灵活性。当仅仅使用单个 GPU 的时候,CUDA 的确非常适用。但是,当在不同节点使用多个 GPU 的时候,就需要在细粒度上实现更好的控制。

而在这时,如果依然使用 CUDA 那么在抽象层面的效率就会比较低。原因在于 CUDA 被设计得具备通用性,它要考虑到所有开发者的情况。假如一名开发者希望高效利用 CUDA 的性能,那就可以通过组合一些由 GPU 驱动提供的函数接口,来写出更高效的程序。

也就是说,如果一位开发者懂得更接近于底层硬件的编程,那么就可以直接调用硬件提供的接口,从而就能让大模型研发变得更加高效。与此同时,随着同类的开源通用编程框架的出现,人们觉得 CUDA 越来越“封闭”。而绕过 CUDA,可以直接根据 GPU 的驱动函数做一些新的开发,从而实现更加细粒度的操作。

譬如 DeepSeek 在多节点通信时绕过了 CUDA 直接使用 PTX(Parallel Thread Execution),其最多只能实现以算法的方式来高效利用硬件层面的加速。

当然,一旦速度变得更快,打个比方这就意味着别人家的模型要训练十天,而 DeepSeek 只需要训练五天,那么就能给模型喂更多的数据,即能让模型在同等时间内看到更多的数据,间接提高模型的效果。

事实上,绕过 CUDA 也并非一种新鲜做法。现在也有一些和 CUDA 对标的编程框架,如 Triton 并且其是开源的。此前北京智源研究院的相关研究人员也专门基于 Triton 去加速英伟达以及国产的 GPU,且也可以认为这是一种绕过了 CUDA 去调用 GPU 驱动提供的相关函数的做法。

以目前 AI 方向技术人员为例,通常在本科阶段基本上只会接触到基于深度学习框架(通常为 Python 语言)来训练神经网络,还不会直接接触到各类深度学习框架提供的用 C++ 来写 CUDA 相关的编程任务(有一些好学者或者有参与科研项目的人员有可能会利用 C++ 来写 CUDA 实现相关算法的提速)。

这些人员在工作以后有可能由于 AI 项目落地的需要,会接触到针对具体的硬件资源来适配模型的编程,但要绕过 CUDA 来写模型的训练算法,通常没有这样的需求。

但现在大模型的训练的确有这些需求,譬如由于这样或者那样的原因导致英伟达 GPU 算力短缺,逼得大模型训练人员考虑在有限得算力资源下,如何尽可能地高效利用算力。

在 DeepSeek-V3 的技术博文中,DeepSeek 表示其使用了英伟达的 PTX(Parallel Thread Execution)语言。

假如 DeepSeek 的开发者能够很好地使用 PTX(Parallel Thread Execution)语言,那么相比使用 CUDA 提供的编程接口,肯定可以更精细地控制 GPU 之间传输数据、权重和梯度等。但是,使用 PTX 写出来的代码非常复杂,且很难维护,因此需要专业度较高的开发者。

使用 PTX 写出来的代码非常复杂,且很难维护,因此需要专业度较高的开发者 ...

使用 PTX 写出来的代码非常复杂,且很难维护,因此需要专业度较高的开发者 ...


(来源:DeepSeek)

也就是说,绕过 CUDA 的做法具有一定的技术难度,这需要开发者既要懂 AI 模型的算法,又要懂计算机系统架构来高效分配硬件资源。如果没有同时掌握这两方面技能的开发者,那就要分别招聘懂这些技能的开发者,即需要协调好不同人员。

从 DeepSeek 的技术报告来看,其主体实现还是基于 CUDA 的相关接口,其描述中也阐述绕开了 CUDA 来写通信,那就意味着它招聘了掌握不同技能的人才,并能将这些人才很好地串了起来。

这也说明 DeepSeek 拥有一些擅长写 PTX 语言的内部开发者。那么,假如它之后使用国产 GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达 GPU 硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。

与此同时,从 DeepSeek 的技术报告来看,其技术从学术研究角度并没有胜出一筹,但是在工程上面的确非常有技巧。考虑到 AMD 已经宣布集成 DeepSeek-V3 到 MI300X GPU,因此未来不排除会有更多 GPU 厂商牵手 DeepSeek。

同时,也正如上述韩国分析师在同一篇 X 文章中所说的:“这凸显了 DeepSeek 非凡的工程水平,并表明美国对华制裁加剧的“GPU 短缺危机”激发了他们紧迫感和创造力。”

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 点击注册

本版积分规则

QQ|Archiver|SiXiang.com 思乡思想

GMT+8, 2025-3-19 02:12

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表