梁文锋“藏锋”|DS爆火100天

编者按:自1月20日DeepSeek R1爆火以来,过去100天的大模型世界中,DeepSeek成了当之无愧的顶流明星。DeepSeek不仅展现了中国AI的力量,也在一定程度上影响了世界AI发展的方向。值此之际,字母榜&直面AI特推出“DeepSeek爆火100天”专题报道。

“无人不识梁文锋。”

这句话大概足以形容梁文锋今天在AI圈的地位:媒体想尽办法一访难求、投资人用尽手段一面难约。

DeepSeek爆红后,其研发团队所在的北京融科资讯中心和杭州汇金国际大厦,一段时间内挤满了媒体和投资人,甚至众多慕名而来的网友,直接将北京融科资讯中心楼下的透明水牌,挤成了小红书上的网红打卡点。

这一切都是因为DeepSeek R1的发布。1月20日,DeepSeek正式发布性能比肩OpenAI o1完整版的R1推理模型后,直接带动大模型行业的研究焦点,从之前的GPT模式,转向了Reasoner模式。

梁文锋和DeepSeek R1的到来,将新的AI时代切割成由两大milestones(里程碑)节点分割而来的两段不同时期:一个是ChatGPT的问世,一个是DeepSeek R1新模型的发布。身处不同节点之中的企业,在拥抱AI上也开始衍生出新的变化。

国内外一众AI大厂都开始发力推理模型,国内科技大厂更是在DeepSeek效应之下纷纷加码C端应用。

梁文锋所一力主导的低成本大模型训练策略,更是让DeepSeek成了AI时代最大受益者英伟达的最大空头:资本市场开始怀疑,当用相对较少的算力也能实现不输于OpenAI的模型性能表现时,英伟达所代表的高端算力芯片是否会迎来新的泡沫。

上述担忧曾在DeepSeek R1发布后一周的1月27日发酵至巅峰,导致英伟达股价一夜蒸发近6000亿美元。

梁文锋逼得英伟达创始人黄仁勋不得不在公开场合多次强调,DeepSeek并没有降低算力需求,反而在进一步放大。

但黄仁勋的麻烦不止于此。梁文锋的低成本大模型训练方法,还意外带火了H20芯片在国内的需求新高。

自2023年以来,H20芯片是英伟达可合法出口至中国的最强AI芯片。但在DeepSeek影响之下,4月份,美国对其实施新的出口管制许可,其被禁止卖入中国市场。英伟达官方在一份报告中披露,这项限制将造成高达55亿美元的额外损失。

但好消息是,黄仁勋已经在加紧研制新一代的中国特供芯片。近期,据路透社报道,英伟达已通知其主要中国客户,计划在7月推出修改版H20芯片。

从模型、应用到芯片,梁文锋携DeepSeek之威,掀起了一场波及全产业链的震荡。

2024年12月,梁文锋在朋友圈转发了一篇文章,内文是其为文艺复兴科技公司创始人——“量化之王”詹姆斯·西蒙斯的传记《征服市场的人:西蒙斯传》一书所做的序言,其中有句话写道,“西蒙斯是幸运的,他遇到了好的时代。”

梁文锋无疑同样是幸运的,他遇到了能令自己大放异彩的AI时代。如今,随着R2模型发布越来越近,全行业都在期待梁文锋带来的新惊喜。

A

凭借R1发布爆火之前,梁文锋其实引发过两次行业热议。

2023年4月,千亿量化私募巨头幻方量化发布公告,称将集中资源和力量,投身人工智能技术,成立新的独立研究组织,探索AGI(通用人工智能)。

一个月后的2023年5月,该组织被命名为“深度求索”,并发布了首款模型DeepSeek V1。当时,《财经十一人》报道称,国内拥有超过1万枚GPU的企业不超过5家。而DeepSeek就是其中之一,并由此开始得到外界关注。

及至2024年5月,DeepSeek再次借助大模型价格战一跃成名。当时,DeepSeek发布了DeepSeek V2开源模型,并在行业内率先降价,将推理成本降到每百万token仅1块钱,约等于GPT-4 Turbo的七十分之一。

随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

只不过,当时暂未推出C端应用的梁文锋,其声量更多局限在大模型行业圈层,外界的更多目光被吸引到了科技大厂身上。

爆火之前,梁文锋也曾渴望得到投资机构的青睐,但在找不同出资方洽谈后,很多VC在退出需求下,因看不到商业化前景,而放弃了投资梁文锋的可能性。

但随着DeepSeek爆火,梁文锋成了一众投资机构的座上宾,还是请不到的那种。

就连一直宣称不投资大模型的朱啸虎,都在感受完DeepSeek新模型后,希望能够参与其中。

值得一提的是,DeepSeek的爆火,并未改变梁文锋一贯的低调作风。

成立DeepSeek之前,作为幻方量化创始人,由于梁文锋一直隐身幕后,外界在很长一段时间内都以为公司核心高管只包括另外两位联合创始人。

即便因DeepSeek一夜成名,梁文锋依然继续保持着每天看论文、写代码、参与小组讨论的习惯,且至今DeepSeek都暂未设立公关团队,对外发声主要通过在相关社交媒体上设立的官方账号,以及上百个DeepSeek微信交流群。

自1月20日DeepSeek R1发布至今,梁文锋唯二的公开露面,一次是上了新闻联播,一次是参加民营企业家座谈会。

尽管甚少露面,但通过国内外科技大佬之口,梁文锋一直活跃在大众视野。

只不过,不同于硅谷如马斯克、奥特曼等人对DeepSeek和梁文锋的质疑之声,国内科技大佬几乎清一色展现出了对DeepSeek的拥抱,和对梁文锋的赞赏。

靠接入DeepSeek攫取到最大红利之一的马化腾,在谈到梁文锋时称“很敬佩市场上出现独立、开源的产品,我们非常尊重。”

去年12月宣布追逐AGI的李想,在时隔130天后,再次对外谈及AI,不仅认为DeepSeek加速了理想在大模型上的研发效率,而且总结了自己对梁文锋的两个印象,“第一他是个特别自律的人,第二他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。”

当然,被梁文锋改变的科技大佬名单还有很长,包括张一鸣、李彦宏、蔡崇信……

B

被聚光灯环绕的梁文锋,却选择了一系列反常识的操作。

尽管受到万千瞩目,但梁文锋既没有利用投资人的热情,疯狂融资扩张资源,也没有借机做大C端用户规模。

在各路投资人看来,上述场景原本应该是摆在梁文锋面前的一手好牌。

对于想要参与投资DeepSeek的朱啸虎来说,梁文锋的安卓开源梦想,再往前走是需要烧钱的。

更现实的考量上,无论是未来在模型路线上继续scale up,还是承接B端和C端暴涨的客户需求和流量,在外界看来,梁文锋都需要用更多的钱来构建更充裕的算力资源。

2月份,甚至外界一度传出阿里将以100亿美元估值,投资DeepSeek 10亿美元占股10%的消息,但被阿里予以否认。

不过,据投中网消息,彼时DeepSeek确实在与部分投资人接触,希望以80亿美元估值寻求融资,当时国内AI六小龙中估值最高的也不超过40亿美元。

但事实是,爆火100天内,DeepSeek官方API一度因调用需求过高而暂停充值服务,APP也几度因服务繁忙而频频卡顿,但梁文锋除了带队优化服务体验外,并没有明显的算力扩建迹象,也丝毫未展现出对用户规模效应的追逐。融资一事被暂时搁置了。

这也使得DeepSeek成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司,还要加上一条,即暂未寻求外部融资的公司。

与在融资上的犹疑相反,梁文锋则继续坚持践行开源。2月底,梁文锋带领DeepSeek用一场开源周行动,通过开源FlashMLA、DeepEP通信库、DeepGEMM等多个代码库,向外界证明了DeepSeek小力出奇迹的原因所在,并首度对外揭秘了一系列针对英伟达H卡的算力优化方案。

同时,梁文锋继续沿着拟定好的节奏,追赶AGI脚步。

在内部规划中,梁文锋曾表示,团队押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。围绕这三条路,梁文锋在过去100天内动作频频。

2月18日,DeepSeek发布了最新的技术论文,以挑战Transformer架构最核心的注意力机制,让它能更高效地处理更长的上下文。

尤其值得一提的是,梁文锋的名字,也出现在了上述论文的共同作者里。文中,DeepSeek提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高。

除了带领团队创新算法,梁文锋还推动着公司在模型更新上的节奏。

语言模型上,3月25日,DeepSeek V3模型完成小版本升级,上线新版本DeepSeek-V3-0324,官方称其大幅提高了在推理类任务上的表现水平,中文写作和中文搜索能力也都得到了优化。

一个月后,数学和代码新模型DeepSeek-Prover-V2也来了。以DeepSeek-V3作为基础模型微调而来的Prover-V2,其参数规模扩展到了671B,相较于前一代V1.5版本的7B,参数规模增加了近百倍,这让其在数学测试集上的效率和正确率都变得更高。

C

尽管梁文锋还能保持自己的节奏推进模型更新,但外界的AI发展步伐已经被DeepSeek重构了。

在梁文锋验证成功低成本大模型训练方法后,AI行业开始分裂出两条进化路线:一是继续坚持Scaling Law,奉行大力出奇迹,堆高算力资源,训练更强大的基础大模型;二是追随梁文锋,以性价比思路开道,用更少资源训练更强大的专用模型。

围绕两条不一样的大模型进化路线,中美在AI发展策略上的分歧进一步扩大:硅谷AI创企继续追求Scaling Law,融资额屡创新高,前有OpenAI宣布完成历史性的400亿美元新融资,后有传闻中正在寻求200亿美元新融资的马斯克的xAI。

反观被冠以“AI六小龙”称号的国内AI创企,除了智谱拿下一些国资投资外,其他五家则罕有融资消息传出。

典型如零一万物,1月初,零一万物创始人李开复对外正式表态,自己将退出对AGI的追寻,未来公司主攻中小参数的行业模型。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”李开复说道。

DeepSeek爆火后,李开复更是将公司直接定位为一家开发AI应用的公司。

“AI六小虎”其他玩家也不同程度受到冲击:月之暗面暂停大规模广告投放,战略重心转向底层模型优化;MiniMax 和阶跃星辰目前都在探索Agent 相关的新应用;百川智能业务重心转向医疗;智谱AI重点布局政务、金融等市场。

国内科技大厂也不再对外讲述大力出奇迹的的AI叙事,而是纷纷跟梁文锋拼起了性价比。李彦宏更是在4月份的一场演讲中,点名DeepSeek慢且贵。

但DeepSeek红利之下,科技大厂又是结结实实享受到了一波红利。最大受益者腾讯,更是凭借率先接入DeepSeek的举动,助推旗下腾讯元宝一度超越豆包,成为国内AI助手下载量第一。

拥抱梁文锋之外,科技大厂的更大野心则在于超越梁文锋。直观表现之一是,在接入DeepSeek之外,科技大厂都纷纷加码了模型自研的决心。

从OpenAI到DeepSeek,这些惊艳业界的AI大模型公司,之所以能创新不断,更重要的是依靠了一帮才华横溢的年轻人。

作为DeepSeek创始人的梁文锋,更是将人才组织,视为自家在AGI大战中的护城河,不是闭源,更不是招募行业顶尖牛人。年轻人身上所具备的对创新的自信信念,成为梁文锋对这一群体青睐有加的重点所在。

现在,包括字节、腾讯、阿里、美团和京东在内的科技大厂,也想将年轻人身上的这种创新信念,汲取到自家公司身上,并由此开启了各自的“天才少年”招募计划。

但在科技大厂追赶梁文锋之前,全行业正在等待梁文锋带着自己的天才少年,发布新的R2模型。

文章来源于网络。发布者:每日电讯网,转转请注明出处:https://www.jnlts.cn/15583.html

(0)
每日电讯网的头像每日电讯网
上一篇 2025年5月16日 上午10:05
下一篇 2025年5月16日 上午10:06

相关推荐

  • 陈楚生能第二《将进酒》脱颖而出 诗酒美学破圈密码

    昨晚《歌手2025》首期直播竞演中,快男冠军陈楚生凭借原创作品《将进酒》脱颖而出,从林志炫、单依纯等强敌手中夺得亚军。这位43岁的“逆生长男神”用实力证明,在流量时代,真诚才是必杀技。 当陈楚生怀抱电吉他吟唱“君不见黄河之水天上来”时,弹幕瞬间炸锅。网友惊呼这仿佛是“李白穿越现场教学”。他将盛唐诗仙的豪情与魏晋名士的洒脱融为一体,形成了独特的“陈氏诗酒美学”…

    2025年5月17日
    000
  • 华为该换卖车“密码”了?

    在鸿蒙“四界”汽车销量陷入低迷之际,主管汽车业务4年后的余承东,也迎来了新的职位调整。 近期,华为官网信息显示,余承东不再担任智能汽车解决方案BU(简称“车BU”)董事长,仅保留常务董事、终端BG董事长头衔。 不过,据字母榜(ID:wujicaijing)获悉,在卸任车BU董事长之外,余承东还同时卸任了智能终端与智能汽车部件IRB主任。 过去4年间,余承东在…

    2025年4月9日
    2000
  • 美凯龙董事兼总经理车建兴,被立案调查并留置

    5月13日晚,红星美凯龙家居集团股份有限公司(美凯龙,601828)公告称,接到公司董事车建兴家属的通知,于近日收到云南省监察委员会电话通知,对车建兴立案调查并实施留置措施。截至目前, 公司尚未收到任何书面形式 《留置通知书》 《立案通知书》,亦未收到云南省监察委员会需要协助调查或提供任何资料的要求。 截至本公告日,公司其他董事、监事和高级管理人员均正常履职…

    2025年5月14日
    900
  • 长假最后一日荣昌区政府食堂仍受游客追捧,河南小伙上午9点多来排队吃午饭

    极目新闻记者 邓波 5月5日,是五一长假最后一天,因“卤鹅哥投喂”走红的重庆市荣昌区依旧受到各地游客追捧,对外开放的荣昌区政府机关食堂成了外地游客必打卡的目的地。 河南新乡21岁小伙任胜骞在去西安游玩后,从西安直接驱车到重庆荣昌,赶来吃政府食堂,“昨天开了十来个小时到荣昌,听说11点开餐,担心排队太久,上午9点40分就来排队了,排到了第一位。” 极目新闻记者…

    2025年5月5日
    1600
  • 身家激增390亿,“掼蛋大佬”其实财富称雄上海滩

    雷达财经出品 文|孟帅 编|深海 在胡润研究院最新揭晓的《2025胡润全球富豪榜》中,其实家族以870亿元的雄厚财富强势跻身总榜第195名,成为榜单上备受瞩目的焦点。与上一年度相比,其实家族的财富犹如坐上火箭般激增390亿元,财富增长之势锐不可当。 然而,资本市场风云变幻莫测。自《2025胡润全球富豪榜》统计截止日1月15日至4月29日收盘,撑起其实家族绝大…

    2025年4月30日
    1600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信