龙年即将结束之际,美国又被中国产品狠狠撞了一下腰。
在中国初创人工智能公司DeepSeek的暴击之下,AI“卖铲人”英伟达股价周一暴跌,至收盘时跌幅近17%,创2020年3月以来的最大跌幅。
英伟达周一单日的市值蒸发规模达到5600亿美元,也创造了美股历史之最。英伟达也同时失去全球市值最大公司的宝座,不及苹果和微软,跌至第三。
1
英伟达多年来一直是AI领域的“军火商”,它的高端GPU几乎掌控了全球大部分AI研发的算力需求,尤其是高端芯片如A100和H100,一直是全球AI模型训练和推理的主力设备。然而,DeepSeek的成功展示了一个全新的路径——通过对模型架构的极致优化和算力需求的精简,它可以在性能一般的中低端显卡上实现媲美甚至超越ChatGPT的效果。这意味着,以前只有顶级算力才能承载的大模型,现在可以“降维”到成本更低的硬件上运行。
以DeepSeek的研发为例,它使用的是中国团队通过开源技术改良后的算法,结合中端GPU实现的高效推理。相比之下,OpenAI为了训练ChatGPT,动用了数以万计的高端GPU,每块售价高达数万美元。这种成本上的巨大差异,直接让投资者意识到,未来AI市场可能并不需要大量依赖英伟达的高端产品,而是会更多地转向性价比更高的方案。
这对英伟达的长期需求预期是一次重创。
过去,只有那些拥有雄厚资金的大公司才能负担得起英伟达的高端芯片来开发AI模型。而现在,DeepSeek用实践证明,中低端算力也可以支持高效的AI应用,这无疑降低了整个行业的准入门槛,让更多企业得以参与竞争。
DeepSeek不仅冲击了英伟达的商业模式,也让硅谷的一众科技巨头感到不安。
以Meta为例,这家公司近年来在AI领域投入了数百亿美元,试图通过构建超大规模的语言模型来与OpenAI竞争。但是,DeepSeek仅用不到1000万美元的研发成本并且大获成功,让人们开始质疑,这种砸钱式研发是否真的是唯一的路径。
据知情人士透露,DeepSeek登顶App Store排行榜的第二天,Meta内部的一个高层会议就连夜召开。这种危机感,不独Meta一家有,整个硅谷都感弥漫着一种恐慌,很多大厂开始重新评估自己的研发策略。
微软CEO萨蒂亚・纳德拉在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高。我们必须非常、非常认真地对待中国的这些进展。”
DeepSeek还动摇了硅谷的商业信心。
在DeepSeek推出R1模型后,硅谷的风投机构纷纷调整对AI初创企业的投资策略。过去,那些高喊“我们需要更多资金购买GPU”的初创公司是资本的宠儿,而现在,投资人更倾向于寻找像DeepSeek这样专注于低成本高效解决方案的团队。
一个更具体的例子是,Meta原计划在2025年推出一款对标ChatGPT的超级大模型,其研发预算高达50亿美元。然而,DeepSeek的成功让Meta不得不重新考虑是否继续这一项目,毕竟扎克伯格的钱也不是风刮来的。
2
DeepSeek,是一个诞生于中国杭州的公司,今年40岁的创始人梁文锋是广东湛江人,17岁考入浙江大学,后又在浙大攻读信息与通信工程专业硕士。师从项志宇,主要做机器视觉研究。
梁文锋具体的童年成长轨迹已不可考,从公开信息唯一可知的是,梁文锋有在采访中提到过自己的父亲是一名小学老师。
2008年,23岁的梁文锋还在浙江大学读硕士,当时全球金融危机爆发,市场风雨飘摇。但这位“天生的理工男”已经带领团队开始搞全自动量化交易了,收集数据、建模分析,把机器学习玩得风生水起。据传,大疆创始人汪滔那时候找过他,希望一起创业。但他认准人工智能才是未来,果断选择独立发展。
2010年硕士毕业时,梁文锋的研究方向是目标跟踪算法,但他的目光却已经锁定更大的舞台。同年,他和浙大的校友徐进一起创立了雅克比投资,开始把AI和量化交易结合。2015年,两人联手创办了幻方科技。这家公司不到几年时间就在量化投资圈杀出重围,2016年推出首个AI交易模型,2019年管理规模突破百亿,成为国内量化“四巨头”之一,甚至是唯一迈过千亿门槛的量化私募。
幻方的核心是什么?算力!梁文锋用强大的技术背景,把幻方打造成了一个“AI驱动的赚钱机器”。
到了2023年,全球AI浪潮全面爆发,梁文锋再次展现出敏锐的嗅觉。这一年,他决定进军通用人工智能(AGI),成立DeepSeek,一家专注于AI大模型研发的公司。从量化投资到AI创业,梁文锋不仅实现了跨界,还在短短几个月内,用不到1000万美元的成本推出了R1模型。
DeepSeek的横空出世,不仅迅速抢占美国App Store排行榜的榜首,更让昔日霸主ChatGPT退居次席。
这是龙年非常有历史意义的一个时刻。DeepSeek 这家颇有一些神秘色彩的公司,已经成为龙年最精彩的句点。
3
业界普遍认为,DeepSeek是中国AI技术的一次突破。这怎么理解呢?
普通人可能并不关心“MLA架构”或“MoE稀疏结构”这些专业术语,也理解不了。以下是几个简单易懂的例子,来说明为什么DeepSeek的R1模型会被认为是“革命性”的技术产品。
首先,DeepSeek更“聪明”,回答更接地气。过去你用AI聊天,可能会发现它的回答“非常教科书化”,总是照搬理论,没有什么“人味”。比如你问ChatGPT,“如何用剩菜做一顿饭?”它可能会列出一堆标准化步骤,甚至直接说“建议新鲜食材更好”。而DeepSeek的R1模型会根据你的实际情况,给出更生活化的建议,比如“剩米饭加鸡蛋做蛋炒饭,加点火腿丁或者青豆会更香,饭一定不要太软,这样炒出来粒粒分明。”
其次,它不仅能回答,还能帮你干活,效率超高。假设你是一个小企业主,想做一份简单的广告文案,又不想请人花钱找文案团队。现在,你只需要告诉DeepSeek,“我要给我的餐厅做一个冬季暖汤的推广广告”,它会几秒钟内生成一段清晰、有创意的文案,甚至还能告诉你怎么用不同的颜色和字体设计效果更吸引人。
再比如,它可以一边联网查信息,一边帮你总结分析。假设你计划一次旅行,过去你可能要打开无数个网页,查天气、景点推荐、交通路线,然后手动整合信息。DeepSeek可以直接帮你一站式搞定。比如你对它说:“我下周想去加拿大的班夫国家公园,帮我查查最近天气怎么样,适合穿什么衣服,顺便推荐几个适合家庭出游的地方。”它会联网查找最新的天气预报、整理班夫的景点列表,然后用一段非常人性化的语言告诉你:“下周班夫温度在-5℃到0℃,记得穿保暖羽绒服和防滑靴,可以去露易丝湖滑冰,也可以选择温泉泡汤,非常适合家庭放松。”
更厉害的是,它还能分析复杂问题,帮助做决策。比如你想买一辆新能源汽车,但对市场上的品牌、性能和价格完全不了解。过去你可能得看一堆评测文章,还得担心信息是否可信。DeepSeek不仅能结合你的需求,快速对比市面上几款车的优缺点,还能根据你的预算给出推荐。比如你告诉它:“我想买一辆适合冬天开的新能源汽车,预算在30万元左右。”它会快速筛选出符合条件的车款,并告诉你哪款车续航长、性价比高,以及在冬季使用时需要注意哪些问题。
它不仅好用,还很便宜。DeepSeek对普通用户来说几乎不需要太大的硬件支持,也不需要付费订阅昂贵的服务。它甚至能在老旧手机上流畅运行,让每个人都能负担得起先进的AI服务。
它还能写代码、做设计,甚至处理复杂文件。比如你是一名初学编程的学生,遇到一个代码问题,DeepSeek不仅能帮你修复代码中的错误,还能给你详细解释为什么出错,帮你快速掌握技能。如果你是设计师,想给客户做一个LOGO,也可以简单告诉它需求,DeepSeek就能生成多个设计方向的初稿,帮你省下大量时间和精力。
3
DeepSeek让美国人感到压力,更多是因为它的性价比和针对用户需求的本地化优化,而不完全是ChatGPT技术能力的全面落后。
ChatGPT在技术和市场上依然是全球领先的AI产品。OpenAI投入了数十亿美元,用超大规模模型和全球顶尖的算力,打造了一个“通用型AI”,它在语言生成的多样性、逻辑性和上下文理解上仍然非常强大。例如,对于复杂的科学问题、高阶编程需求或长文本的生成,ChatGPT仍然具有明显优势。
但ChatGPT也有短板,尤其是面对普罗大众的实际需求时,可能显得有些用力过猛或不够贴心。比如它可能回答过于学术化、不够生活化;在涉及特定语言、地区或文化背景时,答案会显得不够本地化。
DeepSeek的成功,更多源于务实和精细化设计。它通过工程优化和小规模模型的蒸馏,极大降低了成本,同时对普通人的实际需求进行了深度打磨。它的回答更生活化、更接地气,懂得用更简单、实用的语言回应用户的问题。
关键在于,它的“够用哲学”比“极致”更容易获得市场青睐。ChatGPT是一个极致的工具,但对于很多普通用户来说,这种极致可能并不是必要的。
此外,DeepSeek还有一个让市场感到压力的关键点:成本和普及性。ChatGPT运行的是一个非常庞大的模型,它对算力的依赖极高,这意味着用户需要付出更多成本才能获得服务。而DeepSeek通过优化小模型、降低对高端算力的依赖,让更多普通用户能以更低的价格甚至免费体验到AI服务。这种“普惠AI”的策略,使得DeepSeek以一种“降维打击”的方式,在用户规模上迅速超越ChatGPT。