1. 首页
  2. 推荐

DeepSeek:不仅是中国AI技术的里程碑

DeepSeek因为对美股的“暴击”迅速站上市场暴风眼,这只“来自东方的神秘力量”引发海内外空前的高度关注。DeepSeek的爆火,不仅是中国AI技术的里程碑,更是全球AI行业的一次“范式革命”。

这种关注是把双刃剑。在这个过程中,DeepSeek迅速经历自身宕机到被攻击的诸多事件。但这并没有妨碍其最新开源模型的发布。

除夕,DeepSeek发布分别名为Janus-Pro等开源多模态AI模型,文生图测试优于OpenAI。有科技圈人士表示,这“绝对是AI行业最难眠的一夜了”。

从宕机到被攻击

DeepSeek的舆情热度崛起,几乎是一夜之间。从力压ChatGPT,登顶美区App Store 免费榜,到国内 App Store 免费榜,均样位居第一。

热度是把双刃剑。昨晚至今日,DeepSeek连续发布声明称:近期 DeepSeek 线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。

就在一日前,新模型发布后的访问量激增,一度让DeepSeek闪崩,但问题都在数分钟内得到解决。AI界上一次出现宕机情况,还是月之暗面的Kimi出圈爆火之时。

DeepSeek爆火的原因,在于其能与OpenAI“掰手腕”。

当DeepSeek-V3和R1横空出世,全球AI界仿佛被投下了一颗“技术核弹”。推出后不久,R1就凭借其性价比、开源及推理能力的提升等方面获得了广泛关注。DeepSeek表示,最新的AI模型可以与OpenAI的ChatGPT媲美,且开发成本远低于竞争产品。海外AI界评论,这是大模型行业的最大“黑马”,在外网被不少人称为“神秘的东方力量”。

这股力量在资本市场掀起巨浪。当地时间1月27日,美国股市开盘即大幅下跌,科技板块尤为惨重。尤其是英伟达,1月27日美股收盘,英伟达股价暴跌17%。

对此,英伟达方面回应称:“DeepSeek是一项卓越的人工智能进展,也是测试时扩展的绝佳范例。DeepSeek的研究展示了如何运用该技术,借助广泛可用的模型以及完全符合出口管制规定的算力,创建新模型。推理过程需要大量英伟达GPU和高性能网络。如今我们有三条扩展定律:持续适用的预训练和后训练定律,以及新的测试时扩展定律。”

根据初步统计,随着英伟达股价的暴跌,黄仁勋的身家大幅缩水210亿美元。

此外,还有报道表示,美国总统特朗普在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的崛起应当为美国企业敲响“警钟”,美国公司“需要专注于竞争以赢得胜利。”

又推新模型

1月28日凌晨,人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能模型Janus-Pro,拥有10亿和70亿参数规模。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。

这个模型既能让AI读图(基于SigLIP-L),又能让AI生图(借鉴LlamaGen),分1.5B和7B两个大小。对比来看,GPT-4o的图片生成多模态模型至今没开放。

主流市场分析认为,作为中国人工智能初创公司的DeepSeek,其最新突破动摇了美国科技行业的“无敌”地位。

那么,DeepSeek究竟厉害在哪?低成本、高性能、开源是外界提到的高频词。

实际上,在推出后不久,R1就凭借其开源的性质、大幅下降的售价和训练成本获得了广泛关注。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。

同时,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成。

这是个什么概念?557.6万美元,仅是OpenAI GPT-4o模型训练成本的不到十分之一。因此,这有望引发行业重估大模型成本——有一种分析认为,大模型和算力这两个亲兄弟,有望从此分道扬镳。

据统计,2024年1—8月,微软、Meta、谷歌、亚马逊总计向AI数据中心投入1250亿美元,包括AI资本支出、总数据中心运营成本,现金运营费用、软件、折旧和电费也纳入统计。预计2024年美国四大科技巨头全年投入约2180亿美元。而随着DeepSeek的发布,会否引发市场对科技巨头越来越多AI投入的质疑,值得关注。

量化基金转型“AI拼多多”

在国内7家头部的大模型创业公司当中,DeepSeek可以说是最不显山不露水的一家。另一方面,虽然市场是从最近才开始突然关注DeepSeek,但是它却是中国AI界的老面孔。

最受关注的事件之一,就是去年引爆的“大模型价格战”。

去年5月,字节跳动宣布旗下豆包主力模型,输入价格为0.0008元/千Tokens。6天后,阿里巴巴宣布通义千问主力模型大幅降价,主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。此后,百度跳过降价,直接宣布,旗下大模型文心一言的两款入门级产品ERNIE Speed和ERNIE Lite免费。大模型价格战战火点燃。

虽然市场普遍关注大厂,但实际上,DeepSeek与智谱AI的入门级大模型降价得更早。去年5月7日DeepSeek就曾宣布将旗下大模型DeepSeek-V2的价格降到了每百万token输入1元、输出2元(32K上下文)。

对此,幻方创始人梁文锋曾回应称,“大厂的模型成本比DeepSeek高很多,所以DeepSeek没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。”

再往前回溯,DeepSeek被视为量化基金转型人工智能的典型代表。

在DeepSeek背后是量化私募巨头幻方,也是大厂外唯一一家储备上万张英伟达 A100芯片的公司。幻方总部位于杭州,专注于利用数学、统计学和计算机技术进行金融市场的量化分析和交易。相当一段时间内,还曾受到负面舆情的困扰。

此后,DeepSeek-V2发布,主流判断认为,幻方量化转型为人工智能先驱,其超低价格甚至引发了国内大模型的价格战,DeepSeek也被迅速冠以“AI界拼多多”之称。

无论是DeepSeek的横空出世,还是后来的价格战战火点燃,AI界人士普遍认为,这反映出百度和阿里巴巴等科技巨头,尽管在生成式人工智能领域已处于领先地位,但仍需要面对着来自新玩家的激烈竞争。

从目前来看,这种转型不仅仍在推进,而且在这一年多时间里,DeepSeek进展迅速。

更多故事或启幕

“投身于探索 AGI 的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题”,这是DeepSeek官方微信号写下的简介。

对于DeepSeek大火,e公司记者尝试联系通义千问、文心一言、腾讯等大厂,均表示“未有回应。”有些则对记者回复,会及时关注。

出圈后的DeepSeek,目前依然低调。

从产业生态来看,不少大模型厂商都已开启投放买量,以期早日实现商业化变化。不过,记者的通过多种方式试图联系DeepSeek,但都未成功。多信源透露,其至今尚未有公关团队。

不过这反而增加了市场讨论的热情。从昨天开始,各科技群中,关于DeepSeek的讨论不绝于耳。有人问:“今年春晚,(DeepSeek)会不会露下脸?

业内普遍认为,DeepSeek的进展显示出,美国的领先优势正在缩小,各国应该采取合作方式建设先进AI,而不是在AI领域进行“军备竞赛”。

不过也有观点认为,客观来看,虽然DeepSeek势头惊人,但其技术目前仍落后于OpenAI和谷歌。爆火出圈后,DeepSeek未来可能将面临更多的压力和挑战。

但不可否认的是,衍生影响仍将蔓延。有AI界人士接受e公司记者采访时预判,不止是中国,世界上很多AI公司本来因为大模型训练的高昂成本,已经放弃了自研大模型。现在看到DeepSeek的成功,未来有望继续研究起来。

从这个意义来看,DeepSeek的爆火,不仅是中国AI技术的里程碑,更是全球AI行业的一次“范式革命”。

从更广阔的视野来看,DeepSeek代表了中国“硬核技术创新”的一种叙事。而除了DeepSeek之外,市场还在关注更多类似的中国科技硬核力量。随着DeepSeek的爆火,包括人形机器人公司宇树科技等,也都在被市场寄予更多期待。

DeepSeek:不仅是中国AI技术的里程碑