DeepSeek全力以赴推出新的人工智能模型

路透北京/香港/新加坡2月25日电- - - DeepSeek正寻求发挥自身优势。

这家中国初创公司上个月在全球股市引发了超过1万亿美元的抛售,其廉价的人工智能推理模型表现优于许多西方竞争对手。

据三位知情人士透露,现在,这家总部位于杭州的公司正在加速推出1月份R1车型的继任者。

其中两人表示,深seek原计划在5月初发布R2,但现在希望尽早发布,但没有提供具体细节。

该公司表示,希望新模型能够产生更好的编码,并能够用英语以外的语言进行推理。R2发布的加速时间表的细节之前没有被报道过。

深seek没有回应记者的置评请求。

竞争对手仍在消化R1的影响,它使用的是性能不那么强大的英伟达芯片,但与美国科技巨头花费数千亿美元开发的芯片相比,它具有竞争力。

印度科技服务提供商Zensar首席运营官Vijayasimha Alilughatta表示:“DeepSeek R2模型的推出可能是人工智能行业的关键时刻。”DeepSeek在创造具有成本效益的人工智能模型方面的成功“可能会刺激全球企业加快自己的努力……打破该领域少数几家主导企业的束缚,”他表示。

R2可能会让美国政府感到担忧,因为美国政府已将人工智能的领导地位确定为国家优先事项。它的发布可能会进一步刺激中国当局和公司,数十家公司表示,他们已经开始将DeepSeek模型整合到自己的产品中。

人们对深seek知之甚少,其创始人梁文峰通过他的量化对冲基金High-Flyer成为了亿万富翁。梁被一位前雇主形容为“低调内向”,自2024年7月以来就没有接受过任何媒体的采访。

路透社采访了十几位DeepSeek的前员工,以及了解DeepSeek及其母公司High-Flyer运营的量化基金专业人士。它还审查了自2019年以来的官方媒体文章、这些公司的社交媒体帖子和研究论文。

他们讲述了一家公司的故事,这家公司的运作更像是一个研究实验室,而不是一家营利性企业,它不受中国高压科技行业等级森严传统的束缚,尽管它对许多投资者眼中的人工智能领域的最新突破负有责任。

不同的道路

梁于1985年出生在广东省南部的一个农村。后来,他在精英学府浙江大学获得了通信工程学位。

他的第一份工作是在上海一家智能成像公司管理一个研究部门。他当时的老板周朝恩在2月9日告诉国家媒体,梁聘请了获奖的算法工程师,并以“扁平化的管理风格”运作。

在深seek和High-Flyer,梁同样避开了中国科技巨头的做法,这些巨头以严格的自上而下的管理、年轻员工的低工资和“996”(每周6天,从早上9点工作到晚上9点)而闻名。

梁在北京的办公室离中国最负盛名的两所教育机构——清华大学和北京大学只有几步之遥。据两名前员工说,他经常钻研技术细节,并很高兴与z世代实习生和刚毕业的毕业生一起工作,他们占了公司员工的大部分。他们还描述了通常在协作氛围中每天工作8小时。

“梁给了我们控制权,把我们当作专家。他不断地问问题,和我们一起学习,”今年9月离开公司的26岁研究员本杰明·刘(Benjamin Liu)说。“DeepSeek让我拥有了管道的关键部分,这非常令人兴奋。”

梁没有回应通过DeepSeek发送的问题。

当b百度和其他中国科技巨头在2023年竞相打造面向消费者的ChatGPT版本,并从全球人工智能热潮中获利时,梁去年告诉中国媒体Waves,他故意避免在应用程序开发上投入大量资金,而是专注于提高人工智能模型的质量。

据三位知情人士透露,DeepSeek和High-Flyer都以慷慨支付薪酬而闻名。其中一位知情人士说,在High-Flyer,一名高级数据科学家年薪150万元并不罕见,而竞争对手的年薪很少超过80万元。他是一名了解梁的量化基金经理。

据两名业内人士透露,这笔慷慨的资金由High-Flyer提供。High-Flyer已成为中国最成功的量化基金之一,即使在政府打击该行业之后,仍管理着人民币数百亿元的资金。

重点词汇AI润色

3781/5000

通用场景

计算能力

三位知情人士表示,DeepSeek在低成本人工智能模型方面的成功,是基于High-Flyer在研究和计算能力方面长达10年的大量投资。

该量化基金是人工智能交易的早期先驱,一位高管在2020年表示,High-Flyer将“全力投入”人工智能,将其收入的70%重新投资,主要用于人工智能研究。

High-Flyer在2020年和2021年分别在两个超级计算AI集群上投入了12亿元人民币。第二个集群是Fire-Flyer II,由大约1万个Nvidia A100芯片组成,用于训练人工智能模型。

一位直接了解官员想法的人士表示,当时深seek尚未成立,因此计算能力的积累引起了中国证券监管机构的注意。

“监管机构想知道他们为什么需要这么多芯片?”此人表示。“他们打算怎么用它?”这会对市场产生什么样的影响?”

当局决定不进行干预,这一举动对深seek的命运至关重要:美国在2022年禁止向中国出口A100芯片,而此时“火- flyer II”已经在运行。

据一位了解中国官方想法的人士透露,北京方面现在对DeepSeek表示欢迎,但已指示该公司在未经批准的情况下不得与媒体接触。

这位知情人士说,当局要求梁保持低调,因为他们担心媒体的过度炒作会引起不必要的关注。

中国国务院、商务部以及中国证券监管机构没有回应置评请求。

两名前员工表示,作为为数不多的拥有大型A100集群的公司之一,高飞和深seek能够吸引中国一些最优秀的研究人才。

“庞大的(计算)资源的关键优势在于它允许大规模的实验,”前员工刘说。

一些西方人工智能企业家,如Scale AI首席执行官亚历山大·王(alexander Wang)声称,深seek拥有多达5万个被禁止出口到中国的高端英伟达芯片。他没有为这一指控提供证据,也没有回应路透社提供证据的要求。

深seek没有回应王的说法。两名前员工将公司的成功归功于梁对更具成本效益的人工智能架构的关注。

该公司的研究报告显示,该公司使用了专家混合(MoE)和多头潜在注意力(MLA)等技术,这些技术的计算成本要低得多。

MoE技术将AI模型划分为不同的专业领域,并仅激活与查询相关的领域,而不是使用整个模型的更常见架构。

MLA架构允许模型同时处理一条信息的不同方面,帮助它更有效地检测关键细节。

虽然法国Mistral等竞争对手已经开发了基于MoE的模型,但DeepSeek是第一家严重依赖这种架构的公司,同时实现了与更昂贵的模型相当的水平。

伯恩斯坦(Bernstein)经纪公司的分析师在2月初估计,DeepSeek的定价比OpenAI对同等型号的定价便宜20至40倍。

目前,西方和中国的科技巨头都表示计划继续大举投资人工智能,但DeepSeek在R1和早期V3模型上的成功促使一些公司改变了战略。

OpenAI本月下调了价格,而b谷歌的Gemini则推出了折扣访问级别。自R1发布以来,OpenAI还发布了一款对计算能力依赖较低的O3-Mini机型。

美国科技服务提供商UST的Adnan Masood告诉路透社,他的实验室运行了基准测试,发现R1经常使用三倍于OpenAI缩小模型的代币(即人工智能模型处理的数据单位)进行推理。

国家接受

甚至在R1引起全球关注之前,就有迹象表明深seek已经得到了北京的青睐。今年1月,官方媒体报道称,梁作为人工智能领域的指定代表,先于知名公司的领导人,在北京参加了与中国总理李强的会议。

随着中国企业和政府机构以其他公司从未有过的速度接受DeepSeek模型,中国对其模型成本竞争力的大肆宣传,增强了北京方面的信念,即它可以在创新方面超越美国。

至少有13个中国城市政府和10家国有能源公司表示,他们已经在他们的系统中部署了DeepSeek,而科技巨头联想(0992.HK)和百度(9888.HK)打开了新的标签,腾讯(0700.HK)——中国最大的社交媒体应用bb0的所有人——已经将DeepSeek的模型集成到他们的产品中。

​“现在每个人都支持它。”

在中国拥抱DeepSeek之际,韩国、意大利等国政府以隐私问题为由,将DeepSeek从国内应用商店下架。

人工智能专家、对冲基金Carthage Capital创始人吴彦祖(Stephen Wu)表示:“如果DeepSeek成为中国国有实体的首选人工智能模型,西方监管机构可能会将其视为升级对人工智能芯片或软件合作限制的又一个理由。”

梁承认,先进人工智能芯片的进一步限制是一个挑战。

“我们的问题从来都不是资金,”他在7月份告诉Waves。“这是对高端芯片的禁运。”

相关文章

发表评论

相关文章

没有相关文章!

新三板报法律顾问

李明燕
北京高文律师事务所 合伙人
李明燕律师,北京高文律师事务所合伙人,毕业于中国政法大学,执业律师,注册会计师,执业18年,并兼任中央财经大学金融专业硕士生导师,著有《企业大合规》一书。李明燕律师曾供职金融机构多年,精通金融市场领域业务,成功代理多起证券索赔案件。
邮箱:limingyan@globe-law.com
电话:+86 18610810467

李元
北京高文律师事务所 合伙人
李元律师,北京高文律师事务所高级合伙人,毕业于中央民族大学、美国天普大学,获得L.L.M学位。李元律师曾就职于全国先进法院,并曾在北京市高院任职,专注刑事审判、辩护领域15年。李元律师在刑民交叉,尤其是金融犯罪、犯罪索赔领域经验丰富。
邮箱:liyuan@globe-law.com
电话:+86 13917539507