最近,AI领域又出大新闻!DeepSeek-v3大模型强势登场,仅仅用了Llama 3十分之一的算力,就训练出了性能更优的开源模型,这一成果直接在AI圈投下了一颗重磅炸弹,整个行业都被深深震撼。深圳人工智能猎头公司的专业顾问们都不禁感叹,这一技术突破对于AI人才市场的影响不可小觑,也让更多人开始关注DeepSeek背后的团队。
与此同时,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻甚嚣尘上,尽管不知真假,却成功吸引了大众的目光,大家纷纷好奇,DeepSeek究竟有着怎样的人才?这下,热度从科技圈迅速蔓延到全网,就连小红书上都有人发帖询问,这究竟是一支怎样的团队?
不仅如此,多家英美主流媒体,像纽约时报、经济学人、华尔街日报等,都报道了DeepSeek的研究进展,对其模型的强大性能给予了高度赞扬。在国际上,甚至有人把创始人梁文锋的访谈翻译成英语,还细心加了注释,试图从中探寻这家公司崛起的秘密。
2025年1月23日,一位德国顶尖的人工智能研发人员在接受《自然》杂志评论时表示,比起OpenAI那些闭源的AI模型,DeepSeek的开源程度“相当优秀”。《纽约时报》也引用了一位在加拿大从事科技咨询工作人士的话,称DeepSee - R1性价比超高,是真正符合他们需求的工具。
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,一直专注于开发先进的大语言模型(LLM)和相关技术。那么,在它爆火的背后,团队成员都来自哪些大学呢?今天,就让我们一起深入挖掘DeepSeek背后的故事!
不过,DeepSeek背后的团队和领头人相当低调神秘。公司创始人梁文锋在网上的公开采访少之又少,广州AI猎头公司也曾尝试联系DeepSeek的员工,想要了解更多关于人才的情况,可得到的答复是公司规定不能对外接受采访。
作为一家纯国内背景的公司,DeepSeek的主要创始人及工作人员大多来自我国各大高校。这也充分证明,我们不必一味崇洋媚外,厚古薄今,国内大学培养的人才,同样能做出与欧美发达国家匹敌,甚至超越他们的产品!
从资料中可以看到,DeepSeek的创始人梁文峰毕业于浙江大学人工智能专业。本世纪初,他就考入了浙江大学这所全国顶尖的985院校,2014年又获得了浙江大学硕士学位,妥妥的“别人家的孩子”。和他相似,团队里还有大量成员来自国内顶尖高校。比如代达劢、朱琪豪是北京大学的计算机博士,邵智宏、赵成钢等是清华大学人工智能的博士,还是清华大学超算团队的成员。
除了清北的博士,团队里还有中山大学、北京航空航天大学、北京邮电大学的博士,也有南京大学本硕、哈尔滨工业大学、中国科学技术大学的本科生,以及复旦大学、上海交通大学毕业的成员。部分成员有海外留学经历,但核心骨干的绝大多数成员,本硕博大多在国内院校就读。这表明,我国的基础教育和高等教育体制,完全能培养出一大批不输给国外的人才。这种“钱少事少离家近”的人才培养模式,值得现在“鸡娃”的家长们参考,并非国外的一切都比国内好。
在DeepSeek的主要团队中,有7名北大毕业生,4位毕业于清华大学,北京邮电大学输送了2名成员,中山大学和北京航空航天大学各有1位,且都没有海外留学经历,就连创始人梁文峰也是完完全全的浙江大学本硕。可见,这支纯粹的国产团队,照样能做出赶英超美的产品!他们的出现和崛起,让那些不可一世的西方国家真切感受到了来自中国的震撼!
当然,我们也要清醒地认识到,我国依然且长期处于发展中国家行列,在各个方面与欧美顶尖发达国家相比,还有很大差距。我们必须牢记使命,不忘初心,正视差距,不断前进,为早日实现伟大的中国梦贡献自己的力量。深圳生成式AI猎头公司在关注行业动态的同时,也期待国内能涌现出更多像DeepSeek这样优秀的团队,推动行业不断发展。
AI猎头公司深入探究后发现,梁文锋及其DeepSeek团队的核心成员,从一个默默无闻的小公司,一步步崛起成为震动全球AI圈的“东方神秘力量”,背后有着许多不为人知的故事。
创始人梁文锋是浙江大学信息与通信工程专业的硕士,在他的带领下,DeepSeek对人才极为看重,只看能力,不看经验。多位与DeepSeek有过接触的行业人士表示,DeepSeek的优势就在于人才密度极高,且大多来自中国本土市场。DeepSeek团队规模不大,不到140人,工程师和研发人员几乎都来自清北等国内顶尖高校,“海归”很少,而且工作时间普遍不长,不少还是在读博士。
成立后的一年多时间里,DeepSeek一直低调行事,V2模型的发布成为其破圈的关键转折点。2024年5月发布的DeepSeek V2,带来了史无前例的性价比:推理成本降至每百万token仅1块钱,约为Llama3 70B的七分之一,GPT - 4 Turbo的七十分之一,DeepSeek也因此被业内戏称为“AI届拼多多”。再加上其低调的作风,又被称作“来自东方的神秘力量”。
这之后,DeepSeek引发了硅谷的恐慌,成为OpenAI最强劲的对手。实际上,DeepSeek背后并非互联网科技大厂,而是来自金融领域的头部量化——幻方量化。
2023年,全球AI热潮爆发,梁文锋也迎来了他创业之路的第十个年头。当年5月,38岁的梁文锋宣布要做通用人工智能(AGI)。同年7月,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)成立,专注于AI大模型的研究与开发。梁文锋也成为量化投资者投身AI创业的“第一人”。通过天眼查信息可知,他在DeepSeek最终受益的股份比例超80%。
1985年,梁文锋出生于广东湛江的一个五线城市。关于他童年的具体成长轨迹,已无从考证,从公开信息中仅知道他的父亲是一名小学老师。
2002年,17岁的梁文锋凭借优异成绩考入浙江大学电子信息工程专业。2007年,22岁的他又考上了浙江大学信息与通信工程专业硕士,师从项志宇,主要研究机器视觉。
2008年,还在浙大读书的23岁梁文锋,与同学一起组建团队,开始积累市场行情数据、金融市场其他相关数据以及宏观经济等数据。
2010年6月,25岁的梁文锋从浙江大学信息与通信工程专业硕士毕业,其毕业论文题目为《一种鲁棒的PTZ摄像机目标跟踪算法》。
经过各种资料整理,我们发现DeepSeek团队最大的特点就是年轻。应届生、在读生,尤其是来自清北的应届生,在团队中非常活跃。他们中的一些人,2024年一边在DeepSeek搞研究,另一边还在准备博士学位论文。有的人参与了从DeepSeek LLM v1到DeepSeek - v3的全过程,有的人只是实习了一段时间,也做出了重要成果。像为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。
接下来,让我们深入揭秘DeepSeek的核心成员。2024年5月发布的DeepSeek - V2,是这家大模型公司破圈的关键一环。其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi - head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。
高华佐非常低调,目前只知道他毕业于北大物理系。另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也出现了这个名字,不过暂不确定是否是同一人。
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
DeepSeek - V2的工作中还涉及到另一项关键成果——GRPO。在DeepSeek - V2发布前三个月,DeepSeek - Math问世,其中提出了GRPO(Group Relative Policy Optimization)。GRPO是PPO的一种变体RL算法,它放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。GRPO在圈内受到广泛关注,另一家国内开源大模型阿里Qwen 2.5的技术报告中也透露用到了GRPO。
值得一提的是,DeepSeekMath有三位核心作者是在DeepSeek实习期间完成的工作。核心作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。他的研究领域包括自然语言处理、深度学习,尤其对如何构建一个稳健且可扩展的AI系统很感兴趣,这个AI系统能利用多样化的技能整合异构信息,并准确回答各种复杂的自然语言问题。邵智宏之前还曾在微软研究院工作过。在完成DeepSeekMath之后,他还参与了DeepSeek - Prover、DeepSeek - Coder - v2、DeepSeek - R1等项目。
另一位核心作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。据北大计算机学院官方介绍,朱琪豪曾发表CCF - A类论文16篇,在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次,还有一篇论文进入ESEC/FSE会议同年的引用前三名。在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek - Coder - V1。他的博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文激励计划。
还有一位核心作者同样来自北大,北大博士生Peiyi Wang,受北京大学计算语言学教育部重点实验室穗志方教授指导。
除了DeepSeek - V2 MLA、DeepSeekMath GRPO这两项关键破圈成果,还有一些成员从v1就加入团队,一直坚持到v3。代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。代达劢学术成果丰硕,曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖,在各大顶会发表学术论文20篇以上。2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。
以及北大元培学院的王炳宣。王炳宣来自山东烟台,2017年进入北大。硕士毕业后加入DeepSeek,参与了从DeepSeek LLM v1开始的一系列重要工作。
清华这边的代表人物还有赵成钢。赵成钢此前是衡水中学信息学竞赛班成员,CCF NOI2016银牌得主。之后他进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。赵成钢在DeepSeek担任训练/推理基础架构工程师,还有英伟达实习经历。
这些鲜活的个体,确实令人赞叹,但还不足以完全回答最初的问题:DeepSeek到底是一支怎样的团队?有着怎样的组织架构?
答案或许要从创始人梁文锋身上寻找。早在2023年5月,DeepSeek刚刚宣布进军大模型领域,还未发布成果时,梁文锋在接受36氪旗下「暗涌」采访时,就透露过招人标准:看能力,不看经验,核心技术岗位基本以应届和毕业一两年的人为主。从后面一年多陆续发表的论文贡献名单中也能看出,博士在读、应届以及毕业一两年的成员占了很大一部分。即使是团队leader级别也比较年轻化,以毕业4 - 6年的为主。
例如领导DeepSeek后训练团队的吴俣,2019年北航博士毕业,曾在微软MSRA参与过小冰和必应百科项目。吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合培养。
与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合培养,2023年博士毕业。2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。郭达雅上学期间还有一段趣事,本科在MSRA实习一年就发表了两篇顶会论文,他还笑称“在刚入学的第三天,就完成了中大博士生的毕业要求”。
除了团队成员年轻化,DeepSeek在国内AI公司中还有一个突出特点:非常重视模型算法和硬件工程的配合。DeepSeek v3论文共有200位作者,并不都是负责AI算法或数据。有这样一批人从早期的DeepSeek LLM v1到v3一直参与其中,他们更多负责算力部分,优化硬件。他们以DeepSeek AI的名义发表了论文《Fire - Flyer AI - HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。
Fire - Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100 GPU,却在成本和能耗上比英伟达官方的DGX - A100服务器更具优势。这支团队中,有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调,甚至干脆转岗到DeepSeek,参与了每一项大模型工作。而如此重视软硬件协同的成果,就是以Llama 3 405B的1/11算力,训练出性能更高的DeepSeek - v3。
最后,我们还发现DeepSeek开源项目中有一个特别之处,有一项成果不是语言模型相关工作,而是3D生成相关。这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。像这样实习生在DeepSeek做出重要成果的,还有中山大学逻辑学专业的辛华剑。他在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek - Prover,现在在爱丁堡大学读博士。
看过这些例子,再回顾梁文锋的访谈,或许就能更理解这支团队的运作结构。DeepSeek不做前置的岗位分工,而是自然分工,每个人对于卡和人的调动不设上限,只要几个人有兴趣,就可以随时调用训练集群,开启一个项目。当一个idea展现出潜力,也会自上而下地调配资源。
这难免让人联想到AI界另一家不可忽视的力量——OpenAI。同样用人不看经验,本科生、辍学生只要有能力都能被招进来;同样重用新人,应届生与00后有机会调动资源,从无到有研究Sora;同样在面对潜力方向时,整个公司从顶层开始设计布局,推动资源投入。DeepSeek,或许是组织形态上最像OpenAI的一家中国AI公司,广州人工智能猎头公司也在持续关注着它的发展,期待它能为行业带来更多的惊喜与变革 。