填写信息
公司名称
*
您的姓名
*
联系电话
*
电子邮箱
招聘职位
*
其他需求
验证码
020-3156 0779
AI 领域突破性进展:从 IMO 金牌到 Agent 普及的行业观察
发布日期:2025-08-12
浏览量: 183
作者/来源:深圳AI猎头公司
导读:AI 领域进展迅猛,从 OpenAI 获 IMO 金牌到 Agent 应用普及,深圳、广州等地科技猎头公司观察到,人才争夺与技术突破正重塑行业格局。

2025-06-08_174602.png

近两年,AI 领域的竞速从未停歇,模型能力与应用创新交替攀升,其进化速度往往被外界低估。全球 AI 社区仍处于早期采用者阶段,只要产品足够出色且对用户保持开放,便能获得广泛支持 —— 无论是 DeepSeek、Kimi 还是 Manus,都已印证这一点。从 Kimi K2 的发展轨迹中,更能看到 AI 时代 "人才投入" 被重新定义的过程:这支以技术视野为根基的团队,在 2023 年 AI 风向多变时押注长文本方向,最终做出具备搜索能力的版本,成为面向未来的关键下注。AI 正推动人类尝试此前未及的领域,而 OpenAI 拿下 IMO 金牌这一事件,更清晰释放出通用人工智能(AGI)临近的信号 —— 若说过去只是望见远方冒烟的火车,如今已能听见清晰的轰鸣声。2025 年,各行各业的 "李世石时刻" 或许才刚刚拉开序幕。


2025-05-22_163832.jpg


OpenAI 拿下 IMO 金牌:又一个 AI 超越人类的里程碑


OpenAI 的新模型在 2025 年国际数学奥林匹克(IMO)中取得金牌级成绩,六道题答对五道。值得关注的是,这是一个未联网的通用大语言模型,未针对数学做特别优化,也未使用 Code Interpreter 等工具,其解答经三位 IMO 金牌得主交叉验证为正确。尽管存在未获官方认证的争议,但 Google DeepMind CEO 随后证实该结果已获奥赛组委会认定,使其成为划时代的进展。


与 Google 此前专为数学设计的 AlphaGeometry 不同,该模型不依赖形式化验证方法,具备泛化能力。深圳 AI 猎头公司近期跟踪行业动态时发现,这一成果与 2024 年 Google 模型获 IMO 银牌形成鲜明对比 —— 后者并非通用大语言模型,而此次 OpenAI 模型在题目刚发布时便完成解答,排除了训练时提前接触题目的可能。


数学证明尤其是 IMO 级别题目,属于 "难以验证" 的任务,长期被认为是当前语言模型的短板。现实中多数复杂问题并无标准答案,因此当语言模型在未特别调教的情况下达到人类顶尖水平,意味着其思考能力已跃上新台阶。OpenAI 提到,延长思考时间可进一步提升这种能力,印证了推理扩展定律 —— 除预训练外,后期训练和推理阶段的优化同样关键。


2025-07-17_164518.jpg


据了解,该模型与 GPT-4o 基于同一底层,成绩的取得源于后期训练和推理优化,这为 AI 发展提供了广阔想象空间。正如《通用人工智能的火花》作者(现 OpenAI 研究员)所言,这堪称 "AI 的登月时刻"—— 一个 "仅预测下一个词" 的语言模型,在无工具辅助时能完成极少数天才人类才能实现的创造性数学证明,标志着 AI 能力进入新阶段。


2023 年 3 月,微软论文《Sparks of AGI》感叹从 GPT-4 预发布版本中看到 AGI 火花;仅两年半后,AI 已能解 IMO 题目。这种速度远超多数创业公司从种子轮到产品发布的周期,也让 "李世石时刻" 在更多领域显现 —— 继围棋、编程后,数学推理成为又一个 AI 超越人类顶尖水平的领域。


广州 AI 猎头公司接触的国内顶尖研究者表示,尽管行业知晓 AI 会向更强推理能力演进,但此次突破仍令人震惊。正如原子弹爆炸让世人意识到其可行性,AI 在数学领域的突破也预示着类似能力将快速扩散。不久后,Google DeepMind 宣布 Gemini Deep Think 模型获官方认证的 IMO 金牌,以纯自然语言完成解题,证明这种能力已非一家独有。技术扩散将推动推理能力整体提升,惠及全行业。


2025-07-14_172752.jpg


ChatGPT Agent 发布:"壳" 的价值在于上下文构建


2025 年 7 月 18 日,OpenAI 发布 ChatGPT Agent,虽因表现未达预期引发失望,但仍反映出其对 Agent 方向的重视。从早期构想,到 Devin、Manus 等初代产品,再到 ChatGPT Agent 的推出,Agent 逐渐成为 AI 应用的共识方向。


深圳互联网科技公司猎头观察到,不能低估 OpenAI 的布局 —— 其拥有庞大的人力、算力和用户基础,且在安全性上投入深厚。ChatGPT Agent 是该公司首个被列为 "高危险级别" 的 AI 产品,因需防范钓鱼网站、生物武器信息等风险,能力受到严格限制,这既是负责任的表现,也反衬出创业公司在行动力和突破上的机会。


从产品形态看,ChatGPT Agent 融合了操作与深度研究功能,与 Manus、Genspark 等有相似之处。国内团队在多个维度表现亮眼,例如在 PPT 制作任务上,Manus、Genspark、Kimi 等产品体验优于 ChatGPT Agent。这带来两点启示:一是中国团队在产品力上的优势延续了移动互联网时代的传统,如 TikTok、Shein 等案例所示;二是调用 API 的 "套壳" 应用未必会被原生模型产品压制,尤其 Agent 需要更多上下文和工具支持,依赖应用本身提供的环境。


2025-07-27_183402.jpg


Manus 分享的《如何系统性打造 AI Agent 的上下文工程?》一文获广泛认可,揭示了行业共同面临的挑战。上下文工程源于提示词工程,但更强调为模型提供完成任务所需的背景信息,类似 Netflix、字节等公司倡导的 "Context, not control" 理念 —— 给予足够上下文和授权,而非单纯控制,才能让模型更好发挥。


上下文工程可分为三个层面:单个会话中提供优质数据和适配格式;跨会话的个性化记忆,积累用户偏好与经验,这可能成为长期护城河;产品设计提供模型自身无法获取的上下文,例如通过硬件与软件结合实现的实时环境感知,凸显产品层价值。


深圳互联网大厂猎头公司分析认为,用户数据虽难直接提升模型智能(尤其在 AI 已超越普通人水平的领域),但对优化产品体验至关重要。在完成具体工作时,用户输入和喜好能帮助 Agent 更好达成目标,形成独特的产品竞争力。


2025-06-08_145216.png


AI 应用普及:关键进展与被低估的价值


KIMI合作的猎头公司的顾问Angela认为,2025 年上半年,AI 从偏研究性、实用性有限的技术,正式进入主流市场,呈现多项重大进展:


编程领域突破成为 AI 应用的核心。OpenAI 已将编程列为三大业务线之一,用户对 AI 编程工具的付费意愿显著提升,Cursor 等工具的增长速度便是明证。Claude Code 被认为达到 L3 或 Agent 级别,能更快写出更优雅的代码,处理更大代码库,标志着 AI 在编程领域跨越鸿沟。


推理模型持续演进,以 OpenAI o3 发布和 ChatGPT 用户高速增长为代表。从 o1、R1 到 o3,推理问答能力从科研层面落地为普通用户可及的产品。国内方面,R1 在推理领域迈出重要一步,Kimi Researcher 作为首个广泛可用的深度研究类产品,用户反馈积极,证明 AI 在该领域已超越多数人水平。


Agent 应用开始普及,Devin 展现 L3 Agent 原型,Manus、Genspark 于 3 月发布,Claude Code 持续完善。随着模型在推理、编程、工具使用能力上的增强,首批完整形态的 Agent 产品出现 —— 能接收模糊目标、自主调用工具、评估进度并完成任务,虽非主流,但已进入早期采用阶段,部分场景用户粘性极高。


2025-06-21_220904.jpg


多模态能力快速进步,尤其图像生成从玩具变为生产力工具。ChatGPT 图像生成对语义的理解精准,可满足漫画、流程图等创作需求,指令跟随能力提升降低了不确定性,甚至支撑起 AI 生成直播头像等新场景。Veo3 模型加入语音配音后,生成内容接近以假乱真的虚拟世界,首次让人感受到 "恐怖谷" 效应。


与此同时,人才争夺白热化,Meta 大规模挖人、创业公司疯狂融资等事件,反映出硅谷对 AI 人才的竞争进入新阶段。国内同样热度攀升,融资额上升、项目抢手,背后是 AI 落地产生实际收入,不再停留在概念层面。


广州互联网大厂猎头公司指出,上半年存在被高估的方向 —— 人形机器人。特斯拉下调 Optimus 生产预期具有代表性,操作控制的难度被严重低估。尽管 demo 持续进步,但让机器人做出一杯咖啡仍极具挑战。该领域仍处早期探索,大规模落地需经历方向确定、产品形成等阶段,无法一蹴而就。


更值得关注的是被低估的价值:一是应用价值,"应用只是套壳" 的质疑逐渐消散,好的应用公司期待模型升级以提升用户体验,"壳" 的价值持续凸显;二是优秀团队的价值,Kimi、Manus 等案例证明,稳定的团队、对技术方向的坚持、敏锐的洞察力,能让团队在逆风中突破,其主观能动性被严重低估;三是模型能力进化速度,GPT-5 传言预示原生多模态、强推理、高级 Agent 能力的到来,产品需为 6-12 个月后的模型提前设计,如 Cursor 在 Claude 3.5 Sonnet 发布后才真正爆发,证明模型迭代速度常超预期。


2025-04-24_150604.jpg


从 DeepSeek 到 Kimi:不同团队的演进之路


DeepSeek 尚未发布 R2 引发关注,据行业观察,其 V4 模型仍在训练阶段,按 V3 后发 R1 的节奏,R2 可能需等待 V4 完成。深圳科技猎头公司了解到,算力资源限制是重要因素 —— 模型发布后,大量算力需用于推理,总量有限的情况下,训练进度难免受影响。


DeepSeek 选择不做多模态,反映出资源有限时的战略取舍:集中突破模型智能这一核心方向,如 Anthropic 聚焦关键领域,待思路清晰后再凭工程能力追赶。相比之下,字节 Seed 采取全栈布局,设 Edge 组负责前沿研究、Focus 组冲击 SOTA、Base 组落地产品应用,分工明确。


2025-06-08_172640.png


广州科技猎头公司分析,这种差异源于资源禀赋 —— 当资源不足以全面对标时,选择性突破是理性选择;而全栈布局需强大资源支撑,适合巨头或头部公司。将应用与研究分离,进一步细分研究中的 SOTA 与前沿部分,可避免团队同时面临 "追赶 SOTA" 与 "满足应用落地" 的冲突,提升效率。


Kimi K2 的推出是团队能力的典型证明。作为方向调整后首个重磅成果,其背后是团队的稳定性 —— 创始核心成员几乎无变动,源于清华老同学间长期的信任与合作;对技术方向的坚持,在 2023 年 AI 风向多变时押注长文本,推出带搜索功能的版本,当时多数 chatbot 缺乏搜索能力,限制了应用场景;以及技术敏感度,提前意识到长文本对 Agent 能力、复杂任务处理的重要性,最终被行业验证。


杭州 AI 猎头公司注意到,K2 作为 1 万亿参数的开源模型,虽难以在本地部署,但其价值在于让用户获得更多自主把控权。团队在外部舆论低谷时保持核心稳定,年轻工程师因 "能学到东西、做成厉害的事" 而留存,证明优秀团队的凝聚力不仅靠薪酬,更靠事业吸引力。


2025-06-08_175204.png


技术变化与应用生长:AI 不止于问答


解锁 AI 生产力的三大主线 —— 推理、编程、工具使用,正持续取得突破。推理方面,o3、o4 mini、o3 pro 等模型虽在榜单上进展有限,但实际体验显著提升,推理长度、逻辑连贯性增强,细节幻觉减少;小模型也开始展现强推理能力,K2 在 GPQA、AIME 等指标上表现优异。


编程领域,Sonnet 3.5 虽上下文长度和自我纠错能力有限,但 3.7 和 4 版本在 Claude Code 上效果显著,对复杂代码、长代码段的处理常能一步到位,实现从 "良好" 到 "卓越" 的跨越。


Google 的追赶态势明显,Gemini 2.5 口碑与使用反馈极佳,技术积累深厚、人才密度高、资金与算力充沛,边际变化显著。其云服务在提供 Claude API 推理时表现优于同行,离不开 TPU 支持。但 Google 搜索主业承压,股价因 AI 对广告业务的潜在冲击而震荡,反映出新老业务交替的阵痛,其最终演化仍需观察。


2025-05-22_164104.jpg


深圳科技猎头公司认为,应用的价值取决于模型基础能力,但模型权重固定后,需动态引入上下文 —— 通用信息需通过搜索获取,组织内部流程与知识需应用层协作调用,个人偏好与背景也需应用层提供。这些上下文的质量,直接决定 AI 应用的表现差异。


AI 的终极目标是帮用户完成任务,而非仅作为问答机器。应用层需提供工具调用能力与输出部署环境,例如公有或私有 MCP 工具、结果落地场景等。因此,模型只是底层基础,当任务需结合上下文与环境时,"壳" 的价值便愈发凸显。


2025-06-08_175140.png


Agent 趋势:让每个人学会当好 "AI 老板"


OpenAI 规划的五个阶段中,Agent 位于推理之后。正如张祥雨分析,第一阶段是 ChatGPT 代表的 chatbot,第二阶段是 o 系列的推理,第三阶段的 Agent-native 模型尚未真正出现 —— 目前目标仍由人给定,Agent 仅负责预测工具使用序列,尚未能自主拆分任务与定义目标。


DEEPSEEK猎头公司认为,当前 AI Agent 产品尚处早期,如 Manus 仅推出数月,但随着模型能力提升,其功能将在半年至一年内大幅增强。不同公司因资源禀赋不同,解决 Agent 问题的路径各异:Kimi 主张 "Model as Agent",通过训练加入大量端到端工具使用数据,强化模型自身调用能力;Manus 提出 "less structure, more intelligence",同时认可结构化对效率的提升;Genspark 则针对 PPT 场景做专项优化,引入系列方法提升效果。


广州科技猎头公司观察到,Agent 的核心是让 AI 承担更多工作,类似自动驾驶 L3 级别 —— 人不直接操作,AI 主导执行。Cursor 最初适合工程师在熟悉 IDE 中写代码,而 Manus 发现产品经理更关注对话框而非代码,遂调整布局,更适配非程序员;Claude Code 则更进一步,用户只需告知需求,无需编写代码,由 AI 全程完成。这意味着用户需学会做 "AI 的好老板",赋能 AI 而非亲力亲为。


2025-05-10_143752.jpg


垂直场景的 Agent 将逐渐涌现,好的产品最终需在特定领域做到第一,形成长期价值。技术革命早期往往需试错探索最佳场景,如同蒸汽机从抽煤矿水到驱动火车与纺织机的演进。目前,编程、办公、深度研究已成为明确的重要方向。


全球市场对创新的尊重,让先发优势转化为口碑与传播优势。Manus 虽未大规模营销,却因创新获得广泛关注,证明真正的创新无需像素级复制,借鉴思路即可,这也是对创新者的奖励。


2025-05-10_143036.jpg


订阅经济与算力需求:AI 生产力的爆发


AI 产品订阅正成为常态,部分用户每月在 Manus、Genspark、ChatGPT、Gemini 等产品上的订阅支出接近 1000 美元,多选择高级方案。这种投入源于 "亲身体验" 的价值 —— 新产品需实际使用才能理解其革命性,进而激发灵感。


深圳 AI 猎头公司注意到,Agent 产品的 token 用量远超 Chatbot,Manus 上线后推理用量暴涨便印证这一点。二级市场曾质疑英伟达算力需求,认为 chatbot 难以消耗大量算力,但事实如同拨号上网到宽带的演进 —— 模型能力解锁更多场景,token 使用量随之激增。


生产力场景的 token 消耗潜力巨大。闲聊受时间限制,与短视频争夺有限注意力;但生产力需求无上限,从一个问题到一百个问题,算力需求可增长百倍。单位时间内内容复杂度的提升,如视觉信息增多,进一步推高消耗。


AI 正创造新需求,如同飞机的出现催生跨洋出差。例如美股分析师在财报季需关注多家公司,过去因精力有限只能选择性覆盖,而 AI 在 6-12 个月内可能让单个分析师同时处理 50 家股票的财报 —— 看财报、听电话会、总结要点、写报告,这些 "此前做不到" 的事将成为常态,推动需求自然增长。


生产力价值可直接衡量,AI 帮用户创造 100 元价值,用户愿支付 1-10 元。按 token 计费的模式下,用户甚至希望多用 ——AI 完成的代码越多、处理的任务越复杂,对用户的价值越大,这种正向循环将推动算力需求持续攀升。


2025-06-15_195250.jpg


硅谷抢人大战与智能边界探索


近期硅谷人才争夺白热化,大量优秀人才被 "颠覆性" 薪资挖走,对原团队和接收方均造成冲击 —— 被挖团队军心不稳,留下的人质疑薪资公平;接收方则需面对人才磨合的挑战。顶级人才需时间与环境形成合力,历史上失败案例众多,因此对组织而言,这既是机会也是考验。


深圳互联网大厂猎头公司指出,这种竞争反映出创始人对人才的重视 ——"能用钱解决的事就不惜代价",也体现了人才的核心价值。对创业公司而言,这既是退出机会(部分公司以数亿美元出售),也意味着竞争门槛提升 —— 需更多资金应对人才成本与用户补贴,如 Cursor 的大额融资在当前环境下更显合理。


硅谷流行的人才收购(Acqui-hire),既绕过反垄断限制,也反映竞争激烈程度。巨头账上现金充裕,愿 "用钱换时间与竞争优势",加快发展节奏。


2025-04-24_170626.jpg


智能边界的衡量成为新课题。ChatGPT 刚出现时,人类尚可指出其缺陷;如今,普通人类越来越难发现其不足。当 AI 接近甚至超越人类智能时,如何评估更聪明的存在?姚顺雨在《下半场》中提到,未来 AI 的 benchmark 将愈发重要,当前指标已趋钝化,85 分与 90 分的差异难以反映真实能力。Kimi 的经验表明,内部 benchmark 质量决定模型质量,因此探索智能衡量方式与边界至关重要。


AI 对个人、组织与世界的影响深远:个人层面,"超级个人" 出现,一个人能完成的事大幅增加,Instagram 被收购时 13 人团队的规模,在 AI 时代可能缩减至 3 人,人与人的差距将拉大;组织层面,小组织可变得强大,大组织能管理更复杂业务,如美团借助技术管理数百万骑手,AI 将进一步提升组织能力边界;世界层面,生产力跃升与差距扩大的平衡、精英价值反哺大众、AI 易用性提升等问题,都需在发展中解决。


此外,隐私暴露、虚假信息泛滥让真实界限模糊,AI 生成内容难以分辨,真假定义愈发复杂。人类大脑功率约 20 瓦,构成智能上限,而 AI 可快速突破这一限制,其角色分工与应用方向,将是人类需迅速调整适应的课题。


2025-05-10_163530.jpg


产品至上与未来验证


过度营销是行业普遍疲惫点,"震惊体" 宣传泛滥,而 Manus 等优秀产品几乎零营销却被误以为投入巨大。早期 AI 进步依赖研究员与媒体解释,如今模型转化为应用,"Talk is cheap, show me your product" 成为共识 —— 核心能力需落地为用户可用的产品,才能赋予 AI 生命力。


2025 年内值得验证的问题包括:AI L3 级别 Agent 能否快速达到实际工作所需的完成度?当前 Agent 任务成功率约 20%,若年底能提升至 70-80%,将重塑用户对工作与 AI 使用的定义。此外,用户使用增加后,记忆与个性化对 AI 的影响有多大?长期来看,AI 若能如员工般随使用时长加深对用户的理解,将形成不可替代的壁垒。


这一进步需模型与应用协同 —— 在线学习让模型在使用中进化,应用设计则需有效收集数据与上下文。对未来创新的包容与对中国团队的信心,将推动行业持续突破。


2025-05-10_160244.jpg


创业新浪潮与新观察


2025 年,想投身 AI 创业的人显著增多。Manus 等成功案例让更多人相信 "自己也能做到",研究员与大厂年轻人纷纷跃跃欲试。这种创业热潮,将进一步推动 AI 技术的落地与创新。


正如《33 号远征队》中 33 岁创业者挑战天命的故事,AI 领域的创业者也在突破边界,结合技术与创意,推动行业向更广阔的未来演进。


相关推荐
招聘脱节:企业宣称需求与实际评估的鸿沟
广州猎头公司亨德森猎头观察到,研究揭示招聘启事与实际面试评估存在显著脱节,尤其在AI技能评估方面,企业亟需优化招聘流程以精准匹配人才需求。
AI 领域突破性进展:从 IMO 金牌到 Agent 普及的行业观察
AI 领域进展迅猛,从 OpenAI 获 IMO 金牌到 Agent 应用普及,深圳、广州等地科技猎头公司观察到,人才争夺与技术突破正重塑行业格局。
AI生成视频竞争格局:快手可灵AI vs 字节即梦AI,谁将最终胜出?
本文对比分析快手可灵AI和字节即梦AI的技术、价格、用户基础和商业化策略,探讨谁将在AI生成视频领域占据优势。同时,为对AI技术感兴趣的专业人士提供广州AI科技猎头公司和深圳AI科技猎头公司的信息。
跨境电商人才争夺战:深圳广州猎头公司解析行业趋势与招聘策略
中国跨境电商市场规模突破 2.63 万亿元,深圳、广州成人才争夺核心战场。猎头行业聚焦 B2B/B2C 模式分化、AI 技能需求及区域化竞争,深圳跨境电商公司猎头公司与广州出海猎头公司解读人才布局新逻辑。
©2025 亨德森人力资源版权所有 未经同意 不得转载