AI编程能力真相调查：国际基准测试揭示技术现状与挑战

作者：每日干货分享

发布时间：2025-11-07 18:09:59 浏览量：50 0

当下，AI能力落地实属最为热门的话题，它从走下技术神坛开始，直至真正赋能场景与业务，还要拨开舆论那重重迷雾，真实情况究竟怎样呢？我们会以“真相”作为主线，持续去推出系列稿件，理性地观察AI技术应用落地的现状以及未来，同时也欢迎产业各方参与到话题讨论中来。

存在着一种言论非常喧嚣，即有关于“AI替代程序员”的说法，与此同时，AI编程也就是AI，正被多方面共同塑造成为一种形象，这种形象是“大幅提升企业开发效率潜力”的。然而，在大厂和创企进行产品竞赛的情况之下，在企业内部应用方面不甘落后之外，AI编程其自身仍然处在探索期，从它面世一直到现在，一直备受质疑。

近日，有一支科研团队推出了Pro基准测试，该科研团队是由国际算法奥赛金牌得主所组成，结果令人大跌眼镜，在来自顶级赛事的最新584道编程赛题上，GPT-4o、R1、3等20个顶级大模型展开了对决，在高难度题目上，所有AI的通过率是0%。（相关报道《AI替代程序员？一项最新测试的结果恰恰相反 | 企服国际观察》）。

能够这么讲，要是与网络信息相脱离，而网络信息是作为训练数据存在的，没办法“作弊”，如此一来，AI的编程能力，远远没有外界所吹捧的那般神奇灵异、超乎寻常。

在有关AI编程的热烈讨论里，程序员群体是最喜欢追赶潮流也是最易于接纳新颖事物的，就因为有着更多的实际运用，他们对于AI编程工具趋于理性了。

基于信息安全方面的考量，安全部门会施行禁止使用AI大模型的举措，哪怕是针对本地部署情况。然而，与此同时，业务部门经理会向所有开发人员提出必须使用大模型的要求，目的在于提升性能。每个部门都处于矛盾状态，却又觉得自身的做法是正确无误的。公司进行裁员以后，我们把绩效提升了1倍有余，可实际上并没有任何工具能够助力我们达成这一目标。

由于大多数情况是出于数据合规保密的缘故，进而不让使用外部商业化已成型的AI工具，而且内部的IDE插件不太好用，再加上大厂上下游众多，潜在业务知识繁杂，存在大量结构混乱、难以理解和维护的代码，致使很多时候还得自己把业务知识进行翻译，所耗费的时间也不少，所以总体来讲性价比并不高。

去年，推出编程功能之际呀，我兴奋到了极点呢。来想象一番吧：去描述想法，代码会自动生成出来，效率提高了10倍哟。半年之后呢，这儿既有惊喜呀，又存在血泪教训呢。最大的收获如下：AI能力很强，然而需要人类去划清边界哟。

在此之前，完全未曾接触过，注意力或许还停留在传统的去完成一些任务上，然而却不知道在外面的那个世界里，当下所提升的技能或者知识已经根本不重要了。从我的这个视角来进行观察，现在极其需要拥有使用人工智能的经验，我想要表达的是，人工智能是一种工具，怎样以恰当适宜的方式去使用它从而对自身起到帮助作用才算是一种本领。

人和AI写代码存在不一样的地方，用AI写代码时，你不会察觉到自己是在用自然语言去编程，就算是自然语言，也不可以仅仅给出需求，自然语言编程同样是需要编程的逻辑以及规范设计的。

于笔者跟多位业内从业者交流期间，一个共识渐趋明晰，即：AI尚不能够取代人类，仅是在重塑着开发者的角色定位。鉴于大模型本质以及产品成熟度的要素，部分开发人员依旧对AI编程难以接受，此类工具尚未能迅速普及。

是否值得予以信任属于关键考量点。依据相关的《2025管理报告》，有三分之一的开发人员在每一次进行部署以前并未去审查由AI生成的代码，这就表明存在“很大一部分”代码未曾经过审查的情况，这给供应链带去了日益增大的漏洞。AI会成为软件堆栈的关键贡献者，然而信任模型、工具以及策略却未有跟上。并且，依赖人工去审查代码是不具备可持续性的。

况且实际存在的疑难是，AI程序编制的产品并非价格低廉，要劝服已然率先运用AI开启编程的企业支付更多资金，尤其是那些已然抵达IT预算上限的客户，事实上并非轻而易举之事。

高盛当年身为微软初期客户，给其大概1.2万名开发人员中的每一位都 buys 了此工具月度订阅，每年耗费达数百万美元。这个用户近日同样留心关注了之外的竞品，这进而致使微软调整定价策略，就是能够依据用户使用量，而非单纯订阅模式，并且同时推出 Agent 等新功能产品用来劝服客户追加预算。

反观国内，大厂以及不少创企纷纷入局，有关于原生 IDE 与插件的争论，还有 Agent 是实时还是异步的讨论，除了技术产品差距需跟进外，就当前国内市场环境来说，商业化实则更为艰难。

在好用之前，先考虑安全设计

基于大语言模型，AI编程核心得以支撑，有的时候是由像Codex这样的微调模型提供支持，它具备自动补全代码的能力，可以提供调试建议，还能够依据自然语言提示编写完整脚本。正因为这样，越来越多如这般的AI编程工具出现了，并且被纳入企业日常开发工作流程当中。

但一些企业已经意识到现阶段AI编程助手存在的弊端。

2023 年，出现因训练数据合法性陷入诉讼的情况，是由于 AI 生成的代码有可能包含来自 MTL、GPL 等开源协议之下的代码，并且这些代码未曾经过属性声明。同年，武汉大学等六所高校针对生成代码的安全性提出了质疑，还指出生成的代码可能存在安全漏洞，强调开发人员在接受生成的代码之前，应当进行严格的安全审查。

今年3月，AI编程软件被发现有重大漏洞，使用构建的应用会出现泄露用户个人信息的状况，并且还会泄露客户用于访问其他服务的密码，随后这类问题被解释成并非自家独有，任何面向非专业开发者的AI编程产品都面临类似问题，为此推出一款旨在检测漏洞的“安全扫描”新功能，才把此事平息。

有不少海外企业公开表明，AI生成的代码有时会出现不能按照预期去运行的状况，甚至更为糟糕的是，其有可能会让自身更容易遭受黑客攻击或者出现数据泄露的情况，笔者留意到了这些。要是把AI编程去生成的软件直接当作系统运行用，极有可能会给企业留下带有缺陷性质的产品。

关键缘由在于，人工智能并非能够切实明晰代码逻辑它是依靠概率模型去生成表面上看似合乎情理的代码这也就表明了人工智能进行编程有可能会存在潜藏的错误又或者安全方面的漏洞。

有一些企业，为了防范潜伏在AI生成代码里的风险，已经开始明确提醒自家旗下的工程师，不要发布任何没有经过人工审核的软件，。

有一家营销分析软件公司，它制定了一项政策，这项政策要求，所有AI生成的代码，在客户使用之前，都得经过审核。同时，该公司更倾向于使用托管在自有服务器上的模型，而不是基于云端数据中心运行模型。此外，公司也会事先提示模型尽量考虑其生成代码的安全性，要不就要求模型事后检查自身代码是否存在缺陷。

国内企业市场，这种情况也正在上演。

对于互联网企业而言，若是其具备着强大的自研团队以及相应能力，或者是出于安全方面的因素，还有内部研发那种所具有的诉求，那么就会首先去考虑进行自研工具。

字节跳动公开宣称，当下有超过八成的工程师，正在运用其研发的TRAE产品来辅助开展开发工作。然而，早前在五月的时段，字节跳动安全与风控部门，曾发布了一则内部邮件提及，出于针对防范数据泄露风险的考量，自六月三十日起始，将会在内部进行分批次地禁用第三方AI开发软件，其中涵盖了AI编程工具等等，并且会把Trae当作替代方案。

6月初，美团发布了AI编程类工具，该工具集成了美团自研的、千亿参数规模的模型。美团基础研发平台智能开发工具负责人俞超向笔者解释，这款软件工具是服务于内部员工的，并且希望能将能力进一步开放给外部人员。俞超还表示，大公司自研发工具往往源自自身诉求，多数纯商业软件无法满足企业内部研发场景，所以要对企业自身研发流程进行深度优化。

对于企业来讲，存在一些借助外部采购快速搭建起来的业务系统范畴，在确保数据安全的状况下，得去考量整个研发流程和系统维护运作的便利性。

蔚来汽车资深工程师揭晓言明，大家皆悉汽车行业竞争极为激烈，存在对功能快速开发的强烈诉求，且维护周期颇为漫长，故而车企对效率有要求，对质量要求更是高。近些年来，蔚来汽车开端逐步把AI编程工具应用于模板生成、单元测试自动生成等内部研发场景。

在2024年开始的时候，蔚来汽车从微软转变到了阿里云通义灵码。说到当时为何最终会选定通义灵码的时候，揭晓称，关键是代码安全方面的问题，“尽管在此之前内部曾在小范围内使用过一阵子，然而出于数据跨境有着风险的考量，标准化的海外产品实际上并不适宜在全公司范围内进行大规模推广。”。

在回看国内此次选型之时，实际上，能够于AI编程领域投入资源的厂商数量并不多，背靠大厂资源的通义灵码，于产品以及模型层面上，更趋近于海外产品，并且在工程化层面，成熟度较高，“无法否认，国外模型会拥有一定优势，回答更为简洁，在一定场景下，准确性会更佳。然而，我们同样会重视一些产品功能方面的细节要点，在产品设计特别是安全性层面的前瞻性。”揭晓表明。

蔚来汽车运用了通义灵码，然而当下并未选用其给出的私有化部署解决办法，也就是把大模型、服务部署于企业内网，使其与外网构成隔离。

明白告知我，“虽说这样的方案能够达成百分之百的安全，然而就目前的状况而言，未被采用的关键缘由存在两点：其一为成本高昂，其二是升级以及维护极为繁杂，网络隔绝这一情况便是要求厂商始终安排人员去开展升级维护工作。”。

拿工具的人也要转型

对于那些有着技术自信的从事开发工作的人来讲，AI编程就像是那种没办法搞清楚代码究竟来自何处以及其工作原理到底是怎样的如同“黑箱”一般的存在，那要怎样去促使他们在更深层次上去运用它呢？

几个月之前，微软的高管持续不断地鼓励内部的员工，让员工更多地运用AI编程，以此来加快软件开发的进程。据了解，微软有几个负责研发提效的团队，已然设置了一些监测工具，这些测工具是用于追踪基于生成的代码量的。

而在同一时间，微软开展了最新一项裁员计划，这项计划中有6000名员工会受到影响，其中一部分员工是软件工程师。虽然微软发言人在一份声明里表明，公司不是想用AI去替代现有的人员岗位，而是借助技术来提升效率，然而其意图很明显，那就是工程师要转变为“人工智能提示工程师”，要给AI编程助手下达指令，而不是像传统程序员那样从一开始编写代码。

参照近段时间服务银行业客户得出的实践积累，神州信息新动力数字金融研究院副院长薛春雨，针对笔者的询问，展开了详细剖析，他指出，“当下银行业针对科技驱动这一事项，整体持有积极态度，然而在实际推进的进程当中，同样遭遇了一系列问题：其一，设计文档方面存在问题，大模型训练所必需的上下文数据，呈现出显著的不足态势；其二，开发人员的接受程度怎样，以及银行内部出于降本增效目的而产生的抵触因素；其三，银行所特有的业务场景，像数据的开发与交易的开发，两者之间存在明显差异。”。

俞超觉得，“当下（国内）整个的AI编程的渗透比率还不是很高，大部分人还没利用得好。”依照他目前观察的情形来讲，主要存在两类团体对于AI编程怀有消极看法：一类是工作时长较长并且觉得自身代码能力出色些的不愿意去尝试；另外一类是虽说愿意去尝试，然而本身这批程序员的代码可解读性就欠佳，连注释都没有，全都是在文件上打补丁的，其实诸如这类团体也未必能够运用得好AI。

俞超基于对AI编程未来持有乐观态度有所认为，未来如果是具备良好编程基础的程序员，并且有强烈意愿，同时动手能力还强，那么在AI编程时代会具备明显的核心竞争力。并且模型能力处于发展状态，或许未来开发者就算不具备特别强的编程素质，也能够完成一些端到端的开发。

于美团内部，去年年末便已上线，为产品、设计用以绘制原型之物，HR、行政团队等非技术人员亦开始借助此产品去解决工作期间面临的问题，乃至有人透过对话数百轮构建起完备的系统，然而在此之前他们并无任何编程经验。

而不少人或许会忽视工具平台有没有统一性这个问题，在揭晓这儿看来，“起码得确保于同一个部门要么是公司内部达成AI编程工具的周全统一”，就像是手写一份培训文档那样难，在另外一个工具之上开展复现，自定义了之后，项目规范了之后，RAG了之后，维护起来也着实非常麻烦，。

“就算AI能够产出结果所示的代码，然而这并不表明这样的质量以及效果，是准许满足公司的迭代发展以及维护需求的，通常还得依靠优秀程序员对整个架构进行把控。”揭晓说道。

开发者需要对工具有信心

我们可以看到，企业客户如今以非常热情的态度去拥抱大模型，然而，是否能够节省开发人员，以及所生成的代码是否具备可用性，当前都依旧是有待解决的问题。

有一位开发人员，他向笔者表明，于使用AI之际，发觉最为头疼的是，AI不太适宜去做高层级抽象的设计，它更适宜做具体的任务。除此之外，从价值角度来判断，很难确切地讲清楚AI编程对企业研发效率以及质量的提升情况，仅仅能够讲“部分场景的价值相对比较明显，不过距离理想状态仍存在一定的差距。”。

那些在潜移默化里达成的一些共识，致使AI编程加速落地，借由整理与结合访谈，笔者发现，业内多数专家谈到了基础模型能力提升对AI编程工具所造成的影响。

去年，有开发商发布了其自研的模型Fast，该开发商计划以30亿美金收购AI编程助手开发商，之后，被收购的AI编程助手开发商发布了SWE-1模型，其发布这一模型，被认为核心目的是提高模型自主能力，并且控制成本。

腾讯云开发者产品总经理刘毅解释其代码助手时称，下一段研发提效瓶颈存在三方面，一是大模型对人输入指令感知不够精确，二是大模型对复杂工程理解与处理能力不足，三是软件工程各阶段协作工具与信息传递仍割裂。

在5月末的时候，通义灵码产品技术方面的负责人陈鑫，也就是那个被称作神秀的，处于关于通义灵码AI IDE进行升级的交流之中，他表示：“于未来的AI编程所涉及的领域而言，必然会呈现出端到端的竞争态势，这一竞争态势具体而言就是应用、模型以及AI infra这三者的整体能力，只有如此才能够达成更好的性价比以及自主优势。”。

俞超还向笔者讲道，表示，“就业内广泛形成的共识来讲，是在2027年之前能够达成完整的端到端自动化这般态势。回首过去的两年时间，AI编程所取得的进展，更多的其实也是由底层模型的那种能力予以带来的。伴随模型能力的不断提升，模型出现错误的概率将会越来越小，当下众多的技术方案、架构有可能会随着技术的持续进步而渐渐过时这一情况。”。

比如说，公司的Devin在很早的时候就已经完成制作了，然则效果上面却没能跟得上，这同样是由于模型能力提升方面存在欠缺。当处于每个阶段时，模型的窗口以及推理能力、推理速度等倘若没有达到相应标准，那么就需要借助大量的工程手段来解决所面临的问题。

俞超的判断是，可能在刚开始的时候，模型能力不强，那个时候是需要去做大量工程化技术来进行优化的，可未来呢，随着模型的发展以及推理能力的提升，未来的应用架构或许会变得更加简单起来，不会再依靠大量工程优化去弥补模型问题了。

国产工具“上牌桌”

如今，AI编程在海外市场已进入一番缠斗状态：

在2月的时候，大模型公司推出了它自己的AI编程工具Code，紧接着，该公司又在最近这段日子，突然把对系列模型的访问给切断了，。

在与之形成和的PK之外的情况里，已然处于大肆开展攻城略地的态势，呈现出与另一对象不相上下的局面，其中前者的年化收入已经实现突破5亿美元这一状况。

同样的，微软争取巧妙避开，所挑选的模型，然而并不期望由微软获取的知识产权，进而指责微软从事反竞争的行为。

恰与海外那种正面进行激烈搏斗的情形形成相反态势的是，在国内，存在着诸多AI编程产品，它们或是由于生态以及产品尚处于不成熟的状况，所以竞争关系呈现出较为缓和的状态，并且还不存在明确的商业化方面的指向。

国内处于领先地位的云厂商推出了属于自己的AI编程工具，有着AI大模型的厂商也推出了经过微调的模型或者AI代码工具，部分专注于AI编程的初创公司则在探寻Agent的创新应用。

在初创阵营里面哟，特别引人瞩目的是呢，它是那种聚焦海外市场的，这家公司已经筹集了2000万美元的融资呀，它的投资者包含五源资本、真格基金、高瓴资本等等这些风投呢，截止到去年11月的时候呀，它的估值已经达到了8000万美元啦。创始人明超平是月之暗面前核心产品的负责人哟。

在一次访谈里他提及，、这般的公司，于服务专业程序员这块做得蛮出色，然而半专业人士的需求存在着极大的尚待开拓的空间，这些人连一行代码都写不出来，不过出于需求或者创造力，他们期待着去开展开发。

建立在 3.7 模型基础之上，且朝着 4 进行过渡。当下就该公司来讲，关键问题在于用以支持模型的计算资源，其成本支出花销不小哟有着每天处理数千项任务的情况，处理用户每一项任务的平均花费在从 3 天到 5 天的时间后回到初始状态，成本是 1.5 美元至 2 美元。

当前看起来，国产工具存有一个优势方面的变化情况，其表现为，处于中美双方之间，在模型上存在的差距，还有处于产品上存在的差距这两方面差距呈现出渐渐缩小的态势。

神秀表明，“当下AI编程的市场渗透率正迅猛提升。如此这般，在这个差距渐趋缩小的情形之下，国产的AI编程工具不但具备数据安全隐私合规的保障，而且拥有性价比方面的特性，以及IDE生态具备选择性方面的优势。“。

在俞超对几款海外 AI 编程工具进行对比使用之后，得出了这样的结论：“除了模型之外，海外产品同样存在两点具有参考价值之处：其一为速度，特别是某些产品的迭代速度极快，甚至一天会有多个版本进行迭代；其二是对产品细节的精心打磨。”这一情况在其身上体现得极为显著，例如在 UI、操作流程方面，均能够让开发者达成沉浸式编程。与之形成对比的是，国内产品不但需要对产品进行精细打磨，提升模型能力，而且在此基础之上还要进一步培育用户的付费意愿。

恰好在半月之前，那位担任CEO的人士，于接受Y的访谈这个行为当中，提及了这么一点内容，即AI编程工具的护城河所在之处便是拥有着用户规模以及产品能够进行快速迭代这两个方面。

才刚开始的或许是竞争。不过能够确定的是要先解决核心的技术工程化难题，AI编程才会有上牌桌的机会。（本文首发于钛媒体APP，作者是杨丽，编辑是盖虹达，张申宇、张帅对本文也有贡献。）。

啥是AI落地的实际情况呢？大力宣扬的一派与持保守态度的一派讲了好多，我们期望能更多听到切实去做此事那一派的话语。

倘若你身为AI编码使用者，或者是部署者，再不然是受害者，那么你的第一现场感受，以及体验，都是我们极其欢迎的。

要是你同样存有话语想要表述，那么欢迎与我们取得联系，进而参与话题的讨论，去发表属于你的见解。

倘若你的见解极为独特、出色，我们同样期望邀请你于9月前往三亚，在数字价值年会上进行一番讲述。你还会拥有机遇碰到更多与你这般的实干派。