你的位置:北京PK10官方网站 > 和大小 > >pk10官网 Eval 正在取代 PRD? 产物司理的 Eval 初学到落地指南
热点资讯
和大小

pk10官网 Eval 正在取代 PRD? 产物司理的 Eval 初学到落地指南

发布日期:2026-04-15 12:16    点击次数:120

pk10官网 Eval 正在取代 PRD? 产物司理的 Eval 初学到落地指南

AI时期的PM中枢竞争力正在被再行界说——Eval(评估体系)成为产物司理的新战场。本文深度整合OpenAI、Anthropic、Meta等顶尖AI公司的最好实践,揭秘如何构建灵验的AI评估系统,从Dataset野心到三种评分器的选用策略,手把手教你将马虎的产物需求回荡为可量化的质田主义。

OpenAI的CPOKevinWeil和Anthropic的CPOMikeKrieger,两家最顶尖AI公司的产物精良东说念主,说过简直一模相同的话:写Eval是AI时期PM最首要的本事。

作为一个时候布景有限的产物司理,我的第一反映是三个问题:Eval到底是什么?别东说念主是若何作念的?轮到我的AI表情,该若何从零运转建?

在找谜底的过程中,我读了不少材料,其中几份质地很高,值得单独拎出来说:

Anthropic本年1月发了一篇《DemystifyingEvalsforAIAgents》,可能是面前对于AIAgent评测最完整的一份工程实践指南。里面不光有方法论,还有多量他们在ClaudeCode等产物上踩过的真实坑。

Meta的PMDanielMcKinnon写了一篇《Show,Don’tTell》,从Llama团队里面的视角讲了一个PM若何动手写Eval,异常接地气。他有一句话让我印象很深:别给建模团队发PRD了,径直给他们一个Eval。

Braintrust连发了两篇——《EvalsAretheNewPRD》和《EvalsforPMs》,把”Eval取代PRD”这件事讲得很系统,还给出了一个PM可以径直参考的每周责任节律。

HamelHusain教过700多名工程师和PM作念Eval,他把学员们问得最多的问题整理成了一份FAQ,好多不雅点很敏锐——比如”如若你的Eval通过率100%,讲解你的Eval太轻佻了”。

此外还参考了OpenAI的官方评测文档和arXiv上对于Agent-as-Judge的论文。

我把这些材料里和产物司理最联系的部分索取了出来,按照一个刚斗争Eval的PM会当然产生的问题串起来,写成了这篇著述。全文围绕十个问题张开:

Eval是什么?

这事跟PM有什么关系?

一个Eval由什么构成?

三种评分器若何选?

拿到一个AI产物,若何从0到1建Eval?

Eval建好了,然后呢?

不同类型的AI产物,Eval有什么不同?

AI每次适度都不相同,Eval分数还特意旨吗?

有哪些常见的坑?

Eval除了保质地,还颖异嘛?

可以说这篇著述玄虚了Anthropic、OpenAI、Meta、Braintrust、HamelHusain等多方最好实践。文中每一个具体的不雅点、案例和建议,都标注了来自哪份材料,轻佻你去看原文。所有这个词参考起首的邻接放在了文末。

第一个问题:Eval是什么?

Eval,全称Evaluation,说白了即是给AI出考试题,然后自动阅卷。

你准备一组输入(模拟用户会若何问、若何操作),设好判断圭臬(什么样的回答算好),把输入丢给AI,拿输出和圭臬对一下,出个分。这件事自己并不复杂。复杂的是若何出好题、若何定好圭臬、若何让这套系统接续运转起来。

为什么需要这个东西?因为AI产物和传统软件有一个根本区别。

传统软件的逻辑是细则的。你写了一个按钮,点一下就提交表单,每次都相同。你可以写一条测试:”点了提交,表单发出去了没?”通过即是通过,失败即是失败。

AI不是这样。团结个输入,你今天问一遍和未来问一遍,谜底可能不相同。”质地好不好”这件事是主不雅的,边际情况多到数不清。传统那套”手动检验几个case”的口头,在AI产物面前就像拿渔网接水——漏得一塌朦拢。

是以你需要一套能自动跑、能反复跑、能遮蔽几百个场景的测试系统。这即是Eval。

第二个问题:这事跟PM有什么关系?

OpenAI的CPOKevinWeil和Anthropic的CPOMikeKrieger,两家最顶尖AI公司的产物精良东说念主,说过简直一模相同的话:写Eval是AI时期PM最首要的本事。

为什么是PM的事,不是工程师的事?

因为Eval的中枢不是时候完毕,而是界说”什么算好”——这是一个产物判断。你是阿谁最了了用户在乎什么、哪些边际情况首要、什么质地可以袭取的东说念主。工程师能帮你搭Eval的基础设施,但”出什么题、若何评分”这件事,应该由PM来定。

Meta的PMDanielMcKinnon说得很径直:当互助团队想让Llama作念某件事,他的回话是”别给我发PRD了,径直给我一个Eval。”因为Eval自己即是最精准的需求形色——它界说了什么算好、什么算不好,而且可以坐窝跑,跑完就知说念作念到了莫得(

传统的产物诞生进程是:发现问题→写PRD→出野心→排诞生→上线。你在PRD里写”模子回话应该简洁有用”——”简洁”到什么进度?”有用”若何臆想?这句话对工程师来说等于什么都没说。而且模子一更新行为就可能变,你的PRD还没改呢,产物也曾不相同了。

发现问题→写Eval来界说”好”的圭臬→团队针对Eval作念优化→上线。

你给工程师的指示从”请把这个作念好”形成了”请让这个分数上去”。

PRD写完就躺在文档里落灰了。Eval可以每次代码提交都自动跑一遍。一个活的、接续运行的质地圭臬,确信比一份落灰的文档有用。

第三个问题:一个Eval由什么构成?

搞了了Eval的三个组件,是PM作念这件事的首先。

1.Dataset(数据集)——“考试题”

你要测试AI的那组输入。需要遮蔽三类:你的产物十足不可搞砸的中枢场景、不常见但踩到就出大事的边际情况、你也曾知说念AI犯时弊的方位。

好多东说念主合计得准备几百说念题才能运转。无须。Anthropic说20-50说念就够起步了(起首)。HamelHusain教过700多个工程师和PM作念Eval,他的建议更径直:找一个最懂你用户的东说念主,花30分钟看20-50条AI的真实输出,标好哪条行、哪条不行——这即是你的最小起步(

2.Task(任务)——“考试公法”

这个词在Eval的语境里不是指”作念一件事”,而是指“这说念题若何考”——用哪个模子、用什么Prompt(辅导词)、参数若何设、要不要调用外部器具。Task界说的是从”输入进去”到”输出出来”的所有这个词这个词实施过程。

如若Dataset是试卷上的题目,Task即是”此次考试的公法”——开卷照旧闭卷、能不可用筹划器、考多永劫分。

PM不需要我方写代码搭Task。但你得知说念面前Task里用的是什么模子、Prompt是若何写的,况且能上手改改Prompt的措辞——这往往是影响产物性量最径直的变量。

3.Scorer(评分器)——“阅卷圭臬”

界说”若何判断好坏”。这是PM在Eval里最中枢的活儿。

最首要的原则:”好”不是一个全体,它是好几个维度拼起来的。每个维度要单独打分。

比如你作念了一个AI客服。一条”好”的回话需要同期作念到:回答准确、格调有温度、不啰嗦、妥当公司轨则。如若你把这四件事揉成一个总分,就很容易出现一种格外的适度:口吻优化上去了,但准确率掉下来了,你还不知说念。是以每个维度一个Scorer,各管各的(

那Scorer有哪几种?这就引出了下一个问题。

第四个问题:谁来”阅卷”?三种Scorer若何选?

Eval里有三种Scorer,搞显着它们各自擅长什么、什么时候该用哪种,是PM的基本功。

代码评分器(Code-basedScorer):非黑即白

最轻佻的一种。用细则性的代码逻辑来判。回话里有莫得包含某个症结词?长度超没超限?生成的代码能不可跑?数据库里是不是果然多了一札纪录?

平允是快、低廉、适度平稳。坏处是稚子——AI如若用了你没猜度的口头把事情作念对了,它可能会误判成”错”。

AI评分器(LLM-as-Judge):让另一个AI来打分

你先写一份评分圭臬(Rubric),开云体育(中国)官方网站然后让另一个AI按圭臬来给被测AI的输出打分。妥当那些代码没法判的马虎场景——比如回话有莫得同理心、口吻是否专科、是不是在胡编乱造。

平允是纯真,能处理盛开式的场景,还能大都量跑。坏处是每次适度可能不完全相同(毕竟判官自己亦然AI),而且需要如期和东说念主类巨匠的判断作念校对。

一,给AI阅卷古道一个”不细则”的选项。如若它信息不够,允许它说”我判断不了”,别让它硬凑一个分数出来。

二,每个维度用单惟一个AI来打分,别让一个AI同期判所有这个词维度。你让一个东说念主同期改数学和作文,质地确信不如分开改。

三,如期校准。光让AI打分非论不行,隔段时分要拿东说念主类巨匠的判断来对一下,看AI的打分有莫得跑偏。

东说念主类评分器(HumanGrader):金圭臬,但也最坑

让真东说念主来审——领域巨匠、西宾过的标注员。质地固然最靠谱,但贵、慢,而且有一个大部分东说念主都不知说念的坑。

你安排三个标注员作念一说念二选一的题。适度两个东说念主选了A,一个选了B。你可能合计66%一致,还行。实践上不是。

你得看每一双标注员之间是不是一致:

1和2:都选了A,一致✓

1和3:一个A一个B,不一致✗

2和3:一个A一个B,不一致✗

三对里唯有一双一致,实践一致率是33%。而如若纯靠蒙,立时一致率都有50%。你的33%致使还不如瞎猜。

McKinnon的论断是:大部分东说念主严重高估了东说念主类评测的可靠性。如若你要作念东说念主类评测,判断圭臬必须写到极其精准以确保Inter-annotatorAgreement(标注员间一致性),不然等于白作念。

小结:三种Scorer若何组合

Anthropic总结成一句话:能用代码判的用代码,需要纯真性时用AI,东说念主类只用于考据和校准。

HamelHusain还有一个补充建议:用通过/欠亨过的二分法,别用1-5分。1-5分制下不同东说念主对”3分”和”4分”的意会差距太大,杂音太多。二分法反而逼着你把”什么算过”界说了了。

第五个问题:拿到一个AI产物,若何从0到1建Eval?

主见讲罢了。当今假定你是一个PM,面前有一个AI产物——可能是个客服机器东说念主、可能是个写稿助手、可能是个代码生成器具——你需要从零运转给它建Eval。若何走?

以下要领玄虚了Anthropic、Braintrust和HamelHusain的建议。

第一步:别等”准备好”,当今就运转

最常见的借口是”我的Dataset还没准备好”。别等了。

Anthropic的原话:Eval拖得越久越难建。早期阶段产物需求自然就能回荡成测试题,但等你的系统也曾在线上跑了很久,再回头补Eval,就等于要从一个活的系统反向推导”到底什么算得手”——这比重新建抑制多(

HamelHusain的建议更顶点:先花30分钟手动看20-50个AI输出,用一个最懂你用户的东说念主作为质地裁判——他管这个东说念主叫”BenevolentDictator(仁慈的独裁者)”。这即是你的最小可行Eval(起首)。

第二步:把你也曾在手动干的事情形成Eval

你每次发版之前,北京pk10官网是不是都会手动试几个case望望效用?把这些case写下来,即是你的第一批Dataset。

如若产物也曾在跑了,去翻bug纪录和客服工单。用户真实报过的问题是最好的Eval素材。按影响面从大到小排个序就行。

第三步:把”好用”拆成几个可以打分的信号

来看一个具体例子。

假定你在作念一个功能:说明烹调视频自动生成食谱。需求文档写着”生成的食谱应该准确好用”。但”准确好用”若何臆想?

你需要把它拆成几个具体的、可以打分的信号(这个例子来自Braintrust和McKinnon的著述):

信号一:步地对不对?食材应该放前边,要领放后头。→可以让一个LLM-as-Judge拿着”正确步地”的示例来对比打分。

信号二:视频里提到的食材,食谱里是不是都有?→先用语音识别把视频里的食材提议来,然后作念个字符串匹配。这是纯Code-basedScorer能处置的事。

信号三:要领写得够不够简陋好读?→可以径直统计每句话的字数(Code-based),也可以让LLM-as-Judge参考好写法和差写法来对比评分。

三个信号,三个Scorer,永诀打分。你不再跟工程师说”把食谱作念好少许”,而是说”让这三个分数往上走”。

这即是PM在Eval里最中枢的责任:把马虎的产物需求翻译成具体的、可臆想的评分维度。

第四步:写好题目——别有歧义

Anthropic总结了一条判断圭臬:一说念好的Eval题,应该让两个领域巨匠永诀看完后,孤苦给出相同的通过/失败判断。如若两个东说念主看完都不细则若何打分,问题出在题目身上(起首)。

他们举了一个真实教会:审查Terminal-Bench(一个编程基准测试)时发现,有一说念题条目AI写一个剧本,但没指定文献存在哪。而Scorer默许剧本在某个特定旅途下。适度AI剧本写对了,但因为放的位置不对被判失败——这不是AI的错,是题出得有漏洞。

一个实用的考据方法:给每说念题写一个你知说念一定对的”圭臬谜底”(ReferenceSolution)。如若圭臬谜底都过不了你我方的Scorer,那是Scorer有bug。

他们在实操中还遭逢过更离谱的事:ClaudeOpus4.5在一个叫CORE-Bench的评测里一运转只得了42分。其后一个Anthropic的运筹帷幄员去细查,发现一堆问题——Scorer太稚子(模子回答“96.12”但Scorer条目精准到“96.124991…”才算对)、有些题真义马虎、还有些立时任务根本没法精准复现。把这些bug修完之后,分数从42%径直跳到了95%(起首)。

第五步:正反两面都得测

只测”AI应该作念X”的场景,会训出一个对什么都作念X的AI。

Anthropic在给Claude.ai作念搜索功能的Eval时吃过这个亏。一运转他们只测了”应该搜索”的场景——比如”今天北京天气若何样”。适度模子学到了一个失误策略:对简直所有这个词问题都先搜一下。但像”苹果公司是谁创立的”这种学问题根本不需要搜索,搜了反而更慢。他们其后加上了”不应该搜索”的场景,才在两个标的之间找到均衡。而且这个均衡调了好多轮才气好(起首)。

第六步:评适度,不评过程

好多东说念主的直观是去检验AI有莫得按”正确的要领”作念事——比如是不是按顺次调用了器具A、器具B、器具C。

Anthropic说这条路走欠亨。AI常常找到你根底没猜度的正确旅途,如若你只认我方野心好的那条路,等于在处分创造力。更好的作念法是只管最终适度对不对(起首)。

打个譬如:你点了个外卖,你在乎的是菜对不对、好不可口、准时不准时。骑手走哪条路,你管不了也无须管。

还有一条联系的原则:允许PartialCredit(部分得分)。一个AI客服正确识别了问题、也考据了用户身份,但终末退款操作没走通——这比一个启齿就崩溃的AI客服好得多。你的Scorer得能体现这种别离,不可轻佻狡黠只分”过”和”不外”(起首)。

第七步:跑完Eval之后,一定要我方读Transcript

这一条Anthropic反复强调,里面把它动作AI产物诞生的症结手段。

Transcript(跟踪纪录)是Eval一次运行的完整日记——AI说了什么、调了哪些器具、中间的推理过程是若何的。每次Eval跑完,不要只看分数。你得点开那些失败的case,看完整的Transcript。好多时候你会发现,不是AI作念错了,是你的Scorer赶走了一个实践上挺好的决议。

他们专门投了资源作念查抄Transcript的器具,团队成员如期花时分读。这个风俗帮他们持到了多量Scorer自身的bug。

Anthropic里面有一条文定:在有东说念主读完Eval细节和Transcript之前,不把任何Eval分数当劳动实。(起首)

第六个问题:Eval建好了,然后呢?

到这里,你也曾有了第一个可以跑的Eval。但Eval不是一锤子营业,它着实的价值在于接续运转——Braintrust把这叫作念EvalFlywheel(评测飞轮)(起首)。

飞轮的四个要津

不雅察(Observe):把AI在线上的每次输入输出和完整Transcript都记下来。

分析(Analyze):在日记里找规章。什么场景在出问题?哪类用户碰到的问题最多?

回荡成Eval(Evaluate):发现了失败模式,就加进Dataset里。每一次线上翻车,都是一说念新的考试题。

更动(Improve):团队针对更新后的Eval作念优化,发布更动,回到第一步。

这个轮回跑起来之后会越转越快:更多的线上数据养出更好的Eval,更好的Eval逼出更好的AI,更好的AI带来更好的体验,更好的体验带来更多用户和数据。

你的用户其实一直在”出题”,仅仅你可能充公:一个差评=一说念新题;用户裁剪了AI输出=一份”圭臬谜底”;用户对着团结个需求换了三种说法问=一个你还没遮蔽到的场景。

飞轮的四个老练度等第

零档:靠嗅觉。手动试几个、凭直观判断、等用户来投诉。

一档:有考试但不常考。有了一些测试题和圭臬,大版块发布前跑一遍。

二档:自动化。Eval接进了CI/CD进程,质地不外关的版块自动被拦下来。

三档:飞轮转起来了。线上的失败案例自动形成新的Eval题目,系统每周都在变好。

到第三档的团队,竞争上风是能鸠集的。大多数团队应该对准这一档。

两种Eval的区别

飞轮运转的过程中,你会当然遭逢两种不同性质的Eval:

CapabilityEval(本事评测)——爬山。回答的问题是”AI还能多作念好什么新的事“。通过率从低运转,给团队一座要爬的山。比如你的客服AI面前只可处理轻佻退款,你加入了”处理复杂的跨境退货”这种新题——一运转通过率可能唯有30%,跟着优化直快培植。

RegressionEval(转头评测)——守城。回答的问题是”AI还能不可作念好它昔日会作念的事“。通过率应该接近100%,掉了就讲解改坏了什么东西。

Anthropic讲了一个”毕业”机制:当一个CapabilityEval的通过率平稳在高位之后,它就可以转成RegressionEval——从”咱们能作念到吗”形成”咱们还能平稳作念到吗”(起首)。

但也要自在EvalSaturation(评测饱和)的问题——通过率到100%之后,这个Eval对更动就莫得辅导作用了。代码审查公司Qodo一运转对Opus4.5不太舒适,因为他们用的Eval太轻佻,莫得遮蔽到模子在复杂长任务上的越过。其后换了一套更难的Eval,才看清了实践的培植(起首)。

一个参考的PM周节律

Braintrust建议了一个AIPM可以参考的每周节律(起首):

周一:翻线上Transcript,象征20条有问题的AI输出。

周二:从里面挑出5个最典型的,加进Dataset。

周三:用更新后的Eval跑一遍面前列案和候选更动决议,对比。

周四:看适度。好了照旧差了?哪个维度培植了,哪个古老了?数据决定发不发。

周五:飞轮又多转了一圈。

第七个问题:不同类型的AI产物,Eval有什么不同?

前边讲的原则是通用的。但不同类型的AI产物,Eval的侧重心如实不相同。Anthropic按产物类型总结了各自的作念法(

对话类(客服、销售、教会……)

对话类AI的特殊之处在于:不光要看”任务作念罢了没”,还要看”作念的过程体验若何样”。对话自己即是产物的一部分。

是以它的Eval无为是多维度的:工单有没关连掉(Code-basedScorer)、对话轮数有莫得卓越上限(Code-basedScorer)、口吻有莫得同理心(LLM-as-Judge)、有莫得按计策处事(LLM-as-Judge或Code-based)。

另外,对话类Eval常常需要让一个AI来演出用户。你总不可每次测试都找真东说念主来聊。Anthropic在对都审计表情中即是这样作念的——用一个AI模拟多样用户脚色来跟被测AI对话。

真实案例:Descript(视频裁剪器具)的AI助手从三个角度作念Eval:别搞坏底本的东西、作念我让你作念的事、作念好它。从东说念主工打分起步,直快搬动到LLM-as-Judge,再加上如期东说念主类校准。当今爱戴着两套Eval——一套管质地基准,一套管Regression。

真实案例:Bolt.new是等产物也曾有多量用户之后才运转作念Eval的。三个月内搭好了一套系统:用静态分析给代码打分,用浏览器Agent来测试生成的app能不可用,用LLM-as-Judge来评估指示驯服的质地。

编码类

代码的Eval相对释怀,因为”对不对”有自然的判断圭臬:能跑吗?测试过了吗?

行业里最主流的基准测试SWE-benchVerified即是这个念念路——给AI一个真实的GitHubissue,让它修,修完跑测试,过了就算对。一年之内,前沿模子在这个测试上的得分从40%涨到了80%以上。

但只看”跑没跑通”不够。你可能还想看代码质地、安全隐患、AI过程中有莫得作念饱和的事。这些就需要加上LLM-as-Judge或静态分析器具。

检索/运筹帷幄类

这一类最难作念Eval,因为”什么算好”自己就莫得唯一谜底。作念阛阓调研、作念收购尽调、写科学论说——每种”好”的圭臬都不相同。

Anthropic推选组合打分:Groundedness(AI说的话有莫得出处可查)、Coverage(一个好谜底该遮蔽的要点有莫得遮蔽全)、SourceQuality(用的起首是巨擘机构照旧空隙搜到的第一个)。

第八个问题:AI每次跑出来的适度都不相同,Eval分数还特意旨吗?

这是作念Eval一定会碰到的问题。团结说念题,AI此次作念对了下次可能作念错。那分数到底能讲解什么?

Anthropic先容了两个主义来意会这种波动(起首):

pass@k:k次里至少得手一次。k越大分越高。妥当”只须有一次作念对就行”的场景——比如代码生成,只须有一个决议能跑通就够了。

pass^k:k次全部得手。k越大分越低。妥当用户祈望每次都靠谱的场景——比如客服,用户不在乎你”平均得手率90%”,他在乎的是这一次能不可帮到他。

如若你的AI单次得手率是75%,让它连气儿作念对3次的概率唯有0.75×0.75×0.75≈42%。

两个主义在只试一次的时候是相同的。但跟着历练次数增多,它们讲的故事完全相悖:一个趋近100%,一个趋近0%。选哪个取决于你的场景。

第九个问题:有哪些常见的坑?

在作念Eval这件事上,踩过坑的东说念主不少。提前知说念能省好多时分。

别试图臆想”AI聪不贤慧”。那是MMLU、GPQA这些学术基准该干的活。McKinnon明确说过:创建那种基准是”利害的运筹帷幄级挑战”。你的Eval应该只回答一个问题——我的产物在这个具体场景下作念得好不好(起首)。

别让太多东说念主一齐野心Eval。东说念主多嘴杂,终末出来的决议一定是折中的、不聚焦的。McKinnon说他好多Eval即是我方一个东说念主写的(起首)。

别拿来别东说念主的Eval径直用。McKinnon反复打发:再驰名的开源基准也可能有错。拿到任何Eval之后,第一件事是手动抽几个样本望望适度合不对理。他在团队用的好多Eval里都发现罪过误,而且这种失误从数字上根本看不出来(起首)。

别只在发版的时候跑一次。跑一次的Eval不是质地体系,仅仅一次抽检。模子在变、数据在漂移、新的边际情况在冒出来。Eval得接续跑。

别盯着分数不看业务。HamelHusain有一个判断圭臬:如若你的Eval通过率100%,梗概率讲解Eval太轻佻了。70%的通过率可能反而更讲解问题(起首)。

别用脏环境跑Eval。Anthropic发现过Claude在Eval里偷看上一轮历练残留的git纪录来”舞弊”的情况。每次跑历练必须从干净的环境运转,不然适度不着实(起首)。

第十个问题:Eval除了保质地,还颖异嘛?

好多团队作念了Eval之后发现,它的价值远不啻”确保质地”。

模子切换变快了。每隔一两个月就有更强的模子出来。莫得Eval的团队要花好几周手动测试。有Eval的团队跑一遍就知说念新模子哪些方面更强、哪些古老了,几天就能完成切换。Anthropic说过,有Eval的竞争敌手可以”在几天内细则新模子上风、诊治Prompt并完成升级”(起首)。

团队解析对都了。团结份产物文档,两个工程师可能对”边际情况若那儿理”意会完全不同。Eval径直给出谜底,消亡歧义。

产物和研发之间有了共同讲话。Anthropic的原话是Eval可以成为”产物和运筹帷幄团队之间最高带宽的疏浚渠说念”——它界说了运筹帷幄者可以优化的具体主义,比任何PRD都精准(起首)。

更多东说念主可以参与更动AI。Anthropic说”最接近用户和产物需求的东说念主最妥当界说得手圭臬”。PM、客户得手、致使销售都可以孝敬Eval用例。让他们参与进来——更好的作念法是主动给他们器具和权限(起首)。

终末

如若你今天只可作念一件事,那即是:选你产物里的一个AI功能,找10条真实的用户输入,我方判一下AI的回答哪条好、哪条不好。

McKinnon的原话是:作念了比完满更首要。你的第一个Eval可以很小、致使是一次性的,只须它能帮你判断模子是不是在解决用户的问题就行(起首)。

Eval不是什么高尚的时候活,它是一种念念维口头的更动:从”我合计AI作念得可以”形成”我突出据讲解注解AI作念得可以”。越早完成这个更动越好。

参考起首

Anthropic:DemystifyingEvalsforAIAgents

OpenAI:EvaluationBestPractices

OpenAICookbook:GettingStartedwithOpenAIEvals

HamelHusain:LLMEvals–EverythingYouNeedtoKnow

Braintrust:EvalsAretheNewPRD

Braintrust:EvalsforPMs

DanielMcKinnon(MetaPM):Show,Don’tTell

arXiv:Agent-as-Judgepk10官网

轮盘app官方网站下载

上一篇:北京pk10官方网站 儿童麻醉小课堂,家长最热心的几个问题
下一篇:北京pk10官网 《上古世纪》征战商新作《立方救赎》5月8日停运