热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
在Box,我们花了很多时间测试Box AI与新模型在非结构化数据上的表现,以了解它们在实际知识工作领域的表现。
从基准测试中我们看到,GPT-5在推理、数学、逻辑、编码和其他工作领域相比于GPT-4.1有了显著的能力提升。以下是这些改进在现实世界中应用的一些例子:
*GPT 5更好地上下文化信息。当进行数据提取时,比如在没有货币标签但有伦敦地址的发票上提取最终的美元金额,GPT 5正确地回应需要从美元到英镑的汇率。相比之下,GPT 4.1看到最终账单后直接返回,错误地假设了货币。
* GPT-5提供更好的多模态分析。对于一家上市公司的年度报告,GPT-5被要求从显示公司股权组成变化的图像中的表格中隔离一个单元格。表格顶部明确说明所有股份金额以千为单位,而GPT-5清楚地说明了这一转换,而GPT-4.1则没有,因表格上写着股票而图例上写着股份而感到困惑。
* GPT-5在高水平的提示和数据复杂性下表现更好。当在简历上提取所有工作开始日期、职位名称和雇主名称时,GPT-5能够提取出每一条数据,而GPT-4.1似乎感到不堪重负,未能提取出相同的字段,原因在于提示的大小和文档的复杂性。
* GPT-5在回答时更加清晰和明确。在一份涉及6种不同服务的外包协议中,当被问及“合同中的5种具体服务”时,GPT-5会返回前5种,并询问第六种未被提及是否是故意的。相比之下,GPT-4.1仅返回前5种,没有任何进一步的说明,这可能会导致用户的后续困惑。
* GPT-5在复杂领域的数据解释能力更强。对于流式细胞术图表,通常用于免疫学,GPT-5正确识别出高比例的死亡细胞,并给出了可能导致这种情况的合理根本原因,而GPT-4.1则给出了最少的推理,需要进一步确认才能从原始数据中得出任何猜测。
* GPT-5更能识别代码中的不一致性。当被要求识别给定的python代码文件中的问题时,虽然GPT-5和4.1都能识别导致故障的真实错误,但只有GPT-5能够推断出更微妙的问题,比如在程序上下文中打印不正确的变量。
这些在数学、推理、逻辑和长上下文窗口中响应质量的改进对最终用户在日常工作中非常有帮助,但在长时间运行的AI代理中,尤其是在每一步都没有人类参与验证信息时,这些改进将更加明显。
看到这些改进在最新一批AI模型中不断涌现真是太棒了,因为这将使AI代理能够在越来越多的关键任务工作领域中使用。
77.96K
热门
排行
收藏