来源：Hacker News · AI · 北美洲 · 05-07 11:46

ProgramBench：语言模型能否从零重建完整程序？

原标题：ProgramBench: Can Language Models Rebuild Programs from Scratch?

AI 情报摘要

ProgramBench 旨在测试大语言模型从零构建可运行程序的能力，为代码智能评测提供更高难度基准。

若该基准被采用，可能推动代码模型评测从碎片化任务转向更接近真实软件开发的端到端能力测试。

情绪：中性 · 相关：ProgramBench / 语言模型 / Hacker News / arXiv / 北美洲 · LLM 已生成

一篇新论文提出 ProgramBench，用于评估语言模型是否能在给定目标行为或约束的情况下，从零开始重建程序。该研究关注模型在代码理解、规划、调试和可执行生成方面的综合能力，试图超越传统代码补全或单函数生成评测。