Skip to content

  • 项目
  • 群组
  • 代码片段
  • 帮助
  • 当前项目
    • 正在载入...
  • 登录 / 注册
B
bit-pm
  • 项目
    • 项目
    • 详情
    • 活动
    • 周期分析
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 图表
    • 比较
    • 统计图
  • 议题 0
    • 议题 0
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 0
    • 合并请求 0
  • CI / CD
    • CI / CD
    • 流水线
    • 作业
    • 日程
    • 统计图
  • Wiki
    • Wiki
  • 代码片段
    • 代码片段
  • 成员
    • 成员
  • 折叠边栏
  • 活动
  • 图像
  • 聊天
  • 创建新问题
  • 作业
  • 提交
  • 问题看板
  • 燕伟桐
  • bit-pm
  • Repository

切换分支/标签
  • bit-pm
  • tsconfig.app.json
查找文件
BlameHistoryPermalink
  • Ryan Groch's avatar
    test: adds search-replace evaluation suite (#3205) · 5f823117
    由 Ryan Groch 提交于 4月 27, 2026
    See `src/__tests__/evals/README.md` for usage. 
    
    Other notes:
    - The test fixtures are 300+ lines each. Even so, I still think some of
    them are a little too easy. I might swap some of them out for more
    challenging ones, or edit them so that they're not so straightforward.
    - This currently still only tests `search_replace`, so I don't yet have
    a way to compare correctness/token usage/time taken of `search_replace`
    vs `edit_file` vs `write_file`.
    - Otherwise, though, I think I'm fairly thorough about collecting data.
    One thing I'm missing is the cost (it would probably be a rough estimate
    at best) but I'm at least able to store the number of input/output
    tokens for each tool call.
    <!-- devin-review-badge-begin -->
    
    ---
    
    <a href="https://app.devin.ai/review/dyad-sh/dyad/pull/3205"
    target="_blank">
      <picture>
    <source media="(prefers-color-scheme: dark)"
    srcset="https://static.devin.ai/assets/gh-open-in-devin-review-dark.svg?v=1">
    <img
    src="https://static.devin.ai/assets/gh-open-in-devin-review-light.svg?v=1"
    alt="Open with Devin">
      </picture>
    </a>
    <!-- devin-review-badge-end -->
    5f823117
tsconfig.app.json 872 Bytes
编辑Web IDE

Replace tsconfig.app.json

拖放文件到此处或者 点击上传


取消
将在派生(fork)项目中中创建一个新的分支, 并开启一个新的合并请求。