---
title: Vibe Coding 需要验收，不只是测试
date: '2025-12-11 11:48:12'
draft: false
summary: 生成速度不是核心矛盾，真正困难的是如何确认 AI 给出的结果没有用一套漂亮输出掩盖逻辑错误。
slug: vibe-coding-needs-acceptance-not-just-tests
syndication:
- platform: Weibo
  url: https://weibo.com/1648815335/QhT73nQyv
tags:
- ai
- coding-agent
- testing
- review
topics:
- ai
type: post
---

`Vibe Coding` 让我越来越警惕的一件事是：问题往往不在“AI 能不能把东西写出来”，而在“你怎么确认它写出来的东西真的在正确位置生效”。

我前面就遇到过一次很典型的情况。

让 AI 实现一个比较复杂的特性，因为我没持续盯 review，就让它自己补 `e2e` 测试，再让另外一个 AI 去 review，迭代来回修。最后看报告非常漂亮：

- 功能实现了
- 测试也通过了
- review 反馈也都处理了

看起来像一个标准的成功案例。

结果最后把 `PR` 丢给 `GitHub Copilot` 再看一遍，才发现它在最底层核心逻辑里其实做了两套实现。

其中一套实现了代码，但没 import；真正生效的反而是另外一个 mock 版本。

也就是说，从“表面成果”看，它像是把活干完了；但从“真实生效路径”看，核心逻辑根本没有按预期工作。

这件事让我更明确地意识到：

- AI 会补测试，不等于验收完成
- AI 会修 review，不等于核心逻辑正确
- 报告写得完整，不等于系统真实行为和你理解的一致

所以 `Vibe Coding` 后面最大的挑战，不是生成速度，也不是 PR 数量，而是验收机制。

你必须有办法验证：

- 哪段代码真正被调用了
- 哪条路径真实参与了运行
- 测试覆盖的是 mock 结果，还是真实逻辑
- review 看的到底是表层症状，还是执行路径本身

否则就很容易被一种“看起来非常像交付完成”的结果糊弄过去。

我现在越来越倾向于认为，AI 编程后半程真正需要补的，不是更多生成能力，而是更硬的验收能力。没有这层能力，越自动化，反而越容易在表面正确里积累深层错误。