午夜咖啡午夜咖啡

jolestar 的文章与笔记。

Post

语音交互需要上下文

2018-05-16 22:58:32Post

像 TNT 这类产品真正值得注意的,不是“能语音输入”,而是它尝试通过触屏操作给语音指令补上下文,从而降低对纯识别精度的依赖。

我一直觉得,语音交互里真正难的往往不是“识别率还不够高”,而是系统没有足够的上下文来理解你在说什么。

所以像 TNT 这类产品里,我觉得真正关键的点也不是“能不能用语言输入”,而是它试图通过触屏操作先给语音指令确定上下文,从而降低对语音精确度的要求。

这个思路很重要,因为它说明:语音交互不一定非得追求一个完全脱离界面的纯语音世界。很多时候,更现实的路径反而是把触控、视觉反馈和语音组合起来,让不同交互模式互相补短板。

如果没有上下文,语音系统就只能依赖更高的识别准确率和更强的意图猜测能力,结果通常就是体验很脆弱。这也是为什么我一直觉得 Mac 上的 Siri 很鸡肋,因为它对当前上下文几乎无感。

所以这类产品给我的启发是:创新很多时候不是发明一个全新的交互方式,而是反复尝试不同能力的组合,找到一个真正能让整体体验成立的平衡点。