---
title: 语音交互需要上下文
date: '2018-05-16 22:58:32'
draft: false
summary: 像 TNT 这类产品真正值得注意的，不是“能语音输入”，而是它尝试通过触屏操作给语音指令补上下文，从而降低对纯识别精度的依赖。
slug: voice-interface-needs-context-not-just-asr
syndication:
- platform: Weibo
  url: https://weibo.com/1648815335/GgXYTpSKm
tags:
- voice-interface
- siri
- product-design
- context
topics:
- software-engineering
type: post
---

我一直觉得，语音交互里真正难的往往不是“识别率还不够高”，而是系统没有足够的上下文来理解你在说什么。

所以像 `TNT` 这类产品里，我觉得真正关键的点也不是“能不能用语言输入”，而是它试图通过触屏操作先给语音指令确定上下文，从而降低对语音精确度的要求。

这个思路很重要，因为它说明：语音交互不一定非得追求一个完全脱离界面的纯语音世界。很多时候，更现实的路径反而是把触控、视觉反馈和语音组合起来，让不同交互模式互相补短板。

如果没有上下文，语音系统就只能依赖更高的识别准确率和更强的意图猜测能力，结果通常就是体验很脆弱。这也是为什么我一直觉得 `Mac` 上的 `Siri` 很鸡肋，因为它对当前上下文几乎无感。

所以这类产品给我的启发是：创新很多时候不是发明一个全新的交互方式，而是反复尝试不同能力的组合，找到一个真正能让整体体验成立的平衡点。