智能电视的天才画笔:为遥控器添加语音功能

智能电视的天才画笔:为遥控器添加语音功能

引言

在这个物联网(IoT)时代,所连接的设备将变得越来越智能。我们已经拥有智能手机、智能家居、智能汽车、智能家电,甚至智能电视,但是最后一个例子却引出了一个问题:如果我的电视很聪明,为什么我的遥控器还是很笨?任何在试图使用智能电视遥控器,且想要简化他们观看所喜欢节目过程的人,可能都会对操作体验感到沮丧。就算仅是设置互联网连接的过程也是令人生畏的,用户都不知道该如何尝试在浏览器中输入URL地址。没错,是有些电视允许您使用键盘甚至是智能手机来进行操作,但连接这些设备都并不简单或便利。当朋友们正急着想观看某场重要比赛时,但你却仍正在摸索要按哪个遥控器按钮时,这将显得有点尴尬。在使用遥控器的这些日子,带回了许多人当看到PC出现“C:>”提示的记忆。对于大多数PC用户来说,朝向基于GUI的友好操作系统的跳跃,便是一个飞跃式的巨大进步。现在该是遥控器效仿这种跳跃发展的时候了,但问题是该如何实现这一目标呢?

遥控器的历史及如何使其更“智能”

第一台无线电视遥控器可以追溯到20世纪50年代的超声波Zenith Space Command遥控器。这些基于射频(RF)的控制技术在20世纪80年代开始被红外(IR)技术所取代,但令人难以置信的是,当时所使用的技术与今天我们使用的技术仍基本相同。虽然在技术上有了一些变化,但大多数的现代遥控器仍然基于红外,用户体验大致仍停留在1980年代。为了增强最终用户体验,一些电视制造商正在为遥控器实施更多高级功能,如双向射频通信、无视线限制,甚至支持QWERTY键盘接口。然而,制造商并未能推进遥控器功能,以匹配电视内部的功能。接下来我们将展示新级别的遥控器功能和易用性:语音控制。当遥控器真正能够“听到”用户的语音命令,并将其转换为电视命令时,遥控功能和易用性将可以真正解锁电视上的内容。

 

遥控器语音识别的好处

将语音识别添加到电视遥控器中,将会改变整个用户体验。如果它能够正常工作,每一个改变都将会是好的发展。若没有语音识别,大多数当前的遥控器所呈现的按钮操作、传输延迟、进度丢失,痛苦的拼写操作等,都是令人沮丧的体验。如果房间很暗,这种情况将会更加严重!使用支持语音的遥控器,将使得交互过程变得非常快,因为用户只需激活遥控器,并说出一个完全不在电视菜单结构之外的命令即可。例如,从观看节目开始,用户可以按下遥控器上的激活按钮,然后说“今晚7点录制'生活大爆炸'节目。”,就是这么简单。在旧的操作模式中,用户必须有一个漫长而艰巨的操作过程,才能实现这一目标。若使用语音操作,则只需几步:1)激活遥控器,2)说出命令,3)确认操作。

 

语音识别如何工作

手持设备中的语音识别是如何工作的呢?这是个好问题。其实它并不像我们想象的那么简单,执行语音识别所需的处理能力和数据,超出了大多数遥控器、电视甚至智能手机的能力范围。事实上,今天的智能手机中的语音识别功能,实际上是通过云计算完成的。还记得以前需先录制语音命令,然后将其链接到诸如拨打联系人列表中的号码之类的任务,采用语音标记的旧时代吗?从理论上讲,你可以说,“拨电话给肯”,如果你幸运的话,手机就会“拨电话给肯”。然而,更多时候它会辨识成“拨电话给本”,这时你就会想把手机扔出窗外。语音识别近年来已经取得了很大进展,语音识别领域的领导者包括纽安斯通信(Nuance)、微软、谷歌、亚马逊等公司。当我们使用Siri,Google或Alexa进行语音控制时,这些应用程序会将我们的语音数字化,然后通过互联网进行传送,并响应所需执行的处理动作。这种转换过程的复杂性如图1所示。

事实上,通过永远在线的功能,只需在Google网页或Android操作系统手机中说“OK Google”,即可触发您的语音命令数字化,接着送到云端处理,然后转换为文本的搜索命令来进行搜索。在电视市场中实现语音命令的一个关键因素,便是智能电视已经连接到互联网,并可以利用这一重要的基础设施。

 

遥控器中的语音需求

基于智能电视已经有互联网连接的事实,你可能会问,“为什么我还需要遥控器?为何我现在不能通过直接对着电视说话来控制我的电视,它现在不是已经连接到互联网了吗?”,这个答案是“可以的”,但这个解决方案还有几个问题。首先,如果没有利用遥控器进行互操作,而让电视直接识别语音,则电视便需要一直进行监听。有些电视如今已经可以做到这一点,实际上也正是这样做的。然而,这种功能的意外后果已经受到关于隐私考虑的负面压力。为了使电视不断地听取和解码用户对话以获得命令,它必须经常通过互联网发送这些对话。虽然出现问题的状况并不罕见,但该功能并未取得足够的安全性,用户的对话也正对外敞开大门。用户通常不会意识到这个问题,但如果他们有意识到的话,他们要么会关闭监听功能,要么会大大减少他们在房间里的谈话,以避免被电视“听到”他们说话的内容。其次,这种设备需要有能够从周围噪声中挑选命令,或从电视音频或背景会话中区分语音命令的能力。通过使用遥控器来启动和流式传输语音命令,用户将可以大大减少这些问题,因为1)用户是主动且有意识地使用电视遥控器,以及2)由于用户拿着遥控器,该遥控器可设计为于从几英寸远处拾取声音,而不是从整个房间中拾取声音。

 

技术与成本

“有了所有这些好处,为什么没有出现更多的语音遥控器?”基础设施、技术和成本是三个关键因素。

基础设施:即使家庭中的硬件支持语音识别,也必须有支持它的后端基础设施。这意味着电视提供商需要开发语音识别引擎或从第三方支付服务费用。在后一种情况下,用户命令将被转换为基于文本的字符串,该字符串需要由TV解码为命令。好消息是,随着运营商试图差异化并改善用户体验,这一过程正变得越来越主流。

技术:众所周知,将语音识别正确转换为文本命令存在一些障碍,但这些障碍很快就会被上面提到的云计算过程和主导提供商所克服。通过时间的推移和第三方智能技术的发展,这个障碍正变得越来越小。但还有一个问题便是关于如何使无线技术可以将语音数据从遥控器传输到电视,或与可用的互联网连接,但又不会耗尽电池寿命。典型的语音识别系统需要16位ADC分辨率和16 ksps的速率,从而产生256 kbps的数据。这意味着除非无线技术的吞吐量至少为256 kbps,否则将需要使用一些压缩技术。手持式红外技术的速率通常不足以满足数据带宽要求,但是可通过使用压缩来满足吞吐量的要求,像是zigbee® Remote Control等无线技术便具有足够的数据速率,并提供出色的电池寿命,我稍后会针对这点有更多解说。

成本:总是需要降低成本,包括基础设施成本、电视成本和遥控器成本。

 

更多关于遥控器的成本

为遥控器添加语音功能将使标准射频遥控器的物料清单(BOM)成本翻倍。支持语音的遥控器需要支持射频能力,添加麦克风和编解码器,并包括相关的支持电路。以下示例显示了红外、射频和射频结合语音技术之间的方框图比较。红外链接(IR-link)功能始终会保留在每个遥控器中,并显示射频或射频结合语音和相关的BOM差异。

图2:红外遥控器系统示例

图2是典型的红外遥控器方框图,它们采用极低成本的MCU或ASIC构建,用于红外控制。在某些情况下,它们将具有额外的非易失性存储器,其包含不同设备(例如TV、DVD播放器等)所需的红外数据库代码。(也就是“通用遥控器”的功能。)

图3:射频遥控器系统示例

图3是以红外方框图为基础,但将红外中的微控制器替换为射频片上系统(SoC),并添加天线。虽然射频SoC通常比红外MCU更昂贵,但额外成本可以通过实际上不需要存储大型红外数据库来抵消,从而消除了非易失性存储器的成本。射频遥控器可以通过双向射频链路,从电视或有线/卫星电视盒下载所需的控制代码。电视和有线/卫星电视盒具有更多可用内存来存储代码,甚至可以从云中提取数据,从云中提取信息还可允许在配置设备时,可以更新之前尚未支持的新设备代码。

图4:语音操作遥控器系统示例

在图4中,我们通过插入硬件编解码器和麦克风来为射频遥控器添加语音功能,这些器件会显着地增加BOM成本。然而,随着当今无线SoC芯片处理能力的提高,我们可以找到硬件编解码器的替代品。例如,Silicon Labs EM341 zigbee SoC是基于Cortex® M3处理器,具有足够的处理能力,不仅可以处理射频遥控要求,还是一个软件编解码器。

 

具有语音功能的遥控器示例

让我们来看看支持红外、射频和语音功能的全功能遥控器参考设计。在这个例子中,我们深入研究Silicon Labs zigbee遥控器参考设计(EM34X-VREVK),这款zigbee遥控器可支持语音、具有红外数据库的红外功能、背光键盘和可用于激活背光的加速度传感器。

图5:Silicon Labs的zigbee遥控器参考设计

对于语音音频,我们需要支持256 kbps的吞吐量。zigbee的数据速率为256 kbps,但点对点链路的实际吞吐量通常为100 kbps或更低。这意味着我们需要在音频上进行4:1压缩,然后再通过无线方式发送。参考设计使用硬件编解码器、麦克风和语音功能。然而,射频SoC EM341还支持软件编解码器,因此可以显着节省成本,但又不会降低功能。软件编解码器基于将数字PDM(脉冲密度调制)麦克风直接连接到EM341的SPI和GPIO引脚,如图6所示。

图6:将PDM麦克风连接到EM341 SoC

EM341的Cortex M3可处理PDM到PCM(脉冲编码调制)滤波/抽取、均衡和压缩过程。从PDM输出到zigbee传输的完整过程如图7所示,并提供Silicon Labs zigbee遥控器应用程序配置文件的免费库来实现这一过程。

图7:PDM到zigbee包转换的过程概述

 

 

EM34X-VREVK

EM34X-VRDK