从我现在所在的半电波暗室内听起来,它更像是气球爆破的声音。
不过,在这家人工智能(AI)声源辨识公司Audio Analytic的音频实验室中,音频专家——Audio Analytic执行长Chris Mitchell告诉我,就音讯而言,实际的***声可不像是气球爆破的声音。我承认我想错了。
那么走到电波暗室外面再度击发看看,这次它发出来的***声听起来就比较像是电影中可能听到的经典***响了。
这两项展示的目的在于说明***枝实际上发出的声响与我们通常听到的***响,其间是有差别的——我们一般听到的***响是由周围环境声音的反射和回音构成的。
在Audio Analytic位于英国剑桥市郊的实验室中还配置了许多警报器、门铃以及来自世界各地的数十种烟雾报警器。Mitchell说,由于传感器中的放射性物质影响,使得这些设备的声音甚至比***声还更难撷取。不过,Audio Analytic把这些设备发出来的声音,连同一些狗吠声和窗户破裂等声音事件都仔细地记录下来,用于训练该公司的AI模型进行声源辨识。
这些机器学习模型可用于赋予机器听觉,使其能够根据环境中发生的声音来感知情境。这可能意味着一套可用于监听烟雾警报、玻璃破碎或***声的安全监控系统,但还有更多的消费设备应用可以分析用户所在的音频场景,以及利用此情境采取行动或巧妙地调整音讯输出加以响应。
Mitchell说,训练AI模型准确辨识声音的关键就在于“数据”(data)。收集高质量的数据并确切地标记这些数据,对于创建即使在运算能力有限情况下也能实现准确声源辨识的高效模型至关重要。
TinyML模型
在Audio Analytic位于剑桥市中心的办公室中,技术副总裁Dominic Binks展示了该公司的*新成果之一——以一种适用于Arm Cortex-M0 +设备的模型,实现特定声音的AI辨识,例如可在婴儿哭泣时进行预测的模型;该模型执行于恩智浦(NXP)的Kinetis KL82微控制器(MCU)上。
Binks说:“采用特定处理器,对于进行机器学习并没什么帮助。”KL82其实内建大容量的Flash (128kB)和RAM (96kB),但没有DSP或其他专用处理,功耗仅几十毫瓦(mW)。
但要将该公司的ai3软件库安装在MCU上并非易事。Binks表示,移除针对大型系统设计的功能(例如录制和播放声音以及除错工具等功能),使得软件大幅缩水。“婴儿哭声”(baby cry)检测模型,也是该公司的*小模型之一。
Binks还介绍其团队如何以汇编语言编写操作,以处理32位溢位(overflow)——即2个INT32整数相乘的乘积,或为64位整数。如此就能将处理每个音频样本所需的时间减少到所要求的16ms限制(以16kHz一次取样256个样本,意味着需要一次处理16ms的音讯)。
他说:“透过执行这些组合程序代码,我们通常可以将运行时间缩短至11-12ms,这为我们保留了一些空间得以因应更多的工作要求。”他强调,为了因应实时的输入数据串流,音频特别需要的是处理带宽而不只是运算能力。
Audio Analytic展示其为制造商市场设计的NXP标准MCU开发板,以及一款Adafruit I2S麦克风。当侦测到婴儿哭声时,LED就会变色。
标记数据
声源辨识(sound recognition)和语音识别(speech recognition)是不一样的。对于AI而言,声音的辨识基本上是相当复杂的任务。那么Audio Analytic如何成功地将其模型拟合到如此小的设备上?
Binks说:“这对于我们来说并不难,因为[我们的模型]是从很小型开始设计。”
Audio Analytic的声源辨识模型AuditoryNET极其特殊,很大一部份的关键在于用来进行训练的高质量标记数据。标记是必不可少的基本元素:它们会告诉模型哪些部份的声音具有相关性,因此,婴儿哭声模型*终才能学会以哭声本身来建立特性,而不会以哭声之间的呼吸声作为依据。
本文摘自:网络 日期:2020-04-01
详情点击:ABB机器人配件代理商