晶羽科技-解读点评影视小说作品

微信
手机版

只知道动嘴皮的人,动动嘴皮子谁都会句子

2023-11-10 04:33 作者:岑岑 围观:

唇读软件的识别准确率远超人类。

“说话”,AI就知道你在说什么。

可以想象,由于公益、公共安全、国家安全等领域的巨大潜在需求,以及AI技术快速发展的强力推动,在不久的将来,AI唇读有望实现快速推广和深度普及,产业前景十分看好。

——严北京理工大学计算机学院副教授,网络与安全研究所所长

尽管电视剧《《狂飙》》迎来了大结局,但它的受欢迎程度丝毫不减。有网友用剧中人物制作娱乐视频,也有网友剪辑集锦。但也有一些“认真”的网友,发现《狂飙》的对话、配音、口型中有些角色不符合,于是想通过人工智能识别唇语,还原原剧本情节。

但是,AI唇读不仅仅可以用来破译“隐藏的情节”。据统计,中国有超过2054万听力残疾人。除了主要的手语交流,唇读也是他们交流的重要方式。然而,唇语的人工解读容易受到个人经验、视知觉能力、语言理解能力等因素的影响,准确率不尽如人意,于是人们开始尝试使用AI技术来解读唇语。

比唇语专家更懂唇语

“所谓AI唇读,也就是人工智能唇识别,其核心技术框架是视觉识别和自然语言处理。”北京理工大学计算机学院副教授、网络与安全研究所所长严介绍,具体来说,就是利用机器视觉技术,从图像中连续识别人脸,提取连续的口型变化特征,输入到唇语识别模型中,识别出人物口型对应的发音,然后输出最可能的表情句子。

“视觉识别和自然语言处理分别拥有庞大的技术体系和不同的技术路线,但本质上都是通过大量的唇语数据来训练AI模型,力求文本输出的准确性。”颜胡爱芝补充道。

近年来,AI巨头们一直在尝试在赛道上识别嘴唇。谷歌旗下的Deep Mind与英国牛津大学合作开发了一款AI唇读软件,通过让AI唇读软件“观看”数千小时的电视节目,可以训练其唇识别能力。有趣的是,在随机选取的200个视频片段的唇读测试中,AI唇读软件的准确率达到了46.8%,而经过专业训练的人类唇读专家的准确率仅为12.4%。

为什么AI读唇语可以悄然兴起?颜给出了自己的分析:一是强大的需求牵引,二是巨大的技术推动。从需求牵引的角度来看,唇语识别不仅可以为部分残疾人提供便利,还可以在公共安全等诸多领域发挥巨大作用。从技术推动的角度来看,AI技术在唇语识别领域取得巨大成功,是因为AI算法、计算能力、数据瓶颈的不断突破。

许多问题需要解决。

不过,颜也表示,目前我国的人工智能唇语识别技术还处于起步阶段,要想用人工智能准确识别唇语还有很长的路要走。

从语言本身来看,人类语言具有很高的复杂性。在人类说话所涉及的所有音标中,只有30%左右是由人的嘴唇直接控制的,70%是肉眼甚至机器视觉难以分辨的牙音、舌音和喉音。而且,不同人的语调、方言、连词、口音,甚至胡须遮盖,都会导致口型的细微变化,而正是这种细微变化,会严重影响人工智能对唇语的识别和判断。

从技术角度来说,人工智能采集唇语的环境通常比较复杂,要准确识别是非常困难的。就目前的人工智能技术而言,长句和复杂句型的识别水平都不尽如人意,更不用说多人图像的多场景识别和唇形识别等问题了。

颜表示,只有解决了上述问题,AI才能实现唇读的突破,走向成熟的发展阶段。

人类不同的语言之间有许多差异。AI能读懂每种语言的唇语吗?

颜介绍,大部分成功的人工智能唇读系统仅限于英文模型,因为大多数人工智能模型都是基于英文数据训练的。但从技术框架上看,不同语言的训练模式基本相同,或者可以通过同一种技术手段实现。

当然,为了适应不同语言的唇语识别,需要做一些适应性的调整:一方面要选择相应语言的数据进行针对性的训练;另一方面,人工智能模型需要调整,如纳入时间掩蔽,优化语言模型和改进超参数。

另外,同一种语言会有不同的口型,即使口型相似,也可能代表完全不同的意思。因此,一个成熟的AI唇读系统需要大量的嘴唇特征样本数据,并尽可能覆盖更多的应用场景和不同类型的说话人,以提高训练好的唇读识别模型的泛化能力,提高AI唇读对不同口型、不同表意语言的识别准确率。

技术双刃剑急需监管

尽管困难重重,但越来越多的AI公司已经开始涉足,计划深耕人工智能唇识别赛道。目前各大AI巨头的选择都不一样,可以分为唇语数据、唇语视频识别、唇语理解等等。

颜还表示,目前,多个人工智能唇语识别技术领域取得初步突破,全链条融合前景可期,产业集群正在逐步形成。

从应用场景来看,AI唇读已经开始在社会公益、公共安全等领域崭露头角。从目前巨头的布局和相关技术的发展趋势来看,AI唇读有望在身份识别、国家安全、智能系统等方面有广阔的应用前景。“可以想象,由于公益、公共安全、国家安全等领域的巨大潜在需求,以及AI技术快速发展的强力推动,在不久的将来,AI唇读有望实现快速推广和深度普及,产业前景十分看好。”颜对说道。

比如在安防安全监管领域,很多安全监管场景噪音大或者只有视频信号,无法准确捕捉声音,人工智能唇识别技术可以派上用场;在身份识别领域,可以用AI读唇实现嘴部支付的密码输入,“动动嘴唇”就可以实现身份识别和支付交易;在公共安全领域,利用AI读取唇语,可以分析各种视频中案件当事人的唇语信息,辅助案件侦查;在智能系统领域,可以利用AI读唇实现“无声胜有声”——只依靠口型来控制智能设备,比如智能家电。

当然,技术应用是一把双刃剑。很多人担心,AI的唇读会泄露人们谈话中的私人内容,无论当事人是在公开场合说话,小声说话还是自言自语。“张张口”被别人偷了,仔细想想真的很可怕。

严说,这种担心并非空穴来风。AI唇读造成的隐私泄露,一方面可能是恶意唇读造成的,另一方面可能是AI唇读系统的正常使用,但存储和使用保护不当导致相关数据被窃取或滥用,进而造成个人权益受损。而且由于涉及当事人的谈话内容,具有明显的指向性,这种隐私泄露可能比一般的个人信息泄露危害更大。

因此,颜建议,从隐私保护的角度,在管理层面加强相关法律法规的制定,严格规范和限制AI唇读的应用场景、范围和用途,加大对恶意使用技术的监管和惩罚力度。此外,还要在技术层面加强AI唇读系统的安全防护体系建设,通过技术手段提高系统的识别准确率,避免技术滥用,有效保障用户对话的内容安全。(记者闫冬冬)

来源:科技日报

相关文章