实际上,能够从视频中读取嘴唇的AI和机器学习算法并没有什么不同。早在2016年,来自Google和牛津大学的研究人员就详细介绍了一种系统,该系统可以以46.8%的准确度注释视频素材,优于专业的人读机的12.4%准确度。但是,即使是最先进的系统也难以克服唇部运动的歧义,从而阻止其性能超过基于音频的语音识别。
为了追求更好的性能,浙江大学阿里巴巴分校和史蒂文斯理工学院的研究人员设计了一种方法,称为“按语言说话”(LIBS),该方法利用从语音识别器中提取的特征作为补充线索。他们说,它在两个基准上都达到了业界领先的准确性,在字符错误率方面,基准比基准高出7.66%和2.75%。
LIBS和其他类似的解决方案可以帮助那些听障人士观看缺少字幕的视频。据估计,全世界有4.66亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到2050年,这一数字可能会超过9亿。
LIBS从人类说话者的视频中以多种尺度提取有用的音频信息,包括序列级别,上下文级别和帧级别。然后,通过识别它们之间的对应关系,将数据与视频数据对齐(由于不同的采样率和空白有时会出现在开头或结尾,视频和音频序列的长度不一致),并且它利用过滤技术来优化蒸馏功能。
-
央视影音客户端
-
央视新闻客户端
-
熊猫频道客户端