上海智流AI研究院推出?突破性语音视觉理解技术

  更新时间:2026-01-21 17:11   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

获得了9673个高质量样本7979

<p class="f_center"><br></p> <p id="48PKURL1">这!项由上海智流AI研究院)的马志明、同济大学的甘世宇、东北大学的王沛东等多位研究者合作完成的创新性研究,发表于2025年11月的arXiv预印本平台(论文编号:arXiv:2511.09915v2)。有兴趣深入了解的读者可以通过该编号查询完整论文。<br></p> <p id="48PKURL2">想象一下,如果你是一位听力有障碍的人,每天与他人交流都面临着巨大挑战。你的发音可能不够清晰,别人很难理解你想表达什么,而现有的语音识别系统又无法准确识别你的声音。这种沟通障碍不仅影响日常生活,更可能导致社交隔离和心理压力。现在,上海智流AI研究院的研究团队为这一困扰全球超过15亿听障人士的问题带来了革命性的解决方案。</p> <p id="48PKURL3">他们开发了一个名为"HI-TransPA"的智能助手,就像是专门为听障人士量身定制的翻译官和对话伙伴。这个系统不仅能理解不够清晰的语音,还能通过观察说话者的唇部动作来辅助理解,大大提高了交流的准确性。更神奇的是,它不仅仅是一个翻译工具,还是一个能够进行自然对话的智能助手。</p> <p id="48PKURL4">这项研究的突破性在于首次将全能型AI模型引入到听障辅助技术领域。传统的语音识别系统就像只有一只眼睛的人,仅仅依靠声音来理解语言。而HI-TransPA就像拥有了完整视觉和听觉的智能助手,它能同时分析音频信号和高帧率的唇部动作,即使在声音不够清晰的情况下,也能通过"读唇术"来准确理解说话者的意图。</p> <p id="48PKURL5">研究团队特别设计了一套创新的数据处理流程,就像筛选食材一样,先将收集到的音视频数据进行质量评估,然后采用循序渐进的训练策略。他们让AI系统先学习简单清晰的样本,再逐步挑战更困难的案例,这种"从易到难"的学习方式大大提升了系统的鲁棒性。在专门构建的HI-Dialogue数据集上的测试结果显示,HI-TransPA在文字准确性和语义理解方面都达到了业内最先进的水平。</p> <p id="48PKURL6">一、听障群体的沟通困境与AI技术的新机遇</p> <p id="48PKURL7">全球有超过15亿人面临着不同程度的听力损失问题,其中超过4.3亿人需要康复支持。听力损失的影响远远超出了听觉感知本身,它会干扰自然语言习得和言语发展过程,导致口语交流出现持续困难。这些限制不仅影响教育和职业参与,还会减少获取信息和社交互动的机会,最终可能导致社会孤立、心理困扰和社会不平等现象的加剧。</p> <p id="48PKURL8">现有的辅助技术主要专注于将健听人的语音转换为文字,帮助聋人或听力障碍者获取口语信息。然而,当听障用户试图表达自己时,这些系统提供的支持却微乎其微。传统的语音识别模型就像只在标准普通话环境中长大的孩子,当遇到发音不标准或部分清晰的话语时就无法理解,这种局限性阻碍了听障人士参与口语互动的能力。</p> <p id="48PKURL9">在人工智能快速发展的今天,大型语言模型的出现为解决这一问题带来了新的希望。这些模型就像拥有了强大理解和推理能力的智能大脑,能够统一处理视觉、听觉和文本信息。最近出现的全能型模型更是能够同时"看到"、"听到"并理解复杂的跨模态语境,为解决现实世界的交流挑战奠定了坚实基础。</p> <p id="48PKURLA">二、HI-TransPA系统的创新设计理念</p> <p id="48PKURLB">研究团队将全能型AI模型的理念引入辅助技术领域,开发出HI-TransPA这一指令驱动的音频视觉个人助手。这个系统的设计理念就像给听障人士配备了一位既懂手语又能读唇语的贴身翻译官,能够融合不够清晰的语音和唇部动作,在单一的多模态框架内实现翻译和对话功能。</p> <p id="48PKURLC">为了应对听障人士独特的发音模式和现有模型有限的适应性,研究团队开发了一套多模态预处理和数据筛选流程。这套流程就像质检员一样,能够检测面部关键点、稳定唇部区域,并定量评估样本质量。这些质量评分为后续的课程学习策略提供指导,让AI系统首先在干净、高置信度的样本上进行训练,然后逐步融入更困难的案例来增强模型的鲁棒性。</p> <p id="48PKURLD">在架构设计上,HI-TransPA采用了一种新颖的统一3D重采样器来高效编码唇部动态信息,这对准确解释听障人士的表达至关重要。这个重采样器就像一个专业的唇语解读器,能够从连续的唇部动作中提取出语言信息,与音频信息形成互补,大大提高了理解准确性。</p> <p id="48PKURLE">三、数据预处理与智能筛选技术</p> <p id="48PKURLF">面对原始数据中的噪声和异质性挑战,研究团队设计了一套精巧的数据处理流程。首先是唇部区域提取技术,这就像给视频安装了一个自动焦点调节器,能够减轻头部姿态变化、无关面部动作和背景噪声的影响。</p> <p id="48PKURLG">整个提取过程分为两个阶段。第一阶段,系统对每个视频帧进行面部关键点检测,从468个面部关键点中只保留与嘴唇相关的部分。这些关键点形成了表示跨帧唇部运动的时间序列,就像记录嘴唇说话时的运动轨迹。</p> <p id="48PKURLH">第二阶段则是对唇部视频进行对齐和稳定处理。对于具有有效关键点的帧,系统会计算边界框并定义统一的裁剪尺寸。裁剪以每帧关键点的重心为中心,当关键点缺失时会进行线性插值。最终得到的稳定视频标准化了头部运动,突出了与语音表达相关的唇部动态。</p> <p id="48PKURLI">数据筛选采用了拒绝采样框架,就像品酒师一样对每个音频视觉对进行评分,并将数据集划分为接受和拒绝子集。音频质量评估结合了两个互补指标:ASR置信度评分和信噪比。ASR置信度衡量了语音识别结果与真实文本之间的一致性,而信噪比则量化了信号清晰度。视频质量则通过运动幅度来表征,即连续帧间的平均像素差异。</p> <p id="48PKURLJ">四、模型架构的专业化设计</p> <p id="48PKURLK">HI-TransPA基于Qwen2.5-Omni-3B框架构建,但重新设计了视觉子系统,专门针对高帧率唇读进行优化。主要的架构创新包括集成SigLIP视觉Transformer和来自MiniCPM-V 4.5的统一3D重采样器模块。</p> <p id="48PKURLL">SigLIP编码器就像一个专业的视觉分析师,能够提供适用于唇部表达建模的细粒度视觉表示。它处理唇部视频并将其编码为补丁token序列。为了减少长视频序列的计算量,系统在视觉编码器后应用统一3D重采样器,使用64个可学习查询通过交叉注意力机制压缩token序列,在保留关键时空线索的同时减少token长度。</p> <p id="48PKURLM">五、多阶段训练策略</p> <p id="48PKURLN">为了确保多模态协同效果,研究团队执行了三阶段对齐和适应过程。第一阶段是一般视觉对齐,通过两个子阶段让语言模型适应新的视觉特征:图像对齐阶段在Chinese-LLaVA-Vision数据集上只训练3D重采样器,同时冻结视觉编码器和大型语言模型;视频对齐阶段进一步在LLaVA-Video-178K数据集的30%上训练重采样器以捕获时间动态。</p> <p id="48PKURLO">第二阶段是音频视觉协同适应。使用Chinese-LiPS数据集,研究团队联合微调3D重采样器和音频编码器,使两种模态产生针对音频视觉语音识别优化的互补嵌入。第三阶段是对话微调,执行端到端指令微调以联合优化模型的翻译和对话能力。</p> <p id="48PKURLP">六、课程学习策略的创新应用</p> <p id="48PKURLQ">为了在学习多模态数据时增强鲁棒性和训练稳定性,研究团队应用了两阶段课程学习方法。这种方法就像学习一门新语言一样,先从简单的词汇和句型开始,再逐步掌握复杂的表达。</p> <p id="48PKURLR">第一阶段专注于在接受的数据上进行基础学习,使用高质量样本进行三个epoch的微调,旨在建立唇部动作、音频和文本内容之间稳定的多模态对齐。第二阶段则在更困难的拒绝子集上进行鲁棒性增强,继续训练五个epoch来隐式地增加困难样例的权重,鼓励模型学习能够泛化到嘈杂现实条件的鲁棒表示。</p> <p id="48PKURLS">七、实验设计与评估体系</p> <p id="48PKURLT">研究团队收集并整理了专门的HI-Dialogue数据集,以支持听障个体音频视觉对话模型的训练和评估。六名不同听力损失程度的志愿者录制了涵盖日常对话、教学文本和紧急情况的音频视觉材料。经过人工筛选去除唇部区域遮挡或转录不匹配的样本后,获得了9673个高质量样本。</p> <p id="48PKURLU">数据集按8:2比例分为7736个训练样本和1937个测试样本。根据拒绝采样策略,训练数据进一步分为接受集(4733个样本)和拒绝集(3003个样本),用于课程学习。为了增强对话能力,还为每个训练样本提炼了文本回应以支持指令调优。</p> <p id="48PKURLV">评估指标采用了综合评分体系,结合字符错误率和嵌入相似性来衡量模型性能。字符错误率衡量文字转录准确性,而嵌入相似性则通过余弦相似性计算预测嵌入和参考嵌入之间的对齐一致性。这种平衡的评估方式既反映了表面层面的准确性,也体现了更深层的语义保真度。</p> <p id="48PKURM0">八、实验结果与性能分析</p> <p id="48PKURM1">在HI-Dialogue测试集上的详细比较结果显示,HI-TransPA取得了显著的性能优势。纯音频模型在听障语音上表现明显较差:Whisper-large-V3和Step-Audio 2 mini虽然分别达到了0.74和0.73的综合评分,但字符错误率仍然很高。添加通用视觉编码器的模型如Qwen2.5-Omni获得了有限改善,综合评分为0.67,表明通用多模态融合无法捕获细粒度的唇部动态。</p> <p id="48PKURM2">HI-TransPA的3B版本已经超越了更大的7B Qwen2.5-Omni模型,达到了0.70的综合评分。专门针对高帧率唇部运动优化的视觉架构发挥了关键作用。加入课程学习后性能进一步提升,综合评分达到0.79,嵌入相似性达到0.84,字符错误率降至27%,是所有基准模型中的最佳表现。</p> <p id="48PKURM3">消融实验证实了视觉模态的重要贡献。移除视觉模态后,性能严重下降(综合评分从0.70降至0.64,字符错误率从37%上升至46%),确认了唇部运动为理解提供了不可缺少的线索。课程学习的效果同样显著,相比于没有课程学习的基础模型,最终版本将综合评分从0.70提升至0.79,字符错误率从37%降至27%。</p> <p id="48PKURM4">九、定性分析与实际应用展示</p> <p id="48PKURM5">为了更直观地展示模型能力,研究团队提供了两个代表性案例分析。在良好案例中,HI-TransPA成功处理了包含多个实体的复杂句子,翻译模式输出几乎完美的转录,展现了强大的多模态理解能力。基于这种准确理解,聊天模式能够超越简单重复,推断出"国际粮食运输"的更广泛背景,并提供富有同情心和洞察力的回应。</p> <p id="48PKURM6">相比之下,表现较差的基线模型案例生动说明了理解失败时的后果。翻译模式输出显示对用户意图的完全误解,产生了与原始银行转账输入语义无关的句子。这种理解上的根本失误直接解释了为什么聊天模式回应在上下文中毫无意义。虽然聊天回应在语法上连贯,但它是从错误前提中逻辑推导出的,对用户来说完全无用且可能造成混淆。</p> <p id="48PKURM7">十、技术创新与社会意义</p> <p id="48PKURM8">HI-TransPA的成功不仅在于技术层面的突破,更在于它为听障群体提供了真正意义上的双向交流可能。传统的辅助技术大多将听障人士视为信息接收者,主要关注感知而非表达。而HI-TransPA通过结合音频视觉信息处理和智能对话功能,使听障人士能够更自信地参与日常交流,减少沟通障碍带来的社交隔离。</p> <p id="48PKURM9">这项研究开创性地将全能型AI模型应用于辅助沟通技术,为未来相关领域的发展奠定了基础。通过专门设计的数据处理流程和训练策略,研究团队证明了针对特定群体需求的AI系统定制化的重要性和可行性。这种"以人为本"的技术发展理念值得在更多AI应用中推广。</p> <p id="48PKURMA">从技术角度来看,HI-TransPA在多模态融合、课程学习和视觉编码等方面的创新为相关研究提供了有价值的参考。特别是其3D重采样器设计和质量导向的课程学习策略,可以被应用到其他需要处理多模态噪声数据的场景中。</p> <p id="48PKURMB">说到底,这项研究最大的价值在于它真正关注了一个容易被忽视但影响巨大的社会问题。通过技术创新为听障群体提供更好的交流工具,不仅是技术进步的体现,更是社会责任的承担。随着这类技术的不断完善和普及,我们有理由相信,未来会有更多原本面临交流困难的人能够更自由、更自信地表达自己,参与到更广阔的社会生活中去。</p> <p id="48PKURMC">研究团队的工作为AI技术的社会化应用提供了一个优秀范例,展示了如何将前沿技术与现实需求相结合,创造出真正有益于社会的创新成果。这种研究方向值得更多科技工作者关注和投入,因为技术的最终价值始终在于为人类创造更美好的生活。</p> <p id="48PKURMD">Q&A</p> <p id="48PKURME">Q1:HI-TransPA是什么技术?</p> <p id="48PKURMF">A:HI-TransPA是上海智流AI研究院开发的专为听障人士设计的智能翻译助手。它能同时分析音频和唇部动作,即使在语音不够清晰的情况下也能准确理解说话者的意图,并提供翻译和对话功能。</p> <p id="48PKURMG">Q2:HI-TransPA比传统语音识别技术好在哪里?</p> <p id="48PKURMH">A:传统语音识别只能处理标准清晰的语音,而HI-TransPA专门针对听障人士的发音特点进行优化。它结合了视觉信息(读唇术)和音频信息,在测试中字符错误率降至27%,比同类产品有显著提升。</p> <p id="48PKURMI">Q3:听障人士如何使用HI-TransPA系统?</p> <p id="48PKURMJ">A:听障人士可以通过HI-TransPA进行两种模式的交流:翻译模式将他们的话语准确转换为文字,聊天模式则像智能助手一样进行自然对话。系统通过摄像头捕捉唇部动作,配合麦克风收集音频信息来理解用户意图。</p>

编辑:里卡多·斯卡马乔