内容审核丨特工小天
豆包升级实时音视频体验
去年,豆包的实时语音通话功能颇受欢迎,特工们频繁使用,既用于锻炼英语口语,也用作倾诉心声的私密空间。近期,豆包新增了实时视频通话功能,用户现在不仅能与豆包进行语音通话,还能进行视频互动。
借助实时音视频技术,用户仿佛拥有了真实的赛博人工智能伙伴,无论是遇到需要解决的难题,还是想要倾诉的喜悦与忧愁,都能如同与真人进行视频通话一般,轻松与豆包取得联系。
若你购置了一瓶橙汁,意图了解其营养成分以及NFC技术的说明,并对储存期限提出咨询,只需激活豆包的视频通话功能,将橙汁置于摄像头前,持续提问,豆包便会迅速且精确地给出答复。
在视频处理能力上,豆包能够迅速捕捉到整个画面的轮廓以及细节部分;即便面对圆柱体曲面上的模糊印刷或是肉眼难以察觉的细微文字,豆包也能迅速且准确地解读出来。
在音频交互方面,每当问题被提出,体感设备几乎在短短2秒内便能够提供流畅、完整且自然的语音回应,无论是音色还是语调,都极富真实感。若豆包在对话中被打断,它能够自然地暂停,优先关注用户的新表述,随后再继续流畅地给出新的回答。
即便是在咖啡店这样的嘈杂场所,伴随着背景音乐的播放和他人交谈声,豆包仍能精确地从纷扰的环境中辨别出用户的声音,同时有效排除周围人声和噪音的干扰。
例如,通过豆包的音视频通话功能来掌握屏幕上的操作要领。当用户在电脑操作上感到困惑时,无需发帖寻求帮助或打扰朋友,他们可以直接向豆包发起视频通话。豆包能够精确识别页面上的图形用户界面元素及其操作步骤的逻辑,并以简单明了的方式向用户提供精确的操作指导。
RTC 技术支撑豆包实时音视频
领略了卓越的性能与多样的应用场景,现在正是揭开豆包实时音视频技术背后英雄面纱的时刻——RTC实时音视频技术。
首先,我们需要关注对基础技术的理解和掌握;目前,在业界,处理音视频通信的技术主要分为两大类,即实时通信技术(RTC)和WebSocket技术。
RTC,即实时通信,它通过互联网进行音频、视频及数据的即时传输。该技术的显著特点是极低的延迟和出色的网络适应性,特别适用于处理音视频流数据。因此,RTC技术广泛应用于视频会议、网络教育以及智能驾驶等领域。
WebSocket代表了一种不同的实时通信技术,它由一系列协议和应用程序编程接口构成。这种技术能够通过持久的单一套接字连接,在Web客户端与服务器之间实现双向通信。它允许客户端与服务器端主动互发数据,相较于其他技术,WebSocket的响应时间可能会更长,并且其性能也容易受到网络状况的影响。
特工们对RTC与WebSocket进行了多角度的对比分析,包括应用场景、响应时间、连接手段、数据种类以及协议的复杂程度等不同方面。
在用户的使用体验中,当涉及到流媒体服务的消费,最根本的需求就是服务的稳定性。结合对实时通信(RTC)技术与WebSocket技术特性的深入分析,我们可以发现,RTC技术因其低延迟、高稳定性以及较低的网络环境要求,相较于WebSocket技术,在确保视频和语音传输的稳定性方面具有显著优势。
上文中所呈现的与豆包的对话情景,用户之所以能够享受到一个能够即时听、即时观看的智能助手,得益于AI在同步执行、低延迟的视觉推理以及搜索结果反馈方面的能力,而这种流畅的交互体验对减少卡顿现象提出了更高的标准。
为了实现这一目标,豆包选择了火山引擎RTC传输技术。该技术凭借其带宽预估、前向纠错、丢包重传等抗拥塞功能,以及端到端的传输优化,显著减少了在移动网络或拥挤Wi-Fi环境下画面中断、模糊等问题。即便是在720p高清视频流传输过程中,也能确保稳定的低延迟传输,进而有力地支撑了AI在实时多模态感知与推理方面的需求。
在当前大模型应用的时代,特别是在与AI助手进行语音通话的情境里,RTC技术能够确保实时语音对话的低延迟和强大的抗干扰能力,从而使得AI语音交流更加高效、更加自然逼真,并更贴近人类的交流体验。在产品使用体验方面,用户在通话过程中能够享受到更迅速、更低的延迟,以获取人工智能助手的语音回应;同时,他们还能像与真人交流一般,随时中断对话,开启新的话题。
重返日常生活场景,我们发现网络环境多变且复杂,而弱网状况实则更为常见。尽管在理想网络条件下,实时通信(RTC)与传统WebSocket在语音延迟上的差异并不十分明显,但依据线上实际测试数据,当网络状况不佳时,RTC的表现远超WebSocket。
当网络中20%的数据包无法到达目的地时,采用WebSocket技术会导致页面出现严重卡顿,甚至出现断开连接的情况,从而使得线上约15%的用户无法正常使用;相比之下,RTC的表现则相当出色,即便网络丢包率高达80%,无法使用的用户比例也仅为1%,尽管使用时可能会有轻微的延迟,但通常在4.6秒左右就能得到响应,对用户体验的影响并不显著。
在行业产品领域,这一点同样适用,诸如豆包这样的AI助手能够实现实时的音视频通话功能,而在大模型的应用落地过程中,语音应用场景也日益受到青睐,这一趋势对语音交互的实时性以及并发管理能力提出了更为严格的要求。
在AI社交娱乐领域,诸如狼人杀等集体游戏形式中,玩家能够与多个AI非玩家角色进行实时对话与交流;而在AI效率办公领域,则可以通过语音交流的方式,让多个AI工作助手同时处理多项任务。
在多代理并行运作的情境中,传统WebSocket在处理多条音频数据时面临较高的复杂性,而RTC技术则展现出明显的优势。RTC技术具备房间管理、音频流控制、混音处理以及角色权限管理等能力,这些功能可以实现对多个语音流的细致管理和优先级排序,进而构建出一个结构清晰、响应迅速的多个代理语音交互系统。
在火山引擎可使用同款对话式 AI 方案
然而,任何事物都有其两面性。尽管我们已详细阐述了RTC技术的诸多优势,诸如低延迟和良好的抗弱网能力,但它仍存在一些问题。具体来说,RTC技术自建集成的门槛较高,且在云端服务的资源投入上也不小。这些高门槛和资源投入的特点使得许多应用在开发过程中望而却步,实际应用时往往只能退而求其次,采用WebSocket技术,为了实现功能而牺牲了用户体验。
实际上,无论是独立开发者还是企业内部的开发团队,在挑选技术方案时,既要兼顾产品经理的需求,又要迎合用户的期望,同时还要力求以尽可能低的成本完成实施,这确实是一项颇具挑战性的任务。
幸运的是,火山引擎已预先为开发者们解决了这一难题,它所提供的对话式AI一站式解决方案,使得企业能够以更低的集成难度,达到超低延迟、稳定流畅以及自然逼真的AI音视频交互效果。
在上述强劲的抗弱网和低延时性能之外,还有一个令人惊喜的发现,那就是对话式的AI方案与真人交流的体验非常接近。在实时与AI助手进行对话的过程中,“活人感”成为了影响体验的关键因素。而要达到这种“活人感”,至关重要的是AI需要具备精准断句的能力,而这正是AI语音技术中最为棘手的问题之一。
设想在与他人进行面对面交流时,我们能够随时灵活地感知对方是否已经说完了一句话,同时也能精确地判断对方是否意图打断对话。然而,许多传统的AI语音交互系统却只能机械地判断对话是否结束,用户必须等待AI将一段话完整地说完之后,才有机会启动新一轮的对话。
这项技术面临诸多挑战,首先,AI需具备对语义及人声结束点的敏感捕捉能力,以减少用户思考过程中的短暂中断导致的即时回复;其次,AI还需准确识别人声中的打断意图。针对这些挑战,火山引擎依托RTC技术推出的对话式AI方案,已实现了智能语义判断停顿和声纹降噪等特性,使得智能体更具真实人类的互动感。
例如,在前文中提到的咖啡店内,当嘈杂的环境声中,顾客打断豆包的对话,转而提出新的问题时,我们便能够直观地体验到智能判停以及抗背景噪音技术的实际效果。
开发者即刻可访问火山引擎官方网站,轻松获得对话式AI服务的接入权限,并且享有每月10,000分钟的免费通话时长。
官方网站:请访问https://www.volcengine.com,点击进入产品页面,选择VERTC,再点击ConversationalAI即可。
也许下一个开发出像豆包 AI 音视频通话功能的人就是你。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/276152.html