专访腾讯音视频实验室刘晓宇:服务8亿QQ用户的音视频通讯技术如

1999年,当时还叫OICQ的聊天软件发布了一个新版本,语音通话功能被正式加入,随后,视频通话也被加入。18年后的今天,QQ的月活跃用户已经超过8亿,一个更惊人的数字是,最多的时候,QQ用户每天的音视频通话时长达12亿分钟。

在QQ发展过程中,其当面的音视频通信技术也阅历了对外采购,到成立QQ音视频技术中央,自研引擎,再发展壮大为腾讯音视频实验室,开放自研的SPEAR音视频引擎的过程。现在,随着全民直播时期的到来,腾讯又研发并开放了一体化的直播解决方案,并将腾讯直播SDK应用于斗鱼、虎牙、快手等顶级的直播平台。这背后,技术、教训上的不断先进和积累,也有腾讯对中国复杂的网络状态的智能处理。日前,腾讯音视频实验室负责人刘晓宇接受了的采访,聊了聊这些问题,并向我们介绍了精致化运营及5G技术降临之际,直播会有哪些更新颖的玩法。

(腾讯音视频实验室负责人刘晓宇)

腾讯音视频实验室:从无到有,再到支持每天12亿分钟通话

遥远的斯坦福校园内,一位机器学习教学上课的场景被高清摄像机捕获的画面,通过编码器紧缩,以分段发送的方法,通过互联网传输到你的电脑上,再由播放器进行实时解压缩处理,你就能学习到最前沿的课程。

流媒体技术给互联网带来了无穷的活气,而当场景变成音视频通讯时,背地的技巧就不止庞杂了一倍。除了双向的反馈,实时通信对延迟的请求也变得十分高;另外,回声处理也成了新的问题,“我听到你的声音出来了,我也要谈话,这个进程中麦克风是始终开着的,如果不处置回声,你的声音会被再次采集进去,播到你那边。”

在腾讯大厦的腾讯音视频试验室内,刘晓宇向做了一个小科普。2005年,他参加腾讯,负责QQ运用层的架构设计,“除了底层的公共组件,挚友面板、新闻窗口,包含空间、音乐、邮箱等插件化功效,能够懂得为你能看到的QQ界面展现出的货色,都是我们开发的。”

2011年,腾讯正式成立了音视频中心,刘晓宇被任命为负责人。只管QQ在1999年就有了音视频通话功能,但很长一段时光,腾讯都依附腾讯研究院和第三方技术提供商,不独立的团队负责音视频通讯。

成破音视频核心,是由于腾讯感到音视频会是将来的一个暴发点,还有一个主要原因,当时洽购自GIPS(后被Google收购)的技术计划,是一个“黑盒子”,呈现问题时本人无奈找出起因,GIPS又不够器重,这动摇了腾讯技术自研的信心。

刘晓宇介绍,在音视频通讯中,网络问题一直是一个技术难点。检测网络带宽,以均衡视频品质和传输速度的带宽探测,处理丢包、抖动,都须要很深的技术积聚。另外,跟着挪动互联网的发展,装备碎片化越来越重大,适配不同的设备又成了宏大的问题,“我们常常要适配体系的问题,有时候会涌现很戏剧化的事件。”有一个版本的QQ,腾讯特地为适配不好的小米手机做了优化,但版本还没宣布,小米就发明了问题,自己率先做了优化。相互适应,成果又有问题了。

(为了测试QQ在不同网络中的音视频通话质量,腾讯音视频实验室拉了10多条和用户实在情形一样的宽带,涵盖各个运营商、教导网等)

音视频中央的发展强大,推进了QQ音视频通话功能的一直改革。现在,QQ用户每天的音视频通话时长达12亿分钟。2015年11月,腾讯正式开放自研的SPEAR音视频引擎,将包括流控策略把持云端化、通道智能化/多通道备份机制、散布式混音和云混音、跨平台通讯协定设计、供给跨平台客户端引擎SDK、预衔接设计、双人/多人通话平滑切换、通话客观质量评测系统等特征带给更多的开发者。

2016年,腾讯音视频实验室正式成立,最初成立时只有7个人的音视频中心,现在已有80多人。除了持续保障QQ的音视频通话,将它的能力开放出来,在企业级市场上有所作为,也成了音视频实验室的新义务。

17项当先技术促成音视频通话到直播:技术、需求都要随人道而转变

2015年,随着4G和智能手机的遍及,移动直播开始成为一个新的热门。实在在技术上,直播并不是一个新兴的东西,早在2008年前后,六间房就开始尝试使用Flash的技术进行网页直播。

从网页直播到移动直播,用户的需要没变,但使用的网络环境、设备、直播环境都在产生变更。例如,移动直播要解决WiFi、移动网络的切换问题;而在不同的空间里,保证音质、视频流利以及光芒平衡,又对技术提出了新的挑衅。刘晓宇向举了个例子,最早做音视频通讯时,腾讯向GIPS采购的音视频通话方案时常会碰到投诉,其中的一个重要原因是中国复杂的网络环境,比方南北通问题、用户蹩脚的网络连接等。

(消音实验室,封闭大门宁静时候贝数仅为17,可以保证每次测试环境的一致)

在应答移动直播时,相似的问题同样存在,这就需要移动技术提供商针对不同的环境进行优化,其中弱网专项优化、抢带宽的能力、手机机能优化、机型适配、后盾转码能力等,都会直接影响直播间稳固、清晰度,连麦的实时性和沟通的顺畅。

另外,据刘晓宇介绍,因为用户观看直播的奥妙习惯,技术策略上也要做相应的调剂。例如,在以前的视频通话中,用户的主要需求是低延时,所以当网络不好时,系统会主动下降视频清楚度。然而在直播中则完整相反,“宁肯卡一点,延迟略微大一点,也不要把辨别率降下来”;在研讨中,刘晓宇的团队还发现,用户在观看直播时异常随性,会习惯性地滑到下一个直播,这就需要系统提前缓存画面,让用户疾速切换直播。

现在,腾讯已经有了一整套的直播技术解决方案,只要要多少行代码,就可以让企业接入腾讯直播模块,领有腾讯的直播技术支撑。

这套音视频直播AVL(Audio Video Live)方案,依靠腾讯的SPEAR音视频通信引擎,通过腾讯直播SDK可打造跨平台一对多、多对多的超清酷炫直播场景。除了可能提供基本的高清、秒开、高音质、转码、鉴黄能力外,还具备连麦、实时录制、音频直播、美颜、水印、混音、IM等特色能力。同时兼具旁路直播、屏幕分享、人脸识别、滤镜、挂件等“冷清”能力,全体能力到达17项之多,是目前能力笼罩最全的主流直播SDK。其流畅度、音质、低延迟、下行抗丢包4项指标位居行业第一,其余中心数据也濒临行业最佳。

(测试真实通话时的质量,过程中的各项数据都会被实时记载下来)

音视频直播AVL 的一个重要利用是直播中的连麦,现在,斗鱼、虎牙和快手,都应用了这个服务。斗鱼直播产品规划经理汪楚峰也接收了的采访,据他先容,成立于2014年的斗鱼,当初每天开播的直播间数目超过4万,天天的活泼用户超过2000万。

2015年,斗鱼开端使用腾讯提供的直播连麦功能,除了低延迟,腾讯还提供了虚构打扮、主播变声等特点功能,另外在音乐场景中,腾讯对麦克风收音和音质进步上也有深刻的优化。

垂直场景、语音识别、VR,新技术之下直播还有新玩法

今年初的春节期间QQ视频通话里做了一个视频表情彩蛋的弄法,说出“么么哒”屏幕上会出现红唇表情,说“新年快活”、“祝贺发财”也会有对应的惊喜表情。

这只是语音辨认在视频通话上的初步应用。直播平台的竞争已经出现“大鱼吃小鱼”的态势,在刘晓宇看来,技术将成为直播平台差别化的一个冲破点。

今年,NOW直播已经开始测试绿幕直播,当用户在直播过程中,环境背景为指定绿色时,可调换任意手机相册内的照片或视频。这种应用在片子制造中的技术,可以让直播有更翻新的玩法,有剖析人士以为,它可以应用于二次元主题直播。接下来腾讯也会将该才能集成到直播SDK中去,开放给更多直播平台使用。

(Now直播的绿幕直播)

现在的直播,秀场和游戏直播占了绝大多数,但同时,也开始出现越来越多的垂直场景,如金融、教育类直播,在这类场景中,除了主播和观众,还波及到屏幕,现在,腾讯的直播技术已经能解决三方同步、满意屏幕解码和CPU节制的问题。

另外,VR直播曾经被高度看好,刘晓宇告知,目前VR直播的技术阻碍重要在于,要保障多人同时观看的沉迷式休会,直播源就要传输360度的全量数据,而这个数据量是无比宏大的;另外,在采集全景视频时,画面叠加局部的拼接、宰割,镜头的改正都还有很长一段路要走。

不外,科技行业永远是提高最快的范畴,依据工信部和三大经营商的计划,2020年,中国5G将正式商用,刘晓宇说,“跟4G比拟,5G会是一种量变,咱们会时刻关注这里的技术发展。”

关于中国通信学会 | 与我们联系

Copyright China Institute Of Communications.All Rights Reserved

京ICP备05081448号