首位中国AI主播也失误了，技术成熟后，电视新闻事业迎变革

11月8日，新华社和搜狗在乌镇峰会现场发布的“AI主播”可以说是确确实实地在全世界范围内引起了反响。

视频截图

有些国内产品会找一些“不入流”的外文网站出稿，假装获得了“全球媒体”关注，但这次的“AI主播”不在此列。CNN、BBC、The Verge、CNET、南华早报等都在主要的版面给了这两位“主播”一席之地。

这倒并不是因为新华社版“AI主播”在技术上有多先进，而是说，更多是因为一个国家级主流媒体运用虚拟主播技术，这项举动本身具有强烈的象征性意义。

就像之前曾经被沙特授予“公民权”的那位女性机器人“索菲亚”一样，“她”也不一定是当今世界上技术最先进的机器人，只不过是说这件事情可以成为时代进步的一个强烈的隐喻。

没准，未来再回顾21世纪第二个十年的时候，这个镜头可以作为无数关键时刻其中的惊鸿一瞥。

低级失误

两位“AI主播”的外观和声音是分别取材自新华网络电视（CNC）中文台和英文台的两个主持人，其中被广泛传播到全世界的演示视频，是以新华英文台的主持人形象示人的英语“AI主播”所播报的一则关于进口博览会的新闻。

在这则两三分钟的新闻当中，还是不可避免地出现了比较低级的失误：将阿里巴巴创始人马云的名字“Jack Ma”误读成了“Jack Massachusetts”，这是因为语音合成系统读到这部分文字稿的时候，判断“MA”两个字母是美国马萨诸塞州的缩写。

在很多情况下，需要读到美国某个小地方地名的时候，就需要把“MA”理解为“马萨诸塞州”，但预防此类问题，既可以通过将“Jack Ma”一词特殊化处理，也可以通过将美国地方地名特殊化处理的方法来化解。在对外演示的视频中出现这样的错误，恰恰证明了新华社和搜狗并未针对主播们的“处女秀”而对演示“弄虚作假”，完全是以真面目示人。

开始跨越“恐怖谷”

世界各国媒体在观察这对“AI主播”的时候，都说“他们”暂时还没有实现新华社本身所宣传的那样，能够百分之百的替代真人的效果，同时还是被卡在了所谓“恐怖谷”当中。也就是说，当类人形象的拟真度达到90%左右，尚未能够100%以假乱真的情况之下，会产生一种不自然的机械感，甚至会令人毛骨悚然。

早几年，人们都是在达到“恐怖谷”级别后，稍微往后退缩一点，即进一步的增强机器与人之间的差异，用一个本来就知道是机器人，或是卡通形象的脸，就可以规避让人害怕的麻烦，也创造出初音未来，或是“会说话的汤姆猫”这样的角色。

因此，早在大概2013-14年，使用机械声音味道很浓重的合成语音，加上明显不像是真人的卡通形象，替代人类去做一些资讯播报的做法，已经在普通的电脑和手机用户中普及泛滥。

在YouTube上，世界各国的上传者为了争取（骗取）点击和贴片广告费，会在一些突发新闻出来的时候，抢着发一些“混淆视听”的视频内容。最开始，网上可能只有图文消息出来，暂时还缺乏电视台或广播电台的真人播报录像，或者这些录像会因为版权问题被清理掉。那么，这一段时间之内如果有人去YouTube试图寻找新闻报道，就会遇到一个“空窗期”。

做假视频内容的人会将图文报道贴入“谷歌翻译”等文本转语音（TTS）软件，生成配音，再把随便什么地方找的配图一搭配，辅以花花绿绿的字体，最重要的是配上“突发新闻、最新报道、现场直播”这样的有利于搜索引擎抓取（SEO）的标题，本来想看电视台报道的观众就会遇到这些招摇撞骗的垃圾信息，从而上当受骗。

某个专门上传这种“骗点击”（Clickbait）视频的号长这样：

航通社在《都8102年了，机器人还是“静若瘫痪，动如癫痫”》一文中曾提到过：

“研发更像人的交互界面始终存在风险，所以更多的服务型机器人从‘肉体’到‘灵魂’——即内置的AI操作系统——都在恐怖谷前停下了脚步。

大家宁可表现得像‘面瘫’版喜羊羊，也不愿意冒产品滞销的风险，向着真正像人一样的终极目标迈出那一步。”

新华社和搜狗共同努力做的“机器人播报员”，却并没有选择一个卡通卖萌形象充数，而是鼓起勇气，用真人建模，再一次对“恐怖谷”发起了勇敢的冲击。

日趋成熟的技术

这并非巧合——2018年，多家企业的同时起跑和开源解决方案的涌现，标志着用技术模拟真人的简单化、普及化进程已经拉开序幕。

在图像技术方面，主机游戏的机能和图形引擎一同进化，可以在光照、皮肤、毛发、布料等方面达到媲美真人的效果，而动作捕捉和实时渲染技术可以加速数字影像生成的进度。

而最为著名的开源方案Deepfakes更是以“换脸术”为人所知，Deepfakes在Reddit和PornHub等地引发了一场“狂欢”，直到被平台禁止之前，人们疯狂地把女明星的脸“P”到色情影片女主角的身上。

此后，Deepfakes进化为在任何PC机都能运行的FaceApp，借助它作为后期处理，有人做出了奥巴马骂特朗普是“笨蛋”的一段视频，这段录像现实中并未发生过，完全是“AI对口型”的产物。

在声音技术方面，进步更快。谷歌的“谷歌助手”、微软的“小冰”都可以实时生成流畅的语音，跟真人“打电话”聊天，或者充当AI客服。高德地图的各种明星语音包已经投入商用三四年了。

而今年1月央视纪录频道播放的纪录片《创新中国》，邀请科大讯飞对2013年去世的著名播音员李易声音建模，完全使用合成的“李易原声”为纪录片做了配音。讯飞在圆满完成任务的同时，还借此拥有了李易老师的声音库。

可以发现，图像和声音拟真技术的齐头并进，都是沿着这样一条确定的路线行进——先做出来，再一边效果调优，一边降低成本，提高效率。

本次搜狗在“AI主播”案例中演示的实时合成技术，以及前几天猎豹移动旗下“猎户星空”展示的超快速“真人语音包”建模技术，都同时说明了，在效果上暂时无法取得决定性突破的同时，AI拟真技术在成本和效率方面进化神速，基本可以做到“实时生成”和“任何人都可以生成”。

虽然现在的主播仍然呈现动作僵硬，语音语调不协调等问题，但任何一个报道这件事情的国内外媒体其实都心知肚明，这是AI向真人进攻路上的一个里程碑或标志性事件，但绝对不是一场努力的终点，而在未来还将会以更快的速度进化。现在这些小问题将会逐渐被攻克，直到屏幕上主播的表现和真人没有什么区别。

“AI主播”上岗的意义

全球媒体报道新华社率先上岗“AI主播”的时候，也有各种各样的担忧，但首先都给予了肯定。最重要的一点是，官方媒体率先垂范采用这类仿真技术，有助于自上而下地对抗“假新闻”。

即使是上面所说的粗制滥造的假新闻视频，对于一些信息闭塞地方的人来说，可能已经是足够“说服”他们的。不同人分辨信息真伪的能力是有区别的，有些人可能会始终分不清什么才是真正的电视台播报，而因此影响他们的政治倾向，投票结果，或造成财物损失等等。

诸如为色情电影“换头”这种对AI拟真的滥用也值得担忧，这当然不是因为它们不符合对“真实”的追求，而是有可能会成为网络暴力的起源，或者是分手后报复性羞辱前任的手段，影响当事人的正常生活。

从这个角度上来说，像新华社这样正规的官方媒体，先行一步采用机器人朗读方式，就可以在突发事件传播中占得先机，抢在“谣言”的前面到达社会公众。

至于国外媒体的担忧，主要集中于这一行为对传统媒体的严肃性、公信力形象的“无形消解”。

牛津大学计算机科学教授伍尔德里奇（Michael Wooldridge）在接受英国广播公司（BBC）采访时提到，在很多时候，新闻播音员都是社会高度信赖的公众形象。“如果你看着一段动画，你将完全失去和主播之间的这样一种联系。”

在中国，《新闻联播》的数位主播被誉为“国脸”，有说他们换发型都需要组织批准。在发达国家，主播不仅仅是照本宣科念稿子的人，他们会作为整个媒体公信力的一部分，一个典型的象征而存在。所以各大媒体的首席主播，往往是最赚钱的媒体人之一。

《南华早报》统计称，在美国的主播薪酬排行榜上，CNN的安德森·库珀（Anderson Cooper）以年薪1亿美元排位第一，而美国广播公司的戴安·索耶（Diane Sawyer）以及福克斯新闻的主播肖恩·汉尼迪（Sean Hannity）以年薪8000万美元并列其后。

上面提到的王牌主播，都是从地方台记者开始一路晋升的，而不是像中国这样，拥有一个“播音主持”的专业学科，播音员、主持人和记者、编辑之间是区分的很开的，前者几乎没有经过任何采访方面的训练。

欲戴皇冠，必承其重。对国外主播们来说，他们不仅仅要对自己所宣读的文本内容负责，而且还要在一些独家的，原创性的采访当中，展现自己作为一个记者的才华。主播们如果有内容后来被验证为错误，或者有不适当的言行举止，都会受到严重的惩罚，断送职业生涯。

这从美国全国广播公司（NBC）两位新闻主播的陨落上就可见一斑。2015年，晚间黄金时间新闻节目长期培养的主持人布莱恩·威廉姆斯（Brian Williams）因为在一档伊拉克战争随军采访中夸大其词，虚假描述了自己随军报道的角色，导致公信力丧失，被雪藏半年之后降格来到MSNBC频道的政论节目。

2017年11月美国兴起 #MeToo 运动期间，至少三位NBC女员工举报早间节目《今日秀》主持人马特·劳尔（Matt Lauer）性骚扰，劳尔“闪电”离开主播台，现在处于销声匿迹的状态。

有血有肉的、人格化的主持人对电视媒体的重要性，由此可见一斑。他们是媒体公信力的一个重要的组成部分——至少现在是这样的。

部分国外媒体因此担心，以假乱真的AI主播上岗后，可以“想让他说什么就说什么”，而不用担心有真人主播“闹情绪”，不配合。不过，如果他们在中国呆一段时间，应该就知道他们其实想多了。中国的新闻播音员现在承担的角色，跟只字不差的AI还真差不了多少。

在中国，虚拟主播的存在，倒是的确可以帮助一些预算上不充裕的电视台，让他们把“好钢用在刀刃上”，通过更精简的预算，实现一些原来在全国性大台才有条件实现的项目——例如开设24小时不间断的新闻台。

很长一段时间，全国范围内只有中央电视台拥有一个24小时的新闻频道，加上少数沿海省份能收看到香港的凤凰卫视。国内的几家电视台也曾或多或少有过“新闻立台”的心思，但是很可惜都没有坚持住。

上海是各地电视台中做新闻最成功的其中一家。2016年7月，上海文广推出“看看新闻”客户端和配套的24小时新闻频道KNews24，除央视之外，第二个建立起24小时不间断的新闻频道。但是该频道只能通过机顶盒和网站等OTT形式播放，不能上星及进入有线电视网络。受到资金和人员的限制，该台也只能在上下午新闻之间的空闲时段，采用实习播音员坐镇口播新闻，其他时间段都是重播。

最近，KNews24频道更是干脆取消了在非东方卫视新闻时段以外的主播坐台直播，改以重播节目《看东方》等当日已播出的新闻片段，以及短视频剪辑等代替，不复当年24小时新闻台的风采。

此外，奇虎360也曾在与北京广播电视台合办的“北京时间”网站，开设一个专门在网络播出的新闻频道，回放北京卫视和北京新闻频道的一些节目，最近该频道也下线了。

所以我们完全可以想象，一旦新华社和搜狗推出的这一虚拟主播技术，推广到全国一些省市甚至是地方台，他们就可以用非常低的成本，开一个服务器，就实现24小时不间断的播报本市及全国新闻的目的，为自己家的融媒体“中央厨房”再增添一道菜，也不费什么事。

我们很容易想到真正的播音主持专业学生和老师们，听到“AI主播”的消息时，内心当然是拒绝的。但他们可能多少都已经有了心理准备。早在《创新中国》复原已逝的李易声音时，播音圈里已经有过讨论。乐观者如丁龙江先生，他是中国传媒大学播音主持艺术学院口语传播系主任。他说：

“《创新中国》模仿李易音色智能解说，虽走出可喜第一步，但仍处于句法关系层面的逻辑重音处理，距离播音学掌握的重音表现手法尚且差距很远，更别说落实话语本质的内在语。人在表达沟通上使用语音幽渺难知，估计得量子计算。我们等着那一天。”

但不到一年时间，新华社“AI主播”已经不需要人工修音，在自动实时生成的基础上，效果也正变得越来越好，因此播音主持从业者也很难再保持平静。有一位老师的朋友圈写道：

“今晚因为这个新闻，朋友圈的气氛有点低，大家都有点担心AI会取代主持人的岗位，有学生说要没饭吃了，心里慌慌的，也有人说AI不能做现场报道，不能处理突发新闻。”

这位老师说：

“主持人行业近年来本身发展进入了瓶颈期，不可否认，AI播报员的出现会给这个行业带来冲击。毕竟，写几个代码就可以超越你大学四年苦练得来的好口条，谁不恐慌？这就给播音主持的教学和人才培养敲响了警钟。传统的人才培养目标和教学，很快就不适应市场的需求了，得做好变天的准备，这个时间或短或长，只要这个行业不那么坚守阵地，也许明天，也许明年。”

确实，中国的播音主持培养体系，应该从此开始有一个根本性的变化，也向世界各国的实践看齐，从前方记者中出人才。我们播报新闻的人，也应该具有自己的“自由之精神”和“独立之思想”，才能区别于一个“念稿子的机器”。他们需要从现有的有快速反应能力的记者队伍当中遴选出来，他们应该做一个现实生活当中的多面手，而不是只会以端正的坐姿完成任务。

兴许，在技术的倒逼之下，中国的电视新闻事业，将有可能会比全世界其他任何一个地方，都更多、更快的迎来革命性的变化。