【观察】数字人，大风起兮！

云栖网 2021-11-08 11:06 来源：国家广电智库

最近元宇宙概念火的一塌糊涂，科技和文娱界大有言必称元宇宙之势，而数字人作为元宇宙的“原住民”或“通行证”，也是各种信息扑面而来，各种应用五花八门，让我们为“未来已来”雀跃的同时，又有点眼花缭乱、应接不暇。本文尝试对数字人的概念、主要应用场景简要分析，并结合数字人在广播电视和网络视听领域应用的难点和问题，提出一些思考。

数字人的“基因”解码

数字人相关概念20世纪80年代最先出现在医疗领域。医疗领域的数字化虚拟人体，是为了可视化、精准化模拟人体结构，仿真人体的物理反应、生理反应。而我们所说的“数字人”，与“数字化人体”有着本质不同。数字人（Digital Human）是通过计算机图形学技术（Computer Graphics，CG）创造出的与人类形象接近的具有特定身份的数字化形象。数字人只依赖显示设备存在，不具有实体。

根据身份设定的真实性不同，数字人可以分为虚拟化身和虚拟数字人。虚拟化身（Avatars）是按照现实世界中的人进行设定的数字人，是真人在虚拟世界的映射，本身就代表现实世界中的人。虚拟化身的外观可以按真人原型尽可能还原，也可以是卡通化的形象。前者比如数字王国制作的Digi Doug、英伟达CEO在GTC大会的14秒虚拟影像，后者类似扎克伯格在虚拟办公软件Horizon Workrooms中接受采访，以及加州伯克利分校连续两年在游戏《MiNECraft》中为虚拟化身的学生举办毕业典礼。在首次提出元宇宙概念的小说《雪崩》中，人类都拥有虚拟化身在元宇宙生活，它成为模糊现实和虚拟世界界限的重要突破口。

虚拟数字人（Virtual Digital Human）指人物身份虚构的数字人。不过，虚拟数字人的形象、声音和行为都可以基于真实人物，只要没有被赋予“现实人物的身份标识”特性，就是虚拟数字人。其中，最早的虚拟数字人是1982年日本以《超时空要塞》中的角色林明美为基础包装了第一位虚拟歌者（严格说，受制于技术条件，林明美是靠手绘生成而非计算机绘图，因此当时也只是出了音乐专辑）。我们现在常见的虚拟主播、虚拟员工、虚拟艺人等，也基本都是这一范畴。

相关机构发布的《2020年中国数字虚拟人发展白皮书》里指出，“虚拟数字人”宜具备三个方面特征：一是拥有人的外观，具有特定的相貌、性别和性格等人物特征；二是拥有人的行为，具有用语言、面部表情和肢体动作表达的能力；三是拥有人的思想，具有识别外界环境、并能与人交流互动的能力。

数字人的“生命起源”

伴随赋予数字人“生命”的技术不断演进，数字人“人”的属性表达也越来越充分。近年来，随着制作和驱动数字人的技术快速迭代，数字人诞生周期越来越短、门槛越来越低，而数字人也更加鲜活、真实起来。

“照片写实”（“超写实”）是数字人外观制作的最新突破。数字人根据人物图形资源的维度，可分为2D和3D两类，外形上又分为了卡通、拟人、写实和超写实等风格。目前，如果数字人的外观和动作看起来非常逼真，渲染效果达到难以辨别是照片还是渲染图的程度，就可以称为照片写实数字人（photorealistic digital human）或超写实数字人（metahuman）。比如，腾讯发布的Siren（塞壬，与真人原型长相一样）、数字航天员（数字记者）小诤、清华大学的AI大学生华智冰、湖南台的实习主持人小漾、入职华为云的云笙等。有数据不完全统计，全球大约有50余个超写实数字人。

交互能力是可选项，但也是驱动数字人的“硬实力”。目前，很多数字人并不具备互动能力，都是事先根据目标文本生成对应的人物语音及动画，合成后以音视频形式呈现，比如虚拟主播播报新闻、虚拟模特走秀、虚拟博主街拍等。具备交互能力的数字人显然从属性上更像“人”。按照具体驱动方式，分为智能驱动型和真人驱动型。智能驱动型数字人是通过智能系统自动读取并解析识别外界输入信息，根据解析结果决策数字人后续的输出文本，然后驱动人物生成相应的语音与动作来使数字人跟用户互动。人物模型是预先通过AI技术训练得到的，称为TTSA（Text to Speech& Animation）人物模型。

真人驱动型数字人是真人根据视频监控系统传来的用户视频，与用户实时语音，同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上，实现数字人与用户的交互。实际应用中，通常是根据场景需要，数字人会分别采取真人和智能两种驱动方式。今年两会期间，央视网的虚拟小编“小C”就是通过支持AI驱动和人工监管双重模式展现“人类温度”。由于人工智能技术虽已在深度学习等方面取得很大进步，但整体依然处于发展的初级阶段，因此，当我们觉得数字人很“智能”、更“真实”的时候，往往都是在采用真人驱动。比如，“梅涩甜”说脱口秀是真人驱动，读书分享则为智能驱动。

数字人的“百态人生”

数字人赛道不断细分，应用场景也更加成熟和丰富，如同为数字人赋予了不同的身份和技能，可以在大千世界体验不一样的“百态人生”。当前，活跃在我们视线范围的数字人主要有四类“身份”。

一是客服型员工。在金融、银行、新零售等领域应用相对较多。从现场客服到人工座席、智能语音、文字客服，数字人客服是服务向智能化、可视化、个性化、全天候演进的又一次进步。相对早的是2019年浦发银行和百度联合打造的“小浦”。数字人员工在移动终端和大屏等媒介提供服务。

二是学生和老师。比如今年6月清华大学计算机系知识工程实验室迎来中国首个原创虚拟学生——华智冰。华智冰可作诗、作画、创作剧本杀，并具有一定推理和情感交互能力，其外观、声音由人工智能生成，9月发布的唱歌视频里人物肢体、动作是动作捕捉生成。每天的日常就是不断学习，包括创造能力、交互能力、学习能力等。此外在线教育领域已出现了一些具有简单交互功能的数字人老师，提供体育健身、启蒙教育等AI课程。

三是新闻主播。自2018年新华社和搜狗联合推出号称全球首个“全仿真智能虚拟主持人”，越来越多报社、广播电视台、新媒体平台都上线了数字人新闻主播。这些数字人的外观、声音和动作表达多是依托机构里的真实主持人、编辑原型，采集训练后实现智能驱动。目前，一些平台已可以通过后台合成视频再上线的方式，实现数字人新闻节目的日播，有的还提供了多语种、多方言、多音色的版本，支持用户根据喜好自行切换。有的已推出支持与观众互动、可以采访的记者型主持人。

四是艺人。这里主要指“供职”娱乐领域的数字人。一类是数字替身、虚拟化身或衍生类艺人。数字替身已较为普遍，可实现现实拍摄中无法表现的内容和效果，也有一些相对简单的比如AI换脸。肯德基创造了年轻版的数字化“桑德斯上校”，并成为自己的品牌代言人入驻社交平台。国内也有一些基于艺人打造的虚拟形象，通过伴舞或录制视频等形式共同经营自己的IP，有的还逐步被赋予“独立人格”。

另一类是虚构“人设”的虚拟角色。如动画和游戏角色、虚拟模特/博主、虚拟演艺人员、虚拟网络直播主播等，这类数字人活跃于各类游戏、社交网站、视听平台等有大量用户的网络空间。动画和游戏里的角色可以包装成艺人甚至组成艺人团体。虚拟模特/博主、虚拟演艺人员的主要工作内容和赢利点是品牌代言、IP授权、举办演出和周边产品销售，如果没有积累大量人气，收益会相对有限且不稳定。比如，虚拟歌者初音未来、洛天依，虚拟模特/博主Lil Miquela、Shudu、Imma、AYAYI、ASK、翎、Ailynn等。

虚拟网络直播主播（Vtuber）的主要工作内容是由相对固定的真人（身份保密，也称“中之人”）以特定虚拟形象（“纸片人”为主）进行网络直播。不同于虚拟歌者需要采样建立声库、需要人声合成和调校，虚拟网络直播主播只要利用简单的面部捕捉，保证真人与虚拟形象的动态同步，就可以用原声或变声方式与用户直接互动。A-SOUL虚拟艺人团体也是类似方式呈现，同时会进行网络直播。目前，虚拟主播的直播内容包括才艺表演、聊天、做游戏等，收入来源以直播打赏为主。腾讯、爱奇艺、淘宝直播、虎牙、酷狗音乐、抖音等平台都开始使用此类虚拟主播。特别是B站近年有系列动作，打造洛天依，开设“虚拟主播”直播专区，与上海SMG联合举办《创世之音》虚拟主播演唱会等。

数字人的“进阶”之路

在数字人应用如火如荼的同时，我们也要冷静思考，数字人的发展态势和未来走向究竟如何？综合来看，当前数字人的能力和质量良莠不齐，有的只是前瞻、有的甚至造假，业界也普遍给出仍处于成长期、孵化培育期这样的判断。结合与广播电视和网络视听行业关联度较大的应用场景看，进展可喜、前景美好，但当下产业成熟度还不高，数字人“进阶”路上还存在一些障碍要扫除，一些难关待突破。

第一，核心技术仍有很大进步空间。从技术演进看，数字人技术门槛已在快速降低，但一方面AI、知识图谱等现有核心技术、基础技术还处于初级阶段，还不足以支撑数字人脱离对人的依赖实现专业级应用，另一方面，现有技术条件下要商业化、规模化数字人应用，算力和造价方面需要的投入也都还无法承受。

第二，可服务的场景还相对简单。从用户效用和市场接受度来看，行业内数字人应用比较成熟的领域是数字替身和动画制作等影视内容制作场景。其他领域，成熟度都还不高。比如，人工智能驱动模式下，现阶段相对常见的是新闻播报这样数字人位置和动作甚至面部表情都相对固定和程式化的场景。在记者采访和节目主持等交互要求较高的场景，目前还没有实现长时间或常态化应用的，更多都是“试水”性质。湖南台“小漾”进入湖南卫视参与主持综艺节目、北京台“时间小妮”在APP智能交互等，都还没有最终落地上线。数字人艺人方面，虽然宣传热闹，但因技术不过硬和没有精神内核而“翻车”的不在少数。

第三，产业链价值链还不健全。当前数字人的各应用场景，以沿用已有业务形态和赢利模式为主，受数字人自身能力质量和影响力限制，难以吸引各方参与主体入局和稳定持续投入。比如，以虚拟数字人IP拍衍生剧、开发周边产品、商业代言、直播带货等。数字人嵌入现有广播电视和网络视听产业链的程度还不够，新的分工协作系统和商业闭环还未形成。

未来，数字人在广播电视和网络视听行业综合应用的“进阶”之路，需要政产学研合力推动。

第一，方向引领。方向决定道路。文娱领域虽然是数字人较先落地的领域，但却是涉及意识形态安全和文化安全的核心领域，要始终把坚持正确政治方向、舆论导向、价值取向作为第一位。尤其文娱领域的数字人核心用户以青少年为主，培养正确的审美观、价值观责任重大，体现在每一套妆容、每一个动作、每一行代码的点滴细节中。要提供高质量精神食粮，防止人在与数字人的低质量“口令式”交互中丧失创造力，在低品位内容消费中迷失自我，走向“双重异化”。

第二，需求牵引。技术创新和应用需要坚持需求牵引，解决现实问题的效用就是重要衡量标准。我们应该从解决行业痛点、提高行业效率效能、提高产业链现代化水平、行业发展质量的角度来审视和决策如何应用数字人。广电总局制定发布的《广播电视技术迭代实施方案（2020-2022年）》和《广播电视和网络视听“十四五”科技发展规划》已基于行业需求和技术演进路线，从推进内容生产便捷化和智慧化、推进制播体系技术升级的角度给出明确指引。比如，提出“推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产，创新节目形态，提高制播效率和智能化水平”，指出“近期主要任务：开展虚拟主播、动画手语小规模应用”。

第三，同向而行。数字人背后涉及多学科综合、多技术协同。首先，要加强跨行业协同合作，共建开放发展生态。数字人的可塑性极强，在外观继续高仿真演进的同时，“大脑”的拟真尤为重要，这需要人工智能算法对行业的持续积累和理解。同时，领军企业可以协同打造云端开放平台，提供具有“公共产品”属性的标准化组件和通用型工具，带动行业整体数字化水平和能力提升，加快催熟产业。其次，政府主管部门与市场要共同维护发展生态。从业务逻辑来看，无论智能驱动型还是真人驱动型数字人，其行为都是由人来决定。因此，在对新业态包容审慎管理之下，现有的基本管理规范大多可延伸到数字人，对于政府与行业共推标准规范、加强评估评优等有益经验也可直接迁移过来。比如，对于将网络直播里存在的违规行为、擦边球行为，到由真人驱动且身份保密的虚拟网络直播主播领域，就应保持同样的严格准入和管理要求，建议通过补充或修订政策法规的方式予以明确。再比如，基于真人形象的虚拟数字人，原型的权益如何保障、风险如何管理，伦理安全问题又如何充分考量，都需要从业主体加强自律并从合同细则上予以明确。无论元宇宙还是虚拟空间，对违法违规，都没有任何“包容”的空间。