BBC实验室揭秘:如何制作半自动化新闻?生产流程全公开
编者按:本文来自微信公众号“全媒派”(ID:quanmeipai),作者腾讯传媒,36氪经授权发布。
你或许之前在BBC新闻网站上看到过“自动化生产”报道。半自动化新闻如何给读者带来更多切身本地新闻?本期全媒派(ID:quanmeipai)为您带来BBC新闻实验室工作人员罗奥·赫顿对“自动化生产新闻”项目Salco的一些介绍。
BBC每天通过电视、地方电台和网络为数百万人带来记者所驻地的新闻。为了让付费读者的钱不白花,记者报道与读者相关的新闻显得无比重要,而相关往往意味着新闻本地化。BBC如何才能报道更多这样的报道故事?“自动化生产”或许是他们探寻的新出路。
挑战
社交媒体兴起后,人们对所在地正在发生的事情了解开始更为深入,人们期望媒体应该做到让本地新闻可以频繁被报道及保证其内容的特殊性。众所周知,本地电台和报纸囿于满足“新受众”的期望,维护本地新闻已成为行业内艰难的一大挑战。在资源有限的环境下,如何才能满足受众对优质内容的期待?
BBC新闻实验室希望在不大幅增加工作量的情况下,为本地读者带来内容丰富、数据支撑的报道故事。过去几个月里,BBC新闻实验室和BBC英语地区的同事们一起进行了一个名为Salco(Semi-Automated Local Content半自动生产本地内容)的实验项目。罗奥和同事塔思明·格林开发了一个每个月可以生成100多个独特的报道故事生产渠道。读者每天看本地新闻时,可以在直播页面上了解本地医院的急诊情况。这是BBC报道新闻的一种新方式,也是BBC新闻实验室目前与编辑部的最佳灵活合作。
BBC并不是第一个采用自动化新闻生产的新闻机构。过去15年来,美联社一直在根据季度收益报告生产新闻;地震几分钟后,《洛杉矶时报》的地震机器人(QuakeBot)就会对之进行报道;英国报业协会(Press Association)的雷达(RADAR)一直在为英国地方媒体提供数以千计的数据新闻报道。BBC深思熟虑后,Salco只是其对自动化新闻生产实验的第一步。他们已经从行业先驱们所做的事情中受益。然而,BBC报道方法略有不同,因为他们生成丰富的图表报道,并通过BBC拿手的在线本地新闻将报道呈现给相关受众。
为了实现这一目标,内容编辑和技术创新的工作人员进行了考究的合作,并提出了一些困难但有趣的问题:
BBC接受自动新闻编辑吗?
记者和编辑们会乐意发表不是他们自己写的文章吗?
读者会乐意阅读机器生产的报道吗?
技术角度看,这是一种完全不同的报道筹备方式:在仍然存有编辑们希望的新闻监督的同时,如何整合BBC现有的出版系统?
Salco简介
Salco将数据处理、报道生产和编辑批准合并为一个简单的“单击”过程。该过程首先先收集原始数据,并根据记者设计的模板自动生成丰富的本地报道故事。然而,这种简单性掩盖了由五部分组成的复杂步骤:
1.处理从NHS(National Health System国家医疗体系)获得的数据,提取BBC感兴趣的部分;
2.根据记者编好的模板为每个NHS信托机构编写稿件;
3.为每篇稿件生成图表,以BBC的方式总结数据;
4.预览每一篇报道,以便记者能够核实和批准;
5.将每个报道故事发布到适当的位置及主题页面。
数据处理
英国国家医疗体系NHS每月都会发布一系列数据,公布医疗服务运行情况。BBC对这些数据的利用也给NHS追踪系统提供了动力,该系统允许读者将本地NHS信托基金业绩与全国其他地区进行比较。
BBC新闻实验室在负责视觉新闻的朋友帮助下,完成了Python脚本撰写。这个系统每个月会下载并处理跟踪器的数据。下载多年历史业绩数据,系统还会解释了每个国家的卫生服务如何构建其数据及其设定目标的不同。在解释后,可以呈现出像这样的分析:
庞大的数据,比如病人在4小时内就诊的百分比
基于历史数据的附加分析,例如最后一次达到目标的月份
跨数据集的比较分析,例如信托基金的级别
来自其他数据源的上下文编辑,如本地医院的口头名字
BBC构建这些脚本后,并对它们进行了修改,使它们能够在BBC的云基础设施中运行,并专注于英国的急救数据。脚本可以连接NHS提供的原始数据,从而形成数据集,以及再加上修改后的报道最终版被称为报道模型。它不是单纯地用数字来呈现,而是还包含了解释自然语言后的数据内容,比如会以“131家信托基金中的35家”和“自2017年成立以来未达到预期目标的信托基金”可以直接嵌入稿件中的数据呈现。
在这个过程结束时,会形成一个数据集,其中每一行都代表着一篇潜在的稿子,而每一列代表着记者可能需要利用的完整语境。这个数据集存储在“Amazon S3 桶”(Amazon S3 bucket )中,下一阶段将会用到这部分。
稿件生产
自动将数据转换为文章称为自然语言生成(naturallanguage generation ——NLG)。在这个部分中,BBC新闻实验室使用Arria NLG Studio,这个三方工具允许记者生成将数据转换为新闻文章所需的复杂模板,然后在样本数据上试用这些模板,对比不同的形成报道阅读效果如何。这是一个逐渐更替的过程。在这个过程中,记者可以看到如何通过优化模板来改进文本。
与传统的报道写作不同,记者不是写写某一天他们面前的数据就好,他们还要预测数据中可能出现的结果。例如:
一家NHS信托数年来首次达到目标;
一家保持着无懈可击记录的医院;
冬季流感爆发后业绩的突然下降。
这项任务特别难,需要记者的创造力来搭建丰富的模板,其中的空白不只是用简单的数字和报道故事模型中的百分比来填补。BBC新闻实验室和BBC英语地区数字团队的同事一起在英格兰东部工作实验,研究了BBC以前关于急救业绩的文章,确定可重复结构和用于讲述此类报道故事的叙事线索。在此基础上,他们发现了一些新表述,并进一步充实了模板。
处理后的报道模型从S3桶中下载,并传递给Arria的应用程序界面。Arria使用此模板为数据中的每一行生成一篇稿件。生成的报道故事然后通过Amazon的关系数据库服务(RDS)写入MySQL数据库,随后显示在BBC的编辑仪表板中。
图表生产
深度工具包(In-Depth Toolkit——IDT)是BBC为新闻报道添加数据可视化和其他图形的工具。通常情况下,记者会根据特定的报道需要单独准备图表,但显然,如果要生成数百个报道故事,这种方法就不奏效了。BBC新闻实验室与维护IDT的数据呈现团队合作,创建了一个系统。该系统可以填充一个描述“数据图片”的图片模板,从而强调报道中的重要数据。当最终的报道故事发布时,这将被呈现为一个图像。罗奥表示,这个令人振奋的开发表明了IDT现有的基础设施可以用这种新颖的方式自动生成图形模板。
每篇报道都会有属于自己的JSON呈现(JavaScript Object Notation)。为了增加多样性,BBC实验室还将库存照片添加到图表中。他们还编写了程序来验证图形是否可信有效,并将其存储在IDT的基础设施中,从而形成一个惟一的标识符,这样BBC实验团队就可以将这个图形嵌入到最终的报道中。
审查报道
BBC实验团队构建了一个简单的仪表板,它列出了生成的报道稿件,并将它们发送到BBC发布平台Vivo,以便记者检查系统生成新闻的质量和准确性。
仪表板是用React web应用程序编写的,它可以呈现存储在RDS数据库中的所有稿件的信息。当记者准备发布这些报道时,BBC新闻实验室会给BBC的Vivo API打很多电话,从而在适当的流媒体中为该地区创建报道草稿。
稿件刊发
记者们可以核查发布平台Vivo中每一篇报道。
当用户在BBC新闻网站上输入他们的邮政编码时,他们会看到根据稿件中的位置标签而呈现的定制范围内的本地新闻流。这个推送的实现是由内容发布平台Vivo实现的。Vivo平台允许新闻工作者将简短的文本更新与相关图片视频,以及嵌入的内容(比如推特)结合起来,来管理流媒体。
Salco会结合Arria的文本和IDT数据图片,为其生成的每篇文本稿件形成一篇Vivo推送草稿。然后,它会自动将草稿与相关的NHS信托机构位置联系起来,以便推送给正确的目标受众。负责管理该地区直播的记者可以在他们到达时发布这些报道。但BBC新闻实验室预计,一旦我们对Salco制作的新闻质量建立信心,报道过程就会完全自动化。
之后,新闻报道就会以流的形式呈现给住在某家医院附近的人,同时防止读者被来自他们所在地区的数十个类似报道故事淹没。
经验总结
通过这次试验,BBC新闻实验室希望建立必要的基础设施——包括技术上的和编辑上的——来支持BBC迈向自动化叙事的第一步。BBC越来越愿意尝试报道新闻的新方式,这一点从此项试验中获得了BBC多个团队编辑和技术支持中就可以看出。自动化新闻模板撰写不是一项简单的任务,而且记者看到他们的工作被分解成算法组装的模块可能会感到不舒服。“机器”写报道故事的概念有时被嘲笑为“机器人新闻”。但罗奥表示,BBC新闻实验室想要分享的是如何在新闻中敏锐地使用自动化,从而增强而不是取代新闻工作。
罗奥表示,尽管目前主要讨论的都是所需技术基础设施,但BBC新闻实验室始终认为自动化新闻的挑战在于基础的文本编辑。
再多的自动化也无法取代组织建构和讲述好新闻故事的技能,BBC实验室认为Salco是这种技能的补充,而不是它的取代物。
要想做到这一点,就必须依靠记者的专业知识,并要求记者无论是通过新技术方面还是编辑思维方面,都得愿意转换方式做事。在新闻中采用自动化的一个挑战是,为了适应新的工具和工作流并构建强有力的模板,可能需要进行大量的前期工作。然而,这会被模板所带来的后期价值所抵消,因为负责这些项目的记者重返其他报道工作很久之后仍然会觉得他们参与设计的模版是一种资产。
在这个项目中,BBC新闻实验室用了一段时间才让记者熟悉工具,然后发现让他们编写有表现力的模板才是最有效的。这样做有几个原因:最重要的是,这意味着Salco制作的新闻和BBC的其他报道故事有着相同的语气和特点,而不是枯燥地重复统计数据。这也符合BBC新闻实验室的价值观:自动化新闻并不是要取代记者或淘汰掉记者,而是让他们能够讲述更多的报道——不管他们是直接发布我们生成的稿件,还是将他们把这些稿件作为讲述自己报道故事的基础模版,因为这样可以节省他们分析基础数据所需时间。
未来动向
Salco最初的试点已经取得了成功,实现了BBC新闻实验室的初始目标:在BBC新闻网站上创建一定规模的自动化报道所需的工具和程序。
BBC新闻实验室有更多这样报道新闻的经验后,下一步将会探寻自动化生产如何满足读者需求。罗奥表示,BBC新闻实验室知道读者重视本地新闻,但这是他们想要的阅读方式吗?Salco项目还处于早期试验阶段,BBC新闻实验室希望扩大用这种方式讲述的新闻种类以及方式的丰富性。
相关推荐
BBC实验室揭秘:如何制作半自动化新闻?生产流程全公开
每周阅读新闻时间不超过8分钟,《卫报》、BBC如何让年轻用户“看见”?
人工智能2019:一边赋能媒体,一边掀起争议
自动化新闻案例集结:国际媒体新闻编辑室如何利用AI?
揭秘P4实验室:10道门,能否锁住致命病毒
揭秘微软实验室:Surface Hub 2S或彻底改变工作方式
新闻编辑室如何应对deepfake?
揭秘苹果的 iPhone 回收实验室:每小时拆解200部手机
一年诞生12000个新闻播客,小而美市场肩负媒体大使命
尼曼新闻实验室:忧虑之下,播客业如何从黑天鹅事件中脱身?
网址: BBC实验室揭秘:如何制作半自动化新闻?生产流程全公开 http://www.xishuta.com/newsview4158.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94930
- 2人类唯一的出路:变成人工智能 19070
- 3报告:抖音海外版下载量突破1 18777
- 4移动办公如何高效?谷歌研究了 18316
- 5人类唯一的出路: 变成人工智 18170
- 62023年起,银行存取款迎来 10108
- 7网传比亚迪一员工泄露华为机密 8155
- 8顶风作案?金山WPS被指套娃 7088
- 9大数据杀熟往返套票比单程购买 7037
- 10五一来了,大数据杀熟又想来, 6702