生成式人工智能技术的迅速发展在媒体行业中创造了一种新的动力,以了解如何战略地适应这种技术。有哪些最佳的方法可以利用这项技术提高新闻生产的效率或为受众创造新的体验?但同时:技术参与者带来了哪些威胁?传统媒体是否会再次失去受众的中介?在这一技术转变过程中,新闻业的伦理会发生什么变化?
我很高兴看到开放社会基金会(OSF)在今年早些时候发起了“AI在新闻业的未来项目”。在该项目雄心勃勃的第一阶段,组织者公开招募参与者撰写未来展望的场景,以探讨AI可能对更广泛的媒体生态系统产生的驱动力和影响。在未来5、10或15年内,各种利益相关者可能会发生什么变化?正如我们自己的研究情景构建所示,情景是一种很好的方法,可以捕捉到某个问题的广泛和多样化的视角。这里没有人试图预测未来,但通过理解一系列可能的替代方案,这可以为当前的战略思维提供参考。总计,来自全球约70个国家的800多人撰写了并提交了简短的情景文本。AIJF项目随后利用这些情景作为研讨会的基础,并进一步完善想法,这些内容也在他们编写的报告中有所体现。但在本文中,我想回顾最初那广泛的场景集,OSF很愿意匿名分享了这些情景。
特别地,这里我探讨了(1)在情景中识别出的影响类型范围,(2)影响的时间框架,即某些影响是否与短期、中期或长期的时间框架相关,以及(3)全球差异,如世界各地是否更关注不同种类的影响。显然,您可以针对这些数据提出许多其他问题,例如影响的驱动因素的类型、最终结果及其严重程度、相关方,或情景编写者关注的技术能力。不过,在本次分析中,我将主要关注影响。
数据整理从最初的872个场景开始,首先有20个场景太短(少于50个单词),无法进行有意义的分析。排除这些场景后,我剩下852个场景进行分析。其中有14个场景不是用英语写的,我使用了Google Sheets中的Google翻译功能将它们翻译成英语。为了分析地理分布和时间跨度,我还必须将作者所在国家映射到大洲,并手动将“时间范围”字段转换为表示未来年数的数字。
接下来,我需要从每个场景中提取影响。为此,我使用了一个大型语言模型(比如GPT-4),并提示该模型分析文本并输出提到的一系列独立影响(请参见附录中的系统和用户提示)。调整提示需要一些尝试和错误。最重要的是对“影响”实际是什么进行了仔细的概念化。我基于几个词典定义综合得出的定义是:“影响是指一个行动、事件或其他因素在场景中产生的显著效果、后果或结果。”因此,影响并不一定是场景的最终结果,也可能是中间的某个结果。我还让GPT-4提取出独特的影响,从任何给定场景中提取的影响数量可能是任意的,甚至可能完全没有。每个提取的影响都有一句简短的描述,例如:“有缺陷的AI系统的增多导致信息生态系统受损,从而导致对所有信息可靠性的普遍怀疑”,并附上一个简短的标签,例如:“受损的信息生态系统”。
为了验证影响提取是否如预期般工作,我从五个随机选取的场景中手动检查了提取出的18个影响描述,我检查了如下两点:(1) 这些描述是否符合定义,(2) 每个提取出的影响是否确实存在于场景中,且准确地反映了场景中的影响表述。提取出的影响100%通过了这些检查,因此我对结果更加有信心,并将分析扩展到了整个数据集。最终从852个场景中提取出了3,445个影响。
为了基于3,445个影响描述来构建影响类型分类,我转向了一种新方法,利用大语言模型(LLM)进行定性主题分析。这种方法在斯坦福大学最近的一篇论文中被提出,并体现在一个名为LLooM的工具中(https://stanfordhci.github.io/lloom/)。它通过提炼输入文本,对这些表示进行聚类,然后合成捕捉集群中抽象联系的概念来运行。每个提取的概念还包括一个定义,可用于提示LLM判断原始输入文本是否反映了该概念。例如,对于检测到的“AI个性化”这一概念,该过程还会输出一个评分定义:“文本是否讨论了AI如何个性化内容或增强用户参与度?”使用这些定义,每个影响描述都可以根据每个概念进行评分,以统计出现频率。
人工智能如何影响媒体生态系统按照上面提到的方法使用LLooM,我得到了19个影响主题及其相应的评分定义。
- AI个性化内容或增强用户参与度:文本是否讨论了AI如何个性化内容或增强用户参与度?
- AI用于事实核查或打击错误信息:文本是否提到AI用于事实核查或打击错误信息?
- AI或技术如何影响媒体、机构或公众对信息的信任:文本是否描述了AI或技术如何影响媒体、机构或公众对信息的信任?
- AI如何影响政治竞选、选举或公众意见:文本是否探讨了AI对政治竞选、选举或公众意见的影响?
- 由于AI技术带来的信息真实性验证困难:文本是否讨论了由于AI技术而验证信息真实性方面的挑战?
- AI在数据新闻中的应用,包括数据分析、见解与增强数据新闻:文本是否强调了AI在数据新闻中的应用,包括数据分析、见解与增强数据新闻?
- AI如何改善新闻的传递、分发或可访问性:文本是否描述了AI技术如何改善新闻的传递、分发或可访问性?
- 文本是否探讨了AI工具如何提高新闻业的效率或生产力:文本是否探讨了AI工具如何提高新闻业的效率或生产力?
- 传统媒体如何适应数字或技术变化:文本是否讨论了传统媒体如何适应数字或技术变化?
- 新闻业的商业模式如何因技术而发生变化:文本是否描述了新闻业的商业模式如何因技术而发生变化?
- 技术如何影响受众参与或媒体消费模式:文本是否探讨了技术如何影响受众参与或媒体消费模式?
- 新闻生产或报道方式因技术进步而如何变化:文本是否详细描述了由于技术进步而导致的新闻生产或报道方式的变化?
- 技术如何影响不同媒体平台之间的动态:文本是否讨论了技术如何影响不同媒体平台之间的动态?
- 技术如何影响内容的可访问性和分发:文本是否讨论了技术如何影响内容的可访问性和分发?
- AI如何用于自动化或增强媒体或新闻内容创作过程:文本是否讨论了AI如何用于自动化或增强媒体或新闻内容创作过程?
- AI在技术和内容传播中引入的伦理问题、偏见或困境:文本是否讨论了由AI在技术和内容传播中引入的伦理问题、偏见或困境?
- AI技术如何影响新闻或媒体中的工作角色、技能和就业:文本是否探讨了AI技术如何影响新闻或媒体中的工作角色、技能和就业?
- AI在新闻实践、新闻编辑室操作或新闻生产中的影响和整合:文本是否描述了AI在新闻实践、新闻编辑室操作或新闻生产中的影响和整合?
- AI(包括深度伪造技术)在传播错误信息或影响信息真实性方面的作用:文本是否讨论了AI(包括深度伪造技术)在传播错误信息或影响信息真实性方面的作用?
有些不出所料地,一些场景描述了与AI与事实核查、信任、虚假信息,伦理问题和劳工问题、商业模式以及若干其他问题相关的主题影响。概念之间并不总是像我希望的那样清晰区分。例如,如果我手动进行主题分析,我可能不会将“新闻生产中的AI”和“AI内容生产”区分开。我也不确定是否值得将“新闻生产中的AI”和“新闻生产转变”分开。“AI增强新闻传递”和“内容可访问性”如果从评分定义看,显然是相关的。这样的分类我不会在学术论坛上发布,因为一些概念之间的区分仍然有些模糊。与此同时,我无需花费太多时间(比如数十或数百小时)就能快速概览数据集中的概念,这些类别似乎是有意义的,即使它们之间并没有完全区分清楚。
下一个图表展示了基于从3,445个提取的影响描述的整个数据集以及使用GPT-4对每个场景进行评分以评估其影响后的影响主题的提及频率。“政治操控”位于底部,表明没有很多情景作者关注这一主题,这里的“政治操控”是指利用政治手段操控信息或舆论。“AI事实核查”的出现频率是“AI与错误信息”的一半,这表明更多的情景作者倾向于描绘一个AI被用来传播错误信息而不是对抗错误信息的未来。另一方面,“AI伦理”、“新闻生产中的AI”以及“内容的可访问性”以及“AI内容生成”和“新闻生产转型”在情景中相当普遍。最常见的主题与AI将如何影响新闻活动的核心要素:生产、传播和伦理有关。
19个主题领域的分布。
这也有趣地与OSF报告中提到的影响主题进行对比。例如,实际上,与其他影响主题相比,这些主题在这次分析中出现的频率要低得多。报告还强调了像AI代理的崛起和受众碎片化这样的主题,确实在底层影响描述中有所体现,但出现频率并不高,不足以形成大规模的集群。在这种情况下,AI“代理”仅出现在0.7%的影响中提及,“碎片化”同样出现在0.7%的影响中提及。(您可以参考提取的影响数据)。
因为可能存在未被19个主题捕捉到的有趣但不太普遍的影响,所以我重新运行了聚类分析,这次将最小聚类大小设得更小。这结果产生了数百个新的概念主题,其中一些提供了对长尾效应中的问题的更多见解。比如,“语言障碍减少”和“全球理解”展示了生成式AI促进跨语言信息流通的积极愿景,而“聋人社区支持”和“视障人士辅助”则指出AI如何帮助使内容对边缘群体更加可访问。能源消耗反映了生成式AI使用带来的环境影响。生成式AI不仅可能因个性化导致社会分裂、现实侵蚀以及隐私问题,也可以帮助弥合分歧并生成超本地化内容。在这里,我们看到了AI个性化带来的积极和消极影响,有时是背道而驰的。另一个从长尾效应中浮现的概念是关于历史人物:“文本示例中是否提到了已故公众人物的AI虚拟形象?”——虽然传统新闻机构可能不会采纳这个想法,但它仍然引人深思。
当我们观察较大集群中影响的普遍性时,这可以说明当前关于AI将如何影响媒体的共识所在。而这些特定的影响不仅有助于识别更多可能的长期影响,还可以作为早期的信号,指导进一步研究的方向,甚至激发创新。
世界各地随着时间的变化而产生的影响
这些影响在作者选择的时间框架或作者所在地理位置上会有所不同吗?回答这些问题可以帮助我们了解某些影响是否被认为是在短期内、中期或长期内出现,以及世界上某些地区是否更(或不太)关心某些特定影响。这会影响我们如何通过创新或投资来解决哪些影响的战略思考,以及哪些地区可能认为这些影响对它们最有好处。
从时间轴的角度来看,我通过χ²检验来对比所有影响在短期、中期和长期的时间框架内分布与每个单独影响在时间框架内的分布。这可以说明与整体分布相比,是否有任何影响倾向于这三个时间框架中的任何一个。我发现“AI个性化”略微倾向于长期问题(10年后),而“新闻业商业模式”则略微倾向于中期和长期问题(5年后和10年后)。此外,“AI事实核查”和“AI与错误信息”则倾向于短期问题:更多的场景编写者在小于5年的未来场景中提到了这些影响中的一个问题。例如,总体来说,34.4%的影响来源于5年内的情景,但是45.3%的“AI事实核查”影响来源于该时段。编写者意识到这些事实和错误信息的影响是与AI相关的近期问题,这可能是因为他们已经注意到这些影响正在发生,因此很容易推断这些问题将在近期持续存在。
我做了一个类似的分析,通过按作者所在的洲来分组看全球影响的分布。我发现,“AI事实核查”在非洲和亚洲作者的场景中更常见,而在欧洲和南北美作者的场景中较少出现。“AI与错误信息”在非洲作者的场景中较少提及,但在亚洲作者的场景中较多提及。这表明,非洲和亚洲的作者对AI增强事实核查过程持乐观态度,但只有亚洲作者更关注AI对媒体生态系统中错误信息的影响。“政治操控”在非洲和南美洲作者的场景中较少提及,但在亚洲作者的场景中更多提及。“新闻业商业模式”在非洲和亚洲作者的场景中较少提及,在欧洲作者的场景中则更常见。
这里有几个要点:分析了来自世界各地的852个情景,关于AI将在未来5到10年甚至15年内如何影响媒体生态系统,存在相当多的共识:新闻生产和传播的核心活动预计将发生变化,领域伦理需要适应这些变化。编写这些场景的人认为,AI可以提高效率并推动数据新闻的快速发展,但也可能威胁记者的职业发展。我们已经看到这些变化正在一些媒体生态系统中发生。正如威廉·吉布森所说过的:“未来已经到来——只是尚未普遍出现。”
在更广泛的讨论中,我们看到了人们对人工智能个性化可能性的探讨,它对商业模式的影响,以及增强诸如事实核查等活动,这些活动对于新闻业至关重要的准确性要求,并且还提到了政治操纵的风险。我们还看到了一些积极潜力的暗示,例如减少语言障碍或实现超本地内容生产。未来的研究可能会更有成效地深入探讨这些较小的影响集群。可以对每个19个高层次影响主题群组进行单独的聚类分析,或者手动逐一分析影响,以生成任意小的子群。
我还发现,人们对哪些影响是短期的,哪些是长期的,存在不同的看法。例如,与错误信息相关的影响被认为更紧迫,而个性化则被认为是稍远一点的影响。个性化有趣之处在于,它虽然不是最普遍的主题,但也并非罕见,出现在超过400个影响描述中。考虑到它长远的影响,这可能是一个需要关注并及时投资的对象,因为它被相当一部分人视为AI可能在媒体领域发挥作用的一个潜在方向。同样,世界各地存在一些差异,考虑到特定的媒体生态系统背景和不同的场景撰写者如何看待事物的发展,这合情合理。例如,商业模式是欧洲特别关注的话题,但在其他地区则没有那么重要。
这些发现说明,对于人工智能未来影响的设想并非完全一致,而是与编写者个人视角及特定生活生态系统有关系。这是一个重要的发现,因为广泛参与的目标之一是尝试捕捉多样化的视角,增强我们对人工智能在不同媒介环境中可能产生影响的理解。
附录系统提醒:
你总是基于提供的书面场景来分析数据,是一位专业的场景分析专家。
用户说了什么:
影响是指一个行动、事件或其它因素在某个情景中产生的显著效果或结果。
驱动力是来自宏观环境中的某个因素,如社会、经济、政治、环境、技术或其他社会因素,在某种情境中产生影响或作用。在此情境中,驱动力必须与人工智能(不论是现有的还是潜在的)所提供的功能明确相关。
看看下面这个情况,找出一个或多个明显的影响。这些影响可能是由某个因素或之前的影响造成的。
{"impacts": [{"description": "为每个影响提供一个详细的描述和2到4个词标签。每个影响需一个句子描述和2到4个词标签。确保这些影响彼此独立且不相关。如果没有影响,输出一个空列表。请仅用以下格式回复有效的JSON:{“impacts”: [{“description”: “<IMPACT_1_DESCRIPTION>”, “label”: “<IMPACT_1_LABEL>”}, {“description”: “<IMPACT_2_DESCRIPTION>”, “label”: “<IMPACT_2_LABEL>”}, … ]}。”}]}
###场景###