布鲁金斯学会评论｜自主系统在军事领域应用的局限性

前言

2003年3月22日，在美国领导的入侵伊拉克两天后，美国军队向他们认为是旨在摧毁防空系统的伊拉克反辐射导弹发射了爱国者拦截导弹。根据他们的计算机武器的建议，美国人在自卫中开火，以为他们正在击落一枚来摧毁他们的前哨基地的导弹。爱国者导弹系统确定为来袭导弹的实际上是一架英国龙卷风战斗机，当爱国者击中飞机时，两名机组人员全部遇难。这些死亡是皇家空军在战争中遭受的第一批损失，也是友军开火的悲惨后果。

随后的英国皇家空军调查委员会调查得出结论，击落是多种因素的结果：爱国者导弹对目标的分类，发射导弹的规则，爱国者导弹电池的自主操作以及其他一些技术和程序因素。报告总结说，击落龙卷风战斗机代表了智能导弹系统会带来可怕的悲剧。

龙卷风的击落发生在近20年前，但它提供了一个视角，即在战场上使用人工智能或自动化工具将如何影响战争中发生的各种错误。今天，人类的决策正在转向机器。随着这种转变，有可能减少人为错误，但也有可能引入新的错误类型。人类可能曾经将平民误认为是战斗人员，而计算机有望介入并提供更准确的判断。但是，在军事应用中采用人工智能也带来了巨大的风险。

“龙卷风”事件缘由

爱国者导弹在1960年代开始发展，当时美国陆军寻求一种可靠击落敌机的方法。后来，导弹获得拦截其他导弹的能力，并且随着分配给导弹的角色的扩大，其自主能力增加。自动化是防空，特别是反导弹系统的一个引人注目的特征。击落飞机和导弹所涉及的计算很困难，需要立即转换传感器信息。拦截器和目标都以异常快的速度行进。在这种任务中，人类的参与会使得决策滞后，并使导弹不太可能成功击落来袭的射弹或飞机。但人类操作员也起着至关重要的作用：防止意外的击落。这需要在人类和机器决策之间取得平衡，而这很难实现。

如果美国和联军在战争中面临重型导弹袭击，那么自动化防御将更有意义。相反，美国和盟军迅速建立了空中优势，足以彻底改变天空中的平衡态势。爱国者炮台没有面对大量来袭导弹，而是观察大量盟军飞机在其上方的天空中运行，有时甚至难以识别敌人。根据国防科学委员会的特别工作组的数据，在伊拉克战斗的前30天里，爱国者炮台可能预期要反击的九次弹道导弹袭击，而友军飞机出动量为41，000架次，相当于“4000对1的敌友比”。在大量潜在误报的背景下挑选出正确的目标极具挑战性。

“敌友识别”系统是一种旨在避免此类致命错误的安全措施。这种安全、即时传输的信息可以防止自动化系统击落喷气式飞机。如果将信息传达给操作爱国者的人类机组人员，攻击将会停止。然而这一系统同样存在着失败的可能。

虽然在检查击落或更广泛的自主和半自主系统时，人们很容易关注爱国者系统的自动化功能，但重要的是要将此类武器视为更广泛系统的一部分。随着政策制定者考虑如何评估日益自主的武器和军事系统的部署，这些系统的复杂性，它们可能失败的方式以及人类操作员的监督方式是需要考虑的关键问题。通信、识别和火控方面的故障可能发生在许多节点上，并且很难预测故障将如何相互作用并产生潜在的致命结果。

教训

在自主机器和依赖它的人之间找到正确的信任组合是一种微妙的平衡，特别是考虑到错误的必然性。在龙卷风被击落十七年后，爱国者导弹的自动化功能仍然存在，但它们的使用方式已经发生了变化。空中威胁，如飞机，直升机和巡航导弹，现在只能以手动模式进行。在手动模式下，自动化系统仍然可以检测和跟踪目标，但由人类决定何时以及是否开火。但是，对于弹道导弹和反辐射导弹，操作员可以选择自动或手动模式。

国防研究人员警告说，人类并不适合以这种方式监控自主系统。当自动控制系统被开发出来时，可能会出现问题，因为它可能比人类操作员更好地完成工作，但是操作员很难尽善尽美地监控自动化系统是否正常运行，并在意外情况下进行干预。爱国者导弹在正确识别潜在目标方面面临的种种困难说明了自主武器面临的最严重的挑战之一——获得准确的训练数据。随着军队在各种系统中走向更大的自主性，他们越来越依赖机器学习技术，该技术使用大型数据集来预测机器应该如何运行。冲突环境是严酷的，动态的和对抗性的，战场的现实世界数据总是比建立和验证自治系统的有限数据样本有更多的可变性。缺乏可靠的数据或无法生成复制战斗条件的数据集，将使自主武器更有可能无法进行准确的识别。

人工智能参与军事自主化

在意识到自助武器系统可能存在的潜在问题后，人工智能已经参与到风险管理方法中。人工智能将不希望发生的结果纳入到诊断库中，使得传感器和信息显示的规划错误可以被更有效地识别并呈现，而不会增加操作者的认知负荷。

五角大楼已经采取了一些措施来应对人工智能自主武器所带来的风险。2020年2月，国防部发布了一套由国防创新委员会起草的人工智能伦理原则。其中一项原则是“可追溯性”，强调相关人员要“对技术有适当的了解”，包括透明和可审计的数据方法。为了促进这种理解并确保非确定性系统可以被审计，五角大楼正在投资人工智能的测试、评估和验证方法。为军事人工智能应用开发测试和可解释性工具是该技术面临的主要挑战之一，而进行必要的投资来开发这些工具将是负责任地在战场上部署人工智能工具的关键。

在军事应用中部署人工智能的这个相对较早的阶段，研究人员和政策制定者必须开发一种更细粒度的计划，用于区分不同类型的故障。通过制定标准来区分已知与未知的问题，政策制定者可以更清楚地了解人工智能系统是如何失败的，这可以帮助量化运营中的风险，并为数据问题引起的意外伤害分配应有的责任。另一种政策方法是将对抗性纳入人工智能产品的评估中，因为它将允许军事人工智能的工程师预测和计划基于敌对行动的战斗。

人工智能带来的额外挑战将不在于错误本身，而在于错误可解释性的局限。深思熟虑的政策制定可以预见到这一点，并避免使其将人民的安全置于危险之中。

文章来源：布鲁金斯学会

原文链接：

https://www.brookings.edu/techstream/understanding-the-errors-introduced-by-military-ai-applications/

原作者：Kelsey Atherton

译者：吴宇昂