《加州生成式人工智能训练数据透明度法案》(AB 2013)
《加州生成式人工智能训练数据透明度法案》(AB 2013)是美国首部专门针对生成式人工智能训练数据进行透明度监管的法律。它已于2024年9月28日由州长签署成为法律,并将于2026年1月1日正式生效。
这项法案的核心,是为生成式AI系统的"黑箱"问题引入一束光,通过强制披露训练数据的来源和构成,赋予公众、消费者和创作者前所未有的知情权。
一、核心内容:强制披露训练数据
AB 2013的核心义务非常简单直接:要求相关AI开发者在其网站上公开其训练数据的"高层级摘要"(high-level summary)。
(一)适用对象(谁是"开发者"?):法案对"开发者"的定义非常广泛,不仅包括从零开始设计、编码、生产AI系统的实体,也包括那些对现有生成式AI系统进行"实质性修改"(substantially modifies)的个人或组织。这里的"实质性修改"指通过重新训练或微调等方式,显著改变系统功能或性能的新版本或更新。
(二)适用系统:法案适用于所有在2022年1月1日当天及之后首次发布或经过实质性修改,并向加州公众(无论免费或付费)提供的生成式AI系统或服务。
(三)披露什么?:开发者必须在系统发布或重大更新前,在其网站上公布文档,详细说明训练数据。这份"高层级摘要"必须至少包含以下12项信息:
1、数据来源/所有者:数据集的来源方或所有者是谁。
2、目的相关性:数据集如何服务于AI系统的预期目的。
3、数据量级:数据集包含的数据点数量(可用大致范围或动态数据的估算值表示)。
4、数据类型:数据点的类型描述(如使用的标签类型或未标注数据的一般特征)。
5、知识产权状态:数据集是否包含受版权、商标或专利保护的数据,或是否完全属于公共领域。
6、获取方式:数据集是否为开发者购买或获得授权。
7、个人信息:数据集是否包含《加州消费者隐私法案》(CCPA)中定义的"个人信息"。
8、聚合信息:数据集是否包含"聚合消费者信息"。
9、数据修改:开发者是否对数据集进行过清理、处理或其他修改,以及这些工作的目的。
10、收集时间:数据集中数据的收集时间段,并说明数据收集是否仍在进行。
11、首次使用时间:数据集在AI系统开发过程中首次使用的具体日期。
12、合成数据使用:AI系统的开发是否使用或持续使用"合成数据生成"技术。
(四)豁免情形:以下三类系统可以免于遵守该法案:
唯一目的是确保安全和完整性的系统(如网络安全防御)。
唯一目的是操作国家空域中飞机的系统。
为国家安全、军事或国防目的开发,且仅提供给联邦实体使用的系统。
二、具体要求:12项披露内容
法案明确规定了其必须包含的12项具体内容,详细列明如下:
(一)数据集的来源或所有者,明确指出训练所使用的数据集来自哪里,或归谁所有。
(二)数据集如何服务于AI系统的预期目的描述,所使用的数据集与系统 intended purpose 之间的关联性。
(三)数据集包含的数据点数量可以用大致范围表示,如果是动态数据集,则提供估算数字。
(四)数据集中数据点类型的描述,对于有标签的数据集,说明标签的类型;对于无标签的数据集,说明其一般特征。
(五)数据集的知识产权状态,明数据集是否包含受版权、商标或专利保护的数据,或者是否完全属于公共领域。
(六)数据集是否由开发者购买或获得授权,披露训练数据的获取方式是否涉及购买或授权。
(七)数据集是否包含"个人信息",此处"个人信息"的定义与《加州消费者隐私法案》(CCPA)中的定义一致。
(八)数据集是否包含"聚合消费者信息" ,同样遵循CCPA中的定义。
(九)开发者对数据集的修改情况,说明是否对数据集进行过清理、处理或其他修改,并阐述这些工作的目的。
(十)数据收集的时间段,说明数据集中数据的收集时间跨度,如果数据收集仍在进行中,也需注明。
(十一)数据集首次使用的时间,披露在AI系统开发过程中,首次使用该数据集的具体日期。
(十二)是否使用或持续使用合成数据,说明AI系统的开发是否使用了"合成数据生成"技术。
三、重点关注:法律的不确定性与潜在挑战
尽管AB 2013的意图明确,但其法律文本中存在一些模糊地带,成为业界和法律界关注的焦点:
(一)"高层级摘要"的尺度:这是最大的争议点。开发者究竟需要披露多详细的信息?是一份笼统的汇总,还是需要细化到每个数据集的层面?例如,是仅仅列出"我们从某个数据经纪商那里购买了数据",还是需要说明从该经纪商处获得了哪些具体类型的数据?这个尺度将直接决定法案的效力。
(二)商业秘密与知识产权的冲突:法案没有为商业秘密提供明确的豁免。训练数据的构成、来源和清洗方式,往往是AI公司的核心商业机密。强制披露可能导致这些机密外泄,削弱公司的竞争优势。知名AI公司xAI已于2025年底提起诉讼,主张该法案违反了宪法第五修正案的"征收条款"和第一修正案,正是这一冲突的集中体现。
(三)"实质性修改"的门槛:什么是"实质性修改"?法案定义仍不够清晰。对于一个通过微调基础模型来提供特定服务(如客服机器人)的公司,其修改行为是否达到了需要遵守AB 2013的程度,有待进一步澄清。
(四)执行机制:法案本身未指定执行机构或处罚措施-1-3。但立法分析指出,它很可能通过加州的《反不正当竞争法》来执行,这意味着州检察长可以提起诉讼,并且可能赋予了私人诉讼的权利-2-10。这让企业面临潜在的诉讼风险。
四、立法背后:重点保护的四大价值
AB 2013的出台,反映了加州立法者在推动AI发展中寻求平衡的深层考量,其核心保护价值体现在四个方面:
(一)消费者知情权与选择权:这是最直接的立法目的。法案发起人表示,旨在让消费者能够"更好地评估他们是否对某个AI系统或服务有信心,并在不同的竞争系统和服务之间进行比较"。通过了解训练数据的来源和质量,用户可以判断一个AI模型是否可能存在偏见、是否可靠,从而做出更明智的选择。
(二)知识产权保护:大量AI模型的训练数据中包含了受版权、商标等保护的作品。法案要求开发者明确披露训练数据中是否包含受保护的知识产权。这为版权所有者(如艺术家、作家、软件开发者)提供了关键信息,让他们能够了解自己的作品是否被用于训练AI,并据此评估自身权利是否受到侵害,为潜在的维权行动提供了基础。
(三)个人隐私保护:通过要求开发者声明训练数据中是否包含CCPA定义的"个人信息"或"聚合消费者信息",法案将AI训练与既有的消费者隐私保护框架联系起来。这使得隐私权倡导者和监管机构能够监督,AI公司是否在未经授权的情况下,使用个人数据训练模型。
(四)促进负责任的创新:虽然增加了合规成本,但法案的根本目标并非阻碍创新。通过提高透明度,立法者希望建立一个更具信任度的AI发展环境。当公众对AI的工作原理有更清晰的认识时,可能会更愿意接受和使用它。同时,透明度也能促使开发者更审慎地选择训练数据,从源头减少偏见、歧视等问题的产生,推动AI向更公平、更可靠的方向发展。
五、法案原文获取
您可以访问加州立法信息官方网站查阅AB 2013的最终章节版法案全文:官方链接:https://leginfo.legislature.ca.gov/faces/billNavClient.xhtml?bill_id=202320240AB2013
在该页面选择 "10/07/24 - Enrolled" 或 "09/28/24 - Chaptered" 版本,即为最终通过的法律文本。
AB 2013代表了AI监管从结果导向到过程透明的重要转变。它像是给每个AI模型建立了一份"成分表",虽然目前还存在一些争议和不确定性,但其揭示的趋势非常明确:透明度将成为未来可信AI的基石。
免责声明:本网部分文章和信息来源于互联网,转载出于传递更多信息和学习之目的。如转载稿涉及版权等问题,请立即联系我们,我们会予以更改或删除相关文章,保证您的权利。
