你的位置:亚搏app官方网站 > 真人下注 > 亚搏app官方网站 人工智能数据的真实性、同意权与来源追踪
亚搏app官方网站 人工智能数据的真实性、同意权与来源追踪
发布日期:2026-02-11 04:00    点击次数:170

亚搏app官方网站 人工智能数据的真实性、同意权与来源追踪

基础模型的能力突破在很大程度上得益于规模庞大、来源广泛且文档记录不足的训练数据集。但当前的数据收集实践在追踪真实性、验证同意权、保护隐私、解决代表性与偏见问题、尊重版权以及整体开发符合伦理且可信的基础模型等方面面临诸多挑战。对此,监管层面正强调训练数据透明度的重要性,以明确基础模型的局限性。基于对基础模型训练数据现状及现有解决方案的大规模分析,本文揭示了支撑负责任基础模型开发所缺失的关键基础设施,分析了现有数据真实性、同意权与文档记录追踪工具的局限性,并阐述了政策制定者、开发者和数据创作者如何通过采用统一的数据来源标准来促进负责任的基础模型开发。

一、数据来源追踪的必要性

过去十年间,来自网络新闻、社交媒体、百科全书等数据,已成为GPT-4、Whisper等通用生成式智能消费技术的关键资源。这些模型的训练数据多样,涵盖从网络爬取、人工生成或手动整理的文本、图像和音频数据。然而,这种大规模爬取、获取和批量生产松散结构化数据的竞赛带来了一系列后果。当前的数据收集实践普遍存在来源广泛且打包使用的情况,却未追踪或审查原始来源、创作者意图、版权和许可状态,甚至基本的构成和属性。元数据缺乏透明度,且缺乏可追踪这些元数据的公共基础设施,导致开发者陷入伦理和法律困境。未经充分调查就用于训练的数据已引发诸多现实问题。例如,LAION-5B数据集曾是Hugging Face平台上最广泛使用的文本到图像数据集之一,但在被报告包含数千张儿童性虐待材料(CSAM)图像后被下架。部分数据源的使用引发了知识产权纠纷,最终导致Stability AI、OpenAI等公司面临诉讼。此外,有证据表明,基础模型可能泄露个人身份信息(PII)、生成非自愿私密图像(NCII)、制造虚假信息或深度伪造内容,并放大偏见或歧视。训练完成后从模型中撤回或“遗忘”数据的相关方法,当前仍存在可靠性不足的问题。这类方法往往难以彻底清除目标数据对应的信息残留,且在数据撤回过程中,可能对生产模型的既有性能、泛化能力等其他关键维度造成负面影响,进而显著制约了其在实际场景中的推广应用价值。因此,关于训练数据的早期选择具有长期影响,迫切需要相关资源帮助开发者发现并充分了解不同训练数据集的收益与风险。这些问题推动了新的数据基础设施和框架的发展,以克服负责任地获取训练数据所面临的挑战。现有生态系统中存在一些用于基础模型数据管理的工具,但这些工具往往忽略了问题的关键方面,与并行标准或工具缺乏互操作性,或尚未实现广泛采用。本文认为,尽管针对该问题的不同要素存在多种解决方案,但完整的数据来源追踪系统尚未形成,亟需一个致力于数据属性结构化文档记录的统一框架,这需要多个利益相关者共同采取行动。

展开剩余72%

二、数据来源追踪的关注度与监管动向

现有追踪人工智能数据来源的规范存在显著缺陷,热门智能系统甚至不披露其训练数据的基本信息。业界呼吁进行更系统、更全面的数据文档记录体系,然而从实际落地情况来看,这些呼吁的采纳程度与执行标准存在显著差异。对于所谓的“数据集的数据集”,其文档记录问题尤为突出,kaiyun体育app这类大规模集合包含数百个数据集,由于缺乏标准结构,原始来源信息往往被忽视或丢失。同时,从业者呼吁提高数据透明度、加强数据供应链和生态系统监测、进行内容真实性验证、为可重复、可解释和可信的智能系统提供详细的来源追踪,并专门建立一个标准化数据库来记录可信数据。这些需求引起许多国家的监管机构和立法者的广泛关注并积极响应。美国和欧盟已在数据透明度方面采取了重要措施,所颁布的系列政策中均包含与透明度、来源追踪以及深入了解人工智能模型输入相关的条款。其中,《欧盟人工智能法案》特别明确了基础模型提供商在训练数据来源追踪方面的具体要求。加拿大当局提出的自愿行为准则呼吁模型开发者发布训练数据描述,联合国机构也建议制定关于数据权利的国际法规,将透明度纳入其中。研究人员和立法者的关注,推动了本文关于数据来源追踪和透明度统一框架的研究。虽然此类标准不能直接解决人工智能风险,但它们是评估风险和促进更负责任的人工智能发展的关键前提。

{jz:field.toptypename/}

三、数据来源追踪的法律维度

(一)来源追踪和版权

人工智能模型可能通过两种方式侵犯版权权益。一是训练模型可能侵犯训练数据中作品的创作者或训练数据语料库创建者的版权;二是人工智能模型的特定输出可能侵犯训练数据中单个作品相关的版权。人工智能模型有时会产生与预训练数据中的内容高度相似的输出,从而可能侵犯这些作品创作者的权利,而这些创作者很少同意其内容被使用。需要强调的是,尽管预训练数据的使用可能受合理使用原则保护,但这并不意味着特定输出不会构成版权侵权。同时,指令微调和平行数据集的使用方式往往不符合其许可协议,这些数据集包含专为训练机器学习模型而创建的表达元素,因此其用于该目的不太可能受合理使用原则保护。强大的数据来源追踪标准有助于解决与人工智能训练中使用受版权保护材料相关的诸多重要问题。对于预训练和微调而言,亚搏手机app下载标准的数据来源追踪框架能帮助降低法律风险,助力版权权益的执行。版权侵权的关键在于是否接触过受保护作品,因此了解训练模型所使用的数据集以及这些数据集中包含的作品,对于评估版权问题至关重要。

(二)人工智能监管

《欧盟人工智能法案》和拜登发布的《关于安全、可靠和负责任地发展和使用人工智能的行政命令》均直接或间接地强调了人工智能系统透明度的必要性。两份文件都要求向消费者明确传达人工智能系统的局限性。法案要求高风险人工智能系统披露其训练、验证和测试数据集的相关信息,以及基础模型所使用的受版权保护训练数据的摘要,其中的技术规范包括数据获取、标注和处理方式等具体的来源追踪信息。同时,行政命令鼓励监管机构强调人工智能模型的透明度要求,以保护消费者。

{jz:field.toptypename/}

(三)立法者在鼓励负责任人工智能实践中的作用

本文呼吁数据集创作者、模型开发者、研究人员和立法者采取行动。通过了解人工智能生态系统的本质,立法者可以制定激励措施,鼓励更好地记录新数据集和审计现有数据。尽管“透明度”在人工智能监管中往往定义不明确,但监管机构可以利用透明度义务,鼓励模型开发者记录其训练数据的相关信息。此外,政策制定者可以为数据来源追踪相关研究提供资金支持。目前,存在一些不合理的激励因素阻碍许多公司披露其数据集信息,因为这样做可能会增加面临法律诉讼的概率。立法机关可以考虑为向监管机构和公众提供其数据集必要信息的组织提供安全港保护。

四、现有数据来源相关解决方案及局限

当前不存在完整的来源追踪系统,解决方案分为四类,均存在不足:一是内容真实性技术。此类技术通过嵌入信息验证数据来源,应对虚假信息风险。例如C2PA联盟通过加密方式在媒体中嵌入可验证来源信息,数字水印则用于标识机器生成内容,但文本水印易被移除,且技术仅适用于单个数据单元,难以覆盖多模态训练中的衍生或汇编数据,无法满足版权、偏见等元数据需求。二是选择加入与退出工具。Robots.txt协议扩展提案(如ai.txt、“noai”标签)及谷歌、OpenAI的定制工具,为网站提供数据使用偏好设置,但普及度低且仅支持“二元选择”,无法满足非商业使用等细致需求。三是数据集来源标准。数据集说明书、数据声明与数据卡片标准化了数据创作者、偏见、收集过程等文档记录,数据营养标签通过表单实现自动化文档,数据与信任联盟标准整合多行业需求,提供结构化记录与谱系追踪。但这类标准采纳不均,且存在准确性不足、激励缺失等问题。

五、推进数据来源规范化的多方行动建议

现有数据来源解决方案较为零散。若缺乏强大、资源充足的数据来源追踪框架,开发者将难以从众多可能性中准确识别和评估数据集的安全性、版权影响和相关性。数据创作者也将难以了解其内容的使用方式和位置。若没有数据集来源标准和文档记录,构建这样的框架将变得日益困难,最终难以实现。尽管现有每项解决方案都能为了解数据生态系统提供重要见解,但仍需要一个强大的框架来为数据集附加元数据,以追踪数据集的混合、汇编和使用情况。不同利益相关者应采取行动,以增强数据真实性、同意权和来源追踪应对未来挑战的能力。一是监管者,监管机构通过政策和指导方针在塑造人工智能未来方面发挥着关键作用。以数据为中心的人工智能监管方法有助于识别和减轻关键风险。政策制定者可以为数据来源追踪相关研究提供资金支持,并集中力量记录和构建来源追踪基础设施。目前,不合理的法律激励因素阻碍了公司披露其数据信息,监管机构应考虑为组织提供必要的数据透明度制定法律或立法激励措施,并将标准化文档记录作为人工智能透明度义务的一部分。此类激励措施有助于推动数据真实性、同意权和来源追踪的通用且可互操作的标准。二是开发者,人工智能开发者处于创建模型的前沿,因此在确保伦理实践方面承担着重大责任。开发者必须优先履行文档记录义务,并公开其训练数据的来源追踪信息。如果出于令人信服的商业原因需要保密,至少应发布有关数据来源追踪的汇总统计数据。这种透明度对于与用户和更广泛的社区建立信任,以及培育负责任的人工智能生态系统至关重要。三是数据创作与汇编者。这类主体在人工智能开发中发挥关键作用,需详细记录数据同意标准及来源追踪信息(包括数据来源与处理流程);当前已有专门的存储库和数据库用于登记此类信息,详实的记录能有效协助人工智能开发者尊重相关权利、明晰数据属性。四是科研界。科研界在制定来源追踪披露规范与标准方面具备独特地位,可将来源追踪披露纳入研究发表要求,以此补充可重复性清单相关工作,最终助力科学进步。

事实上,单一利益相关方难以独立构建完善的数据来源追踪框架,唯有多方协作才能有效推动相关标准的制定。由各利益相关方代表组成的联盟,可协调各类主体行动并推动特定标准落地,这一模式可参考主导万维网标准制定的万维网联盟(W3C),以及由多行业企业、机构组成的非营利联盟——数据与信任联盟。

发布于:北京市

上一篇:亚搏app官网版 AlphaNote亮相引领者大会,iCourt开启法律科技“软硬一体”新纪元
下一篇:亚搏 蒜薹炒肉之前,大厨都会多加一个步骤,蒜薹清脆爽口更入味
友情链接:

Copyright © 1998-2026 亚搏app官方网站™版权所有

bjxpwy.com 备案号 备案号: 

技术支持:®亚搏app  RSS地图 HTML地图