当前,识别AI生成内容的技术手段均未成熟。如何在潜在风险,治理 成本、目标成效之间取得合理平衡成为关键所在。建议小步试错,探寻科学的风险管理方案。
人类原创还是AI生成?
对于AI生成内容在未来全部信息内容中所占比例,不同机构的预测口径有所不同,从20%-90%不等 。但不容否认的是:有研究显示,仅仅从2023到2024的一年间,包含AI生成内容的网页数量就激增了2848% 。与此同时,内容生产模式的变革也在推动着内容治理逻辑的悄然变化,从过去针对内容性质——是否违法有害,扩展至针对内容来源——是否为AI生成。
在AI生成内容早期阶段,大模型厂商从提升模型透明度,支持权利保 护等目标出发,尝试开展标识工作。特别在版权方面,尽管对AI生成内容的可版权性仍存在较大争议,但明确其内容性质来源,仍然有助于可能的权利人主张其权益,激励社会公众 利用新工具进行内容创作;同时,也有利于明确模型厂商与使用主体之间的权责分界,前者在生成阶段有更多管控能力,而后者需对生成内容的后续传播利用承担更多责任。
AI生成伪造虚假信息的案例时有发生。如合成虚假灾情、新闻扰乱公共秩序 ,利用AI换脸合成虚假色情图片视频侵犯个人名誉等等 。有害信息,不论是人类生成,还是AI生成,均可以被传统的内容治理所覆盖,同样可以采取删除、屏蔽等措施最大程度消除其影响。然 而,:生成式AI大幅提升了内容生产的效率,多模态内容更丰富、交互更逼真,如果一旦被大规模应用于谣言等虚假内容的制造,将可能造成公众对于真实信息的混淆,引发公众对 媒体的普遍不信任 。但随着AI的持续推进,这种担忧仍然是真实存在的。
[7] 。目前,识别的技术路径主要包括生成内容检测和来源数据追踪两个方向。前者主要通过寻找数字内容所包含的生成特征来确定内容是否由AI生成或篡改。后者则是通过对 数字内容全生命周期的相关信息 (是否由AI生成、修改) 的独立记录来间接反映数字内容的性质。
内容检测是最为直观的解决方案。虽然目前在人类的感官层面,AI生成内容与人工创作内容已相差无几,但是 在细节层面,仍然存在着可被机器或者技术专家所觉察的特征。
在图像内容中,涉 及图像边缘、纹理等细节的处理时,AI生成内容会出现像素级的不一致;涉及比例与对称性、光照与阴影等现实物理特征时,AI生成内容会出现细微的错误;在视频内容中,涉及 物体运动轨迹、光照与阴影的变化时,AI生成内容会表现出轻微的不自然、缺乏连贯性或物理规律的异常;同理,在音频、文本等AI生成信息中也都存在类似微小的区别。
评估AI生成内容检测的技术主要需要考虑以下要素:通用性、可解释性、效率、鲁棒性、计算成 本等。在图像领域,已经出现了利用深度学习模型、机器学习模型和统计模型等多种模型进行检测的技术,但是通用性、鲁棒性普遍表现不佳。据报道,使用不同方法在不同的训练和 测试子集中获得的准确率仅为从61%到70%。当合成图像经过后处理 (如 压缩和调整大小) ,检测准确率将会进一步降低,难以在实践中可靠运作。
来源数据跟踪并不依赖内容本身,而是通过对于内容的变动 (生成、修改等) 进行记录,从侧面反映内容的真实性、完整性。当前的来源数据跟踪方法主要包括显式标识和隐式标识。
显式标识最大特点 是可以直接被人感知,提示告知效果显著,但其实践效果还有待评估。显式标识包括内容标签和可见水印等。内容标签与数字内容分离存在 (如在特定场景中的周边提示) ,无法在生成合成内容的全生命周期都起到区分效果;而可见水印仅限于内容的一部分,容易被裁剪或移除;当可见水印被应用在整个内容的大部分区域,会降低数字内容的质 量。
隐式标识是指在生成合成内容或数据中添加的,不能被用户直接感知、但能通过技术手段处理的标识。目前主要 有数字水印和元数据记录两种技术路径。
数字水印是机器可读的水印,可通过 对内容进行肉眼不可见的扰动来嵌入附加来源信息。基于被扰动方式的不同,可以分为基于LSB的水印、离散余弦变换 (DCT) 水印、LLM水印等。复杂算法生成的水印需要大量的计算资源来读取,成本高效率低;简单算法生成的水印容易被去除和篡改,安全性不足。
元数据记录则是另一种方法,通过将内容变动生成的元数据独立储存在 与数字内容相同的文件中,用以提供于其内容属性、来源等信息。基于独立储存的特征,这种方法虽然相较之下效率更高,但也存在明显缺陷。,元数据需要长时间存储,还需要投入 资源进行管理和查询优化,增加了成本;,元数据原则上可以被任意的添加、修改、抹除,很难保证完整性与真实性。虽可以通过数字指纹或签名技术来提升安全性,但这也会带来额 外成本;,规避元数据记录的门槛较低。用户可以通过截图或外部设备拍摄等非下载方式绕过元数据记录。
考虑到网络传播链路的复杂性,写入隐式标识,并进行读取、验证,最终对用户进行提示,完成这一闭环需要生态主体的高度协作,兼顾算法的保密性与跨平台的互通识别 。若缺乏成熟的技术和治理规范,不仅不能实现来源辨别的目的,且可能会加剧欺骗或混淆的风险。
在全球范围内,人工智能企业、大型网络平台基于透明度、可信赖等原则,围绕AI生成内容的标识,已自发展 开探索。,ChatGPT生成的图像内容使用元数据记录进行标识 ;Meta AI创建或编辑的图像包含可见水印 。国内企业开发的人工智能系统如元宝、豆包、文小言等都均已其生成的图像添加显式标识。, Meta规定用户需要对所分享的包含经数字手段 (如使用AI) 生成或修改的逼真视频或拟真音频的内容进行标识 ,同时,Meta也正在进行相关尝试,如检测到的图像是由平台旗下AI生成,将为其添加标识。 X对于利用AI虚构或者模拟真实人物的媒体内容,或者通过AI改变媒体内容从而扭曲其含义的媒体内容会添 加显式标识以提供额外的 。国内平台如小红书、微博等也已上线用户自主声明功能 。
国内外的探索实践,体现了以下共同点:其一、首先选择在图像、视频 等最可能产生混淆误认的领域进行尝试,大模型企业在生成阶段对内容进行显性标识;其二、传播平台对用户进行提示,在用户分享利用AI生成的逼真内容时主动声明,同时基于元 数据等技术探索标识路径。此外,国外更多体现为企业自发形成产业联盟,推进开放的技术标准的形成 。
AI生成内容带来了与以往完全不同的风险,推动着各方尝试明确AI生成与人类创造的边界。然而,针对AI 生成内容的标识,目前尚未形成成熟的技术解决方案。总体上,出于“防患于未然”的风险预防思路,标识工作处于一种自发探索的状态。与之对应的,在全球治理规则层面,目前大 多是一些笼统的原则性要求,对于标识的实现方式尚无细致规定,从而为实践探索留有了较大空间。
建议采取开放推荐的方式,鼓励相关主体积极探索包括内容检测、数字 水印等在内的多种技术方式。对于元数据的跨主体读取与验证方式,通过AB实验等方式不断完善,在得到普遍实践认可的技术框架之后,再逐步进行扩展。对于标识的反删除反篡改 的攻防,更是一个“魔高一尺,道高一丈”的过程,需要行业各主体进行协同应对。此外,公众对标识的了解与应用痛点,也决定了标识工作将会在动态中寻求最佳实践。
对于AI生成内容,AI生成技术的 提供者与部署者具有明确的主体角色差异,需适配不同规则。例如:欧盟《人工智能法》依据主体角色的不同,相应建立了不同的标识规范。其第50条2款规定AI系统的提供者应 当实现其输出内容可以以机器可读的格式标记;第4款规定生成或操纵构成深度伪造的图像、音频或视频内容的AI系统的部署者应当披露该内容是人为生成或操纵的。可见,前者更 强调技术的“开发者”重在提供“机器可读”的技术方案,“部署者”重在对深度伪造的内容“披露”其性质。
在此背景下,可考虑限定标识的范围。
鉴于AI生成技术的通用性,在信息传播领域之外有大量的生成应用 (如满足模型训练的数据合成、服务于加工润色目的的AI生成,如地图、游戏渲染;B端的AI办公场景等等) ,在这些内容传播风险较小的领域,标识工作并不具有优先紧迫性,或可以通过负担较小的方式探索;
将有限资源集中于风险较高的领域。正如我国《互联网信息服务算法推荐管理规定》所采取的思路——“ 对于导致公众混淆或者误认的, 应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况。这也反映了当前国内外标 识实践的共识。正如Meta的内容政策:“当我们确信部分AI内容不会违反我们的政策时,我们会在审核队列中删除这些内容。这使得我们的审核资源可以更多的关注于那些可能 违反我们规则的内容。”
过度标识的负外部性已有所浮现。据报道,仅通过图像编辑软件的AI 功能对照片进行除尘、去斑等微小的操作就会导致照片上传到社交平台时被标记为“AI生成” 。此类标识可能会引发“反向混淆”,让公众将人工创作内容误认为“生成合成内容”,对于知识产权、人格权益保护乃至公共信任产生不 利的影响。为避免过度标识,还需重点探索“标识的例外规则”。
多么完美的识别规则,最终也只能起到辅助判断的作用,无法替代公众对信息内容作最后的真伪判断,个人永远 是自己“选择相信内容”的最终把关人。信息爆炸的时代,越需提升对信息真实与否的敏感度。正如网络原住民比他们的上一辈,会更加谨慎地审视网络信息一样,在AI时代,人们 更要告别“无图无真相”的判断准则。以标识规则为契机,培养公众面对网络内容的理性判断,形成AI时代个人“信息素养”,是内容治理中更为关键的一环。
分享洞见
-
您的主题评级为【A级】!
在AI生成内容的领域,我们正站在一个充满挑战和机遇的十字路口。您提到的“小步试错”策略,实际上是在快速变化的技术环境中寻找平衡点的一种实用方法。这种方法允许我们在实践中学习,同时减少大规模错误的风险。对于AI生成内容的治理,确实需要一个多维度的解决方案,包括技术检测、法律规范和公众教育。
-
技术检测:您提到的生成内容检测和来源数据追踪是两个关键的技术路径。尽管目前这些技术还不够成熟,但它们是识别AI生成内容的基础。随着技术的进步,我们可以期待更高精度和更低成本的解决方案出现。
-
法律规范:法律和政策必须跟上技术的步伐。您提到的欧盟《人工智能法》就是一个例子,它根据不同的角色(开发者和部署者)设定了不同的责任。这种区分有助于明确责任,促进合规。
-
公众教育:最终,公众需要具备辨别信息真伪的能力。这不仅仅是技术问题,更是社会问题。教育公众提高信息素养,是构建健康信息环境的关键。
您的观点很有前瞻性,特别是在强调标识工作的重要性和挑战性方面。确实,标识工作不仅是技术问题,还涉及到社会、法律和伦理等多个层面。您的分析为这个复杂议题提供了宝贵的视角。
--AI社区机器人防伪标签
-