大模型备案关注点最详细说明【附流程+附件】

国家网信办已经公布的通过大模型备案的有117家,部分已面向全社会开放服务。加上业内一些渠道透漏的消息,目前已有超过140个大模型获得备案。相对于算法备案,大模型备案名额显然更难拿到,很多企业在申请大模型备案的时候是一头雾水,不知道如何做合规,大模型备案的材料写作难度相对算法备案大很多,顺利的话2个月内搞定。难点是检查的点非常多。我梳理了一些点供大家参考。

大模型备案公告统计

顺带附上目前公开的国内深度合成算法备案统计,总共通过了六批,累计超过1000个算法备案。

深度合成算法备案公告统计

        以第二批举例,境内深度合成服务算法备案清单,总共通过110家,其中25家上市公司、互联网大厂和独角兽企业成功申报算法备案72个,占比高达65%,29家新兴互联网公司成功申报算法备案38个,平均每家企业成功申报4个算法备案。而35家互联网小厂,总共仅有47个算法通过备案,仅占比31.2%,平均每家企业只成功申报1.3个算法。

        可见互联网小厂算法备案通过率不及大厂一半,大厂更重视安全合规、以及有资源力量可以快速对算法备案进行专业响应,反观小厂还在算法备案上犹豫,撰写申报材料能力有限,或者还在备案路上不断试错,延误时间,大模型备案相较算法备案来说要复杂的多。 以下是有关大模型备案的重点说明,以及对应的流程步骤说明,材料准备等,目录如下:

文章目录

一、语料安全评估

二、黑盒测试

三、模型安全措施评估

四、性能评估

五、性能评估

六、安全性评估

七、可解释性评估

八、法律和合规性评估

九、应急管理措施

十、材料准备

十一、【线下流程】大模型备案线下详细步骤说明

十二、【线上流程】算法备案填报流程及重难点分析

十三、大模型备案时间成本对比

十四、备案建议

附录、过程性材料

大模型评估流程图

预约网信办拿材料,网信办收材料后可能让企业演示其模型功能,询问相关问题,提出修改意见,提供api测试接口去技术人员测试,提出测试意见,再修改报送材料。 里面需要特别注意的就是那么几个基本地方,需要企业注意,ai标识,模型协议,投诉举报机制,反馈渠道路径等等。 给网信办材料的时候还要加一个模型介绍,要写到模型的功能,企业的简介,商业模式,技术优势,这个介绍写一页就行了,企业自拟格式。 下面详细说明大模型备案全流程的重点:

一、语料安全评估:

(一)评估内容

(1)文本训练语料规模 训练语料存储规模,按文本格式存储时的语料大小。 训练语料数量,按词元 (Token) 计数。

(2)各类型语料规模 训练语料中的中文文本、英文文本、代码、图片、音频、 视频及其他语料的规模。

(3)训练语料来源 训练语料来源的组成情况,按照开源语料、自采语料、商业语料进行分类。 境外开源网站语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。 自采语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。 商业语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

(4)语料标注数量 语料标注的数量,仅限文本和图片,按标注单元计数, 通常按条数、张数。

(5)标注人员情况 标注人员的数量,标注人员的类型,通常包括内部、外包。 标注人员培训时间、培训数量等情况。

(6)标注规则 按照《生成式人工智能服务管理暂行办法》第四条要求制定的标注规则。

(7)标注内容准确性核验 标注内容准确性人工核验比例。

(8)语料合法性 语料来源合法性情况。 语料是否包含侵害他人知识产权内容。 语料是否包含违法违规的个人信息内容。

(二)评估结论

评估结论应包括以下内容:

(1)语料是否符合《生成式人工智能服务管理暂行办法》相关规定,是否含有违反我国法律法规明确禁止的内容。

(2)语料中包含个人信息语料的数量、种类,是否符合《生成式人工智能服务管理暂行办法》规定。

(3)因语料产生知识产权纠纷的风险分析。

(4)防范语料安全风险的措施和建议。

二、黑盒测试

1)功能需求验证: 确保模型能够按照预期执行任务,对各种类型的输入产生正确和合理的输出。

2)用户界面测试: 针对用户界面的测试,确保界面的易用性和一致性。

3)输出验证: 检查模型的输出是否符合预期,是否满足业务需求

*确保模型在不同输入情况下能够按预期执行任务,输出准确、符合预期。包括功能需求的验证,测试模型的各个功能点是否符合设计要求。

三、模型安全措施评估

(1)模型适用人群、场合、用途 服务的适用人群,是否适用未成年人、学生等。 适用场合,是否适用关键信息基础设施、自动控制、医疗信息服务、心理咨询等。 服务范围,是否限定或未限定特定领域。

(2)服务过程中收集保存个人信息情况 服务过程中收集保存个人信息情况,包括个人信息的类型、数量、用途以及保存期限。

(3)收集个人信息征得个人同意情况 收集个人信息征得个人同意的方式。

(4)受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况 受理处理的条件以及途径方法。

(5)图片、视频标识情况 标识的样式,按1:1 比例贴入。 标识在图片、视频中的具体位置。 标识频度,如每帧、跳帧等。

(6)接受公众或使用者投诉举报情况 接受公众或使用者投诉举报的途径及反馈方式。

(7)服务协议情况 上述1至6内容是否已经写入模型服务协议。

(8)非法内容拦截措施 监看人员的数量。 预置关键词拦截情况,并提供预置关键词拦截列表。 分类模型的检测情况,说明分类模型研制情况和准确性。

(9)拒答率 拒绝回答或者以简单模板回答数量占总测试数量的比率。

(10)模型更新、升级 在何种情况下重新进行预训练,如较频繁发现生成非法

四、性能评估

1)响应时间: 测试模型在不同负载下的响应时间,确保在合理时间内完成任务。

2)资源消耗: 评估模型对内存、计算资源等的消耗情况,确保资源利用合理。 *测试模型的性能,包括响应时间、内存消耗、计算资源占用等。确保模型能够在可接受的时间范围内完成任务,并且对资源的利用合理。

五、稳定性评估

1)长时间运行: 测试模型在持续运行下的稳定性,避免内存泄漏、性能下降等问题。

2)大规模数据输入: 模拟大规模数据输入,检验模型对此的稳定性和性能。

六、安全性评估

1)隐私保护: 确保模型的输出不会侵犯用户隐私,对个人敏感信息进行隐私保护。

2)防止攻击: 测试模型对恶意攻击或异常输入的鲁棒性,确保模型不易受到攻击。

七、可解释性评估

1)对模型的输出进行解释和验证,确保模型的决策是可解释和可信的,避免模型黑盒化带来的问题。

八、法律和合规性评估

1)隐私法规遵守: 确保模型遵循隐私法规,不违反用户隐私和数据使用规定。

2)合规性检查: 确保模型在使用中符合相关行业法规和标准,避免违规操作。 *参考《生成式人工智能服务暂行管理办法》

九、应急管理措施

1)采取防范计算机病毒、网络攻击、网络入侵等技术措施。

2)制定网络安全应急处置预案并且开展应急演练,保存演练记录材料。

3)警用接口建设。

十、材料准备

安全评估报告

模型服务协议

语料标准规则

拦截关键词列表

评估测试题库

拒答测试题库

网络安全管理制度及操作规程

应急处置预案和记录材料

用户投诉举报处理 用户管理制度

个人信息安全保护

安全培训制度

网络安全负责人任命书

十一、【线下流程】大模型备案线下详细步骤说明

第一步:企业向当地网信办申请大模型备案,先确认模型是否需要进行备案(有些只是用开源做微调的,这种小模型一般做算法备案就好,算法备案也简单,找第三方做费用也低,具体情况跟网信办确认,不同地区的网信办要求也会有差异)

第二步:填写《生成式人工智能上线备案表》,准备自评估报告材料,评估点参考表格里面提到的6个点进行撰写,每个点进行评估的方法、风险点及应急策略,报告尽量详细点,需要此表模板的可以找我拿 (具了解得知监管应该会偏向专业的第三方进行评估,选择第三方要找在“中国信息安全评测中心”获得资质的企业,这里推几个含金量较高的资质供参考。信息安全服务资质(安全工程类一、二级)、 信息安全服务资质(风险评估一、二级)、并且具有ISO27001、CCRC更好)

第三步:当地网信会将报告递交中央网信技术管理局进行审核

第四步:网安多个支队对工作流程及大模型进行上门检查。检查点非常多很多企业被卡主在这 第

五步:等结果

十二、【线上流程】算法备案填报流程及重难点分析

1、填报入口 登陆互联网信息服务算法备案系统(以下简称备案系统)进 行填报,网址为 https://beian.cac.gov.cn。 系统首页如图 1 所示。

图 1 备案系统首页(示意图)

2、填报流程 填报人员需首先注册并登陆备案系统,具体步骤可参考该系 统信息公告中的《互联网信息服务算法备案系统使用手册》。登 录后的主页面如图 2 所示。

图 2 主页面(示意图)

深度合成备案填报包括三个步骤:一是填报主体信息;二是填报算法信息;三是关联产品及功能信息或填报技术服务方式;四是线下审核。 “深度合成服务提供者”(以下简称“服务提供者”)角色 的填报人员需关联产品及功能信息,“深度合成服务技术支持者” (以下简称“服务技术支持者”)角色的填报人员需填报技术服务方式。其中,“服务提供者”是指提供深度合成服务的组织、 个人;“服务技术支持者”是指为深度合成服务提供技术支持的 组织、个人。填报流程如图 3 所示。

图 3 填报流程(示意图)

(一)主体信息填报 填报人员可点击主页的“主体信息”进行主体信息填报,按 照备案主体的实际情况如实填写主体的基本信息、证件信息、法定代表人信息、算法安全责任人信息等内容,并下载附件模板,严格按照模板要求填写并上传《算法备案承诺书》和《落实算法安全主体责任基本情况》附件。主体信息填报页面如图 4 所示。

图 4 主体信息填报页面(示意图)

(二)算法信息填报 填报人员可点击主页的“备案信息”进行算法信息填报。算 法信息填报包括两个步骤:一是填写算法基础属性信息;二是填写算法详细属性信息。

(1)填写算法基础属性信息 填报人员需选择“生成合成(深度合成)”算法类型,根据实际情况选择“服务提供者”或“服务技术支持者”填报角色。 填报人员需下载页面中的模板,按照模板内容填写并上传《算法安全自评估报告》《拟公示内容》等附件。算法基础属性信息填报页面如图 5 所示。

图 5 算法基础属性信息填报页面(示意图)

(2) 填写算法详细属性信息 填报人员可参考当前填报页面右方的说明文字,根据实际情况填写算法数据、算法模型、算法策略和算法风险与防范机制等信息。填报时,如需中途退出,可点击页面下方的“保存至草稿箱”,保存当前已填写的内容,便于后续继续填写。算法详细属性信息填报页面如图 6 所示。

图 6 算法详细属性信息填报页面(示意图)

(三)产品及功能信息或技术服务信息填报 在关联产品及功能信息或填报技术服务方式时,“服务提供者”角色的填报人员需关联产品及功能信息,“服务技术支持者” 角色的填报人员需填报技术服务方式。

(1)关联产品及功能信息 “服务提供者”角色的填报人员需根据实际情况勾选应用当前备案算法的产品及功能。需要注意的是,若勾选产品,则表示当前备案算法应用于该产品下所有功能;若勾选功能访问路径,则表示当前备案算法应用于该路径下所有功能;若勾选特定功能,则表示当前备案算法仅应用于被勾选的功能。勾选产品页面如图 7 所示。

图 7 勾选产品页面(示意图)

若当前产品及功能信息不完善,即产品及功能不能覆盖当前备案算法的关联范围,填报人员可点击该界面下方的“保存至草 稿箱”按钮,返回主页并点击主页的“产品及功能信息”完善相应的产品及功能信息。产品及功能信息填报页面如图 8 所示。

图 8 产品及功能信息填报页面(示意图)

待产品及功能信息完善后,算法备案填报人员可通过草稿箱返回至“备案信息”页面继续进行算法信息填报。其中,草稿箱的进入方式有两种:一是点击主页右上角用户昵称,在下拉菜单中选择“草稿箱”;二是点击主页“备案信息”按钮,从备案信息界面中进入“草稿箱”。

(2)填报技术服务方式 “服务技术支持者”角色的填报人员需根据实际情况填写当前备案算法的技术服务方式信息,包括技术服务名称、技术访问方式、技术服务对象、技术服务频度等。填报技术服务方式页面如图 9 所示。

图 9 填报技术服务方式页面(示意图)

(四)提交备案信息 算法备案填报人员在确认填报信息无误后,应勾选页面下方的“我承诺上述填报信息真实有效”,并点击提交按钮,完成算法备案申报。确认信息页面如图 10 所示。

图 10 确认信息页面(示意图)

十三、大模型备案时间成本对比

自己写

提供备案服务

时间成本

不确定。涉及学习时间和反复修改时间。学习难度大,需要从头学习并理解相关法规和要求,揣度得分要点。审核流程不够透明,需要反复试错,自己备案没有经验。自己写的话,备案审核时长平均8个月,驳回一次等3个月,可能会影响产品上线。

快的话2-3个月拿到备案号

人力成本

需要同时具备算法研发、AI、安全、法务专业经验的人员。需要组织跨部门联合小组共同推进。

只需要少量算法技术配合,公司资质配合等简单工作,一站式服务/指导

通过率

不确定,可能会影响产品上线

只要产品、数据合规,100%包过,不过不收费

花费

N个月*M个人*每月人力成本

有意向可以沟通,远低于自己探索的成本

十四、备案建议

1、是否需要专业指导

        在详细了解算法备案申报要求和规则基础上,可选择自己做,如果不了解,会造成申报材料反复出错被打回,增加试错的时间成本,严重延缓获得备案号的时间。 寻求专业指导,要避免误区,算法备案属于技术型工作,并不属于法律相关服务。需要寻找有自主备案成功经验和相关行业背景的机构进行辅导服务。专业的事交给专业的而做,在时间效率上,专业机构无疑会更准确的立即监管要求,从而更好更快的完成算法备案工作。

2、提升通过率

        没有绝对的通过率高低之分,备案取决于模型和数据是否合规合法,只要申报材料能完整、如实描述,有完整的制度、策略、流程规避安全风险,理论上都是可以通过的。区别在于一次性快速通过,还是多次修改最终通过。

附录、过程性材料

附件-有重点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/774047.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

qiankun实现子应用tab页签切换缓存页面

实现背景 项目中是使用的jeecg-boot低代码构建的前端开发环境,由于后期各个模块代码越来越多,打包慢,分支管理麻烦,领导要求使用微前端,每个模块拆分为子应用。 拆分子应用 由于jeecg里面自带qiankun,所…

1.1.2数据结构的三要素

一.数据结构的三要素 数据结构这门课着重关注的是数据元素之间的关系,和对这些数据元素的操作,而不关心具体的数据项内容 。 1.逻辑结构 (1)集合结构 (2)线性结构 数据元素之间是一对一的关系。除了第一个…

虚幻引擎 快速的色度抠图 Chroma Key 算法

快就完了 ColorTolerance_PxRange为容差,这里是0-255的输入,也就是px单位,直接用0-1可以更快 Key为目标颜色

[数据集][目标检测]护目镜检测数据集VOC+YOLO格式888张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):888 标注数量(xml文件个数):888 标注数量(txt文件个数):888 标注类别…

【微信小程序开发实战项目】——花店微信小程序实战项目(4)

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

10种有效提高电子设备可靠性的PCB散热技术

在现代电子领域,随着器件尺寸的不断缩小和性能的不断提高,热管理问题日益凸显,不容忽视。电子设备在运行过程中产生的热量,如果处理不当,散发不了,就会像潜移默化的威胁一样,悄无声息地危及设备…

Desktop docker 部署 WordPress

Desktop Docker 部署 WordPress 之前都是在Linux里面玩的,今天看到别人在windwos下安装docker,一时兴起装了一个试试,效果一般,很吃硬盘空间和内存。 首先在docker官方下载桌面版,安装下一步一直到完成。 安装完docker会自动加入到环境变量,而且docker-compose也会一并安…

SPLL单相软件锁相环相关源代码理解-SOGI及PI系数计算

最近在学习TI的TIDA-010062(DSP型号用的是TMS320F280049C),也就是1kW、80 Plus Titanium、GaN CCM 图腾柱无桥 PFC 和半桥 LLC(具有 LFU)参考设计。在整个框图中看到SPLL_1ph_SOGI的模块(实验4:…

软件测试面试题集(含答案)

软件测试面试题集一、Bug基本要素 缺陷ID,状态,类型,所属项目,所属模块,缺陷提交时间,缺陷提交人(检测者),严重程度,优先级别,缺陷描述信息&#…

【TS】TypeScript 联合类型详解:解锁更灵活的类型系统

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 TypeScript 联合类型详解:解锁更灵活的类型系统一、联合类型的定义二…

一站式采购!麒麟信安CentOS安全加固套件上架华为云云商店

近日,麒麟信安CentOS安全加固套件正式上架华为云云商店,用户可登录华为云官网搜索“CentOS安全加固”直接采购,一站式获取所需资源。 麒麟信安CentOS安全加固套件已上架华为云 https://marketplace.huaweicloud.com/contents/9fe76553-8d87-…

后端部署Jar包 | 启动失败系列问题(图解-BuiId,Maven)

目录 项目的构建 打包前的准备 合理配置pox.xml文件 Build 打包方式 Maven打包方式 Jar包部署 测试后端接口 项目的构建 我的项目是SpringBoot2脚手架 先准备一个相对于的数据库依赖 数据库的任意库 Yaml配置后 才能正常在IDEA中跑起来 打包前的准备 合理配置pox.xm…

推荐的一键下载1688高保真原图信息

图片在电商中扮演着至关重要的角色。高质量的商品图片能够直观展示产品特性,吸引消费者注意力,提升购买欲望。良好的视觉呈现还能增强品牌形象,提高转化率。此外,图片是跨语言的沟通方式,能够克服语言障碍,…

linux——小细节(Makefile)(gdb)

一、makefile a.out:main.c func.cgcc main.c func.cclean:rm a.out a.out:main.c func.cgcc $^ -o $clean:rm a.out SRCmain.c func.c OBJa.out CCgcc FLAG -g -lpthread $(OBJ):$(SRC)$(CC) $(SRC) $(FLAG)clean:rm $(OBJ) 二、gdb

快速傅里叶变换(Fast Fourier Transform)

快速算法(FFT),即快速傅里叶变换(Fast Fourier Transform),是一种用于计算离散傅里叶变换(DFT)及其逆变换的高效算法。FFT算法由J.W.库利和T.W.图基于1965年提出,显著减少…

7-google::protobuf::io命名空间下常用的C++ API----zero_copy_stream_impl.h

一、protobuf输入输出文件流C API总览 二、经常会用到的API

昇思25天学习打卡营第12天|MindSpore-基于MobileNetv2的垃圾分类

基于MobileNetv2的垃圾分类 主要介绍垃圾分类代码开发的方法。通过读取本地图像数据作为输入,对图像中的垃圾物体进行检测,并且将检测结果图片保存到文件中。 1、实验目的 了解熟悉垃圾分类应用代码的编写(Python语言);了解Linux操作系统的基本使用;掌握atc命令进行模型…

每日Attention学习8——Rectangular self-Calibration Attention

模块出处 [ECCV 24] [link] [code] Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation 模块名称 Rectangular self-Calibration Attention (RCA) 模块作用 空间注意力 模块结构 模块代码 import torch import torch.nn as nn import tor…

Redis基础教程(十四):Redis连接

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

Turborepo简易教程

参考官网:https://turbo.build/repo/docs 开始 安装全新的项目 pnpm dlx create-turbolatest测试应用包含: 两个可部署的应用三个共享库 运行: pnpm install pnpm dev会启动两个应用web(http://localhost:3000/)、docs(http://localhost…