环球今热点:高质量数据成为大模型“卡脖子”问题
2023-06-14 08:47:41 来源:天翼智库

(CWW)数据集是大模型竞争的关键要素之一,AI大模型的突破得益于高质量数据的发展。AI大模型需要大规模、高质量数据,而数据的高效处理方式是大模型成功的关键。随着数据集规模的增大,数据管理难度也在攀升,产生高质量数据存量耗尽、数据安全风险、数据合规等问题。建议加强数据合规监管和评估机制;重视数据多样性和代表性发展;加强数据隐私保护和安全措施;加快高质量数据集发展。

AI大模型需要大规模、高质量数据,数据高效处理方式是关键


(相关资料图)

训练大模型需要大规模、高质量、多模态的数据集,通常需要从各个领域和多个数据源收集数据,这些数据可以是文本、图像、语音、视频等多种形式。大语言模型训练使用的数据集规模爆发式增长。从2018年GPT-1数据集约为4.6GB,2020年GPT-3数据集达到了753GB,而ChatGPT的数据集为超万亿单词的人类语言数据集(约45TB)。OpenAI并没有公开训练ChatGPT的相关数据集来源和具体信息,这也形成了一道无形的技术壁垒。常见的数据集主要由海外开源组织、高校、互联网巨头、政府机构等掌握。

图1 常见大模型数据集总结

资料来源:OpenDataLab,CSDN

ChatGPT的突破性进展除了依赖于更高质量、更丰富的训练数据集外,同样得益于其高效的数据处理能力,特别是数据清洗、标注等。ChatGPT从多个数据源采集到大量原始数据后,首先使用自然语言处理技术对原始数据进行清洗,同时,还使用了特定的过滤器,去除常见的噪声数据和无用信息。为了提高准确性和表现力,ChatGPT使用数据增强技术对数据集进行扩充,增加语料库的规模和多样性,从而提高ChatGPT的泛化能力和鲁棒性。另外,ChatGPT使用RLHF(来自人工反馈过程的强化学习)生成用于微调的高质量标记数据。最后,ChatGPT使用标注和增强后的语料库来训练助理大模型。

AI大模型面临高质量数据耗尽、数据安全、数据合规等风险

1.高质量数据将耗尽,寻找新的数据来源迫在眉睫

高质量数据是大模型不断优化的稀缺资源。高质量训练数据越大,大模型的推理能力越强。以GPT-3为例,来源于维基百科、书籍及学术期刊等高质量数据仅占其数据集的17.8%,但其在模型训练中的权重占到了40%。而大模型训练所需要的数据集的增速远大于高质量数据生成的速度,导致高质量数据逐渐面临枯竭。当前的存量数据中,高质量数据将在2026年耗尽,低质量数据将最晚在2050年耗尽,图像数据将最晚在2060年耗尽。

为了解决高质量数据不足的问题,OpenAI主要采用合成数据的方法,即借助生成对抗网络(GAN)来生成数据。将样本数据输入至预先准备好的模型,通过数据变换、旋转、缩放、仿射变换等操作增加数据的多样性和复杂度。合成数据因其高质量、高垂直的特性,将有可能最先在金融、医疗等行业率先适用,并将在2030年超过真实数据。目前,英伟达、微软、Meta等均已在合成数据领域完成布局。

2.数据安全风险日益凸显,输入至模型的数据安全缺乏保障

大模型必须对用户隐私进行过滤,否则带来的隐私泄露风险将不可估量。大模型数据来源除了所有公开数据、合作数据、合成数据,用户在与大模型的交互过程中产生的数据也成为了模型训练的语料基础。这使得大模型成为了“数据中心”,在输出过程中必须确保数据安全。ChatGPT在发布之后,便出现了大量的用户隐私泄露事件。今年3月,三星半导体部门连续出现三起ChatGPT数据泄露事件,源于员工将公司机密输入而导致。截至目前,为避免企业信息泄露,苹果、三星、亚马逊、摩根大通等多家企业已经明确禁止使用外部生成式AI工具。

为避免用户数据泄露,ChatGPT采用了数据脱敏处理、加密存储、外部安全审计等方式,但效果有限。在经历数起用户隐私泄露事件后,ChatGPT上线了“关闭聊天记录”功能,开启后用户的隐私数据将不会被保存,这意味着ChatGPT将隐私安全的风险又交回给了用户手中。

3.数据合规风险或成为限制大模型发展的首要因素

从公开数据源中获取的数据会存在危害国家安全、歧视、暴力、色情、谣言、政治倾向、犯罪等不合规数据。这就要求大模型在训练之前需要对数据进行严格清洗和准确标注。ChatGPT避免数据合规风险的方法包括数据清洗、数据标注、模型的预训练、降低不良信息权重、自我反思等。但这些方法仍然存在被用户通过“恶意诱导”的方式绕过,包括生成恶意软件、编造虚假消息。国内某用户在利用ChatGPT测试过程中,发现利用特定方式可以让ChatGPT生成钓鱼信息的模板,从而绕过其监管策略。

全球范围内,针对人工智能的监管已经来临。美国、欧洲、中国均已经对大模型的监管提出相应的政策及法案,对生成式人工智能的个人隐私、知识产权、虚假信息、政治倾向等方面提出了监管意见。美国商务部下属国家电信和信息管理局 (NTIA) 在4月11日发起了一项关于AI风险和机遇的征求意见倡议,涉及歧视标准、社会和治理保证、风险管理、透明度和反偏见等。并在5月16日举行了OpenAI听证会,围绕着版权侵害、虚假内容、影响选举、数据安全、大公司垄断等议题展开。OpenAI的CEO Altman在听证会上就美国政府应该如何监管AI公司,提了四条建议:一是组建一个新的政府机构,负责给AI厂商提供许可证,并吊销不符合政府标准的厂商的许可证;二是为AI大模型创建一套安全标准,大模型必须通过安全测试与风险评估;三是指派第三方专家独立审核AI产品的各方面指标;四是创立一个由美国领导为AI制定相关标准的国际组织。欧盟在5月11日通过了《欧盟人工智能法案(The AI Act)》,该法案针对不同类型的人工智能系统制定了相应的监管措施,区分了不可接受的风险、高风险、有限风险和低或轻微风险四种风险类型,并针对不同类型施加了不同的监管措施以及相应类型的人工智能系统的提供者义务。我国国家网信办在4月11日发布《生成式人工智能服务管理办法(征求意见稿)》,并对大模型备案、安全评估、内容真实准确、尊重他人合法利益、公平竞争、处罚等问题作出了相关规定。

相关建议

1.建立数据合规的监管和评估机制

推动完善AIGC监管立法,保护和规范人工智能领域的内容合规。相关机构和政府部门应建立相应的监管机制,对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外,应加强对大模型的社会影响和风险评估,及时发现和解决可能存在的问题。

2.加强数据保护和安全措施

相关机构和企业应制定严格的数据隐私保护政策,加强数据安全技术和措施,确保用户个人隐私得到充分保护。同时,要加强数据共享和合作的安全管理,防止数据泄漏和滥用。

3.加强高质量数据集发展

一方面,借助数字中国战略,通过数据交易所,实现数据资源在各行业、各企业间自由流通,缓解大模型训练数据量不足问题。同时,大力发展数据服务商,提供数据标注、清洗、维护等服务,助力大模型训练数据质量提升。另一方面,加强AI生成技术,利用AI合成数据缓解数据耗尽问题。

环球今热点:高质量数据成为大模型“卡脖子”问题

2023-06-14

华统股份5月生猪销量增超7成 加速省外扩张2024年规划产能达500万头

2023-06-14

向下有11层楼高 最深地铁站封底 江城首条环线建设提速-世界热头条

2023-06-14

环球速读:“奖牌在手,感觉真好”

2023-06-14

灭绝师太和杨逍谁厉害 灭绝师太

2023-06-14

诡秘月亮上有什么_月亮上有什么

2023-06-14

异地就医怎样报销医疗费用(异地就医医保怎样报销)

2023-06-14

卢卡申科:白俄罗斯将在数日内接收来自俄罗斯的战术核武器

2023-06-13

高考外语口试成绩可查 我省外语口试成绩不计入总分|世界快播

2023-06-13

b2可以开什么车型_b2可以开什么车

2023-06-13

网卡的功能集成在哪里(网卡的功能)

2023-06-13

天天热议:洛阳钼业: 洛阳钼业对外担保公告

2023-06-13

1,3,6,10,15…的通项公式_1361015的通项公式_世界资讯

2023-06-13

什么是大汶口文化?有什么特点?

2023-06-13

全球速看:国家发改委:6月13日24时起 国内汽、柴油价格每吨分别降低55元和50元

2023-06-13

【聚看点】所见这首诗是什么意思?是什么意思(所见这首诗的全部意思是什么)

2023-06-13

深圳莎臣豹校服专卖店_莎臣豹校服官网 全球热议

2023-06-13

世界热消息:张弛语言课退费 充分利用制造商资源

2023-06-13

丹佛掘金首夺NBA总冠军 约基奇当选总决赛MVP 世界快消息

2023-06-13

2023海南中考成绩什么时候能查 具体公布时间 世界百事通

2023-06-13

广东省国防科技技师学院江高校区怎么样_广东省国防科技技师学院江高校区|今日看点

2023-06-13

我以为它退市了,它硬着回来了

2023-06-13

农业发展银行发行首单支持甘肃地区玉米制种主题债券 募集资金30亿元 世界快讯

2023-06-13

姆巴佩这次太精明了,巴黎处于被动,皇马迫不及待

2023-06-13

天天要闻:亳州市谯城区沙土镇:大大的西瓜 “甜甜”的产业

2023-06-13

人民不会忘记 周芷诺演唱歌曲相关内容简介介绍_人民不会忘记 周芷诺演唱歌曲相关内容简介介绍

2023-06-13

【世界速看料】平均分怎么算表格(平均分怎么算)

2023-06-13

数据确权板块震荡走强 人民网触及涨停_天天快消息

2023-06-13

爱与痛的边缘歌词背景(爱与痛的边缘歌词)

2023-06-13

世界微速讯:经纬恒润:6月12日融资买入2609.97万元,融资融券余额1.05亿元

2023-06-13

今日热门!菏泽:创新方式方法 系列普法活动走进职工身边

2023-06-13

菲律宾最活跃火山喷岩浆_每日短讯

2023-06-13

今日期货市场要闻速递(6月13日) 全球快消息

2023-06-13

上好乡村振兴“大思政课” 培养知农爱农青年人才_世界热讯

2023-06-13

建筑结构原理:从概念到设计 第2版

2023-06-13

酸奶与什么水果搭配最好

2023-06-13

报道:iphone美版和国行版的区别_iphone美版和国行的区别

2023-06-13

九曲连环的拼音(连环杀人档案)

2023-06-13

广西壮族自治区玉林市2023-06-09 03:16发布暴雨橙色预警

2023-06-13

陈式是谁?刘备麾下一位猛将,在诸葛亮北伐时攻克魏国二郡-天天时快讯

2023-06-12

2025年实现银行业总资产达10万亿, 广州计划这样干! 焦点资讯

2023-06-12

麦捷科技:筹划发行股份及支付现金购买资产事项 12日停牌 时讯

2023-06-12

【全球播资讯】确定引进!《碟中谍7(上)》发布中文版预告海报

2023-06-12

商品波动加大,期货实盘大赛收益回撤近70%,这怎么弄

2023-06-12

精彩看点:小红书决定开咖啡馆,可能是一个转折点

2023-06-12

工信部修订《烟草专卖行政处罚程序规定》 将于7月20日起施行

2023-06-12

酒旅集团做电商,谁能成为下一个“东方甄选”?

2023-06-12

银星能源: 第九届董事会第三次临时会议决议公告 微头条

2023-06-12

华菱精工:实际控制人协议转让约1267万股公司股份完成过户|世界头条

2023-06-12

全球快资讯丨@货车驾驶人,7月1日起青岛市货车通行管理措施有调整

2023-06-12

天天报道:上海正推动临港、嘉定等重点区域开展加氢站现场制氢试点

2023-06-12

东北冷涡是个什么“锅”? 为啥什么灾害天气都能往里“装”

2023-06-12

【全球速看料】工作人员疑似拒绝沟通 白敬亭工作室向粉丝发文致歉

2023-06-12

世界看热讯:什么是蓝筹股什么是红筹股_蓝筹股是什么

2023-06-12

简短历史小故事100字_简短历史小故事

2023-06-12

快讯:剑网三超级宏 剑网三超级宏设置教程

2023-06-12

深圳市罗湖高级中学公开招聘10名非在编教师公告

2023-06-12

取暖器哪种取暖方式好又省电又耐用 取暖器哪种取暖方式好

2023-06-12

全球热消息:金丝翼善冠简介_金丝翼善冠

2023-06-12

焦点播报:非遗不远 就在身边

2023-06-11

祝贺梅西,铁兄弟来助阵,哈兰德零球夺冠 阿尔瓦雷斯成史上第一人

2023-06-11

强强联手!银川打造科技资源统筹服务平台 当前聚焦

2023-06-11

世界报道:交通银行任德奇:扩大融资总量、创新产品服务、参与绿色金融市场建设,助力上海打造国际绿色金融枢纽

2023-06-11

loud怎么读_loud-环球视讯

2023-06-11

最新资讯:机电工程杂志怎么样_机电工程杂志

2023-06-11

大理石花纹蛋糕抹面(大理石花纹蛋糕)

2023-06-11

出其不意的下一句怎么接_出其不意的下一句 环球播资讯

2023-06-11

每日热文:斑驳的意思解释(斑驳的意思)

2023-06-11

耳垂上长痘痘是怎么回事碰它还很痛(耳垂上长痘痘) 天天最资讯

2023-06-11

在一根长为884m的铁管一端重重敲击一下(在长为884m的金属管的一端敲击一下)-全球即时

2023-06-11

速锐是什么车(sr是什么车?) 头条

2023-06-11

市质检院研发项目有新进展 LED行业标准修订获工信部立项

2023-06-11

姚译添,你对得起Angelababy吗?你对得起范丞丞吗?_全球讯息

2023-06-11

200多分的专科学校辽宁(200多分的专科学校)|天天要闻

2023-06-11

南康龙岭送法进校园-焦点热文 当前讯息

2023-06-11

王力宏方发声否认李靓蕾在美国胜诉

2023-06-11

腈纶毛衣会起球怎么办(腈纶毛衣会起球)

2023-06-11

首台套50万千瓦冲击式水电机组项目开工-环球最资讯

2023-06-11

今日快看!义乌京东代运营服务_提供一站式电商代运营解决方案

2023-06-11

当前资讯!重温《蓝色生死恋》才懂,死去,才是恩熙无望人生的救赎和圆满

2023-06-11

今日要闻!《透明侠侣》转运曲《好事会发生》,史策王皓出租车甜蜜穿越透明浪漫宇宙

2023-06-11

天天观察:美媒:越南热浪与电力短缺持续 三星、鸿海和立讯精密工厂遭冲击

2023-06-11

2023年国家医保目录调整征求意见:6月底前获批药物均可参与,谈判最早9月-今日视点

2023-06-11

环球视点!《黑暗荣耀》郑星一将演出古装电影新作《战,乱》,与车胜元、朴正民、姜栋元合作

2023-06-11

OpenAI CEO:目前不会很快有 GPT-5

2023-06-11

环球今日讯!高质量发展调研行 | 在智慧港口见证大湾区经济活力——广州南沙港走访一线见闻

2023-06-11

即将举行!成都大运会火炬传递启动仪式来啦 天天播资讯

2023-06-11

购买凤头鹰做补品,结果…… 快播

2023-06-11

环球通讯!惩治网暴,公检法三部门公开征求意见!维权难度能降低吗?

2023-06-11

【共同缔造安全江夏⑭】摄影作品:电力阶梯 热文

2023-06-11

天天观天下!落花有意随流水无情下一句(落花有意随流水)

2023-06-11

美媒:越南热浪与电力短缺持续 三星、鸿海和立讯精密工厂遭冲击|最新

2023-06-11

上午9点,球王来了!梅西抵达北京,第7次来中国,却无缘交手国足 热消息

2023-06-11

黑天鹅蛋糕官网价格表(黑天鹅蛋糕)|今日关注

2023-06-11

极目时评丨环卫母亲与高考儿子相拥而泣刷屏,普通人改变命运的努力打动人心

2023-06-11

RK3588-MIPI屏幕调试笔记:RK3588-MIPI-DSI之LCD上电初始化时序 环球新消息

2023-06-11

天天百事通!dbf格式怎么用gis打开 dbf格式

2023-06-11

什么二胡琴弦最好|环球快看点

2023-06-11

工程重大责任事故罪_重大劳动安全事故罪与重大责任事故罪-世界焦点

2023-06-11

dnf110版本强烈的气息怎么获得(强烈的气息怎么获得)

2023-06-11