2024年AI大模型训练数据白皮书.pdf
《2024年AI大模型训练数据白皮书.pdf》由会员分享,可在线阅读,更多相关《2024年AI大模型训练数据白皮书.pdf(31页珍藏版)》请在悟道方案网上搜索。
1、LARGE LANGUAGEMODELS TRAINING DATAWHITE PAPER专家委员会安筱鹏 阿里云智能副总裁袁 媛 阿里研究院执行副院长宋志刚 数字中国研究院(福建)院长编写组主要成员傅宏宇 王 峥 赵志远 郑达真 张 荣 陈岳峰 李天宇 徐 强 编写单位阿里巴巴集团数字中国研究院(福建)阿里云智能集团大模型训练数据白皮书训练数据对大模型发展的重要性.02模型训练所需的数据类型.032.1 训练大语言模型的数据.032.2 训练多模态模型的数据.042.3 训练数据的常见疑问和误解.042.3.1 大模型训练并不依赖用户个人信息.042.3.2 中文语料短缺不是制约我国大模型发
2、展的重要因素.05科学理解高质量数据的含义与作用.063.1 高质量数据的重要性.063.2 高质量数据的标准.073.2.1 高质量数据类型的三重不确定性.073.2.2 同类数据的评估标准并不完全一致.08目录CONTENTS010203大模型训练数据白皮书合成数据作为解决训练数据供给不足的新方案.094.1 训练数据供给不足带来的思考.094.2 合成数据的定义.104.3 合成数据的必要性.104.4 合成数据的生成方法及分类.114.5 合成数据在模型训练中的作用.124.5.1 预训练语料的新物种.124.5.2 提升对齐语料获取效率的加速器.134.6 解决训练数据供给不足的新方
3、案.144.7 在发展中治理的合成数据.16对大模型训练数据治理的思考.175.1 大模型对训练数据的使用特点.175.2 大模型训练数据合规的治理之智.18政府与社会力量协同的训练数据生态.196.1 美国的现状.196.2 中国的现状.21 以更开放和务实的方式解决高质量训练数据供给.阿里巴巴集团在大模型训练与应用的探索.23240405060708自中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见发布以来,我国数据要素建设不断深入,在国家数据局等 17 部门联合印发的“数据要素”三年行动计划(2024-2026 年)进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智
4、能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制,破解对训练数据常见的迷思和误解。而促进高质量训练数据的建设,需要理解人工智能对数据的实际需求,科学评价数据的规模和质量;需要综合利用政府、企业、社会等各方资源,构建共享、共创、共赢的合作生态,以更务实、多元、开放的方式解决供给不足的问题;还需要为技术发展预留空间
5、,构建更顺应模型发展的数据治理体系,相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。01业界认为,算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生成式人工智能大模型成功的驱动力。GPT 模型架构从第 1 代到第 4 代均较为相似,而用来训练数据的数据规模和质量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练,GPT-2 是由经人类过滤后的 40G 数据训练,GPT-3是由从 45T 原始数据中过滤的 570G 数据训练,而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以吴恩达(Andrew Ng)为代
6、表的学者观点认为,人工智能是以数据为中心的,而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。01训练数据对大模型发展的重要性02大模型训练数据白皮书数据作为大模型训练的基础,它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。模型训练所需的数据类型2.1训练大语言模型的数据大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型(LLM)为例,其训练过程分为预训练(Pre-train
7、ing)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为0203大语言模型迅速发展的同时,Transformer 开始迁移到图像、视频和语音等其他模态数据领域,并与大语言模型融合,形成多模态大模型。多模态模型模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,最终实现更丰富的任务和应用。从以 Mid-journey 和 Sora 为例的多模态大模型看,在训练阶段需要大量图像-文本对、视频-文本对等有标注数据集进行训练。图像-文本对是包含一张图像和一段描述该图像内容的文本的数据,让模型学习组成图像的像素之间、文字与图像的关联。
8、视频-文本对包括一个短视频和一段描述视频中发生事件的文本,让模型不仅学习单个画面,还需要理解视频中的时间序列和动态变化。2.2训练多模态模型的数据“对齐”(Alignment)阶段。第一阶段预训练所需的语料是各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为“广”。第二阶段 SFT,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中“举一反三”,提升泛化能力。第三阶段 RLHF,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让
9、模型知道 怎么说更好。第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈,语料特征可以概括为“齐”。如果将模型微调后部署应用于特定的场景形成行业大模型(如工业、金融、医疗等),则需要满足该场景专业需求的特定领域知识做预训练和对齐,需要具备一定专业深度,如行业数据库、专业文档、专业网站等,这部分的语料特征是“专”。2.3训练数据的常见疑问和误解2.3.1大模型训练并不依赖用户个人信息人工智能经历了从有监督学习到无监督学习的发展阶段,神经网络等技术推动了数据驱动的应用模式。传统的决策类人工智能在需求侧通过学习和分析海量的用户行为数据,判断用户的偏好和需求。在供给侧通过学习内容的特征,借助推
10、荐、排序等机制实现需求和内容的匹配,并根据用户的行为反馈进行优化,提高算法的准确性。以个性化搜索为例,以大量的用户使用记录、用户画像、内容画像等原始数据为基础,提炼出客群和内容标签等不同维04大模型训练数据白皮书度的信息,进而抽象出特征向量,用向量的空间距离计算用户和内容的相似度,通过匹配与排名进行个性化的搜索结果召回。基于上述特点,此类决策式人工智能技术在需求侧需要更多用户数据,在供给侧依赖更为全面的内容特征。与以前的决策类人工智能相比,以大模型为代表的生成式人工智能的技术特征有明显差异。大模型是模拟人类的思维活动方式生成人类可以理解和使用的内容,而训练数据也是基于世界知识,对语料库等知识性
11、内容有强烈需求,因此大模型训练阶段不依赖个人信息等原始数据。此外,为保证生成内容与人类价值观对齐,业界往往利用强化学习,通过纳入人工标注等机制优化表达,使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依赖,而对专业化、高质量语料的知识性内容依赖大。由此看出,随着技术的演进,对训练数据的需求类型也有所不同。然而,有很多人对此仍存在误解。根据第三方专业机构测评显示,超过 60%的受访者误选了“盗取、泄露个人隐私数据的安全风险”作为大模型的最主要风险点。与一般看法相反,过量的个人数据会负面影响大模型的能力,而过于个性化的应用也将增加大模型的运算负担。对此,OpenAI 负责人 Sam Al
12、tman 表示,ChatGPT 不需要用户的个人数据,用户可以选择删除其与 ChatGPT 的交互历史;类似的,我国目前主流大模型在提供用户隐私保护的基础上,并不过度收集和使用用户个人信息,并允许用户控制和删除其与大模型交互的对话和提供的内容。当然,在大模型的推理阶段,如果用户恶意诱导,尽管有相应的模型安全机制,仍不能完全避免个人信息泄露的问题。但可以明确的是,大模型在训练阶段并不依赖个人信息。2.3.2中文语料短缺不是制约我国大模型发展的重要因素谈到中文大模型,一个普遍关注的问题是,中文语料和英文语料在互联网中的占比存在显著差异:在全球网站中,英文占 59.8%,而中文仅占 1.3%,那中文
13、语料供给短缺是否是制约我国大模型发展的关键要素呢?在实践中发现,规模并不是决定性影响因素。一是世界知识的积累有的属于客观事实,用英文或中文表达,其原理是一致的。或者说,在机器翻译质量有保障的前提下,可以弥补这部分中文语料的缺少。二是在训练技术上引入新方法也可以弥补语料供给不足的问题。例如通过合理安排不同语言类型的训练顺序,也能让模型学习到供给相对较少语言的丰富特征。然而有一种类型的中文语料是极为重要且存在短缺的-中式价值观类语料。因为模型为了更好地理解客观世界和掌握规律,需要学习大量来自知识和价值观层的数据,它们更多受到人类主观意志的影响。而大模型是概率分布模型,其使用的数据来源分布将使得模型
14、具备与之相似的人类意志。所以,训练中加入更多代表中式价值观的语料,有助于大模型更好地理解和反映中文使用者的文化背景和价值取向,从而在全球化的背景下保持文化的多样性和独特性。而且此类语料短缺的问题也没有办法通过机器翻译弥补,因为即使翻译质量有保障,仍会引入源语言的偏见,体现的仍是源语言的价值观。总体来看,文言文、古汉语、电子书籍等反映优秀传统文化的内容,以及主流媒体发布的能反映本土价值观的内容,都可视为高质量具有中式价值观的语料。但目前看,与语料相关的各环节:05从积累机制、数字化(比如我国古籍数字化率不到 30%),到开放共享与开发利用,及训练过程中机器算法与编码系统的建设,都仍需大量持续投入
15、精力。可见,中文语料“量”的短缺尚可有解决方案,但中式价值观类的语料短缺,则会成为制约我国大模型发展的短板。科学理解高质量数据的含义与作用03在生成式人工智能时代,模型训练的成功与否与所依赖的数据质量息息相关。模型的能力很大程度上可以反映出其训练数据的质量,这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。3.1高质量数据的重要性由于高质量数据可以更好地模拟客观世界,将其作为训练数据可以增强模型能力。从技术层面看,通常用损失函数来量化模型预测输出与实际目标之间的不匹配程度。能更好模拟客观世界的高质量数据,可以使模型预测的概率分布尽可能逼近实际数据的真实分布,通过优化算法调整模型参数
16、,让模型在训练集上的损失函数最小。从模型能力表现看,一是高质量数据可以提升模型的准确性和稳定性。首先,这些数据通常包含更准确和丰富的信息,有助于模型更好地理解数据的内在结构,掌握世界规律,提升产出的精准性。其次,数据清洗是提高数据质量的重要环节,包括去重、删除个信隐私内容、纠正错误、填补缺失值等,经过清洗的数据可以提升训练阶段的稳定性。二是高质量数据具有多样性,可以降低模型对特定数据集的依赖,提升鲁棒性和泛化能力。一方面高质量数据通过对现有不同来源的数据加以混合,调试配比,提升模型执行下游任务的泛化能力。另一方面可以利用数据增强等手段有效提升多样性,即通过对现有数据进行变换或扩充,如旋转、缩放
17、、亮度调整等,生成更多的训练样本,增加训练数据代表性和多样性。然而,即使在训练各阶段中的语料都满足高质量,能做到“真实性”、“准确性”、“客观性”、“多样性”的要求,仍不能完全避免模型结果产生幻觉,即“一本正经胡说八道”。因为大模型本质是概率模型,是基于前文预测06大模型训练数据白皮书下一个词出现的概率,“词语接龙”出现的下一个词并不是 100%有确定性的。所以高质量的语料,可以大幅降低模型结果产生幻觉的概率,但并不能完全避免。但如果在训练中使用了较多错误、有毒、重复的低质量数据,则会对模型能力产生破坏性影响,也就是人们常说的“Garbage In Garbage Out”,比如没有经过严格质
18、量筛选的大量社交媒体对话、用户生成的内容等。在对模型能力的损害上,使用错误的数据进行训练,会导致模型记忆有偏差信息,发生事实性错误;使用有重复的语料,则可能会导致模型在训练过程中对特定类型的示例产生偏见,降低生成结果的多样性,造成模型能力的显著下降。由于高质量数据如此重要,会引发对一系列问题的思考,比如我们能否前置制定统一的标准体系,把高质量训练数据先识别出来?数据质量与模型的能力有什么联系?3.2高质量数据的标准3.2.1高质量数据类型的三重不确定性第一重不确定性来自于所需的语料种类,其类型是由人类对模型能力需求决定的,而能力需求又是根据需要模型所完成的任务而不断演变。回溯基础大模型的发展历
19、程,在 2020 年左右,基于 Transformer 架构的 Google Meena,其目的是让模型具有生成连贯且有意义内容的对话能力,因此对话文本被视为最重要的高质量数据。而随着技术路线的演进,人们发现更通用的上下文理解是重点,因此书籍和科研论文等又被视为高质量数据。通过提升其在训练语料中的占比,可以增强模型从文本中捕捉长距离依赖的能力。随着人们对通用人工智能的向往,对提升通用性能的北极星指标-推理能力有帮助的语料,又更加被重视。一种是代码数据,因为里面涉及大量If-Then-Else 等条件控制信息;另一种是教材,因为涉及了比较详细的数学推理过程,和逻辑链高度相关。如果再拓展到行业模型
20、,根据对模型能力的不同需求,语料类型更难以一一列举。比如,经人类标注的,由视觉相似性图片构成的匹配对数据库,可以作为高质量数据用于大模型在广告领域的训练,通过更好预测用户需求实现对素材点击率的优化。而通过收集人类驾驶员对稀有事件(比如驾驶过程中遇到的复杂路况、极端天气、异常行为的人或车辆等场景)的应对数据,则可以更好训练完全自动驾驶(FSD)模型在不同场景中的处理能力。由此看出,由于生成式 AI 在技术演进和应用场景拓展中具有不确定性,模型对所需要语料类型也在发生变化,“高质量语料”的类型和范围也在不断拓展。第二重不确定性来自于语料形态的演化,高质量数据的形态会不断增强,以强化该类型语料的能力
21、。一方面随着合成数据和数据增强技术的提升,大模型正在不断拓展对数据利用的可能性。如领域知识生成,对于大模型难以直接使用的原始数据,通过加工、改造和泛化可以形成模型训练可用的知识类数据。另外,在自动驾驶等领域,通过仿真数据生成更多样化、不同视角的物理世界用于模型训练,可以提升针对特定场景的数据收集效率,弥补真实07世界中对稀有事件观测不足的问题。另一方面,随着模型长上下文建模能力的增强,对代码和教材的需求又有了质的变化。例如,训练用的代码数据从执行单一任务到仓库级,让模型推理能力从掌握单任务模块进化到学习整体架构;训练用的教材从中小学级别知识拓展到大学,进一步增强了复杂场景下的推理能力。第三重不
22、确定性来自于不同数据类型之间的有效搭配,数据调度对模型能力起到重要作用。该环节强调对不同来源的数据加以混合,以提升数据集的多样性。因为不同类型的数据对模型能力提升的侧重点不同,各个数据来源的配比不同,也会影响模型的泛化能力以及在下游任务的表现,其中包含两个重要环节:一是调整不同来源数据的配比(数据混合),二是不同来源数据用于训练的顺序(数据课程)。数据混合环节可以在训练的不同阶段设定配比,在实践中不断尝试出最优的组合。例如在监督微调阶段,有研究者从 Stack Exchange、Reddit 等网站中精选高赞语料,配合手工整理的问答对,得到共计 1000 条高质量微调数据,以“少而精”的数据在
23、模型对齐能力上取得了很好的效果。数据混合在实践中会采取不同策略,一是增加数据源的多样性,这对大模型在下游任务能力的提升十分关键;二是可以根据大模型执行的目标任务,选择对任务性能产生积极影响的数据。数据课程环节是为了让大模型更好地学习某项技能,对语料学习顺序进行探索。一般来说,按照技能集合的顺序组织预训练语料(从基础技能到目标技能),比直接从专注于目标技能的语料库中学习更为有效,如从通用或简单的例子开始,逐步引入更具专业化或复杂度的数据。3.2.2同类数据的评估标准并不完全一致对同类语料的质量评估,往往从质量、规模、多样性三个维度出发。在质量上,被视为“高质量”通常是因为其信息已经通过了有用性或
24、质量筛选,这些大多可以从来源中做判断。例如,在语言模型训练中,新闻、科研论文或开源代码项目中的内容会受到专业标准(如同行评审)的筛选;常识性内容中,维基百科则经受了一群专注编辑者的筛选;而经过筛选的对话内容则是基于用户的积极互动(如在 Reddit 上获得的点赞数量);在多模态模型训练中,以视觉中国为例,其网站有经过专业设计师筛选的大量图片和视频素材,并有对图像的光照、构图、艺术性、美观性等专业性标注,形成了高质量的图像/视频-文本对。其次,对于无法从信息来源直接判断数据质量的语料,人们会尝试用评估模型进行打分。例如对大量公开的网页,通过先对少量样本人工评价得到可读性、帮助性、安全性等指标,通
25、过这些具有代表性的样本训练评估模型,将人工定义的评价标准转化为机器可识别的特征和模式,在此基础上评价语料中所有网页信息的质量。然而,即使有了前两种方法,针对部分语料仍无法前置判断其质量。如用于领域模型训练的语料,涉及到不同行业的专业知识,缺少统一的判断标准,往往是在模型训练中不断检验其质量的高低。从规模看,收集足够规模的高质量语料也非常重要。根据大模型“伸缩法则”,当模型的参数或计算量按比例扩大时,模型性能也与之成比例提升。而随着参数规模的增加,也需要更多数据来训练模型,即模型参数与训练语料之间也存在类似的比例关系。需要指出的是,并不是语料规模越大越好,而是高信息密度的语料规模越大越好:以 C



- 温馨提示:
建议用WPS软件(.pptx、.docx)打开文档,少量文档使用Microsoft(.ppt、.doc)打开易出错。
- 配套讲稿:
如PPT文件的首页显示word图标打开文档,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 大模型训练
