《观察者网 张广凯》
具备高度智能的ChatGPT,其知识运用的有效性,很大程度上依赖于背后一支时薪不足2美元的肯尼亚团队的辛勤工作。他们所承担的数据标注任务,不仅是ChatGPT超越竞品的关键因素,也蕴含着深远的伦理意义。数据标注师的个人价值观,直接影响着人工智能的决策导向,决定了AI能否被善用。
在百度智能云数据标注基地业务产品负责人胡驰看来,人工标注在大模型训练中不可或缺,无法被自动化手段取代。
对于中国的大型模型企业而言,这项高度依赖人力智力的工作,亦成为其独特竞争优势之一。
百度数据标注的新高度
近期,百度智能云在海口市秀英区启动运营了国内首个大模型数据标注中心,这是百度智能云与地方政府合作的里程碑事件。基地内,100%的本科员工比例成为亮点,显示出对高素质人才的重视。
百度智能云大模型数据标注师董志焕指出,他们的工作聚焦于对大模型生成内容的评价与反馈,通过人工标注数据,使大模型学习人类思维模式,从而提升其智能水平。高质量的数据是大模型实现产业化的关键。
当前,生成式AI如ChatGPT和文心一言等,不仅需要海量数据训练,还需人工标注、指令微调以及基于人类反馈的强化学习,以确保与人类价值观和思维方式的对齐,使其更趋实用。
百度智能云通过升级大模型数据服务,建设专业数据标注基地,致力于打造国内首个专注于大模型的数据标注平台。
截至当前,百度智能云已在全国范围内与地方政府共建了十多个数据标注基地,为当地创造了超过1.1万个稳定岗位,间接带动就业人数达五万以上。
然而,与传统数据标注相比,语言类大模型对标注师的专业技能提出了更高要求。海口数据标注基地集结了数百名专职大模型数据标注师,本科及以上学历比例高达100%。
数据标注看似依赖简单重复劳动,但深入分析后发现,它对技术要求颇高。例如,海外已涌现出如Scale AI等独角兽企业,通过全球范围内的资源整合,包括利用非洲地区的低成本人力资源和聘请博士级专业人士,以提升数据标注质量。
百度也在持续优化中文大模型的标注流程,包括建立多层审核机制,确保数据质量。刘小莹分享了她负责的第一道标注工序之外,还有资深标注师进行复核,以及庞大的内部审核团队把控整体质量。此外,针对特定行业需求,百度能迅速组建专家团队,提供专业指导和定制化服务。
为了提高数据标注效率与质量,百度智能云自主研发了行业领先的标注平台,集成自动化预审核、行业特征分类等功能,确保数据精准分配至合适审核人员。同时,平台支持人机协同标注与多轮智能审核,有效提升产能与质量。
数据安全被视为首要考虑因素,百度智能云提供全方位的安全解决方案,包括端到端的数据服务与私有部署选项,确保数据在流转过程中的安全性。
综上所述,数据标注基地作为“智能新基建”的一部分,不仅推动了大模型的发展,也为百度“千帆大模型平台”提供了坚实支撑。随着平台的全面升级,百度有望为社会提供更多元、更高效的大模型服务。