![]() |
中电信人工智能科技(北京)有限公司资深产品专家黄义清 演讲
中电信人工智能科技(北京)有限公司资深产品高质量数据集建设方案及实践 中电信人工智能科技(北京)有限公司资深产品专家 黄义清:我是来自中国电信人工智能公司的产品专家黄义清,很荣幸今天能给大家分享一下我们中国电信在高质量数据集领域的建设和实践的一些方案。 我们中国电信是在中国共产党的领导下,成立时间可追溯在1931年红色革命时期半部电台起家,1949年解放之后成立了中央人民政府邮电部,也就是我们中国电信的一个前身。 我们中国电信近100年的发展秉持着“网络强国”“科技强国”“数字中国”和“维护网信安全”的使命,从传承红色革命精神升级到云改数转的智慧的一个战略,以人工智能为核心,以量子安全为护航,全面赋能人工智能时代。 2023年11月28日,在国家和自身战略发展的趋势之下,中国电信成立了人工智能公司,目标是打造AI科技型、能力型、平台型的专业公司,发展发挥央企在AI领域的主力军作用,为国家战略力量平台型的专业型公司。成为国家的战略力量,对内对外提供高质量人工智能的产品和平台服务,积极赋能千行百业。目前我们人工智能公司的规模有1200人分布在全国4个研发中心和1个研究院。 我们一方面引进国家顶尖人才,打造人才高地。例如全职聘请了李学龙教授作为我们的首席技术官,李学龙教授也是千人计划的顶尖人才,在评选中国科学院的院士。另一方面,我们AI公司在全国与知名的一些高校进行合作,加速人才的发展和布局。由我们李学龙教授担任我们中国电信人工智能院的院长,成立了中国智能研究院开展人工智能领域的前沿探索和关键技术的攻关。 在过去的十年间,国家陆续出台了大量的数据和人工智能的相关政策,其中有两项非常关键的一些政策和指示,第一个就是国家将数据列为生产要素。2024年国家发布了7个首批的标注基地试点城市,包括四川、成都,是辽宁沈阳、安徽合肥、湖南长沙、山西大同、海南海口、河北保定等7个城市。目前,目标是为各行各业建立高质量的数据,形成数据要素和交易通。同时利用高质量的数据赋能人工智能时代的大模型的训练,实现更加精准的推理和问答。 第二个是央企AI+的一个行动政策。国资委通过多次的专题会议和文件部署,将人工智能为央国企发展的核心引擎,在2024年人工智能唤醒基础之上,2025年聚焦在应用领航、数据脉动,模型月间算力,基座攻坚、强心这5个方面,也就是再次强调了我们高质量数据集的一个重要性。在高质量数据集和数据标注行业培育是国家的一个开展方向,中国电信这两个领域积极参与和响应,也做出了相应的一些贡献和成绩。 第一就是国家的七个标注基地,和中国电信深度合作的有4个,包括成都、合肥、保定、沈阳。除此之外,还有一些地方性的标注基地,例如贵州、东莞、韶关、山东港口等,生产的高质量数据集524个,数据规模超29PB,服务了大小的模型163个。第二个贡献点就是中国电信与国家数据标准化的技术委员会秘书处进行合作,编制了高质量数据建设指南以及高质量数据质量评估,规范等标准草案,高质量的一个数据和多模态标准化数据对人工智能的发展是至关重要的,也是人工智能发展的不懈动力,好比例如大模型的训练。一来也是高质量的数据,像飞机依赖我们的油、人们的生活依赖水一样,在大模型的时代,高质量的数据局作为新一轮的人工智能的竞争高地和聚焦点,一个好的模型的生产其实80%是需要高质量数据,而20%是依赖于我们的一个模型的训练,目前全球也面临着高质量语料的消耗殆尽。 经研究预测,大模型可能在2026年消耗尽所有的一个高质量的文本数据,书局论文稀缺资源已经开采殆尽,中文语料尤其匮乏,占据全球高质量数据的数据集不到5%,远低于英文主导的一个生态。众所周知,没有高质量数据集,就没有真正的行业智能,因此,专业高质量的数据集的生产迫在眉睫。 而中国电信在近10年的大数据和AI时代的一个发展,沉淀了一套构建高质量数据集的方法论。这里主要分为三大环节和7个步骤,第一个大的环节就是数据的一个定义和筹备,首先是进行需求的一些分析,要建哪些数据集?要做什么样一些应用?进行相应的一些拆解和分析,理清楚我们的数据的来源,以及我们的格式确定我们的采集的一个方式方法和路径。 高质量数据的加工和生产是第二大环节,也是最关键的一个环节。通过原始数据的加工和过滤、清洗、合成、还原,再根据场景进行一些标注,最后针对性的进行一个评测,最后形成高质量的数据,进行一些共享和沉淀。对内、对外可以进行一些赋能和应用。核心的高质量数据的两大价值分为两个方面。对内进行一些模型的训练,类似于行业模型垂类的一些领域模型的一个训练。这些高质量的数据能够提供的训练可以提升我们的模型的效率和模型回答的准确率,对外可以通过数据要素平台进行一些交易和价值的变现。 这个高质量数据的生产示例,是电动汽车入电梯的一个模型的训练作为一个场景。我们的数据,小的场景运用了10万个以上,主要针对的是图片和视频的一个数据,进行一系列的采集处理之后,然后还可以进行一些扩充增强,就是加强一些电动车不同类型不同视频的一些亮度和一些材质不同的扩充,然后再进行一个数据的标注。标注完了之后,进行一些数据的检测,最后推送一个训练,进入电动汽车的一个入店体检监测的一个小模型的训练。 刚才介绍了高质量数据集的整个生产的过程。再介绍一下整个平台是有哪些技术核心点,整个平台也是中国电信自主研发,从0—1自主研发自主可控,其中有5个关键技术项。 第一个就是全链路的安全生产保障,包括数据的脱敏加密,然后合成合规的检测,访问的控制以及安全围栏等技术手段进行安全管控。 第二个,这些数据有音频视频可以进行多模态的一个数据的采集存储,通过对象存储这门技术,将文本、音频、视频、图像等进行一个存储。 第三个核心技术,多模态的一个数据处理技术,其中包含文本、图片、音频等100多个多模态的数据处理算子,例如可以进行一个图片的清晰还原,音频的一些降噪,视频的抽帧以及过滤等等。 第四个核心技术点就是全面的多模态的标注能力,这个标注支持文本大模型的对话,以及图片、音频、视频3D等6大类型,所有基本上覆盖了绝大部分的一些标注场景。 最后一个就是大模型的预标注的能力,通过模型和算法进行辅助的预标注,也是大大提升了模型的一个训练标注的效率。 这里介绍的高质量数据,它的核心价值刚才也提到了,就是可以做模型的训练,是中国电信的星辰大模型,基于我们自己做的高质量的数据来给模型进行训练。 最后给大家介绍几个案例,第一个就是标注基地,形成高质量数据集,赋能和生产行业的模型。举一个例子,标准基地在前些年已经有了,是去年国家才开始出台,有试点的标注基地,传统的标注基地面临的困难,包括大规模的一些任务,复杂的一些场景,还有标注的人力成本也比较高,ROI比较低的,任务和数据的问题,通过一系列的技术解决了如上的问题点。第一个就是具备多模态的标注能力,能够覆盖大部分的标注场景。第二是大模型的辅助标注,能够提高标注的效率。能够有效提升人力比,提升ROI。第三通过可信空间,数据标注不出域的方式,保证数据的安全性。第四也是整个平台支持多人协同,通过团队,通过多人的标注审核验收的环节,提升最终的数据集的质量,形成高质量的数据集。整个平台支持各类的格式,也是可以灵活进行转化,降低标注的门槛。 这是和某航空公司的一个合作,搭建了我们高质量数据集的平台,这里面临有几个困难和痛点,一个是数据质量问题,数据的处理效率问题,安全合规问题和处理成本问题,提供一揽子的解决方案,建设了高质量数据集的平台,包含标注模块,管理运营,数据集的训练,资源的管控,以及实现高质量数据集的生产和管控,最终的效果主要在这三个方面。第一就是建成了国内首个航空公司的高质量数据集,第二在数据的处理和治理的方面,效率能够大大提升,大概在40%左右。第三就是为航空领域的一些专业领域的模型训练提供了强有力的数据集。 |
中国民航报社 版权所有 京ICP备05024158 如有意见和建议,请惠赐E-mail至 news@caacnews.com.cn |