发布时间:2024-11-27 19:35:52 来源: sp20241127
助力前沿研究、支撑技术创新、推进数智融合——
中国科技创新“乘”数直上
当今时代,数据已成为重要的创新要素。人工智能大模型、新材料创制、生物育种、基础科学研究等都离不开数据的支撑。
国家数据局等17部门近日印发《“数据要素×”三年行动计划(2024—2026年)》,明确开展“数据要素×科技创新”行动,从推动科学数据有序开放共享、强化高质量科学数据资源建设和场景应用、以科学数据助力前沿研究、以科学数据支撑技术创新、以科学数据支持大模型开发、探索科研新范式等方面阐述了数据要素与科技创新相结合的着力点。
从支持基础研究,到助力前沿技术如人工智能的发展,再到推动科研方法的变革,借着“数据要素×”三年行动计划的“东风”,中国的科技创新正在“乘”数直上。
建好“软硬件”
推动科学数据有序开放共享,促进重大科技基础设施、科技重大项目等产生的各类科学数据互联互通,支持和培育具有国际影响力的科学数据库建设,依托国家科学数据中心等平台强化高质量科学数据资源建设和场景应用,是“数据要素×科技创新”行动的重要目标之一。
建好相关“软硬件”,各地正在积极布局。
2024年,北京将推动算力中心、数据训练基地、国家区块链枢纽节点等一批重大项目落地。
江苏将体系化推进5G、千兆光网规模部署,支持苏州国家级互联网骨干直联点建设,加快智能算力、边缘计算等算力设施布局。
四川提出适度超前建设数字信息基础设施,加快建设“东数西算”工程国家枢纽节点,建设全省算力调度服务平台,构建算力、存力、运力一体化算网融合发展体系。
山东提出部署高性能智能计算中心,统筹布局通用和垂直大模型算力,累计建成5A级省级新型数据中心25个以上,智能算力比例达到30%,建成“山东算网”。支持济宁建设鲁南算力中心。深入实施“双千兆”网络系统工程,打造典型应用项目500个以上,新开通5G基站4万个。
“硬件”设施加强,“软件”设施也需要提升。
“互联网是数据流通、汇聚的平台,是数字经济时代基础设施的关键。”中国科学院院士梅宏表示,需要加快构建数联网和数据空间等新基础设施。
2021年,中国科学院发布了一款具有国际化服务能力的开放的通用型科学数据存储与发布平台——科学数据银行(ScienceDB)。
科学数据银行由中科院计算机网络信息中心自主研发,是一个论文关联数据存储平台,能够为论文关联数据的汇聚、管理、开放、共享提供高效的解决方案,为落实科研诚信、培育共享文化、加快数据流转和促进国际合作提供平台和服务保障。
科研人员可以把各自收集整理的科学数据在科学数据银行里进行储存和出版,而科学数据银行通过吸纳“数据存款”,“变小钱为大钱,变死钱为活钱”,把分散在个人和集体中的数据资源集中起来,使其更容易被发现、访问、互操作和重用。同时,学术论文投稿前,科研人员也可以将论文数据上传到科学数据银行。
截至今年2月2日,科学数据银行共收集了开放数据集820多万个,平台访问量超过7亿次。
开发大模型
开发人工智能大模型是“数据要素×科技创新”行动的另一个重要目标。
《“数据要素×”三年行动计划(2024—2026年)》中提出,以科学数据支持大模型开发,深入挖掘各类科学数据和科技文献,通过细粒度知识抽取和多来源知识融合,构建科学知识资源底座,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。
近年来,中国在大模型领域拥有良好的算力基础和广阔的市场,国产大模型频频亮相、加速迭代。工业和信息化部赛迪研究院数据显示,目前,中国已有超过19个大语言模型研发厂商,其中,15家厂商的模型产品已经通过备案。
凭借语言理解、逻辑推理、知识问答、文本生成等通用能力,这些大语言模型产品一经推出,便受到用户的欢迎。
“科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。”这是写进今年安徽省《政府工作报告》中的一句话。
讯飞星火是科大讯飞公司在2023年5月正式发布的新一代认知大模型,从发布至今历经多次迭代,不断升级核心能力的技术底座,持续赋能各行各业。目前,讯飞星火在国务院发展研究中心国研经济研究院、新华社研究院中国企业发展研究中心等机构的多次评测中获得肯定,被誉为中国优质的国产大模型。
“只有把大模型建立在完全自主可控的平台上,我们才能把通用人工智能时代的发展主动权牢牢掌握在自己手里。”科大讯飞研究院院长刘聪对本报记者说。2023年10月,在科大讯飞全球1024开发者节上,科大讯飞宣布联合华为打造国产大模型算力底座“飞星一号”平台,在此基础上,讯飞星火大模型开启了更大规模的训练。
目前,基于“飞星一号”的讯飞星火V3.5已完成训练,并于1月30日发布。升级后的讯飞星火V3.5在逻辑推理、语言理解、文本生成、数学答题、多模态等方面的能力均显著提升。同时,讯飞还发布了星火语音大模型和开源大模型。
“大模型带来了语音技术发展的全新机会。”刘聪说。让机器具备学习、推理和决策的能力,就是认知大模型要干的主要工作。
“我们认为,未来人工智能大模型的发展可能会有以下四个趋势。”刘聪告诉本报记者,“第一是多模态和多语言。站在未来通用人工智能发展的角度,认知智能大模型是核心基础,基于此,语音、图像、视频等其他数据可以对齐到统一语义空间中,结合插件工具实现多模态系统呈现。第二是可信可解释。这就需要保证海量数据的源头质量、大模型本身能力及系统方案的不断优化迭代,加上国家出台的监管政策和法律法规护航。第三是向系统性创新方向发展。基于单点技术组合的软硬一体化创新在AI(人工智能)领域已有产品、应用的先例,在大模型能力支持下,我们需要联合多种优势技术进行系统性创新,并关注其所带来的护城河效应。第四是软硬件一体全国产化发展。目前,讯飞投入并深度参与到国产AI芯片软件生态建设中,在训练侧和推理侧已有一定的收获和进展。”
推进数智融合
智能检索、关键词筛选、最新医讯获取……依靠大数据与人工智能带来的便捷功能,用户只需动动手指,就可轻松体验这些服务。2023年10月,江苏省泰州市大健康产业链标准云享站正式上线,以百万量级标准数据为企业提供正版现行、实时更新、用户体验更加友好的信息服务支撑。
这是泰州推动数字化、智能化技术与标准深度融合的创新实践。纵观泰州医药健康产业,从线上到线下,从“实验室”到“车间”,“智改数转(智能化改造、数字化转型)”的成果纷纷走向“生产线”。
走进泰州医药高新区(高港区)的江苏大同盟制药有限公司小容量注射剂生产车间,全自动生产线有序作业,药品生产高效、精准、稳定;扬子江药业集团旗下生产工厂通过“机器换人”和信息系统集成管理等一系列“智改数转”措施,使全流程生产更加智能化、数字化;江苏龙凤堂中药有限公司形成了一整套从中药材前期处理到提取的现代化解决方案,在中药流程智能制造标准化建设领域打造了“智改数转”的样板。
泰州的实践说明,当前,数据已成为医药健康产业的重要要素,数字技术也已成为生物医药创新发展的必要工具。数智融合,对赋能医药健康产业创新发展的作用不可或缺。
在“数据要素×科技创新”行动中,推进数智融合也是重要举措之一。《“数据要素×”三年行动计划(2024—2026年)》提出,以科学数据支撑技术创新,聚焦生物育种、新材料创制、药物研发等领域,以数智融合加速技术创新和产业升级。
近年来,人工智能、区块链、深度学习、物联网等新一代数智技术的集成迭代与扩散,已渗透到研发设计、生产制造、客户服务等各个环节,对生产技术、生产方式带来全角度、全方位、全链条的改造,全面提升产业的自动化、数字化和智能化水平,为推动数智融合应用、加快形成新质生产力提供了关键驱动力。
西北大学经济管理学院教授钞小静认为,数据要素作为数字经济时代以非物质形态被计算机设备存储和处理的新型关键生产要素,具有非竞争性、低复制成本、非排他性、强外部性等技术和经济特征,可以被不同主体重复利用,通过解构重组、汇聚融合等方式产生“数据+算法+算力”融合价值,为夯实数智融合内在形态、加快形成新质生产力提供了基础性重要资源。
“一方面,数据要素与传统生产要素的有机融合应用,丰富了数智融合的表现形态,将数智融合的方式由地理空间转向为数字空间。”钞小静说,“另一方面,数据要素在传统生产要素的再配置、再组合中发挥‘媒介’作用,产生了新的要素加工模式,催生了数智融合新形态。”(人民日报海外版) 【编辑:李岩】