0530-3433334

网站建设 APP开发 小程序

知识

分享你我感悟

您当前位置>首页 >> 知识 >> 软件开发

数据挖掘能力成为新时代国家重要竞争力的国家

发表时间:2023-11-05 11:04:56

文章来源:炫佑科技

浏览次数:168

菏泽炫佑科技

数据挖掘能力成为新时代国家重要竞争力的国家

人工智能的概念已经提出了60多年,但直到1997年IBM的深蓝计算机击败国际象棋大师才被大众所知。然而,基于专家系统经验的智能是有限的。 2016年,他击败了世界顶级围棋选手,展示了自己在大数据方面的实力,但只是通过规则下的算法练习,才让他变得更加完美。 类似的方法推动了自然语言识别和人脸识别技术的发展。 2022 年底人工智能的出现标志着从判别式人工智能到生成式人工智能的飞跃。 尽管目前的大型模型仅针对特定任务和指定模态,但离通用人工智能还有很长的路要走。 然而,大语言模型让机器初步具备常识、理解推理、学会创造,从而使人与机器能够以更自然的方式进行交互,并通过与外围工具的结合展现出拟人化的智能。 它不同于用数据作为查询和判断的依据。 可以说,把数据读透了、消化了,从数据中得出的结论高于数据。 生成大模型赋予数据新的活力,AI时代大数据蕴含的价值将进一步显现。 由于人工智能,数据变得越来越重要。 数据要素是新生产力的代表,数据挖掘能力已成为新时代重要的国家竞争力。

1.培育数据资源,促进开放共享

数据是生产、生活过程的记录和自然观察的结果。 2022年,中国人口将占世界人口的18%,网民将占世界人口的21.5%,GDP将占世界的18.06%。 国家网信办《数字中国发展报告(2022)》数据显示,2022年我国数据产出量将达到8.1ZB,同比增长22.7%,占全球10.5%,排名世界第二; 我国数据存储容量将达到724.5EB,同比增长21.1%,占全球的14.4%。 中国产生和存储的数据在全球的比例低于中国人口、网民和经济规模在全球的比例。 根据集团截至2021年第三季度的统计,美国大型数据中心占全球的49%,其次是中国的15%。 可见,我国的数据存储能力与美国的差距还是比较大的。 这反映出我国在社会信息化、产业数字化方面仍落后于美国。 加快数字中国建设有望尽快改变这一现状。

政府、研究机构和企业都存储了大量的数据。 政府掌握着全社会80%左右的数据,而且是高质量的数据。 但主要仅供内部使用,甚至百货公司内的小单位也单独使用,而不是共用。 利用率不高。 要从制度层面明确共享内容、权责,推动政府部门间数据共享,更加准确把握社会经济运行全局,增强政府部门间工作协调性。 与共享相比,数据开放是社会数字化的标志之一。 政府和企事业单位持有的公共数据具有很强的社会性。 政府开放数据对于提升政府公信力、降低社会成本、促进数字经济发展具有重要意义。 影响。 国际上,政府数据开放被视为数字政府的重要指标。 《联合国电子政务调查报告2022》数据显示,2012年至2022年十年间,中国在线服务指数从0.5294上升至0.8876,在193个国家中中国排名从第62位上升至第15位,其中爱沙尼亚、芬兰、韩国位列前三,美国排名第八,日本排名第九。 我国还存在政府数据标准规范体系有待完善、政府数据统筹管理机制有待完善、政府数据安全保障能力有待加强等问题。 要从数据流通基础体系建设入手,加快数据立法,完善制度规范,协调推进,编制数据目录,分类分级管理,巩固共享开放机制,提高安全保障。 。

除了政府开放数据外,社会公共数据的开源也体现了数据流通的水平。 人工智能生成内容 (AIGC) 的大型模型是使用语料库进行训练的。 一些主要的互联网公司已经利用电子商务、社交网络、搜索等业务来收集和标注海量语料,用于自己训练大型模型。 缺乏语料积累的企业和研究人员虽然机构可以从互联网上获取语料,但自媒体内容的质量良莠不齐。 如果在不进行清洗和标注的情况下用作大型模型的训练语料,效果令人担忧。 使用开源语料库进行大型模型训练,但中文 token 占比不到 0.1%,低于一些小语言的比例。 究其原因,与中国开源语料库数量少、规模小有关。 国内大学也有数亿至数十亿字级的语料库,但尚未开源。 国内一些大型语言模型是直接使用国外开源语料库训练的,在价值观的控制上存在潜在风险。 建议向公众开放的大型对话模型需要对语料库的来源进行评估。 面向重要应用场景的大型模型不应强调无标签训练数据和无监督学习。 相反,他们应该使用干净且有标签的数据集,并保留手动微调,即监督学习。

业界大模型的训练也面临着挑战。 专业数据并不像一般数据那么容易获得,行业内的公司往往不愿意共享专业数据。 为此,需要在国家重要产业领域建立高质量的基础知识库、数据库、资源库等。 此外,应鼓励社会数据要素的合理流动和利用。 《中共中央 国务院关于构建数据基础设施体系更好发挥数据要素作用的意见》提出,依法监管、共同参与、各取所需的发展模式,共享红利将合理降低市场主体获取数据的门槛,增强数据要素共享、普惠性,激发创新创业创造。

2. 大模型驱动数据范式创新

基础大模型通常由通用语料库训练生成,具有很强的通用知识。 从聊天对话开始,很容易提供反馈和迭代优化,但聊天很难达到刚需。 实现行业应用将进一步体现大模型的价值。 然而,基本的大型模型缺乏行业专业知识。 要求大模型提供商与垂直行业合作,开发行业大模型。 一种模式是企业将数据提交到基础大模型进行再训练,然后针对特定场景进行知识蒸馏、量化、迁移等工作,将模型调整到理想水平后缩小模型规模。 但仍需要后续的模型微调和云边部署。 需要算法工程师来支持。 企业缺乏技术实力,不得不依赖模型提供商。 企业数据交给模型提供商时存在数据泄露的风险,但数据不完整会导致训练效果不佳。 另一种模式是公司有算法工程师,根据具体业务场景数据挖掘能力成为新时代国家重要竞争力的国家,用专有数据对基础大模型进行微调,形成一个行业大模型或者基于实际业务的多个小模型。 *好在前期培训阶段就加入垂直行业。 公司的数据、预训练和指令微调交织在一起,提高模型表达、理解、迁移和泛化行业知识的能力。

一些监管较强、重视数据安全行业的核心企业,如龙头金融机构,通常不会在第三方基础大模型上构建专业大模型,而是采用数据私有化、模型私有化、本地私有云的方式来构建他们。 大模型,即在加密环境下利用私有数据训练专业大模型,但需要面临高成本和技术门槛的挑战。 总的来说,无论是自己搭建行业大模型还是合作开发,数据安全都是前提。 既掌握大模型训练技术又熟悉行业专业知识的人才是关键。

由于资金、技术和人才的限制,中小企业很少有能力与基础大模型提供商合作开发大行业模型。 MaaS(模型即服务)应运而生。 这是针对中小企业提出的服务模式。 MaaS部署在中小企业本地设备上或者公有云上软件开发,在PaaS和SaaS之间嵌入一个小切口,提供调用基础大模型的接口。 可以加入企业自身的数据对模型进行微调,从而将大模型能力嵌入到SaaS产品中。 它解决了传统SaaS面临的客户定制需求与标准化产品规模化盈利之间的问题。 基于MaaS,小程序以及配套的低代码开发和模型编排工具可以通过大模型进行优化。 PaaS可以基于此构建低代码平台,丰富工具软件,实现数据和功能定制,利用MaaS赋能中小企业上云。 同时,利用个性化小模型,为数字化转型提供智能化解决方案。 当前的大模型不仅仅是一项技术,它重塑了数据要素的生态链,引领了产业研发和应用的范式变革,标志着信息化从网络驱动向数据驱动发展。 面对大模型浪潮,需要在国家战略和规划部署下统筹推进政产学研用,引导“百模型并发”形成合力,避免资源分散和低层重复,实现数据采集聚合、处理、流通和交易,开发和应用全链协作。

3、数据助力社会治理信息化

习近平总书记指出,“随着互联网的普及和大数据等技术的快速发展,国家治理正逐步从线下向线下与线上相结合、从掌握少量‘样本数据’转变”。掌握海量‘全数据’,为推动治理模式变革、提高国家治理现代化水平提供了有利条件。” 从网格化管理、精细化服务、信息化支撑的基层治理平台,到一网通管一切的城市大脑,利用大数据、人工智能、物联网等信息化手段感知社情、畅通沟通渠道。 支持快速反应,促进政府决策科学、社会治理精准、公共服务高效。 尤其是AIGC技术的应用可以重构政府与民众的互动流程。 大模型可以提高处理现实生活中复杂大系统问题的能力,精准防控社会发展风险,有效维护政治稳定和社会安全,进一步促进经济发展和社会进步。

人工智能,尤其是生成式大模型技术,是一把双刃剑。 它的推理过程是不透明的,它的答案是自圆其说的。 尤其是利用未识别的语料库来训练社会治理的大型模型,可能会导致公众的误导,甚至造成价值观的冲突。 人工智能技术还可能被滥用或恶意利用制造虚假新闻,造成社会传播风险,危害国家安全。 我们要用人工智能辅助社会治理、治理人工智能行为,但不能因为人工智能的使用可能失控而限制人工智能技术的研究和应用。 人工智能技术需要应用的反馈和迭代升级。 当前,国际贸易、科技合作、人员往来中,数据跨境流动不可避免。 数据社会治理也面临着对外开放的挑战。 解决办法是,人工智能监管体系建设和人工智能技术研究并重,协调发展和安全治理,使人工智能监管创新和技术发展相辅相成,用技术手段和治理规范并重来应对。解决大模型中的算法偏差和伦理混乱,并利用法律法规防范各类数据安全事件,维护国家安全。 为此,首先要按照《关于构建数据基础体系的意见》,尽快完善数据产权制度、数据元流通交易制度、数据元收益分配制度、数据元治理制度。更好地发挥数据元素的作用”为人工智能技术的发展提供基础。 发展和治理提供行为规范。 其次,高度重视数据监管的技术创新。 APN6(基于IPv6的应用感知网络)和iFIT(基于IPv6的流入检测)可以标记IP流的属性,包括数据类型和IP流路径可追溯性,有利于跨境监控。 对于数据流管理,IPv6 的多归属功能可以卸载敏感数据。 当来自不同所有者的数据被合并时,多方计算等技术可以使数据可用和不可见。 加快各类数据监管和数据安全技术研究成为当务之急,需要尽快补齐数据管理标准的不足或技术支撑手段不足的问题。

四、加快数据基础设施建设

大型模型的数据训练和推理需要计算能力的支持。 中国2022年总算力低于美国2021年,其中中国2022年智能算力低于美国2021年,这体现了我国的大规模算力。 模型的数据训练和推理计算能力之间的差距。 算力建设是市场行为,但国家整体推广将优化资源利用和产业合理布局。 “东方数字、西方计数”作为国家战略规划,具有中国特色,反映了我国区域经济、地理气候特征和能源分布格局。 东西方数据资源的配置和有效运用都离不开政府之手的作用。 西部的短板是数据中心产业支撑能力弱、人才短缺。 需要同步规划布局数据清洗和标注、数据机房产品和服务产业的培育和发展,延伸产业链上下游,做好承接机房冷暖数据存储工作。东部。 在计算的同时,还需要推动本地热数据的云服务,使西部数据集群的发展能够形成良性循环。

算力的布局需要处理好几个方面。 一是通用算力与智能算力的合理配比。 通用算力主要是CPU,适合处理政务、智慧城市、智能客服等数据/计算密集型事务性任务。 ; 智能计算能力主要基于GPU,适合训练大型模型。 值得注意的是,在数据训练过程中,还需要算法工程师进行干预和微调。 智能计算中心适合建设在数据源集中、算法工程师聚集的地方,不适合全面发展。 三、财政资金支持的大型智能计算中心建设要精心谋划。 二是自建算力和云原生算力。 许多单位都有动力建设自己的计算能力。 然而,麦肯锡的一份报告显示,商业和企业数据中心的服务器利用率很少超过6%,通常高达30%的服务器是收费的。 闲置的。 要鼓励中小企业从自行购买AI服务器建设数据中心转向购买云服务,这样既降低成本又提高利用率,增强抵御DDoS的能力,减少碳排放; 引导县级地方政府使用省级政府集中建设的政务云。 IT基础设施自主采购。 第三是存储与计算的比例。 存储和计算能力需要协调。 内存与计算能力的合理配比为GB/=1,避免因存储能力不足、等待计算能力而影响处理效率。 根据华为/罗兰贝格报告,2020年美国为1:0.9,中国为1:2.4。 第四是容灾能力与主数据中心存储能力的比例。 数据中心需要异地双容灾备份,关键数据需要本地活跃。 2020年,全球平均数据容灾保护占数据中心存储投资的比例为27.4%。 ,而我国只有7.8%,有待提高。

数据作为生产要素是经济理论和实践的创新。 数据不同于土地、劳动力、资本等传统生产要素。 数据要素的开发和治理存在很多问题需要深入研究。 例如,数据的再现性和非破坏性使用使得数据产权和安全管理边界难以界定。 党中央决定成立国家数据局,负责统筹推进数据基础设施建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字经济社会规划建设等,将有力推动数据要素技术创新和发展。 利用和有效治理,以数据力量支撑数字中国建设。

炫佑科技专注互联网开发小程序开发-app开发-软件开发-网站制作等

相关案例查看更多