0530-3433334

网站建设 APP开发 小程序

知识

分享你我感悟

您当前位置>首页 >> 知识 >> 软件开发

InfoQ:2022年AI、ML和数据工程InfoQ趋势报告

发表时间:2023-10-22 10:01:48

文章来源:炫佑科技

浏览次数:139

菏泽炫佑科技

InfoQ:2022年AI、ML和数据工程InfoQ趋势报告

在这份年度报告中,InfoQ 编辑讨论了人工智能、机器学习和数据工程的现状,以及软件工程师、架构师或数据科学家应关注的新兴趋势。 我们将讨论组织成技术采用曲线并附有评论,以帮助读者了解这些领域的技术发展状况。

对于今年的播客,InfoQ 的编辑团队邀请了外部小组成员 Einat Orr 博士,他是开源项目的联合创始人,也是 的联合创始人兼首席执行官,他在*近的 QCon 伦敦会议上发表了讲话。

下面总结了其中一些趋势以及不同技术在技术采用曲线上的位置。

自然语言理解和自然语言生成的兴起

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用阶段。 InfoQ 团队报告了该领域的*新进展,包括百度的增强型信息实体基语言表示(ERNIE)、Meta AI 的 SIDE 以及特拉维夫大学的长语言序列标准化比较()。

我们还报道了一些与 NLP 相关的进展,例如 研究团队的模型(PaLM)、GPT-NeoX-20B、Meta 的视频(AVT)和 T0 系列 NLP 模型。

深度学习进入早期大众阶段

自动软件开发模式_自动化软件开发_自动化软件开发平台

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段转移到早期采用者阶段。 去年以来,深度学习解决方案和技术已在企业中广泛采用,因此我们正在将其从早期采用阶段转向早期大众阶段。

已经有一些播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统、松散耦合的深度学习服务、使用 Spark 和 GPU 加速深度学习)和新闻(大型 Open Open )多语言模型、 AI 的深度学习语言模型、开源框架视频)。

视觉语言模型

与图像处理相关的AI模型的开发还包括80B参数视觉语言模型(VLM),它结合了单独的预训练视觉和语言模型,以回答用户通过图像和视频提出的问题。

谷歌大脑团队发布了文本到图像的人工智能模型,可以根据文本描述生成逼真的场景图像。

另一项有趣的技术——数字助理,现在也进入了早期大众阶段。

流数据分析:物联网和实时数据摄取

流式架构和流式数据分析已被越来越多的公司采用,特别是在物联网和其他实时数据摄取和处理场景中。

Sid Anand 关于构建高保真数据流的演讲以及关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲是流式处理如何成为战略数据架构必备条件的绝佳示例。 此外,Chris 在他的文章“数据工程的未来”中讨论了流在整个数据工程中的重要作用。

Chip Huyen 在去年的 QCon Plus 在线会议上发表了关于实时机器学习流基础设施的演讲,强调了实时机器学习流基础设施的优势、实时机器学习的好处以及实现实时的挑战机器学习。

反映这一趋势的是,流数据分析和 Spark 等技术已进入后期大众阶段。 数据湖即服务也是如此,它在去年得到了进一步的采用(例如,数据湖即服务)。

AI/ML 基础设施:大规模构建

高度可扩展、弹性、分布式、安全、高性能的基础设施可以决定企业的 AI/ML 战略的成败。 如果没有良好的基础设施作为基础,任何人工智能/机器学习计划都无法取得长期成功。

在今年的GTC大会上,发布了面向AI计算的下一代处理器H100 GPU和Grace CPU。

自动化软件开发_自动化软件开发平台_自动软件开发模式

资源编排器(如 YARN)和容器编排技术(如 YARN)现在处于后期大众阶段。 多云计算已经成为云平台事实上的标准,在将应用程序部署到云方面越来越受到关注。 AI/ML等技术可以自动化AI/ML数据管道的整个生命周期,包括模型生产部署和后期生产支持。

创新者阶段也有一些新进入者,包括与云无关的 AI 计算、知识图谱、AI 结对编程(如 )和合成数据生成。

知识图谱继续在企业数据管理领域占有一席之地,为包括数据治理在内的不同场景提供实际应用。

基于 ML 的编码助手:

去年发布的内容现已准备就绪。 是一项基于人工智能的服务,可帮助开发人员通过分析现有代码和注释来编写新代码。 它为开发人员生成基本功能,开发人员不需要从头开始编写这些功能,从而提高开发人员的工作效率。 此外,未来还会出现更多解决方案,提供基于人工智能的结对编程,并自动化软件开发生命周期中的大多数步骤。

在《开发者的人工智能:是未来还是现实》一文中,讨论了人工智能开发工具的作用。 人工智能开发人员尝试使用算法来增强程序员的工作自动化软件开发,使他们更加高效。 在软件开发中,我们可以清楚地看到AI不仅执行手动任务,还提高了程序员的工作效率。

合成数据生成:保护用户隐私

自动化软件开发_自动软件开发模式_自动化软件开发平台

在数据工程方面,合成数据生成是自去年以来引起广泛关注和兴趣的另一个领域。 合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

亚马逊云技术推出了诸如 Truth 之类的技术,用户现在可以使用这些技术来创建带标签的合成数据。 Truth 是一种数据标记服务,可生成数百万张自动标记的合成图像。

在 AI/ML 应用程序的整个生命周期中,数据质量至关重要。 Einat Orr 博士在伦敦 QCon 上发表了关于大规模数据版本控制的演讲,讨论了数据质量和大型数据集版本控制的重要性。 数据的版本控制有助于重现流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

在本次会议上,Ismaël Mejía 讨论了如何在*新的数据管理方法中应用开源 API 和开放标准,包括帮助我们创建和维护弹性可靠的数据架构的操作、共享和数据产品。

在另一篇文章“为现代数据系统构建端到端的字段级沿袭”中,作者讨论了数据沿袭是数据管道的根本原因以及影响分析工作流程的关键组件。 为了更好地理解数据仓库源和目标对象之间的关系,数据团队可以使用字段级沿袭。 自动创建谱系并将元数据抽象到现场级别可以减少进行根本原因分析所需的时间和资源。

早期采用者阶段的新进入者包括与机器人和虚拟现实 (VR/AR/MR/XR) 以及 MLOps 相关的技术。

MLOps:机器学习与实践的结合

MLOps 赢得了许多公司的关注,因为它将其原则和*佳实践带入了软件开发领域。

QCon Plus会议上提到,MLOps是企业AI应用*重要的组成部分。 她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型引入生产环境。 MLOps 可以帮助我们跟踪、版本、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务来简化机器学习生命周期的管理。

MLOps 将人员、流程和平台结合在一起,自动交付注入机器学习的软件,从而为我们的用户提供持续的价值。

她还讨论了在生产中部署 ML 应用程序之前应该了解的内容。 关键要点包括使用开源技术进行模型训练和部署InfoQ:2022年AI、ML和数据工程InfoQ趋势报告,以及通过机器学习管道实现端到端机器学习生命周期的自动化。

Monte 谈到了 MLOps,它汇集了特征存储和模型部署等核心组件。

播客中讨论的其他主要趋势如下。

要了解更多信息,请查阅 2022 年人工智能、机器学习和数据工程播客录音和文字记录,以及 InfoQ 的人工智能、机器学习和数据工程专题内容。

原文链接:

人工智能、机器学习和数据 InfoQ — 2022

炫佑科技专注互联网开发小程序开发-app开发-软件开发-网站制作等

相关案例查看更多