跳转到主要内容

LLMOps与MLOps有何不同?

大型语言模型(LLM)将彻底改变我们构建和维护人工智能系统和产品的方式。在OpenAI的GPT、Meta的Llama和谷歌的BERT等LLM发布后,它们能够生成类似人类的文本、理解上下文并执行广泛的自然语言处理(NLP)任务。一种被称为“LLMOps”的新方法已经发展起来,并成为每个AI/ML社区的话题,以简化我们在生产中开发、部署和维护LLM的方式。

从MLOps到LLMOps,有什么区别?

什么是MLOps?


机器学习操作(MLOps)可以被视为软件开发操作(DevOps)中的一个子集挑战,后者包括用于简化公司软件交付流程的软件工程最佳实践和原则。


MLOps专注于ML驱动的项目和产品开发带来的独特挑战,特别是由于ML的新生状态、工件管理和再现性问题、独特的基础设施要求、对实验和监控的永久需求以及对数据域不稳定性的控制。

【生成人工智能】Ray如何解决生成人工智能基础设施的常见生产挑战

这是我们生成人工智能博客系列的第一部分。在这篇文章中,我们讨论了如何使用Ray来生产常见的生成模型工作负载。即将发布的一篇博客将深入探讨Alpa等项目为什么要使用Ray来扩展大型模型。

生成的图像和语言模型有望改变企业的设计、支持、开发等方式。本博客重点关注围绕基础模型支持工作负载生产部署的基础设施挑战,以及Ray,一个用于扩展ML工作负载的领先解决方案,如何应对这些挑战。最后,我们制定了一个改进路线图,以使事情变得更容易。

如今,领先的人工智能组织使用Ray大规模训练大型语言模型(LLM)(例如,OpenAI训练ChatGPT,Cohere训练其模型,EleutherAI训练GPT-J,Alpa训练多节点训练和服务)。然而,这些模型之所以如此令人兴奋,其中一个原因是可以对开源版本进行微调和部署,以解决特定问题,而无需从头开始训练。事实上,社区中的用户越来越多地询问如何使用Ray来协调他们自己的生成人工智能工作负载,建立由大型玩家训练的基础模型。

在下表中,我们用绿色突出显示了常见的“生产规模”需求(通常从1-100个节点开始)。这包括以下问题:

【MLOps】使用Ray缩放AI

Ray正在人工智能工程领域崭露头角,对扩展LLM和RL至关重要

Spark在数据工程中几乎是必不可少的。Ray正在人工智能工程领域崭露头角。

雷是伦敦大学学院Spark的继任者。Spark和Ray有很多相似之处,例如用于计算的统一引擎。但Spark主要专注于大规模数据分析,而Ray则是为机器学习应用程序设计的。

在这里,我将介绍Ray,并介绍如何使用Ray扩展大型语言模型(LLM)和强化学习(RL),然后总结Ray的怀旧和趋势。

Ray简介

Ray是一个开源的统一计算框架,可以轻松扩展人工智能和Python的工作负载,从强化学习到深度学习,再到模型调整和服务。

下面是Ray的最新架构。它主要有三个组件:Ray Core、Ray AI Runtime和Storage and Tracking。