mlops | AI开发者开聊

LLMOps与MLOps有何不同？

developer.chat

31 March 2024

大型语言模型（LLM）将彻底改变我们构建和维护人工智能系统和产品的方式。在OpenAI的GPT、Meta的Llama和谷歌的BERT等LLM发布后，它们能够生成类似人类的文本、理解上下文并执行广泛的自然语言处理（NLP）任务。一种被称为“LLMOps”的新方法已经发展起来，并成为每个AI/ML社区的话题，以简化我们在生产中开发、部署和维护LLM的方式。

阅读更多关于 LLMOps与MLOps有何不同？
登录发表评论

什么是MLOps？

机器学习操作（MLOps）可以被视为软件开发操作（DevOps）中的一个子集挑战，后者包括用于简化公司软件交付流程的软件工程最佳实践和原则。

MLOps专注于ML驱动的项目和产品开发带来的独特挑战，特别是由于ML的新生状态、工件管理和再现性问题、独特的基础设施要求、对实验和监控的永久需求以及对数据域不稳定性的控制。

阅读更多关于从MLOps到LLMOps，有什么区别？
登录发表评论

MLOps与DevOps与ModelOps

developer.chat

31 March 2024

阅读更多关于 MLOps与DevOps与ModelOps
登录发表评论

【生成人工智能】Ray如何解决生成人工智能基础设施的常见生产挑战

pgmr.cloud

19 May 2023

这是我们生成人工智能博客系列的第一部分。在这篇文章中，我们讨论了如何使用Ray来生产常见的生成模型工作负载。即将发布的一篇博客将深入探讨Alpa等项目为什么要使用Ray来扩展大型模型。

生成的图像和语言模型有望改变企业的设计、支持、开发等方式。本博客重点关注围绕基础模型支持工作负载生产部署的基础设施挑战，以及Ray，一个用于扩展ML工作负载的领先解决方案，如何应对这些挑战。最后，我们制定了一个改进路线图，以使事情变得更容易。

如今，领先的人工智能组织使用Ray大规模训练大型语言模型（LLM）（例如，OpenAI训练ChatGPT，Cohere训练其模型，EleutherAI训练GPT-J，Alpa训练多节点训练和服务）。然而，这些模型之所以如此令人兴奋，其中一个原因是可以对开源版本进行微调和部署，以解决特定问题，而无需从头开始训练。事实上，社区中的用户越来越多地询问如何使用Ray来协调他们自己的生成人工智能工作负载，建立由大型玩家训练的基础模型。

在下表中，我们用绿色突出显示了常见的“生产规模”需求（通常从1-100个节点开始）。这包括以下问题：