跳转到主要内容

OpenAI与开源多语言嵌入模型

选择最适合您的数据的模型

OpenAI最近发布了他们的新一代嵌入模型,称为嵌入v3,他们将其描述为性能最高的嵌入模型,具有更高的多语言性能。这些模型分为两类:一类较小,称为text-embedding-3-small,另一类较大,功能更强大,称为text-embedding-3-large。

关于这些模型的设计和训练方式,披露的信息很少。作为他们之前发布的嵌入模型(2022年12月,ada-002模型类),OpenAI再次选择了一种封闭源方法,其中模型只能通过付费的API访问。

但是,这些表演是否如此之好,以至于值得付出代价?

这篇文章的动机是将这些新模型的性能与开源模型的性能进行实证比较。我们将依赖于数据检索工作流,在该工作流中,必须在给定用户查询的情况下找到语料库中最相关的文档。

我们的语料库将是《欧洲人工智能法案》,该法案目前正处于最后的验证阶段。这个语料库的一个有趣的特点是,除了是世界上第一个人工智能的法律框架外,它还有24种语言。这使得可以比较不同语言族的数据检索准确性。

该职位将经历以下两个主要步骤:

埃隆·马斯克OpenAI诉讼OpenAI 的疯狂索赔

埃隆·马斯克(Elon Musk)对OpenAI的诉讼基于一个可疑的说法,即该公司已经开发了“通用人工智能”,并将其移交给了微软。

埃隆·马斯克(Elon Musk)在本周开始时,在X上愤怒地发布了他为安装一台运行Windows的新笔记本电脑所做的努力。最后,他提起诉讼,指控OpenAI鲁莽地开发人类级人工智能,并将其移交给微软。

马斯克对OpenAI及其两名高管,首席执行官萨姆·奥特曼和总裁格雷格·布罗克曼提起诉讼,他们都曾与这位火箭和汽车企业家合作,于2015年创立了该公司。案件的很大一部分围绕着一个大胆而可疑的技术主张:OpenAI开发了所谓的通用人工智能(AGI),这个术语通常用来指代能够全面匹配或智胜人类的机器。

该案称,奥特曼和布罗克曼违反了与马斯克达成的OpenAI最初的“创始协议”,该公司承诺公开开发AGI“为了人类的利益。马斯克的诉讼指控,该公司的营利性部门,在他与OpenAI分道扬镳后于2019年成立,却在没有适当透明度的情况下创建了AGI,并将其授权给微软,微软已向该公司投资数十亿美元。该公司要求OpenAI被迫公开发布其技术,并禁止其使用该技术为其提供经济利益。”t微软、奥特曼或布罗克曼。

【转录实时音频流】使用OpenAI Whisper近乎实时地转录实时音频流,用于关键字监控

在这篇文章中,我演示了如何使用Python中的OpenAI Whisper近乎实时地转录实时音频流。我们这样做是为了监视流中的特定关键字。此外,转录后的文本会记录时间戳以供进一步使用。通过对转录的文本进行模糊匹配,我们可以找到对关键词的提及。然后,我们通过信号信使向包含口语段落相关部分的团体或个人触发一条信息。

背景

这是一个在周末建立的快速POC:为了赢得比赛,我想监控当地电台是否提到了一些关键词。这需要迅速完成,这产生了一个简单的解决方案。此外,它必须尽可能节约资源,以最大限度地降低基础设施成本。虽然它并不是以稳定性为主要关注点来构建的,但它实际上在几周内表现完美,没有任何停机时间。因此,目标实现了!

所有代码在此回购中都可用。在下文中,我将介绍解决方案的总体结构,并解释代码的一些相关部分。

概述

该解决方案由三部分组成:

save_stream.py从实时音频流中以30秒为单位连续保存.mp3文件

transcript.py使用OpenAI Whisper永久转录每个音频块。然后,它使用模糊匹配来监控口语中的关键词。在比赛中,它调用msg_group_via_signal.sh

【LangChain】与文档聊天:将OpenAI与LangChain集成的终极指南

欢迎来到人工智能的迷人世界,在那里,人与机器之间的通信越来越模糊。在这篇博客文章中,我们将探索人工智能驱动交互的一个令人兴奋的新前沿:与您的文本文档聊天!借助OpenAI模型和创新的LangChain框架的强大组合,您现在可以将静态文档转化为交互式对话。

你准备好彻底改变你使用文本文件的方式了吗?然后系好安全带,深入了解我们将OpenAI与LangChain集成的终极指南,我们将一步一步地为您介绍整个过程。

什么是LangChain?

LangChain是一个强大的框架,旨在简化大型语言模型(LLM)应用程序的开发。通过为各种LLM、提示管理、链接、数据增强生成、代理编排、内存和评估提供单一通用接口,LangChain使开发人员能够将LLM与真实世界的数据和工作流无缝集成。该框架允许LLM通过合并外部数据源和编排与不同组件的交互序列,更有效地解决现实世界中的问题。

我们将在下面的示例应用程序中使用该框架从文本文档源生成嵌入,并将这些内容持久化到Chroma矢量数据库中。然后,我们将使用LangChain在后台使用OpenAI语言模型来查询用户提供的问题,以处理请求。

这将使我们能够与自己的文本文档聊天。

【前端开发】ChatGPT:您在前端开发领域的新最佳朋友

你好!作为一名初级前端开发人员,我一直在寻找新的工具和技术,这些工具和技术可以帮助我提高技能,让我的工作更轻松。最近,我遇到了ChatGPT,这是一个由OpenAI训练的大型语言模型,能够帮助完成各种任务,如错误检查、测试、文本完成和回答问题。

在这篇博客文章中,我想与您分享ChatGPT在前端开发中的一些创造性方法,以及它如何在您的工作中为您带来好处。

首先,让我们谈谈什么是ChatGPT以及它是如何工作的。ChatGPT是一个大型语言模型,它在大量文本数据上进行了训练,使其能够对各种输入产生类似人类的响应。它使用一种名为“转换器”的技术来处理输入文本并生成输出,这意味着它能够轻松处理长格式文本和复杂任务。

因此,事不宜迟,让我们深入探讨ChatGPT如何在前端开发中使用的一些示例!

文档:

ChatGPT可以帮助您为代码编写文档。例如,假设您编写了一个函数,用于计算二维空间中两点之间的距离。使用ChatGPT,您可以向它提供函数的详细信息(如输入参数和返回值),它将为您生成清晰简洁的文档:

【LangChain】语言模型评估

评估语言模型,以及在语言模型之上构建的扩展应用程序,是很困难的。随着最近的模型发布(OpenAI、Anthropic、Google),评估正成为一个越来越大的问题。人们开始尝试解决这个问题,OpenAI发布了OpenAI/evals,专注于评估OpenAI模型。相应地,我们很高兴地宣布,我们对评估链和代理的方式进行了一些补充和改进。

问题

评估LangChain链和代理可能非常困难。这主要有两个原因:

#1:缺乏数据

在开始一个项目之前,你通常没有大量的数据来评估你的链/代理。这通常是因为大型语言模型(大多数链/代理的核心)是非常棒的少试和零试学习者,这意味着你几乎总是能够在没有大量示例数据集的情况下开始执行特定任务(文本到SQL、问答等)。这与传统的机器学习形成了鲜明的对比,在传统机器学习中,甚至在开始使用模型之前,都必须先收集一堆数据点。

#2:缺乏指标

大多数链/代理执行的任务没有很好的指标来评估性能。例如,最常见的用例之一是生成某种形式的文本。评估生成的文本比评估分类预测或数字预测要复杂得多。

【OpenAI】我如何使用OpenAI将公司的文档转化为可搜索数据库

以及如何对您的文档进行同样的处理

在过去的六个月里,我一直在一个初创公司Voxel51工作,该公司是开源计算机视觉工具包FiftyOne的创始人。作为一名机器学习工程师和开发人员,我的工作是倾听我们的开源社区,并为他们带来他们需要的东西——新功能、集成、教程、研讨会,你能想到的。

几周前,我们在FiftyOne中添加了对矢量搜索引擎和文本相似性查询的原生支持,这样用户就可以通过简单的自然语言查询在他们的(通常是海量的,包含数百万或数千万个样本)数据集中找到最相关的图像。

这让我们陷入了一个奇怪的境地:现在,使用开源FiftyOne的人可以通过自然语言查询轻松搜索数据集,但使用我们的文档仍然需要传统的关键字搜索。

我们有很多文档,这些文档有其优点和缺点。作为一名用户,我有时会发现,考虑到文档的数量,准确地找到我想要的内容需要比我想要的更多的时间。