跳转到主要内容

介绍Phi-3:重新定义SLM的可能性

我们很高兴介绍Phi-3,这是一个由微软开发的开放式人工智能模型家族。Phi-3模型是可用的功能最强大、成本效益最高的小型语言模型(SLM),在各种语言、推理、编码和数学基准测试中都优于相同大小和下一大小的模型。此版本为客户扩展了高质量模型的选择范围,在他们编写和构建生成型人工智能应用程序时提供了更实用的选择。

从今天开始,Phi-3-mini,一种3.8B语言模型,可在Microsoft Azure AI Studio、Hugging Face和Ollama上使用。

Phi-3 Mini是一款3.8B参数、重量轻、最先进的开放式模型

Phi-3 Mini


Phi-3 Mini是一个3.8B参数、轻量级、最先进的开放模型,使用Phi-3数据集进行训练,包括合成数据和过滤后的公开网站数据,重点关注高质量和推理密集的属性。
该模型经过了一个后期训练过程,其中包括监督微调和直接偏好优化,以确保精确的指令遵守和稳健的安全措施。
当根据测试常识、语言理解、数学、代码、长上下文和逻辑推理的基准进行评估时,Phi-3 Mini-4K-Instruction在参数不到130亿的模型中展示了稳健和最先进的性能。

预期用途


主要使用案例


该模型旨在以英语进行商业和研究用途。该模型为需要1)内存/计算受限环境2)延迟受限场景3)强推理(尤其是数学和逻辑)4)长上下文的应用程序提供了用途
我们的模型旨在加速对语言和多模式模型的研究,用作生成人工智能功能的构建块。

OpenAI与开源多语言嵌入模型

选择最适合您的数据的模型

OpenAI最近发布了他们的新一代嵌入模型,称为嵌入v3,他们将其描述为性能最高的嵌入模型,具有更高的多语言性能。这些模型分为两类:一类较小,称为text-embedding-3-small,另一类较大,功能更强大,称为text-embedding-3-large。

关于这些模型的设计和训练方式,披露的信息很少。作为他们之前发布的嵌入模型(2022年12月,ada-002模型类),OpenAI再次选择了一种封闭源方法,其中模型只能通过付费的API访问。

但是,这些表演是否如此之好,以至于值得付出代价?

这篇文章的动机是将这些新模型的性能与开源模型的性能进行实证比较。我们将依赖于数据检索工作流,在该工作流中,必须在给定用户查询的情况下找到语料库中最相关的文档。

我们的语料库将是《欧洲人工智能法案》,该法案目前正处于最后的验证阶段。这个语料库的一个有趣的特点是,除了是世界上第一个人工智能的法律框架外,它还有24种语言。这使得可以比较不同语言族的数据检索准确性。

该职位将经历以下两个主要步骤:

langchain屏蔽解析器和转换器是一个用于屏蔽和重新水合字符串的可扩展模块。

屏蔽


实验掩蔽解析器和转换器是一个可扩展的模块,用于掩蔽和重新水合字符串。该模块的主要用例之一是在调用llm之前,从字符串中编辑PII(个人标识信息)。


真实世界场景​


客户支持系统接收包含敏感客户信息的消息。系统必须解析这些消息,屏蔽任何PII(如姓名、电子邮件地址和电话号码),并在遵守隐私法规的同时将其记录下来进行分析。在记录转录本之前,将使用llm生成摘要。
开始​


基本示例​


使用RegexMaskingTransformer为电子邮件和电话创建一个简单的掩码。

TIP

See this section for general instructions on installing integration packages.

Ally Financial与LangChain合作,提供关键编码模块,以合规和安全的方式屏蔽个人身份信息

Ally Financial是美国最大的纯数字银行和领先的汽车贷款机构,最近与LangChain合作发布了第一个初始编码模块,该模块解决了在高度监管、以消费者为中心的行业中使用个人身份信息(PII)的人工智能开发人员面临的重大挑战。此处提供的PII屏蔽模块为在正常业务过程中经常处理客户PII的组织(包括金融服务、医疗保健和零售业的组织)提供了一个起点,以构建生成性人工智能应用程序,同时保护客户数据。

发布使用LangChain构建的Ally.ai


在LangChain的支持下构建的PII屏蔽模块是为Ally.ai创建的,Ally.ai是该公司专有的基于云的人工智能平台,将成为Ally数据和商用LLM之间的安全桥梁。Ally是金融服务行业生成人工智能的早期采用者,于2023年9月推出了该平台。该公司与Ally.ai的第一个用例利用平台的力量,帮助客户关怀与体验团队每天与数千名客户互动。

Ally.ai协助700多名客户服务助理总结他们与Ally客户之间的对话。该平台连接到商业级LLM,通过共享每个客户电话的完整记录来帮助他们,然后由LLM汇总。在高度监管的银行业,在LLM进行总结之前,应将PII剔除。

Robocorp的代码生成助手使开发人员轻松构建Python自动化

挑战


Robocorp成立于2019年,是因为开发者能够自动化单调工作的承诺没有实现。一开始,他们基于Python的平台就帮助各种形状和规模的团队更高效地构建和操作自动化。但是,他们知道,通过帮助自动化开发人员更快地编写更好的代码,他们可以通过Generative AI为客户提供更多价值。

解决方案


Robocorp团队构想了一个名为ReMark的人工智能开发助理。ReMark可以在几秒钟内回答特定的自动化问题并生成代码,确保开发人员不必从头开始。Robocorp产品副总裁Tommi Holmgren表示:“这不仅仅是一个聊天机器人。它就像一个知识渊博的高级开发人员,熟悉Robocorp的开发工具和自动化库。”。

ReMark通过生成与其用例相关的功能代码片段来帮助从业者。聊天界面非常适合迭代解决方案、发现错误以及从广泛的Robocorp库中发现最佳关键字。

通过构建和利用知识图谱来提高基于RAG的应用程序的准确性

在使用Neo4j和LangChain的RAG应用程序中构建和检索知识图信息的实用指南


编者按:以下是Tomaz Bratanic的客座博客文章,他专注于Neo4j的Graph ML和GenAI研究。Neo4j是一家图形数据库和分析公司,它帮助组织深入、轻松、快速地发现数十亿数据连接中隐藏的关系和模式。


图检索增强生成(Graph RAG)作为传统矢量搜索检索方法的强大补充,正在获得发展势头。这种方法利用了图数据库的结构化特性,将数据组织为节点和关系,以增强检索信息的深度和上下文性。

 

InfluxDB关键概念

Before diving into InfluxDB, it’s good to get acquainted with some key concepts of the database. This document introduces key InfluxDB concepts and elements. To introduce the key concepts, we’ll cover how the following elements work together in InfluxDB:

方法缺乏凝聚力(LCOM4)

Cohesion metrics measure how well the methods of a class are related to each other. A cohesive class performs one function while a non-cohesive class performs two or more unrelated functions. A non-cohesive class may need to be restructured into two or more smaller classes.

High cohesion is desirable since it promotes encapsulation. As a drawback, a highly cohesive class has high coupling between the methods of the class, which in turn indicates high testing effort for that class.