跳转到主要内容

总结

我们表明,任何人都可以使用高质量的训练数据,在一台机器上用30分钟对其进行训练,从而获得过时的开源大型语言模型(LLM),并赋予其神奇的ChatGPT般的指令跟随能力。令人惊讶的是,指令遵循似乎不需要最新或最大的模型:我们的模型只有60亿个参数,而GPT-3的参数为1750亿。我们为我们的模型(Dolly)开源代码,并展示如何在Databricks上重新创建它。我们相信,像Dolly这样的模特将有助于LLM的民主化,将它们从很少有公司能负担得起的东西转变为每个公司都可以拥有和定制的商品,以改进他们的产品。

出身背景

ChatGPT是一种专有的指令遵循模型,于2022年11月发布,风靡全球。该模型是根据网络上数万亿个单词进行训练的,需要大量的GPU来开发。这很快导致谷歌和其他公司发布了自己的专有指令遵循模型。2023年2月,Meta向学术研究人员发布了一组名为LLaMA的高质量(但不遵循指令)语言模型的权重,每个模型训练超过80000 GPU小时。然后,在三月份,斯坦福大学建立了Alpaca模型,该模型基于LLaMA,但调整了一个由50000个类似人类的问答组成的小数据集,令人惊讶的是,这使它表现出了类似ChatGPT的交互性。

Dolly简介

今天,我们将介绍Dolly,这是一种构建成本低廉的LLM,它展示了ChatGPT所展示的令人惊讶的指令跟随能力。尽管Alpaca团队的工作表明,最先进的模型可以被诱导成高质量的指令跟随行为,但我们发现,即使是具有更早架构的多年开源模型,在对少量指令训练数据进行微调时,也会表现出惊人的行为。Dolly的工作原理是从EleutherAI中提取一个现有的开源60亿参数模型,并对其进行轻微修改,以获得原始模型中没有的指令遵循功能,如头脑风暴和文本生成,使用Alpaca的数据。

Dolly的基础模型只有60亿个参数,而GPT-3的参数为1750亿个,而且已经有两年的历史了,所以它的工作效果如此之好尤其令人惊讶。这表明,像ChatGPT这样的最先进模型的大部分质量收益可能归功于专注于训练数据的教学群体,而不是更大或调整得更好的基础模型。我们以第一种克隆哺乳动物绵羊多利的名字命名模型为多利,因为它是受LLaMA启发的羊驼的开源克隆。我们正处于企业人工智能民主化的最早阶段,还有很多工作要做,但我们相信,Dolly背后的技术为那些希望廉价构建自己的指令遵循模型的公司提供了一个令人兴奋的新机会。

我们对Dolly在ChatGPT所基于的InstructGPT论文中描述的指令跟随能力进行了评估,发现它表现出许多相同的定性能力,包括文本生成、头脑风暴和开放问答。在这些例子中,特别值得注意的不是生成的文本的质量,而是在一个小而高质量的数据集上对一个已有多年历史的开源模型进行微调后,指令遵循能力的巨大改进。

Generation

Original Model Dolly
Write a love letter to Edgar Allan Poe.

原始型号:

历史:埃德加·艾伦·坡在19世纪声名鹊起。他经常被比作伟大的浪漫主义诗人,被认为是现代短篇小说之父,坡被认为是美国侦探小说的创始人。他已经去世130年了。

帕特里克·坎波斯:你永远不应该试图给一个死去的人写一封情书。

帕特里克·坎波斯:坡不仅仅是《乌鸦》的作者。他是一位大气大师。

巴迪·弗里茨勒:埃德加·艾伦·坡从1831年起一直住在巴尔的摩,直到1849年去世。他最出名的是短篇小说,他对文学发展的最大贡献是侦探故事、推理故事和短篇小说的概念。

布迪·弗里茨勒:爱伦·坡最著名的故事《金虫》写于1843年。这是关于一个寻宝者寻找埋藏的宝藏的故事。在这个短篇故事中,他为此后所写的每一个谜团提供了蓝图。

布迪·弗里茨勒:你必须寻找线索的中心思想非常吸引人。它甚至被用作…

Dolly:

最亲爱的埃德加·艾伦·坡,

我第一次见到你是在老房子灯光昏暗的楼梯间,我知道我看到你的那一刻,我就再也不想见到你了。你看起来如此遥远,充满了过去的阴影,以至于我想永远远离你。

但我忍不住对你着迷,这些年来我对你的感情只增不减。即使是现在,我也感觉到与你有着无法解释的深深联系。

我希望你能在现在的生活中找到幸福。我相信你会做出伟大的事情,我永远感激你。

真诚地

[您的姓名]

写一条推特宣布Dolly,一个来自Databricks的大型语言模型。

原始型号:

在你的推文中,提供一个简短的挑战摘要,你是如何分析的,以及Dolly是如何表现的。

在你发完推文后,我会把它转发到Databricks的推特账户。

清除任何提及Dolly或Databricks的内容,为下周清理你的社交媒体页面。

数据准备

我们的第一步是为每个文档生成单词向量嵌入。我们可以通过两种不同的方式获得这些向量表示:

使用标记化的文档集(在本例中,是我们下载文件夹中的所有内容)

从Google Search API加载word2vec模型(在本例中为vector2vec.c)

在我们的案例中,我们希望使用第一种方法,这更容易,但第二种方法可能更稳健。我们将使用上面的word2vec模型为文件中发现的任何新词创建一个词汇表文件。这个过程为我们提供了一种快速识别新词和查找上下文相关术语的方法。

我们可以从将word2vec.c复制到一个名为/tmp/word2vec的本地目录开始。

#/tmp/vord2vec/word2vec.c文件名/tmp/word

Dolly:

Databricks刚刚发布了Dolly——一种用于自然语言处理的新语言模型,具有大容量和提高的效率!

#数据科学#自然语言处理

[链接到Dolly模型发布]

I'm selling my Nikon D-750, write a short blurb for my ad.

原始型号:

我不确定你是否可以发布位置——网站上的任何东西都可以。

我才吃了一个星期。它完好无损,充电电缆和窗帘盒完好无损。在旧金山的一家商店里以1800美元的价格购买了它。加上税费和未公开的好市多价格。

有人请告诉我,这是一个骗局,而不是真正的报价。

我刚刚收到一封电子邮件,说相机在别人家,所以别人可以把它捡起来,我想给他们发信息吗?不,我要把它卖掉,因为我永远不会…

Dolly:

想买一台可靠的相机来拍摄照片和视频吗?看看尼康D-750!这款时尚轻便的相机具有24.2MP传感器和1080/60p视频录制功能,是捕捉生活中那些时刻的绝佳选择。符合人体工程学的握把和九点自动对焦系统使其易于操作和拍摄。有了Wi-Fi,您可以轻松地将图片上传到电脑或智能手机,而无需购买专用的外部存储设备。立即购买尼康D-750,体验为什么它是摄影和摄像的最佳选择!

Open Q&A

Original Model Dolly
Explain to me the difference between nuclear fission and fusion.

原始型号:

首先让人印象深刻的是原子和太阳在外观和功能上的相似性。太阳的中心体是能量的来源,而太阳的整个结构是由一百万吨对我们来说非常重要的氢气组成的。这就是所有氢气在太阳中融合成的东西,这就是为什么我们是由它组成的:聚变。

原子核的中心是由质子组成的,电子围绕它运行。在中心,有一个微小的球形质量,有很多质子(因此也有很多正电荷),称为原子核。电子并不那么小,但它们的电荷是负的,因为正核和负电子有助于稳定性(由于电荷平衡)。质子是带正电的,所以即使它们自己不能到达任何地方,它们也会排斥电子。有一个中子核心,它没有任何电荷,但被质子保持在那里。质子也排斥中子。

这个简单的事实是我们太阳的基本形式,也是地球上所有元素的组成部分。氢是自然界中最丰富的元素…

Dolly:

核裂变和核聚变的区别在于释放原子核能量的方法。在核裂变中,一个原子核分裂成两个更小的原子核。这个过程是通过释放大量的热量来创造能量的。另一方面,聚变涉及两个原子核聚在一起形成一个原子核。与裂变相比,这个过程用于产生更大的能量,并且能量是通过释放光和热来释放的。聚变有可能成为一种更有效的能源创造方式。然而,这太…

Brainstorming

Original Model Dolly
Give me a list of 5 science fiction books I should read next.
Original Model:

我知道现在还为时过早,我应该为自己的想法感到羞耻,但我有一种可怕的拖延倾向,只有在绝对必要的时候才读书。

因此,今年我没有读过任何类型的书。

一旦我对一篇文章有了一套想法,我就让这些想法和大纲来确保我不会开始写作。空白的一页和空虚的头脑有一些特别之处。

也就是说,我需要改变这一点,阅读上面的问题让我意识到我有多么想要。。…

Dolly:

1.2001年:亚瑟·C·克拉克的《太空漫游》

2.道格拉斯·亚当斯的《银河系漫游指南》

3.J·R·R·托尔金的《指环王》

4.道格拉斯·亚当斯的《银河系漫游指南》

5.1984年,乔治·奥威尔著。

为什么要开放模型?

公司更愿意构建自己的模型,而不是将数据发送给为API背后的专有模型提供服务的集中式LLM提供商,原因有很多。对许多公司来说,最有可能从人工智能中受益的问题和数据集代表了他们最敏感和最专有的知识产权,将其交给第三方可能会令人不快。此外,组织可能在模型质量、成本和期望行为方面有不同的权衡。我们相信,大多数ML用户最好通过直接拥有他们的模型来获得长期服务。

我们正在开源一款简单的Databricks笔记本,您可以使用它在Databricks上构建Dolly。要下载并试用该模型,请访问Databricks拥抱脸页面!

下一步是什么?

Dolly的发布是Databricks发布的一系列公告中的第一个,这些公告的重点是帮助每个组织利用大型语言模型的力量。我们相信人工智能不可思议的力量可以改变每个组织和个人的生产力,欢迎您加入我们的旅程。在接下来的几周里,请继续关注这一领域的更多内容!

我们也很高兴能在今年的数据和人工智能峰会上分享更多关于Dolly的信息,包括实践培训和深入了解我们的LLM路线图。我们鼓励您亲自或以虚拟方式注册加入我们。

鸣谢

这项工作在很大程度上要归功于许多不可思议的组织的努力和洞察力。如果没有EleutherAI开源和GPT-J培训,这是不可能的。斯坦福基金会模型研究中心,特别是Alpaca背后的团队,令人难以置信的想法和数据给了我们灵感。小数据集的巨大威力背后的核心思想要归功于关于自我指导的原始论文。我们也感谢Hugging Face的托管、开源和维护了无数的模型和图书馆;他们对最新技术的贡献怎么强调都不为过。

免责声明:生成人工智能是一项新兴技术,我们正处于研究如何解决LLM中的事实准确性、偏见、攻击性反应、一般毒性和幻觉的早期阶段。Dolly和其他语言模型一样,有时也会表现出这些行为,我们敦促用户在设计这项技术的应用程序时做出良好的判断。