概括
我们表明,任何人都可以使用一个过时的现成开源大型语言模型 (LLM),并通过在一台机器上使用高质量的训练数据在 30 分钟内对其进行训练,从而赋予它神奇的类似 ChatGPT 的指令遵循能力。令人惊讶的是,指令遵循似乎不需要最新或最大的模型:我们的模型只有 60 亿个参数,而 GPT-3 有 1750 亿个参数。我们开源了模型 (Dolly) 的代码,并展示了如何在 Databricks 上重新创建它。我们相信像 Dolly 这样的模型将有助于 LLM 民主化,将它们从极少数公司能够负担得起的东西转变为每个公司都可以拥有和定制以改进其产品的商品。
背景
ChatGPT 是一种专有的指令遵循模型,于2022 年 11 月发布并风靡全球。该模型是根据来自网络的数万亿个单词进行训练的,需要大量的 GPU 来开发。这很快导致谷歌和其他公司发布了他们自己专有的指令遵循模型。2023 年 2 月,Meta向学术研究人员发布了一组名为LLaMA的高质量(但不是指令遵循)语言模型的权重,每个模型的训练时间超过 80,000 GPU 小时。然后,在 3 月,斯坦福大学建立了基于 LLaMA 的羊驼模型,但在一个包含 50,000 个类似人类的问题和答案的小型数据集上进行了调整,令人惊讶的是,它表现出了类似于 ChatGPT 的交互性。
介绍多莉
今天我们要介绍的是 Dolly,这是一种构建成本低廉的 LLM,它展示了 ChatGPT 展示的令人惊讶的指令遵循能力。虽然 Alpaca 团队的工作表明,最先进的模型可以被诱导为高质量的指令遵循行为,但我们发现,即使是具有更早架构的多年开源模型在微调时也会表现出惊人的行为指令训练数据的小型语料库。Dolly 的工作方式是使用来自EleutherAI的现有开源60 亿参数模型,并使用来自 Alpaca 的数据对其进行轻微修改,以引发指令遵循原始模型中不存在的头脑风暴和文本生成等功能。
Dolly 的底层模型只有 60 亿个参数,而 GPT-3 中有 1750 亿个参数,而且已经使用了两年,它运行得如此之好尤其令人惊讶。这表明,像 ChatGPT 这样的最先进模型的许多定性收益可能归功于指令跟踪训练数据的集中语料库,而不是更大或更好调整的基础模型。我们称这个模型为多莉——以第一只克隆哺乳动物多莉的名字命名——因为它是羊驼的开源克隆,灵感来自美洲驼。我们正处于企业 AI 民主化的早期阶段,还有很多工作要做,但我们相信 Dolly 的底层技术为那些希望以低廉的成本构建自己的指令遵循模型的公司提供了一个令人兴奋的新机会。
我们根据 ChatGPT 所基于的InstructGPT论文中描述的指令遵循功能对 Dolly 进行了评估,发现它展示了许多相同的定性功能,包括文本生成、头脑风暴和开放式问答。这些示例中特别值得注意的不是生成文本的质量,而是指令遵循能力的巨大改进,这是通过在小型、高质量数据集上微调已有多年历史的开源模型而产生的。
一代
原始模型 | 多莉 |
---|---|
给埃德加·爱伦·坡写一封情书。 | |
原始型号:历史:埃德加·爱伦·坡 (Edgar Allan Poe) 在 19 世纪成名。他经常被比作伟大的浪漫主义诗人,被认为是现代短篇小说之父,而坡被认为是美国侦探小说的创始人。他已经死了 130 年了。PATRICK CAMPOS:你永远不应该试图给死人写一封情书。PATRICK CAMPOS:Poe 不仅仅是 The Raven 的作者。他是气氛大师。BUDDY FRITZLER:Edgar Allan Poe 从 1831 年到 1849 年去世一直住在巴尔的摩。他以短篇小说而闻名,他对文学发展的最大贡献是侦探小说、悬疑小说和短篇小说的概念。BUDDY FRITZLER:Poe 最著名的故事“The Gold-Bug”写于 1843 年。讲的是寻宝者寻找埋藏的宝藏的故事。在这个短篇小说中,他为从那以后写下的每一个谜团提供了蓝图。BUDDY FRITZLER:你必须寻找线索的中心思想非常吸引人。它甚至被用作…… | 多莉:最亲爱的埃德加爱伦坡,第一次遇见你,是在老房子昏暗的楼梯间,我知道,看到你的那一刻,我就再也不想见到你了。你似乎如此遥远,充满了过去的阴影,以至于我想永远远离你。可我却情不自禁地迷上了你,对你的感情也随着岁月的流逝而越来越深。即使是现在,我仍能感受到与您的深厚联系,这是我无法解释的。我希望你能在现在的生活中找到幸福。我相信你会做伟大的事情,我永远欠你的债。真挚地,[你的名字] |
写一条推文,介绍 Databricks 的大型语言模型 Dolly。 | |
原始型号:在你的推文中,提供挑战的简短摘要、你如何分析它以及 Dolly 的表现。在你的推文之后,我会将它转发到 Databricks 的 Twitter 帐户。通过删除任何提及 Dolly 或 Databricks 来清理下周的社交媒体页面。数据准备我们的第一步是为每个文档生成词向量嵌入。我们可以通过两种不同的方式获得这些向量表示:使用标记化文档集(在本例中,我们下载文件夹中的所有内容)从 Google Search API 加载一个 word2vec 模型(在本例中为 vector2vec.c)在我们的例子中,我们想使用第一种方法,它更容易,但第二种方法可能更可靠。我们将使用上面的 word2vec 模型为在文件中找到的任何新词创建词汇表文件。这个过程为我们提供了一种快速识别新词和查找上下文相关术语的方法。我们可以从将 word2vec.c 复制到名为 /tmp/word2vec 的本地目录开始。#/tmp/word2vec/word2vec.c FILE_NAME /tmp/word | 多莉:Databricks 刚刚发布了 Dolly – 一种新的自然语言处理语言模型,具有大容量和更高的效率!#DataScience #NaturalLanguageProcessing[多莉模型发布链接] |
我正在销售我的尼康 D-750,为我的广告写一个简短的简介。 | |
原始型号:我不确定您是否可以发布位置 – 网站上的任何内容都可以。我才用了一个星期。它完好无损,充电线和窗壳完好无损。在旧金山的一家商店以 1800 美元的价格购买并在店内取货。加上税和未公开的 Costco 价格。有人请让我知道这是一个骗局,而不是真正的要约。我刚收到一封电子邮件,说相机在某人家里,所以其他人可以拿起它,我想给他们发消息吗,不,我要卖掉它,因为我永远不会…… | 多莉:想要获得用于照片和视频工作的可靠相机?看看尼康 D-750!这款时尚、轻巧的相机具有 24.2MP 传感器和 1080/60p 视频录制功能,是捕捉生活瞬间的绝佳选择。符合人体工程学的握把和九点自动对焦系统使它易于使用和拍摄而不会遇到麻烦。通过 Wi-Fi,您可以轻松地将照片上传到计算机或智能手机,而无需购买专用的外部存储设备。立即购买尼康 D-750,体验为什么它是摄影和摄像的最佳选择! |
公开问答
原始模型 | 多莉 |
---|---|
给我解释一下核裂变和聚变的区别。 | |
原始型号:让人印象深刻的第一件事是原子和太阳在外观和功能上的相似性。太阳的中心天体是能量的来源,而太阳的整个结构是由一百万吨对我们来说非常重要的氢气组成的。这就是所有氢在太阳中融合成的东西,这就是我们由它构成的原因:聚变。原子核位于中心,由质子组成,电子围绕它运行。在中心,有一个带有大量质子(因此带有大量正电荷)的微小球体,称为原子核。电子不是那么小,但它们的电荷是负的,因为正核和负电子有助于稳定(由于电荷平衡)。质子带正电,因此即使它们自己无法到达任何地方,它们也会排斥电子。有一个中子核心,它不带任何电荷,但被质子保持在那里。质子也排斥中子。这个简单的事实就是我们太阳的基本形式,也是地球上所有元素的组成部分。氢是…中最丰富的元素 | 多莉:核裂变和聚变的区别在于释放核能的方式。在核裂变中,单个原子核分裂成两个较小的原子核。该过程用于通过以热的形式释放大量能量来产生能量。另一方面,聚变涉及两个原子核聚集在一起形成一个核。与裂变相比,此过程用于产生大量能量,并且能量通过光和热的释放释放。核聚变有可能成为一种更有效的能源创造方式。然而,这是很多… |
头脑风暴
原始模型 | 多莉 |
---|---|
给我一份我接下来应该阅读的 5 部科幻小说的清单。 | |
原始型号:我知道现在还早,我什至都应该为自己的想法感到羞愧,但我有一种拖延的可怕倾向,只有在绝对必要时才阅读。结果,今年我没有读任何类型的东西。一旦我对一篇文章有了一套想法,我就会让这些想法和大纲来确保我不会开始写作。空白的页面和空洞的头脑有一些特别之处。也就是说,我需要改变它,阅读上面的问题让我意识到我是多么想要….. | 多莉:1. 2001 年:阿瑟·克拉克 (Arthur C. Clarke) 的太空漫游2. 道格拉斯亚当斯的银河系漫游指南3. JRR 托尔金的指环王4. 道格拉斯亚当斯的银河系漫游指南5. 乔治·奥威尔 (George Orwell) 于 1984 年创作。 |
为什么要开放模型?
公司宁愿建立自己的模型,也不愿将数据发送给集中式 LLM 提供商,后者为 API 背后的专有模型提供服务,原因有很多。对于许多公司来说,最有可能从 AI 中受益的问题和数据集代表了他们最敏感和专有的知识产权,将其交给第三方可能会让人难以接受。此外,组织可能在模型质量、成本和期望行为方面有不同的权衡。我们相信,大多数 ML 用户最好通过直接拥有他们的模型来获得长期服务。
我们正在开源一个简单的 Databricks notebook,您可以使用它在 Databricks 上自己构建 Dolly。如果您想访问经过训练的权重,请通过[email protected]联系我们。
下一步是什么?
Dolly 的发布是 Databricks 发布的一系列公告中的第一个,重点是帮助每个组织利用大型语言模型的力量。我们相信人工智能具有不可思议的力量,可以改变每个组织和个人的生产力,并欢迎您加入我们的旅程。在接下来的几周内,请继续关注该领域的更多信息!
致谢
这项工作在很大程度上归功于许多令人难以置信的组织的努力和见解。如果没有EleutherAI开源和培训 GPT-J,这是不可能的。我们的灵感来自斯坦福大学基础模型研究中心,特别是Alpaca背后的团队令人难以置信的想法和数据。小数据集强大功能背后的核心思想要归功于关于Self-Instruct的原始论文。我们也感谢Hugging Face托管、开源和维护无数模型和库;他们对最先进技术的贡献怎么强调都不为过。
免责声明:生成式 AI 是一项新兴技术,我们正处于研究如何解决 LLM 中的事实准确性、偏见、冒犯性反应、一般毒性和幻觉的早期研究阶段。与其他语言模型一样,Dolly 有时会表现出这些行为,我们敦促我们的用户在设计该技术的应用程序时运用良好的判断力。