给点提示，就可以自动续写故事！NLP最强文本生成模型GPT-3来了，网友：亲测好用

来源:雷锋网发布时间:2020-07-20

分享至微信

写作应该是各行各业，各种职业都会用到的基础技能。

虽为基础技能，但要做好却不难简单，想必你一定经历过深夜论文没灵感、合作方案写不出来这些类似的痛苦。如果这个时候能有一个什么都懂的全能大神指点迷津，或者直接完成，那简直再好不过了！

最近一位Twitter网友在体验了一款AI神器后，发现愿望竟然真的实现了！

“百科全书式”写作助手

这款AI神器正是Open AI开发的GPT-3自然语言处理模型。简单来说，GPT-3是一款AI文本生成器，它可以根据上文提示，自动补齐下文。官方说法是，这款GPT-3涵盖了1750亿个参数，远超GPT-2和其他AI文本生成模型，达到了目前的最佳SOTA，而且其写作水平能够与人类媲美。

但是实际效果如何，咱谁也没用过。可能是出于对产品的自信，两个月前，OpenAI将这款耗费了1200万美元的商用GPT-3模型，对外开源了，现在人人皆可拿来作为自己的写作助手。

最近一位名为Delian的网友在体验完之后，忍不住在Twitter分享了令他难以置信的使用效果。Delian是家风投公司创始人，他希望GPT-3能在“如何召开有效的董事会会议？”的问题上给出一些建议，因此，他针对这个问题，在GPT-3中输入了上文：

内容大意是：公司创始人前期打造一支高质量的董事会成员对于公司初期发展至关重要。而大多说创始人没有意识到这一点。他建议公司在完成A轮融资后就可以开始招募董事会成员，而且招募对象一定好涵盖公司所在领域的各个方向的专家。另外，他还举了一个实例进行了论证了这个观点。

可以看出，上文内容属于商业运营和投资范畴，若非专业人员很难给出相应的回应。

但是，接下来GTP-3生成的下文让他非常满意。（话题涉及主观看法，暂不论对错）

以下是翻译内容：

内容概要：GPT-3首先肯定了稳定高质量的董事会成员对公司发展的价值，然后对如何执行招聘董事会成员的工作给出了具体建议，首先是确定需要招聘的人员清单。

目标清单：从自己身边的同事或朋友入手，招展人脉资源，确定符合需要的目标人选（大约20-25人）
资格清单：建立人员筛选标准，提出一些专业问题、个人生活问题，根据回答判断与公司需求的匹配度。
确定好之后，接下来便是召集现有的董事会成员开始招聘工作。在这里需要保持热情沟通，呈现公司价值。

对于GPT-3呈现出的结果，Delian表示远超出了预期。可以看出，首先模型基本理解了上文大意，并且在无其他提示的情况下，给出了非常详细的意见和建议，虽然并非完全正确，但问题本身也是开放性的问题。同时，下文也基本遵循了上文的格式，如分段和主标题样式。

另外，经过多项测试后，Delina发现任何领域的专业问题，它都能自动生成相互匹配的下文，比如有关同性恋故事的剧本，行业专家的技术访谈、或者有关选举的政治话题等统统不在话下。

Delin还把如此强大的GTP-3形容为：

如果iPhone的出现，是将全世界的知识装进了您的口袋，那么GPT-3则为你提供了10,000个，能够与你在任何话题上交流的博士。

听着非常心动了，每天为文案熬秃头的朋友们，可以来尝试体验一下，为你们奉上开源地址，Github地址：https://github.com/openai/gpt-3

GPT-3：超大模型，无需微调

其实，GPT-3的出色性能还不知如此。这个版本的模型是在今年的五月份刚刚被推出，与之前的GPT-2本相比，它在参数上高出了100倍。更重要的是，GPT-3实现了无需微调的最佳SOTA。

一般来说，GPT自然语言模型工作分为上游预训练和下游特定任务两个主要阶段。无需微调，意味着在经过大型语料库的预训练后，GPT-3在处理诸如语言翻译、完型填空、文本生成等常见NLP任务时，无需针对下游任务作出特殊处理。

同时，它也意味着其处理任务的性能表现，主要取决于它的预训练过程。

首先从预训练阶段的模型大小来看，从论文中的数据显示，在经过几项简单的任务训练（删除文本中的随机符号）后，模型越大学习曲线越陡峭，而越是陡峭，代表学习性能越强。因此，可以说下游任务的学习能力主要由模型大小决定。

在GPT-3中的模型和体系架构与GPT-2基本一致，包括其中描述的修改后的初始化，预规范化和可逆记号化，不同之处在于，在GPT-3各层中使用了Sparse Transformer架构。同时，研究人员训练了8种不同大小的模型，范围从1.25亿个参数到1,750亿个参数，三个数量级。最后一个为“GPT-3”。

可以看出，模型越大，它在可训练总数、层级数、学习比率方面的表现越高。

另外，从语料库来讲，模型越大越需要大的语料库作为支撑，GPT-3采用的数据集（Common Crawl）包含了近一万亿个单词。

CommonCrawl数据是从2016年到2019年，每个月的CommonCrawl的41个分片中下载的，构成了过滤前的45TB压缩明文和过滤后的570GB，大致相当于4000亿字节。

请注意，在训练过程中，并非按大小对数据集进行采样，而是较高质量的数据集采样频率更高，因此，在训练过程中CommonCrawl和Books2数据集采样的次数少于一次，而其他数据集则采样了2 -3次。这本质上是接受了少量的过度拟合，换取了更高质量的训练数据。

因此，基于超大模型和与数据库的GPT-3在预训练阶段能够表现出极好的性能。

存在一定的局限性

不过，从此前的测试中，我们也可以看出GPT-3的文本生成还是存在一些局限性的。具体我们可以从Q&A问答中来看一下。对于常识性性问题，GPT-3还是非常擅长的。如，

GPT-3自身的学习经验主要是从网上抓取，因此在回答一些常识性问题时，它可以从网上找到准确的对应答案。但在处理对于一些“不言而喻”的问题时，它就可以出现错误，比如下文：

Q：烤面包机和铅笔哪一个较重？

A：铅笔比烤面包机重。

虽然在这些问题上存在缺陷，不过，GPT-2在处理一些逻辑性问题，或者阅历理解任务时，几乎可以达到人类的水平。因此，在很多方面可以作为人类很好的辅助工具。

相关链接：雷锋网雷锋网(公众号：雷锋网)雷锋网
论文地址：https://arxiv.org/abs/2005.14165