<cite id="x79xf"></cite><cite id="x79xf"></cite>
<cite id="x79xf"></cite>
<var id="x79xf"><video id="x79xf"></video></var>
<var id="x79xf"></var>
<var id="x79xf"></var>
<var id="x79xf"><video id="x79xf"><thead id="x79xf"></thead></video></var>
<var id="x79xf"><video id="x79xf"><thead id="x79xf"></thead></video></var>
<cite id="x79xf"><video id="x79xf"><thead id="x79xf"></thead></video></cite>
<var id="x79xf"></var>
<menuitem id="x79xf"><strike id="x79xf"></strike></menuitem>
<var id="x79xf"></var>
<cite id="x79xf"></cite>

只需单击三次,让中文GPT-2为你生成定制故事

2019-11-12 22:17:02

伟哥价格 http://www.wanaige.com/

机器之心报道

机器之心编辑部

想要GPT-2生成中文故事,听听它对各种主题的看法?你可以试试这个中文预训练GPT-2项目,它开源了预训练结果与ColabDemo演示,只需要单击三次,我们就能生成定制的中文故事。

项目地址:https://github.com/imcaspar/gpt2-ml

Colab演示地址:https://colab.research.google.com/github/imcaspar/gpt2-ml/blob/master/pretrained_model_demo.ipynb

既然昨天才过完双十一,那么我们先看看这个预训练模型能生成什么样的故事。如下是我们给定前提「双十一」,中文GPT-2生成的第一个样本:

Sample,1of10

双十一,不只是剁手的节日,更是买买买的狂欢节!10月13日,中国小象开启的全新一年的跨境爆款系列商品双十一的正式来袭,围绕电商双十一的购物理念及战略重点,阿里巴巴、天猫联合打造的潮流趋势支付,正式登陆双十一狂欢夜。潮流界、时尚界盛事的参与者,统统化身成为电商促销的传播者和领导者,时尚界的人们以身作则,走在时尚前线,年轻时尚女性,正用最新的鲜美,向消费者传递快乐与创意。不止双十一,很多行业的大事件会在这个季节火热登场,不只是女性用户,还有男性用户。那么,在这些品牌高调露面的时刻,我们又该如何大玩不同的新玩法?如何抓住双十一的流量红利和品牌曝光点?

首先,形式是核心。网购、预售、快递都是消费者在双十一这个大战场上所接触最多的环节,而品牌商们喜欢的是大玩点创新、玩点新意。其次,先有用户的需求,才能够靠作品的特色获得市场的重视。小象电商的用户就是普通人,所以他们的需求就是需要一个包包,一条围巾,要么想各种创意。

这个生成样本说得头头是道,很难看出来它完全是由模型生成的,甚至样本给出了一个微信号,我们查了后估计该微信号与文本是没什么关系的。

既然样本效果这么好,它肯定需要很多中文语料。项目表明,该15亿参数量的GPT-2中文预训练模型在15GB的纯文本上进行训练,一共迭代了10万步。这15GB的纯文本主要选自THUCNews与nlp_chinese_corpus,它们会做一系列的数据清理。

THUCNews:http://thuctc.thunlp.org/#中文文本分类数据集THUCNews

nlp_chinese_corpus:https://github.com/brightmart/nlp_chinese_corpus

此外,项目作者还简化整理了GPT-2训练代码,移植了BertTokenizer以添加多语言支持。因为移植了BertTokenizer,所以模型输出结果很容易与基于BERT的模型进行整合。

项目作者开放的预训练模型是在TPUPodv3-256上复现的15亿参数GPT2,这也是GitHub上第一个支持大规模TPU训练的中文GPT-2项目。

本项目的训练脚本:https://github.com/imcaspar/gpt2-ml/tree/master/train

极简易用的Colab演示

非常吸引人的是,该项目提供了一个非常容易使用的Colab项目,只需简单地单击三次,我们就能使用Colab体验GPT-2续写整段文本的能力。演示地址在文章前面已经提供了,这里主要展示机器之心尝试的效果。

下图是我们尝试使用的结果,简单而言分可以为三步:首先从GitHub下载源代码;其次从GoogleDrive下载预训练模型,这里需要获得授权,也非常简单;最后,调用Colab的硬件进行推断就行了。

我们可以看到,中文GPT-2大部分生成结果,上下文还是非常合理的。如果你也想试一试效果,那就快来试一试吧,没有任何ML基础也能看到模型的真实效果。

机器之心「SOTA模型」22大领域、127个任务,机器学习SOTA研究一网打尽。

上一篇:

下一篇:

关于我们

通河资讯网是领先的新闻资讯平台,汇集美食文化、生活百科、国际资讯、热点新闻、综艺娱乐、体育健康、等多方面权威信息

版权信息

通河资讯网版权所有,未经允许不可复制本站镜像,本站文章来源于网络,如有侵权请邮件举报!

加拿大群