微软OpenAI开始用喂AI生成数据，奥特曼预言未来所有数据都将变成合成数据

萧箫发自凹非寺量子位 | 公众号 QbitAI

人类数据缺缺缺，AI被迫开始吃AI生产的数据了！

【资料图】

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据，然后现在……这些数据快被用完了。

BUT，要训练更好的大模型，多少数据都不够。

据《金融时报》介绍，不少公司正把大模型生成的结果、也就是所谓的合成数据（Synthetic data），喂给参数量更小的大模型吃，发现效果还不错。

对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为：

合成数据可能加速通往“超级智能”AI系统的道路。

所以，究竟哪些大模型已经在用合成数据了，这些合成数据又是从何而来？

大AI合成数据，小AI吃

这些所谓的合成数据，本质上是用当前表现较好的大模型生成的数据，经过人工调整后，再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话，并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”，正在进行一堂虚拟的数学教学。同时，Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误，人类员工就会插手对文本进行修正。

尽管确实还需要人力，但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么，什么样的大模型会用到这些合成数据呢？

微软研究院最近有研究表明，合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例，这个数据集被证明虽然只包含4岁小孩能理解的单词，但用于训练一个大模型之后，同样可以生成语法正确、阅读体验流畅的故事：

对于使用合成数据的理由，Cohere的CEO Aidan Gomez认为：

能从网上获取数据当然更好，但网络数据太杂乱了，完全无法满足需求。相比之下，合成数据已经非常多了，即使它还没被广泛传播。

背后产业链已出现

目前，包括Scale AI、Gretel.ai等企业，已经开始给外界提供合成数据服务。

先是Scale AI，旗下就推出了一款合成数据产品Scale Synthetic，用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中，还提到GPT-4的数据集中，有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai，从官网来看，它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作，以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为，合成数据的好处在于，它保留了数据集中所有个人的隐私，同时仍然保持其统计学意义上的完整性（statistical integrity）。

但并非所有人都接受合成数据这种“神奇操作”，目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内，有不少搞大模型的企业仍然坚持这一做法，并认为它可能生成更好的AI，甚至从中诞生出“超级智能”。

另一部分则认为，合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明：

使用合成数据训练，会让模型出现不可逆转的缺陷：
忘记那些“不可能发生的事件”，最终被自己生成的数据毒害。

有网友认为，这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃，这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗？

关键词：

微软OpenAI开始用喂AI生成数据，奥特曼预言未来所有数据都将变成合成数据

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

大AI合成数据，小AI吃

背后产业链已出现

益丰药房25亿融资被暂缓 子...

最后一页

相关阅读

微软OpenAI开始用喂AI生成数据，奥特曼预言未来所有数据都将变成合成数据

萧箫发自凹非寺量子位|公众号QbitAI人类数据缺缺缺，AI被迫开始吃AI生

益丰药房25亿融资被暂缓 子公司违规使用7.7万医保基金 内控跟不上扩张速度

25亿元可转债项目搁浅，疾驰扩张的益丰药房（603939 SH）融资遇阻。8月

煤炭开采行业跟踪周报：需求相对疲弱，煤价承压震荡

煤炭开采行业跟踪周报：需求相对疲弱，煤价承压震荡

厦门首批凭房票购买国企资产实现交房 距6月30日拍卖成交仅过40天

8月10日，厦门首批凭房票购买国有企业公开转让资产的业主在新城安置房

超42亿！又一天价锂矿落槌，1.1万次报价，升值1300多倍，背后买家或涉A股公司！

来源：媒体滚动转自：证券时报·e公司一场持续了3天3夜的锂矿争夺战，

本周A股6大指数集体跌逾3%！成交量一度跌破7000亿元，缺口回补进行时，短期底部将现？

本周A股震荡下行，5个交易日里大盘仅在周四出现小幅上涨，周五更是跌超

秋天，韭菜腌着吃，是三餐必备的百搭小菜，开胃下饭，放一年不坏

韭菜，有“蔬菜之荤”、“起阳草”的美称，除了春天时韭菜的营养与鲜嫩

蜀山缥缈录战场首胜（蜀山缥缈录职业选择）

1、我们需要进入游戏，创造一个新的角色，成为一个新的职业！2、倩玲是

一氧化硫是 一氧化硫性质

1、当辉光放电通过ＳＯ２的时候产生了一种气体．在过去相当长的时间里

vivo X80 调字体大小教程介绍

vivox80在哪调节字体大小vivox80字体调小方法分享1 打开手机设置，点击

金富科技：8月10日接受机构调研，中粤集团、深天润参与

2023年8月11日金富科技（003018）发布公告称公司于2023年8月10日接受机

src是什么意思计算机 微机原理proc是什么意思

2、src是什么意思。3、微机原理acc是什么意思。4、微机原理cwd是什么意

传《GTA6》至少已经开发了8年

近日R星母公司TakeTwo财报暗示《GTA6》极有可能将在公司下个财年（2024

近年来最“长寿”台风已登陆！这些地方有大暴雨

11日晚，今年第6号台风“卡努”在辽宁省庄河市沿海登陆，登陆时减弱为

iPhone 15系列标配USB-C接口：独一无二 无法和安卓通用

据知名数码博主@定焦数码最新发布的信息显示，与此前曝光的消息基本一

周杰伦温州演唱会是哪一年（周杰伦温州演唱会）

1、没心情！今年中国这么多事情又这么惨！还有心情听那玩意！在家里听

世界斯诺克上海大师赛将于9月开赛

此次斯诺克上海大师赛依旧采用24人邀请赛制，参赛阵容强大，由现世界排

糖炒核桃仁的做法（核桃仁的做法）

诸多的对于糖炒核桃仁的做法，核桃仁的做法这个问题都颇为感兴趣的，为

永兴庄站 关于永兴庄站介绍

1、永兴庄站。2、是位于河北省滦州市九百户镇永兴庄村的一个站。3、建

英思特高增长靠苹果 去年营收11亿应收款4亿负债率升

英思特高增长靠苹果去年营收11亿应收款4亿负债率升

焦点短讯！分期乐贷款逾期十一年延迟还款会上征信系统吗

2022年不幸去世的8位主持人，最年轻的39岁，个个都让人惋惜|快讯

现在郑州富士康普工包吃住吗（附最新收费标准）_当前热议

大理古城接待游客量大幅增长，客房入住率迅速飙升

海南商业航天发射场项目在文昌动工 开启发展新篇章

萧箫发自凹非寺量子位 | 公众号 QbitAI

益丰药房25亿融资被暂缓子...

益丰药房25亿融资被暂缓子公司违规使用7.7万医保基金内控跟不上扩张速度

厦门首批凭房票购买国企资产实现交房距6月30日拍卖成交仅过40天

一氧化硫是一氧化硫性质

src是什么意思计算机微机原理proc是什么意思

iPhone 15系列标配USB-C接口：独一无二无法和安卓通用

永兴庄站关于永兴庄站介绍

英思特高增长靠苹果去年营收11亿应收款4亿负债率升

海南商业航天发射场项目在文昌动工开启发展新篇章