你的位置:科目三 裸舞 > 草榴社区地址 >
父女做爱视频 Scaling Law百度最早提议!OpenAI/Claude受它启发,致谢中有Ilya
发布日期:2024-11-28 20:47    点击次数:131

父女做爱视频 Scaling Law百度最早提议!OpenAI/Claude受它启发,致谢中有Ilya

白小交 发自 凹非寺父女做爱视频

量子位 | 公众号 QbitAI

什么?Scaling Law最早是百度2017年提的?!

Meta讨论员翻出经典论文:

大大宗东谈主可能不知谈,Scaling law原始讨论来自2017年的百度,而非三年后(2020年)的OpenAI。

此讨论由吴恩达主捏,来自百度硅谷东谈主工智能现实室 (SVAIL) 系统团队。

他们探讨了深度学习中磨练集大小、计算限制和模子精度之间的关联,何况通过大限制实证讨论揭示了深度学习泛化差错和模子大小的缩放法例,还在图像和音频上进行了测试。

只不外他们使用的是 LSTM,而不是Transformer;也莫得将他们的发现定名为「Law」。

再回头看,其中一位作家Gregory Diamos给我方往日在百度的先容照旧LLM Scaling Law Researcher。

又有一网友发现,OpenAI论文还援用了2019年这位作家Gregory Diamos等东谈主的打听。但却不知谈他们2017年就有了这样一项使命。

网友们纷纷暗示这篇论文相配值得一读,而且透彻被低估。

来迅速望望这篇论文。

深度学习Scaling是可计算的

在深度学习范围,跟着模子架构的不断探索、磨练数据集的不断增大以及计算智力的不断进步,模子的性能也在不断提高。

但是,关于磨练集大小、计算限制和模子精度之间的具体关联,一直枯竭深刻的领略。

本文通过大限制的实证讨论,对多个机器学习范围(如机器翻译、讲话建模、图像分类和语音识别)进行了测试,发现了一些法例:

泛化差错(模子在新数据上的进展差错)与磨练集大小呈现幂律关联,即跟着磨练集的增大,泛化差错会以一定的幂次下落。

模子大小与与数据大小也存在Scaling(缩放)关联父女做爱视频,经常模子大小的增长速率比数据大小的增长速率慢。

具体来说,衔尾以往使命,团队将属眼力聚首在准确忖度学习弧线和模子大小的缩放趋势上。

按照一般测量智力,是礼聘首先进的SOTA模子,并在磨练集的更大子集(碎屑)上磨练这些模子的 “超参数缩减 ”版块,以不雅察模子的准确性何如跟着磨练集的大小而增长。

因此针对这四个范围,机器翻译、讲话建模、图像分类和语音识别,找到了他们在大型数据集上显表露 SOTA 泛化差错的模子架构。

这里的 “大型数据集 ”是指限制不错收缩 2-3 个数目级,但仍足以进行有价值的模子架构讨论的磨练集。他们为某些 ML 范围礼聘了一种以上的模子架构,以比拟它们的膨胀活动。

机器翻译

团队属目到,跟着磨练集限制的增大,优化变得愈加贫穷,而且模子会出现容量不及的情况,因此教育差错会偏离幂律趋势。

词讲话模子

这一成果标明,最好拟合模子随磨练分片大小呈次线性增长。

字符级讲话模子

为了测试字符级讲话建模,他们磨练了深度为 10 的轮回高速公路网罗(RHN),成果发现该网罗在十亿单词数据集上能达到首先进的(SOTA)准确率。

图像分类。

图像分类相似呈现出幂律学习弧线和模子大小的缩放关联。何况还标明,在相配小的磨练集上,准确率会在接近速即猜度的水平上趋于适当。

语音识别。

团队磨练了一系列跨度较大的模子尺寸,是以针对每个磨练数据大小得出的模子尺寸缩放成果,其意料不像在讲话模子(LMs)或图像分类中那么较着。

跟着数据量的加多,大大宗模子会经验幂律泛化更始,直至数据量接近其灵验容量。在这种情况下,参数为 170 万的模子的准确率在节略 170 小时的音频数据时开动趋于适当,而参数为 600 万的模子在节略 860 小时的音频数据时趋于适当(也即是说,节略是前者的 5 倍,这与模子尺寸的互异情况雷同)。更大的模子(举例,参数为 8700 万的模子)在更大的数据集限制下,其泛化差错也更接近最好拟合趋势。

终末关于这一发现,他们暗示,这些比例关联对深度学习的讨论、引申和系统王人有迫切影响。它们不错匡助模子调试、设定准确度宗旨和数据集增长有忖度打算,还不错相通计算系统想象,并强调捏续计算膨胀的迫切性。

博客致谢中还有Ilya的名字

这次讨论主如果由往日吴恩达主捏下,百度硅谷东谈主工智能现实室 (SVAIL) 系统团队。

其时的一群合著者们依然各自去到各个机构现实室、大厂接续从事大模子有关的讨论。

在往日博客致谢中,还出现了Ilya的名字,感谢他们参与了这一计议。

两年后,也即是2019年,其中一位作家Gregory Diamos又率领团队探讨了深度学习的计算挑战。

后头的OpenAI论文恰是援用了这篇论文的打听计议了Scaling Law。

本大道香蕉大l在线吗视频

值得一提的是,Anthropic CEODario Amodei在百度讨论院吴恩达团队使命过,他对Scaling Law的第一印象亦然那时讨论语音模子产生的。

Amodei刚开动讨论语音神经网罗时有一种“生手撞大运”的嗅觉,尝试把模子和数据限制同期扩大,发现模子性能跟着限制的加多而不断进步。

开赴点,他认为这仅仅语音识别系统的特例。但到了2017年,看到GPT-1的成果后意志到这种征象在讲话模子上相似适用。

往日(2015年)他一作发表的论文Deep Speech,合著者中这位Sharan Narang恰是两年后这篇论文的主要作家之一。如今后者先后去到了谷歌担任PaLM名目TL大模子认真东谈主,然后当今是Meta当讨论员。

如今这一“冷常识”再次出当今大家的视线,让不少东谈主回溯并重温。

这当中还有东谈主进一步暗示:信得过的OG论文使用了seq2seq LSTM,何况治服了参数计算弧线。

往日的一作恰是Ilya Sutskever。

参考相连:[1]https://arxiv.org/abs/1512.02595 [2]https://arxiv.org/abs/1909.01736[3]https://research.baidu.com/Blog/index-view?id=89[4]https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [5]https://www.linkedin.com/in/dario-amodei-3934934/[6]https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw

— 完 —

量子位 QbitAI · 头条号签

护理咱们父女做爱视频,第一时刻获知前沿科技动态约



栏目分类
相关资讯