當(dāng)前位置：人工智能實(shí)驗(yàn)室> 科技新聞 > 登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-20 08:07:39 瀏覽：76次

導(dǎo)讀：機(jī)器之心報(bào)道機(jī)器之心編輯部終于，面對(duì)近年來對(duì)自家自動(dòng) AI 芯片設(shè)計(jì)研究的質(zhì)疑，谷歌坐不住了，發(fā)文回應(yīng)！論文作者中包括了谷歌首席科學(xué)家 Jeff Dean。論文地址：https://arxiv.org/pdf/2411.10053論文標(biāo)題：That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design我們先來回顧一下事情的來龍去脈：2020 年，谷歌發(fā)表了預(yù)印本論文《Chip Placem ......

機(jī)器之心報(bào)道

機(jī)器之心編輯部

終于，面對(duì)近年來對(duì)自家自動(dòng) AI 芯片設(shè)計(jì)研究的質(zhì)疑，谷歌坐不住了，發(fā)文回應(yīng)！論文作者中包括了谷歌首席科學(xué)家 Jeff Dean。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

論文地址：https://arxiv.org/pdf/2411.10053

論文標(biāo)題：That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design

我們先來回顧一下事情的來龍去脈：

2020 年，谷歌發(fā)表了預(yù)印本論文《Chip Placement with Deep Reinforcement Learning》，介紹了其設(shè)計(jì)芯片布局的新型強(qiáng)化學(xué)習(xí)方法 AlphaChip。在 2021 年，這項(xiàng)研究發(fā)表在 Nature 上并開源了出來。

此后，AlphaChip 激發(fā)了 AI 芯片設(shè)計(jì)方面的大量工作，并在谷歌母公司 Alphabet 三代 TPU、數(shù)據(jù)中心 CPU 和其他芯片中部署，并由外部芯片制造商擴(kuò)展。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

然而，ISPD 2023 上的一篇論文對(duì)谷歌 AlphaChip 的性能提出了質(zhì)疑（Cheng 等人），論文指出，盡管谷歌承諾會(huì)提供數(shù)據(jù)和代碼，但實(shí)際上這些資源并不完全可用。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

論文地址：https://arxiv.org/pdf/2302.11014

Cheng 等人還認(rèn)為基于谷歌的 Circuit Training（CT）框架的 AlphaChip 和《Nature》論文存在幾項(xiàng)不一致：如輸入網(wǎng)表的預(yù)放置信息、代理成本函數(shù)的權(quán)重設(shè)置、宏觀和標(biāo)準(zhǔn)單元群集的放置規(guī)則等。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

根據(jù)他們的評(píng)估，相比模擬退火算法（SA），在大多數(shù)情況下，AlphaChip 的代理成本更高、HPWL 也不如 SA 方法。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

但谷歌方稱：「他們并沒有按照我們 Nature 論文中描述的方法運(yùn)行�！�

例如 Cheng 等人的論文中沒有預(yù)訓(xùn)練 RL 方法（消除了從先驗(yàn)中學(xué)習(xí)的能力）、使用的計(jì)算資源少得多（RL 經(jīng)驗(yàn)收集器減少 20 倍，GPU 數(shù)量減少一半）、沒有訓(xùn)練到收斂（機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)做法），并且用于評(píng)估的測試用例也是過時(shí)的。

在最近一期 CACM 上，Synopsys 的杰出架構(gòu)師 Igor Markov 也發(fā)表了對(duì)三篇論文的元分析，包括登上《Nature》的 AlphaChip 原論文、Cheng 等人投稿到 ISPD 的論文以及 Markov 未發(fā)表的論文，總結(jié)了人們對(duì) AlphaChip 的各種質(zhì)疑。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

文章地址：https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

谷歌還拉了一張時(shí)間線：

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

因此，面對(duì)以上質(zhì)疑，谷歌通過本文進(jìn)行了回應(yīng)，確保沒有人因?yàn)殄e(cuò)誤的原因而放棄在這個(gè)有影響力的領(lǐng)域繼續(xù)創(chuàng)新。

Jeff Dean 發(fā)推表示，Cheng 等人的論文很大程度上并沒有遵循谷歌的方法，尤其是沒有進(jìn)行預(yù)訓(xùn)練，在算力、訓(xùn)練收斂方面也都存在缺陷。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

Jeff Dean 還認(rèn)為，Igor Markov 的文章提出了含蓄的指控，完全沒有根據(jù)。他很驚訝 Synopsys 竟然想與此事扯上關(guān)系，也很驚訝 CACMmag 竟然認(rèn)為發(fā)表這些指控是恰當(dāng)?shù)�。除了兩篇有缺陷、未�?jīng)同行評(píng)議的文章之外，沒有任何證據(jù)或技術(shù)數(shù)據(jù)。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

Cheng 等人在復(fù)現(xiàn)谷歌方法時(shí)的錯(cuò)誤

Cheng 等人并未按照谷歌在《Nature》中的描述復(fù)刻論文中方法，因此他們的結(jié)果不好，并不意外。

以下是谷歌指出的主要錯(cuò)誤：

未對(duì)強(qiáng)化學(xué)習(xí)方法進(jìn)行預(yù)訓(xùn)練

AlphaChip 的核心優(yōu)勢在于能夠從先驗(yàn)中學(xué)習(xí)，即在正式測試前通過「練習(xí)」模塊中進(jìn)行預(yù)訓(xùn)練。去除這一點(diǎn)，相當(dāng)于評(píng)估一個(gè)完全不同且效果變差的方法。

下圖 2 中展示了：訓(xùn)練數(shù)據(jù)集越大，AlphaChip 在新模塊上的布局效果越好。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

AlphaChip 的原論文中也通過下表展示了對(duì) 20 個(gè)模塊進(jìn)行預(yù)訓(xùn)練，模型可以掌握更有效的布局策略的效果。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

此外，AlphaChip 的原論文中多次強(qiáng)調(diào)預(yù)訓(xùn)練的重要性。例如下圖所示，在開源的 Ariane RISC-V CPU 上，未預(yù)訓(xùn)練的強(qiáng)化學(xué)習(xí)策略需要 48 小時(shí)才能接近預(yù)訓(xùn)練模型 6 小時(shí)的效果。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

AlphaChip 在主數(shù)據(jù)表中的實(shí)驗(yàn)結(jié)果正是基于 48 小時(shí)的預(yù)訓(xùn)練，但 Cheng 等人沒有進(jìn)行任何預(yù)訓(xùn)練。這意味著強(qiáng)化學(xué)習(xí)模型從未接觸過芯片，需要從零開始在每個(gè)測試案例上學(xué)習(xí)布局。

這就像對(duì)未見過圍棋對(duì)局的 AlphaGo，卻得出了 AlphaGo 不擅長下圍棋的結(jié)論。

為此，Cheng 等人在論文中指出，谷歌開源的內(nèi)容不支持復(fù)現(xiàn)預(yù)訓(xùn)練。但預(yù)訓(xùn)練僅需運(yùn)行多個(gè)案例的訓(xùn)練過程，開源的數(shù)據(jù)一直支持預(yù)訓(xùn)練。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

在 Cheng 等人的論文中稱，截至目前，對(duì) AlphaChip《Nature》論文和 CT 框架的數(shù)據(jù)和代碼都未完全公開，因此，評(píng)估遇到了阻礙。

用的計(jì)算資源少了一個(gè)數(shù)量級(jí)

強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)收集器比 Nature 論文中少 20 倍 (26 個(gè) VS 512 個(gè))，GPU 數(shù)量也少一半 (8 個(gè) VS 16 個(gè))。計(jì)算資源變少往往需要更長的訓(xùn)練時(shí)間才能達(dá)到相同的效果。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

根據(jù)另一篇復(fù)現(xiàn) AlphaChip 的論文《Scalability and Generalization of Circuit Training for Chip Floorplanning》，使用更多 GPU 進(jìn)行訓(xùn)練可以加速收斂。

如果 Cheng 等人能夠按照 AlphaChip 原論文中的描述配置實(shí)驗(yàn)，其結(jié)果可能會(huì)有所改善。

沒有訓(xùn)練到收斂

眾所周知，沒訓(xùn)練到收斂會(huì)顯著影響模型性能。

從 Cheng 等人的項(xiàng)目網(wǎng)站，可以找到四個(gè)模塊的收斂曲線（Ariane-GF12、MemPool-NG45、BlackParrot-GF12 和 MemPool-GF12），但在這些模塊的訓(xùn)練中均未達(dá)到收斂狀態(tài)（他們還沒提供 BlackParrot-NG45 或 Ariane-NG45 的曲線）。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

對(duì)于這四個(gè)模塊，訓(xùn)練均在相對(duì)較少的步數(shù)下被中斷。

在不具代表性且無法復(fù)現(xiàn)的基準(zhǔn)上進(jìn)行評(píng)估

Cheng 等人使用的基準(zhǔn) （45nm 和 12nm 的節(jié)點(diǎn)）與 AlphaChip（7nm 以下的節(jié)點(diǎn)）所用的相比，更老更舊，在物理設(shè)計(jì)上差異顯著。

對(duì)于 10nm 的技術(shù)節(jié)點(diǎn)，多重圖形化技術(shù)容易引發(fā)布線擁塞問題。

因此，對(duì)于沒那么先進(jìn)的技術(shù)節(jié)點(diǎn)，可能需要調(diào)整 AlphaChip 的獎(jiǎng)勵(lì)函數(shù)中的相關(guān)組件。

AlphaChip 的研究團(tuán)隊(duì)稱：「我們主要為 7nm、5nm 以及更先進(jìn)的工藝節(jié)點(diǎn)設(shè)計(jì)，對(duì)于前幾代節(jié)點(diǎn)，尚未深入研究。但我們歡迎社區(qū)在這方面的貢獻(xiàn)！」

此外，Cheng 等人未能或不愿提供用于復(fù)現(xiàn)其主要數(shù)據(jù)表中結(jié)果的綜合網(wǎng)表。

對(duì)此，AlphaChip 的研究團(tuán)隊(duì)稱：「Cheng 等人雖說對(duì)我們的方法進(jìn)行了大規(guī)模重現(xiàn)，但是不是復(fù)現(xiàn)錯(cuò)了？我們建議直接使用我們的開源代碼�！�

除了在復(fù)現(xiàn)谷歌方法時(shí)存在錯(cuò)誤，Cheng 等人還存在一些其他問題，包括如下：

將 AlphaChip 與閉源商業(yè)自動(dòng)布局器做對(duì)比；

在調(diào)整標(biāo)準(zhǔn)單元設(shè)計(jì)時(shí)，對(duì)初始布局進(jìn)行了人為「消融」；

有缺陷的相關(guān)性研究；

對(duì)谷歌工程師驗(yàn)證的錯(cuò)誤聲明。

Cheng 等人聲稱，谷歌的代理成本與最終指標(biāo)沒有很好的相關(guān)性，但他們自己的相關(guān)性研究實(shí)際上表明，總體代理成本與除標(biāo)準(zhǔn)單元面積之外的所有最終指標(biāo)之間存在微弱但正相關(guān)的相關(guān)性。具體如下圖 6 所示。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做

最后，谷歌表示 AlphaChip 完全開源，他們開源了一個(gè)軟件存儲(chǔ)庫，以完全復(fù)現(xiàn)《Nature》論文中描述的方法。RL 方法的每一行都可以免費(fèi)檢查、執(zhí)行或修改，并且提供源代碼或二進(jìn)制文件來執(zhí)行所有預(yù)處理和后處理步驟。

登上Nature的AI芯片設(shè)計(jì)屢遭質(zhì)疑，谷歌發(fā)文反擊，Jeff Dean：質(zhì)疑者連預(yù)訓(xùn)練都沒做