Nature Neurosci: 神經科學的深度學習框架是什么?
深度學習初期可能借鑒了神經科學的經驗,比如大腦視覺皮層結構的模擬,層級編碼等,但真正促使深度學習大放異彩的,卻是源于對神經科學的背離,比如目前沒有生物數據支撐的反向傳播算法,Relu函數等。雖然這些規則的加入使得深度神經網絡在各類任務上的表現得到了極大的提升,接近甚至是優于人腦的表現,但為什么會有這樣的效果仍是一個黑箱。
Blake Richards組織一眾科學家在Nature Neuroscience上發文,“A deep learning framework for neuroscience”正是回答這個問題。為什么建立神經科學的深度學習框架,神經科學的深度學習框架的內容(是什么),我們應該如何在深度學習框架下發展神經科學(怎么做)。
為什么建立神經科學的深度學習框架
這個問題分為兩部分,一部分是為什么要建立,另外一部分是為什么能建立。
為什么要建立?
主要是源于當前神經科學的研究手段的局限,在以往經典的神經科學框架下,我們在研究小范圍的神經環路上卓有成效,比如視網膜如何計算運動,前庭-眼反射是如何促進注視穩定的,但是在大尺度的神經環路上,經典的神經科學研究方法有點捉襟見肘。而深度神經網絡可能可以用來研究這類問題,其用簡化的units來模擬真實神經元的整合和激活特性,而且更重要的是,是通過學習而不是提前設計來實現具體運算的。
為什么能呢?
最近的大量研究表明,深度學習能夠幫助我們研究大腦。
首先,深度神經網絡在一些情況下很接近靈長類的知覺系統,而且能夠調節神經活動;
其次,許多眾所周知的行為和神經生物學現象(包括網格細胞、感受野和視錯覺)的工作模式和深度神經網絡很相似;
第三,計算建模的研究表明,許多學習規則和反向傳播算法在為目標函數估計梯度上表現類似,但這些學習規則都不是基于梯度的,因此在估計上有誤差(Fig 1)。
Fig 1. 其他學習規則相對于反向傳播算法的梯度估計偏差和方差
因此,基于深度學習的大腦模型不再是像以往那樣不切實際,相反確實能夠解釋神經生物學數據。
神經科學的深度學習框架內容
深度神經網絡包括三個基本成分:
目標函數,描述了學習系統的目標,是神經網絡中節點權重和數據本身的函數,但他們并非在特定的數據集上定義的。比如交叉熵函數,在機器學習中很常見的目標函數,在各種分類任務中都表現很好,從分類不同品種的狗狗到分辨不同的情緒類別;
學習規則,描述了模型中的參數是如何被更新的。在深度神經網絡中,這些規則通常是用來提高目標函數的效率的,在有監督學習,無監督學習以及強化學習系統中都是如此;
網絡架構,描述了深度神經網絡內的units是如何被安排的。比如卷積神經網絡中利用了連接模式,因此相同感受野內輸入的內容能夠被重復使用。
在這個框架下,我們不是去關注一個計算是如何實現的,而將這個任務拆分為三個部分去探究:目標函數,學習規則和網絡架構。接下來我們將討論每個部分當前已有哪些工作,這些工作為后續在深度學習框架下研究神經科學提供示范。
如何在深度學習框架下發展神經科學(怎么做)
大腦內網絡架構的研究
為了證明由大腦的歸納偏置(inductive biases)所定義的網絡架構,我們需要在環路水平上探究神經解剖結構,也必須弄清楚什么樣的信息是能夠形成環路的,比如動作的信號是從哪里來的等,我們期待弄清楚解剖結構連接的各個方面,從而形成一個整合的生物學marker,來引導網絡架構的發展進程。
我們在神經系統的解剖結構上已經做了大量的實驗工作,當前正在用一系列的成像技術來量化解剖信息和神經環路信息。目前有幾個實驗組在探究深度神經網絡層次結構的某些部分對應于哪些腦區。例如,紋狀皮層可能對應于深度神經網絡的早期層,而顳下皮層可能對應于深度神經網絡的晚期層。
大腦內學習規則的研究
神經科學中對突觸可塑性規則的研究有由來已久。然而,這些研究很少探討功勞分配(credit assignment)是如何發生的。然而功勞分配問題是深度神經網絡學習的關鍵,也可能存在于大腦中。
不過近期自上而下的反饋和神經調節已成為突觸可塑性研究的重點。例如,頂樹突如何參與功勞分配,或者自上而下的注意力機制如何與神經遞質相結合來解決功能功勞分配問題(Fig 3)。著眼于功勞分配的學習規則的工作使我們能夠更好的理解神經可塑性。
a.基于注意功勞分配模型是指大腦通過注意和神經遞質來處理功勞分配問題。根據這個模型,感覺加工在早期階段主要是前饋的,然后反饋“標簽”神經元和突觸以及獎勵預測誤差(RPE)決定可塑性變化的方向。圓圈表示神經元,灰色度表示它們的激活水平。這些模型預測,負責激活特定輸出單元的神經元將被注意反饋標記(T)。然后,如果接收到正的RPE,突觸就會增強。相反,如果接收到一個負的RPE,突觸就會減弱。這為基于分類的目標函數提供了一個梯度估計。b-d. 功勞分配的樹突模型認為梯度信號由錐體細胞的頂樹突的錯誤信號(δ)所。根據這些模型 (b), 前饋權重更新由前饋輸入和δ的結合。在一個實驗中,兩種不同的刺激只有一種被加強,這就形成了特定的預測。(c). 如果一個神經元受到被強化的刺激,那么強化應該會導致其尖端活動的增加。(d). 相反,如果一個神經元受到非增強的刺激,其尖端活動就會相應減弱。
隨著當前技術的發展,我們能夠在活體上探究突觸的變化,也能夠直接把突觸變化和行為錯誤聯系起來,甚至是直接測量生物模型中學習規則的假設,比如那些需要注意力的,或者是使用樹突信號進行功勞分配的(Fig 3)。
大腦內目標函數的研究
在某些情況下,大腦所優化的目標函數可能直接表現在我們記錄的神經信號中;而在更多的情況下,目標函數可能隱含于控制突觸更新的可塑性規則中。
一些研究試圖將實驗數據與目標函數聯系起來,開始將已知的可塑性規則與潛在的目標函數聯系起來,例如,有研究試圖通過比較實驗觀察到的神經活動和在自然場景中訓練的神經網絡的神經活動來估計目標函數,也有一些方法使用逆向強化學習來識別系統優化了什么。
此外,我們還可以通過尋找給定目標優化的表征和真實神經表征之間的相關性來處理目標函數。另一種新出現的方法是,在控制腦-機接口設備時,觀察動物的神經環路可以優化到什么程度。因此,基于以往的文獻,探究大腦的目標函數成為可能。
結 語
可能有人會有疑問,如果我們把研究重點從神經元編碼特性轉移到大腦學習架構、學習規則和目標函數上,看起來我們可能會失去迄今為止所獲得的很多知識,比如神經元的方向選擇性、frequency tuning和spatial tuning等。但是實際上,我們提出的框架很大程度上是由這些知識所決定的,比如卷積神經網絡直接來源于對視覺系統層級特性的研究。
在長期的神經科學過程中,我們傾向于用自下而上的方法來理解大腦,也有人可能會擔心為大腦設定目標函數或學習規則可能為時過早,所需要的大腦信息加工細節可能比我們目前擁有的多得多。盡管如此,科學問題必然是在某種思想框架內提出的,而且重要的是,這并不是在呼吁放棄從自下而上的角度來研究大腦,相反是期待深度神經網絡框架的提出能夠產生新的重要的實驗問題。
另外一些研究人員對深層神經網絡中的大量參數感到擔憂,認為它們違反了奧卡姆剃刀定律(Occam’s razor),可能只是對數據的過度擬合。但是近期人工智能領域的研究表明,大規模超參數化的學習系統可能是反直覺的,但這也是它本身固有的數學屬性決定的,這樣的學習系統也能夠實現良好的泛化,而且實際上大腦本身也包含了大量的潛在參數(例如,突觸連接,樹突狀離子通道密度等),也許,深度神經網絡中的大量參數,反而恰恰使他們成為更接近大腦本身的模型呢?
為了在神經科學方面取得進展,需要更多自下而上的信息加工細節和自上而下的理論支撐。在神經元信息加工細節上我們進行了大量的研究且碩果累累,而在建立正確合理的自上而下的理論框架上,一直沒有突破性的進展,鑒于現代機器學習能夠解決很多人腦解決的問題甚至表現更好,也許從機器學習的角度來指導神經科學自上而下的研究框架可能是一條有效的路徑。
如果我們在這種思維模式提供的框架內考慮我們的實驗數據,并把注意力集中在這里的三個基本組成部分上:目標函數,學習規則和網絡架構,也許我們能夠更深入了解大腦。另外反過來,當前我們對深度神經網絡的基本原則的探究日益增多,因此我們也能夠在大量神經元中測試深度學習的假設