在人工智能五十年的研發過程中,我們一直在不斷嘗試著讓機器理解人對于世界的認知方式。不管是一直沒有實現較大突破的類腦計算,還是模仿人類感知外界機制的人工神經網絡,本質上都是對人類行為方式的多種模仿。
當然我們也知道,這些模仿雖然在應用上取得突破,但本質上來看與人類的認知方式還是大相徑庭的。
就拿視覺來說,人類對于萬事萬物的認知來自于綜合的感知。以前一陣社交媒體上瘋傳的《神奇寶貝》大電影來說,人們見到3D版皮卡丘非常驚訝——皮卡丘竟然是有毛的?
其實這就體現了人類非常有趣的一點,建立在綜合知識基礎之上,人類的五感是相通的,因此可以從有限的信息里進行關聯挖掘,對陌生的事物建立起認知。
當我們簡單皮卡丘身上茸毛時,我們立刻聯想起了那種毛茸茸的手感,認為它像一只大老鼠毫不可愛。
被隨意愚弄的機器思維相比之下機器視覺的認知方式就相對孤立,建立分類器后組織層層的神經網絡,對圖片進行分層處理,分別去辨認圖片中是不是一架橋,是不是一只猴子,是不是一棵大樹。最后得出的結論是,這張圖片97%的幾率是一架橋,2%的幾率是一只猴子,1%的幾率是一棵大樹。
對于人類來說,我們可能把猴子看成猩猩,原因是我們自己腦海中的底層知識不足,在認知中分不清猩猩和猴子的概念。但絕不會把橋、猴子、大樹這些風馬牛不相及的東西混淆一談。
但對于機器視覺就不一樣了,在機器的“眼中”,一切圖像都是像素點的排列組合。對于我們來說,猴子和大樹的區別是哺乳動物和區別??蓪τ跈C器來說,猴子和大樹之間只有一個數字分割線而已。
這就導致了機器視覺可以被“針對性”的愚弄,讓圖像識別輸出完全錯誤的結果,這就是我們常說的對抗生成樣本。例如:將一張圖片的像素點進行輕微的移動,在人眼中兩張圖片沒有任何區別,可在機器識別邏輯下,卻可能讓機器把猴子認成大樹。
又比如我們曾經介紹過的“迷幻貼紙”——將某一種物體的分類特征高度濃縮成一個很小圖案,“粘貼”在其他圖片上。圖像識別對于結果的輸出,是基于幾項結果比率的高低。在貼上貼紙之前,圖像識別可能明確的分析出圖片有98%幾率的是一只猴子。但粘貼上高度濃縮特征的貼紙之后,就能立刻改變圖像識別的結果。