熱門文章
AI人工智能的認知偏差與價值取向
發布時間:2018-10-11 分類:交通百科
人工智能安全的核心在于價值調整問題:我們如何教人工智能系統按照人類的目標和價值行事?
許多研究人員利用逆向強化學習等技術,與人工智能系統互動,向他們傳授人類價值觀。理論上,通過逆向強化學習,人工智能系統可以了解人類的價值,以及如何通過觀察人類行為和接收人類反饋來最好地幫助他們。
但是,人類的行為并不總是反映人類的價值,而且人類的反饋往往是有偏見的。當我們放松的時候,我們會享受健康的食物,但是當我們壓力很大的時候,我們需要油膩的食物來提供能量,我們不僅沒有按照我們的價值觀生活,而且我們的許多價值觀相互矛盾。例如,我們需要8小時的睡眠,但我們會有規律地減少睡眠,因為我們也需要努力工作、照顧孩子和保持健康的人際關系。
人工智能系統也許可以通過觀察人類學到很多東西,但由于我們的不一致,一些研究人員擔心,用逆向強化學習訓練的系統將從根本上無法區分與價值一致的行為和不一致的行為。當人工智能系統變得更強大時,從觀察人類推斷出錯誤的價值觀或目標可能導致這些系統采取有害行為,這可能變得特別危險。
區分偏見和價值觀
人工智能研究員探討了逆向強化學習在向人工智能系統教授人類價值觀方面的局限性,特別揭示了認知偏差是如何使人工智能難以通過交互學習來了解人類偏好的。我們希望一個代理人追求一些目標,這一套目標與人類的目標一致。接下來的問題是,如果代理人只是觀察人類,并試圖通過他們的行為來實現他們的目標,那么問題也將出現,會產生多大的偏見呢?
在某些情況下,認可機構將能夠理解常見偏見的模式,一個常見模式的例子就是時間不一致。時間不一致是指人們的價值觀和目標會隨著你問他們的時間而改變,換句話說,在你希望你未來的自己做什么和你未來自己喜歡做的事情之間存在著矛盾。
時間不一致的例子比比皆是,首先,如果你在睡前問他們,大多數人重視早起和鍛煉。但是到了早上,當外面又冷又黑的時候,他們常??粗卮矄蔚氖孢m感和放松的好處。從早起到戒酒、健康飲食和省錢,人們往往對未來的自己期望更高,但這可能不是他們未來的自己愿意做的事。
有了系統的,可預測的模式,如時間不一致,逆向強化學習可以取得進展與人工智能系統。但我們的偏見往往不那么明顯,一般來說,解讀哪些行為與某人的價值觀一致,以及哪些行為源于偏見是困難的,甚至是不可能的。
假設你答應打掃房子,但你在最后一刻得到了與朋友聚會的邀請,你會放棄打掃房子而去參加朋友的聚會,這是一種偏見?這會對一個只使用逆向強化學習來訓練AI人工智能造成很大的困擾,它如何決定什么是偏見和值?
學習正確的價值觀
盡管存在這個難題,理解人類的價值和偏好對于人工智能系統是至關重要的,而開發人員在培訓他們的機器學習這些偏好方面有著非常實際的興趣。
如今,一些流行的網站已經開始使用人工智能來學習人類的喜好。例如,通過youtube和Amazon,機器學習算法可以觀察你的行為,并預測你下一步想要什么。但是,盡管這些建議往往是有用的,但它們卻產生了意想不到的后果。
在觀看特朗普集會的視頻以了解他的選民吸引力之后,我們有可能在“自動播放”隊列中看到白人民族主義宣傳和否認大屠殺的視頻。這點可以讓我們意識到,YouTube的算法經過優化以保持用戶的參與度,可以預見的是,隨著用戶觀看更多的視頻,它會提供更多的極端內容,這導致該網站為“偉大激進主義者”。
YouTube算法中的這種價值偏差預示著與更先進的人工智能系統交互學習的危險,不是優化先進的人工智能系統來迎合我們的短期欲望和我們對極端的吸引力,設計師必須能夠優化它們來理解我們更深層的價值和提高我們的生活。
我們將希望人工智能系統能夠比人類更好地通過我們的決定進行推理,理解我們做出有偏見的決定時的情況,并“幫助我們更好地追求我們的長期偏好”。然而,這將意味著,人工智能建議的事情似乎是不好的,人類乍一看。
你可以想象一下,一個人工智能系統會對商業計劃進行一次精彩絕倫的、違反直覺的修改,而人類卻發現這是荒謬的。為了幫助人們在這些場景中理解人工智能,科學家研究了人工智能系統如何以人類可以理解的方式進行推理,并最終改進了人類的推理。
有一種概念叫做因素認知,就是把復雜的任務分解成小的、可以理解的步驟的想法,雖然目前還不清楚認知是如何取得成功的,但有時候人類可以把他們的推理分解成小的步驟,通常我們依賴于直覺,而直覺則是更難分解的。