熱門文章
訓練人工智能妥協
發布時間:2018-09-29 分類:交通百科
想象一下,你正坐在一輛自動駕駛汽車里,這輛車即將左轉駛入迎面而來的車流中。汽車中的一個小系統將負責使車輛轉彎,一個系統可能會加速或踩剎車,其他系統將裝有探測障礙物的傳感器,而另一個系統可能正在與路上的其他車輛進行通信。每個系統都有自己的目標,開始或停止,轉向或直行,認識到潛在的問題,等等。但他們也必須共同努力實現一個共同的目標:在不造成交通事故的情況下轉向交通。
如果我們有一個認可機構的體系,我們如何為個別的認可機構構建獎勵,從而使組合的系統表現良好?
從本質上說,人工智能系統中的人工智能就像上面的汽車例子,需要學習如何滿足自己的目標,以及如何妥協,以便其行動將有助于滿足群體目標。最重要的是,認可機構的制度需要考慮社會的喜好。與左轉相比,行車中的乘客或人行橫道上的行人的安全更為重要。
訓練一個行為良好的人工智能
因為像繁忙的街道這樣的環境是如此復雜,工程師不能僅僅通過編程讓人工智能以某種方式行事來實現它的目標,人工智能系統需要在獎勵制度的基礎上學習正確的行為。每個人工智能都有一個獎勵,因為它的行動和其他人工智能的行動。隨著世界的不斷變化,回報也必須不斷變化,認可機構不僅需要跟上自身目標的變化,還需要跟上整個系統不斷變化的目標。
以獎勵為基礎的學習系統的想法是大多數人都能想到的,任何一個養狗的人都經歷過,當他們的寵物意識到自己會得到款待時,他們的寵物更有可能表演一種詭計,對人工智能的獎勵也是類似的。
在設計人工智能時經常使用的一種技術是強化學習,在強化學習中,當人工智能系統采取某種行動時,它會收到正反饋或負反饋。然后,它試圖優化自己的行動,以獲得更多的積極回報。然而,獎勵不能僅僅被編程到人工智能中,人工智能必須與其環境互動,以了解哪些行動將被認為是好的、壞的或中立的。同樣,這種想法類似于一只狗學習技巧可以贏得它的待遇或贊揚,但行為不端可能導致懲罰。
培訓認可機構系統
博弈論幫助研究人員了解什么類型的獎勵會引起其他自私自利的參與者之間的合作,或者在這種情況下,會出現理性的人工智能系統。一旦一個ai人工智能計算出如何最大化它自己的獎勵,什么會誘使它按照另一個AI行事?為了回答這個問題,可以求助于一種叫做機制設計的經濟學理論。
機制設計理論是一種諾貝爾理論,它使研究人員能夠確定一個由多個部分組成的系統如何實現一個總體目標。這是一種逆博弈理論。如何設計互動規則,例如分配獎勵的方式,使個別機構的行為有利于全系統和全社會的偏好?除其他外,機制設計理論已經應用于拍賣、電子商務、法規、環境政策以及人工智能等領域的問題。
人工智能系統的工作與機制設計理論的不同之處在于,后者需要某種機制或管理人員來監督整個系統。在自動化汽車或無人駕駛飛機的情況下,內部機構必須共同努力,以實現集團目標,而沒有一個機制作出最終決定。隨著環境的變化,外部獎勵也會發生變化。而當系統內的人工智能意識到他們想要做出某種改變來最大化他們的回報時,他們將不得不彼此溝通,改變整個自治系統的目標。