熱門文章
人工智能:什么是強化學習?
發布時間:2018-10-12 分類:交通百科
強化學習是AI人工智能中討論、跟蹤和考慮最多的話題之一,因為它有可能改變大多數業務。在本文中,我想提供一個簡單的指南,解釋強化學習,并給出一些如何使用強化學習的實際示例。
什么是人工智能系統的強化學習?
強化學習的核心是一個概念,即最優的行為或行動被積極的獎勵所加強。
就像蹣跚學步的孩子學習如何走路一樣,他們根據自己所經歷的結果來調整自己的行為,比如,如果之前的廣義步子讓他們跌倒,那么他們就會采取較小的步驟,而機器和軟件代理則會使用強化學習算法,根據環境的反饋來確定理想的行為。它是機器學習的一種形式,因此是人工智能的一個分支。
根據問題的復雜性,強化學習算法可以隨著時間的推移不斷適應環境,以便在長期內最大限度地獲得回報。所以,和蹣跚學步的孩子一樣,一個在強化學習中學習走路的機器人會嘗試不同的方法來達到目標,得到反饋,知道這些方法有多成功,然后調整,直到達到走路的目標為止。向前邁出一大步,機器人就會跌倒,所以它會調整步子,使其變小,以確定這是否是保持直立的秘訣。它繼續通過不同的變化學習,并最終能夠走路。在這個例子中,獎勵是保持直立,而懲罰是下降的?;趯C器人動作的反饋,使機器人的最優動作得到加強。
強化學習需要大量的數據,這就是為什么這項技術的第一次應用是在模擬數據很容易獲得的領域,如游戲和機器人。
強化學習的8個實例
盡管我們還處于強化學習的早期階段,但有幾個應用程序和產品已經開始依賴于該技術。公司開始實施強化學習的問題,順序決策是必要的,以及強化學習可以支持人類專家或自動化的決策過程。以下是幾個例子:
1、機器人學
強化學習為機器人技術提供了一個“框架和一套工具”,用于難以進行工程操作的行為。由于強化學習可以在沒有監督的情況下進行,這可以幫助機器人成倍增長。
2、工業自動化
得益于DeepMind的強化學習能力,谷歌能夠大幅降低其數據中心的能源消耗。最近被微軟收購的盆景,提供了一種強化學習解決方案,使能源、暖通空調、制造、汽車和供應鏈等領域的自動化和“構建智能進入復雜和動態系統”。
3、加強預測維護
機器學習已經在制造業中使用了一段時間,但強化學習將使預測維護比現在更好。
4、游戲玩法
事實上,強化學習的第一個聲名狼藉的應用是AlphaGo,一種機器學習算法,在圍棋游戲中戰勝了世界上最優秀的人類玩家之一。目前,強化學習已被廣泛應用于各種比賽中。
5、醫藥學
強化學習非常適合找出健康狀況和藥物治療的最佳治療方法。它也被用于臨床試驗以及醫療保健中的其他應用。
6、對話系統
由于公司收到了大量以客戶查詢、合同、聊天機器人等形式出現的抽象文本,采用強化學習的文本摘要解決方案非常令人垂涎。這些工具固有的特點是,隨著時間的推移,它們會變得更好。
7、個性化
無論是你消費的媒體,是針對你的廣告,還是你應該在網上商城上購買的商品,在幕后都有強化學習算法在發揮作用,以創造出色的客戶體驗。
8、自動車輛
大多數自動駕駛汽車、卡車、無人駕駛飛機和船只的中心都有增援算法。英國公司Wayve設計了一款自動駕駛汽車,在強化學習的幫助下,它能在20分鐘內學會駕駛。
由于需要重要的數據集才能使強化學習發揮作用,更多的公司將能夠利用強化學習的能力來獲取更多的數據。而且,隨著強化學習的價值不斷增長,公司將繼續投資于資源,以找出在其運營、服務和產品中實現該技術的最佳方式。