男男19禁啪啪无遮挡免费,国产免费AV片一级大片免费观看,16初次破初视频在线播放,人妻AV中文系列

首頁 / 資訊中心 / 趨勢研究/構建高質量數據集 推動人工智能快速發展

構建高質量數據集 推動人工智能快速發展

發布時間:2019-03-08 分類:趨勢研究

現階段,缺乏高質量的數據集已經成為制約人工智能領域發展的瓶頸之一,如何構建人工智能數據集已成為各國政府和產業界關注的焦點。

    美國提出支持構建高質量人工智能數據集,并將構建行業資源數據集定位為產業界不可能解決需政府層面推動的難題。2016年10月,美國先后發布《美國國家人工智能研究和發展戰略計劃》和《為未來人工智能做好準備》,確定構建人工智能數據集為聯邦政府人工智能戰略重大計劃之一。英國認為人工智能行業數據集的匱乏已嚴重阻礙人工智能的發展,將提高數據獲取性和行業數據訪問的便利性列為未來提升英國人工智能能力的首要任務。

    我國將缺少有效的訓練資源庫列為影響人工智能發展的痛點問題之一,提出支持建設包括公共數據資源庫、標準測試數據集、云服務平臺等在內的人工智能基礎數據平臺。2017年12月,工信部發布《促進新一代人工智能產業發展三年行動計劃》,提出支持建設面向語音識別、視覺識別、自然語言處理等基礎領域,以及工業、醫療、金融、交通等行業領域的高質量人工智能訓練資源庫和標準測試數據集并推動共享。2018年11月工信部發布《新一代人工智能產業創新發展重點任務揭榜工作方案》,促進《行動計劃》進一步落實。

    人工智能數據集采集策略

    目前,人工智能領域相關科技企業在數據集的獲取方面已經形成了多種策略,由于商業模式、公司的關注點以及融資情況的不同,人工智能領域大型企業和初創企業采用的采集策略也有所差異。大型的人工智能領域科技企業關注點主要在數據的質量、價值和獲取難度上。目前大型企業的數據獲取策略主要有以下幾種:

    一是數據并購。資金雄厚的企業可以通過并購獲取數據。例如IBM在2016年斥資26億美元收購了Truven健康公司。這筆交易為IBM在電子病歷、遺傳學和影像資料方面帶來了2億個項目數據。

    二是產業數據協同。依靠企業的行業影響力,與產業鏈下游創業公司/行業公司或產業鏈上游的數據/平臺型公司建立合作,以此獲取所需數據資源。如IBM Watson先后與美國藥品連鎖商店CVS、安德森癌癥中心、紀念斯隆-凱特林癌癥研究中心、泰國康民國際醫院等機構合作,進而獲得醫療領域人工智能訓練數據資源。

    三是自籌數據。通過投入大量人力進行數據采集。如當前很多聊天機器人公司聘請AI教練團隊對聊天應用程序進行性能評估和指導培訓,所需人力隨用戶數量同步增加,直至引發數據網絡效應,形成“更多用戶-更多數據-更優智能算法-更好產品-更多用戶”的正循環。此外,也可采取投入大量資金,向消費者提供特定領域免費應用的策略快速積累數據,如Madits、Clarifai等圖像識別公司均推出了免費的照片應用程序,以便為圖像識別核心業務積累更多圖像數據。

    四是創意產品撬動數據。通過創意產品吸引用戶,在娛樂之余提供數據是獲取人工智能數據集的一種創新手段。例如2016年11月,谷歌發布了名為“Quick, Draw!”(猜畫小歌)的在線涂鴉App,該App要求用戶根據文本提示繪制簡單對象,由AI猜測所畫內容。所采集數據不僅促進了該App自身AI的演進,還用來訓練了2017年4月發布的素描AI機器人RNN。

    五是開源測試環境或平臺換取數據。此策略適用于科技巨頭或行業巨頭,科技巨頭或行業巨頭通過開源測試環境和訓練、測試數據集,旨在提高AI開發者的用戶黏性,并以此獲取數據以及其他資源。

    還有其他策略,如通過大賽機制完善數據集或利用虛擬環境產生數據;一些人工智能領域競賽要求協辦方提供數據資源,促進數據共享。此外,利用虛擬環境也可產生數據資源。如斯坦福大學在訓練遠程遙控深海作業機器人OceanOne時,使用了很多由模擬場景(虛擬環境)產生的大量訓練數據。

    對于初創企業,影響數據獲取的關鍵因素是成本,目前初創企業獲取數據的主要策略有以下幾種:

    一是使用政府主導的公共數據。政府主導的公共數據集成為人工智能行業資源訓練庫的重要來源。美國聯邦政府Data.gov數據平臺已開放包括十余個領域的13萬個數據集;英國、加拿大、新西蘭等國自2009年前后開始建立政府數據公共平臺;我國上海、北京、武漢、無錫、佛山等城市自2012年開始陸續推出數據平臺。

    二是購買商業數據集。數據資源的商業價值已得到普遍共識,商業數據集提供商使用最新的搜索算法收集、清洗和更新數據集,且開始出售其商業數據資源。商業數據集對于需要快速得到數據且沒有內部資源來清洗和歸類數據的人工智能初創企業來說是非常有益的,如道瓊斯和Xignite已開始提供基于云平臺的數據訪問服務。

    三是眾包市場。眾包模式已成為代替人工智能科技企業收集數據的主要手段。如通過國外的亞馬遜Mechanical Turk,國內的百度數據開放平臺等數據眾包平臺可以找到承包商做數據收集工作,減少了企業雇傭數據專家的相關成本。

    從發展趨勢來看,未來數據并購和眾包市場將逐漸成為主要的數據獲取策略。相較于其他數據獲取策略,這兩種方式能夠較為便捷地獲取數據并形成質量較高的數據集。據CBInsights的數據顯示,人工智能領域中關于數據的并購現象將越來越明顯。而對于初創企業,由于沒有足夠的資金,所以這類企業已將眾包市場作為主要的數據來源;同時,一些大型互聯網企業也將建設數據眾包平臺作為發展人工智能的戰略布局之一。

    眾包模式成為人工智能數據標注的基本手段

    采集獲取的元數據需要通過進一步的標注才能對目前大部分的人工智能算法進行訓練,而對海量元數據的處理需要大量的時間成本和人力成本。

    數據標注通常有人工標注和智能/人工結合標注兩種方式。人工標注是借助一定可視化工具對數據進行純人工標注,由于元數據的數據量極大,通常采用人工方式進行數據標注的工作量非常大。在處理具有一定規律的數據時,可以采用智能/人工結合的方式,并通過智能/人工的多級迭代保證輸出數據的質量。以百度高精地圖為例,其數據智能處理程度已達到90%,能自動識別交通標志、地面標志、車道線、信號燈等上百種目標。但是無論采用人工標注還是智能/人工結合標注,工作量仍然是非常大的,僅靠人工智能企業的自身力量難以完成,通常需要進行數據標注任務的再分配。

    目前,數據標注再分配的主流方式為眾包模式。在沒有第三方眾包平臺之前,人工智能科技企業一般自行招募數據標注員進行數據處理,數據標注和質量控制的成本極高且效率低下。人工智能數據標注的外包市場于2015年真正開始,2016年下半年出現收縮,2017年又有了新一輪的爆發,目前已形成相對完整的眾包產業生態。比較著名的Google Open Image Datasets、Youtube-

    8M、ImageNet數據集等均通過眾包平臺完成。

    眾包模式主要有“眾包”和“工廠”兩種類型?!氨姲笔前讶蝿胀ㄟ^平臺轉接分包給網民,如百度眾包、京東眾智、龍貓數據等平臺主要采用這種方式,適用于不敏感數據?!肮S”則是平臺自己經營團隊,對整個流程進行控制,適用于企業敏感數據,如貴陽夢動科技經營了一個500人的“數據工廠”,在大型團隊之外,還活躍著眾多三五人到十幾人規模不等的數據標注“小作坊”。

    眾包模式的選擇需平衡任務費用、質量和時間三者的關系。任務費用、質量和時間三者之間的平衡與具體的眾包任務性質密切相關。美國微軟雷德蒙研究院在數據任務花費與質量的平衡之間設計了基于馬爾科夫決策理論的數學模型(其內部稱之為知識梯度的有效算法),以此確定哪類數據需要標注和雇傭誰進行數據標注,進而解決任務花費與質量之間的關系。一般來說,質量是最重要的指標,即如果沒有質量,較低的費用與較少的時間都會失去意義。

    構建人工智能數據集存在的問題和策略建議

    當前在人工智能數據集的獲取和標注方面仍存在四個方面的問題。一是在元數據獲取層面,企業出于自身利益考慮,難以實現真正的數據共享,而且某些特殊領域的數據獲取和使用是否合規合法存在很大的爭議。二是數據標注行業仍是被具體政策支撐忽視的死角,人工智能相關政策和社會關注點主要集中在算法、應用、芯片方面,針對數據標注和眾包市場的政策支撐和社會關注較少。三是第三方眾包平臺市場仍處于發展初期的野蠻生長狀態,缺乏相關行業管理規范和行業自律精神,有可能會發生一些損害客戶利益的情況,如對眾包數據進行二次轉售等。四是目前大型企業對自有數據的保護意識越來越強,但是目前眾包平臺主要由人工智能科技企業建設,不存在與其他眾多人工智能科技企業完全沒有利害關系的第三方眾包平臺。

    針對構建人工智能數據集存在的問題,特提出策略建議。一是進一步加強頂層規劃設計和體系化布局,完善配套措施,加快相關政策落地,通過政策手段促進人工智能數據在企業間的共享和合理化使用。同時加強數據標注和眾包市場的政策支撐,提高社會關注度。二是推動人工智能數據領域相關管理規范的制定和落實,加強行業自律精神建設,建立投訴機制,保障企業數據安全。三是建議在國家層面統籌人工智能行業資源數據集建設,探索以政府數據開放為牽引、龍頭數據為基礎、行業數據合作驅動,由無利益關系的第三方維護數據集并建設數據眾包平臺。

<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>