行業(yè)新聞

大數(shù)據(jù)不香了？小數(shù)據(jù)人工智能正在崛起，產(chǎn)學界探索可信AI

發(fā)布時間:2021-12-09 10:26:00 人氣:335 來源：中國安全防范產(chǎn)品行業(yè)協(xié)會

　　“每購買一個面包就會有一只柯基失去它的屁股?！?

　　在這個段子背后，是面包與柯基屁股的相似性引發(fā)的視覺混淆。

　　相似的事物尚且容易引發(fā)人眼的視覺混淆，具有相似特征的數(shù)據(jù)則會引發(fā)人工智能的誤解，使AI程序抓取的數(shù)據(jù)出現(xiàn)偏差，從而使AI程序作出錯誤的判斷。

　　利用機器學習的這一特征，攻擊者直接將偽裝的數(shù)據(jù)和信息“注入”人工智能程序，從而污染機器學習模型，誤導AI做出錯誤判斷，這一威脅網(wǎng)絡(luò)安全的行為就被稱為“數(shù)據(jù)投毒”。

　　一直以來，人工智能都依賴大量的數(shù)據(jù)進行模型訓練，但這帶來了過度收集個人數(shù)據(jù)、臟數(shù)據(jù)清洗難度大、數(shù)據(jù)匱乏領(lǐng)域依然存在“數(shù)據(jù)孤島”等問題。近日，美國網(wǎng)絡(luò)安全和新興技術(shù)局（以下簡稱“CSET”）發(fā)布研究報告《小數(shù)據(jù)人工智能的巨大潛力》，指出長期被忽略的小數(shù)據(jù)人工智能潛力不可估量。

　　在當下人工智能產(chǎn)業(yè)迅速發(fā)展的情況下，大數(shù)據(jù)行業(yè)正在發(fā)生哪些變化？人工智能行業(yè)的數(shù)據(jù)合規(guī)又將走向何方？

　　從大數(shù)據(jù)回歸小數(shù)據(jù)

　　自2006年，“AI教父”杰弗里?辛頓以及他的學生魯斯蘭?薩拉赫丁諾夫提出深度學習理念后，基于深度學習技術(shù)的人工智能浪潮席卷全球。機器通過學習樣本數(shù)據(jù)的內(nèi)在規(guī)律與層次，從而獲得預測能力。

　　隨著深度學習算法從學術(shù)界走向工業(yè)應(yīng)用，大數(shù)據(jù)資源的使用也越來越普遍。無論是早期如語音識別、人臉識別等應(yīng)用數(shù)據(jù)生產(chǎn)，還是互聯(lián)網(wǎng)電商體系下的行為數(shù)據(jù)生產(chǎn)，都是基于大規(guī)模數(shù)據(jù)分析結(jié)果，以此推動了整個數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。

　　在人工智能領(lǐng)域，小數(shù)據(jù)方法并不是新鮮詞。與依托于海量數(shù)據(jù)總結(jié)規(guī)律的學習方法不同，小數(shù)據(jù)方法是基于人類的先驗知識，在僅有少量數(shù)據(jù)的情況下利用小樣本數(shù)據(jù)集進行訓練的人工智能方法，大致分為遷移學習、主動學習、強化學習、貝葉斯方法、數(shù)據(jù)生成等。

　　一方面，在數(shù)據(jù)量較少或沒有標記數(shù)據(jù)可用的情況下，不得不基于小樣本數(shù)據(jù)加以人工的先驗知識或者預訓練模型來訓練新模型。

　　對于學術(shù)界而言，早期的模型訓練運用數(shù)據(jù)量都不多，基于人類先驗知識的遷移學習和強化學習就是小數(shù)據(jù)方法的初始應(yīng)用。同盾科技合伙人兼人工智能研究院院長李曉林給記者舉了一個例子：“我曾經(jīng)參加過一個實驗，對美國周邊某種瀕危海象的圖片特征進行深度學習，以此來為動物保護協(xié)會識別、去重、入庫和統(tǒng)計這種海象的數(shù)量。全球這種海象的數(shù)量一共2000多頭，個體表面差別很小，在這種情況下只能采用小數(shù)據(jù)方法訓練模型?！?

　　另一方面，隨著深度學習算法的發(fā)展，數(shù)據(jù)價值不斷被挖掘，同時，像開頭所述的“數(shù)據(jù)投毒”等網(wǎng)絡(luò)攻擊使得數(shù)據(jù)治理的工作量加大，對機器處理復雜數(shù)據(jù)的能力也提出了更高的要求。

　　“隨著人工智能從感知走向認知，逐漸進入到商業(yè)本質(zhì)，信息處理的維度使得人工智能進入到深水區(qū)?！碧煸茢?shù)據(jù)CEO雷濤告訴記者，“我們開始接觸到信息化系統(tǒng)因為流程處理所沉淀的小數(shù)據(jù)，這些交易、流程中的數(shù)據(jù)價值密度更高，比圖像視覺等傳統(tǒng)信號體系復雜得多，因此需要認知層的人工智能基礎(chǔ)設(shè)施來挖掘其中的含義?！?

　　雷濤認為，在真正擁有推理和解決問題的強人工智能到來之前，在問題泛化表達能力出現(xiàn)之前，小數(shù)據(jù)可以用于進行數(shù)據(jù)本身的優(yōu)化。在機器模型建立的環(huán)節(jié)，需要大量的人借助先驗知識的小數(shù)據(jù)和材料數(shù)據(jù)做交互，比如數(shù)據(jù)衍生、數(shù)據(jù)升維、數(shù)據(jù)降維，都是一些基于答案的數(shù)據(jù)或是基于業(yè)務(wù)的顯性特征，利用算力和數(shù)據(jù)之間做交互，來完成模型更有效的學習。

　　基于小樣本數(shù)據(jù)的分析偏差也是顯而易見的，李曉林告訴記者，避免小數(shù)據(jù)方法出現(xiàn)失誤，勢必需要豐富的人類先驗知識作為支撐，進行遷移學習。

　　“當下對小數(shù)據(jù)方法的重視并不意味著就摒棄了基于大數(shù)據(jù)的模型訓練。”洞見科技CEO姚明表示，目前小數(shù)據(jù)模型主要用于和大數(shù)據(jù)模型的交叉核驗，在二者相結(jié)合的情況下完善模型。

　　數(shù)據(jù)合規(guī)背景下的可信AI探索

　　隨著數(shù)據(jù)要素流通市場建設(shè)，在激活數(shù)據(jù)價值的同時，如何保護數(shù)據(jù)安全成為大眾關(guān)注的焦點。

　　11月1日，《個人信息保護法》（下稱“個保法”）正式生效，對個人信息處理者收集、加工、使用、傳輸個人信息都提出了進一步要求。

　　個保法要求，任何組織、個人不得非法收集、使用、加工、傳輸他人個人信息，不得非法買賣、提供或者公開他人個人信息；個人信息處理者利用個人信息進行自動化決策，不得對個人在交易價格等交易條件上實行不合理的差別待遇；在公共場所安裝圖像采集、個人身份識別設(shè)備，應(yīng)當設(shè)置顯著提示標識。

　　個人數(shù)據(jù)收集的受限使得小數(shù)據(jù)方法發(fā)揮出特有的優(yōu)勢。

　　CSET報告指出，小數(shù)據(jù)方法能夠減少收集個人數(shù)據(jù)的行為，通過人工生成新數(shù)據(jù)或使用模擬訓練算法，第一不依賴于個體生成的數(shù)據(jù)，第二，經(jīng)由模擬訓練合成的數(shù)據(jù)也可以實現(xiàn)個人信息的脫敏。

　　對于數(shù)據(jù)匱乏的領(lǐng)域或因共享意愿不足導致的“數(shù)據(jù)孤島”而言，可以通過小數(shù)據(jù)方法來處理數(shù)據(jù)缺失，用少量的數(shù)據(jù)點創(chuàng)建更多數(shù)據(jù)點，憑借關(guān)聯(lián)領(lǐng)域的先驗知識遷移學習，或者通過構(gòu)建模擬或編碼結(jié)構(gòu)的假設(shè)，來開拓新領(lǐng)域的探索與預測。

　　“首先我們不能回避的是，人工智能的優(yōu)勢就是面向個體的計算?！崩诐J為，人工智能運用于個體數(shù)據(jù)的計算無可避免，問題在于合規(guī)、適度的使用。

　　由此，全球產(chǎn)學研界展開了對可信人工智能的研究與探討。

　　據(jù)中國信通院統(tǒng)計，2020年可信人工智能研究論文的數(shù)量相比2017年增加近5倍，各國人工智能產(chǎn)業(yè)巨頭也通過研發(fā)可信工具、制定可信的人工智能原則探索可信AI實踐。

　　在2021年世界人工智能大會上，螞蟻集團首席AI科學家漆遠總結(jié)了可信人工智能領(lǐng)域的四個關(guān)鍵詞：魯棒性、隱私保護、可解釋性、公平性。

　　其中，可解釋性就包括模型可解釋、樣本可解釋、結(jié)果可解釋，將深度學習和人類知識結(jié)合起來，引進專家機制彌補傳統(tǒng)純深度學習的風險。漆遠指出，“因果分析可以使機器學習更穩(wěn)定，小數(shù)據(jù)下不用見多識廣，因為基于人類經(jīng)驗的因果關(guān)系非常穩(wěn)定。”

　　在產(chǎn)業(yè)界探索可信AI的過程中，使數(shù)據(jù)“可用不可見”、“可用并可控”、“可控可計量”的隱私計算技術(shù)迎來風口。

　　“在獲得個人信息使用的授權(quán)后，數(shù)據(jù)在加工過程中存在被復制、泄露，甚至被轉(zhuǎn)售的風險，隱私計算從技術(shù)上保護了數(shù)據(jù)的安全。金融行業(yè)作為數(shù)據(jù)聚集地，是隱私計算技術(shù)最早的應(yīng)用領(lǐng)域，目前政務(wù)、醫(yī)療、工業(yè)互聯(lián)網(wǎng)等領(lǐng)域在數(shù)據(jù)協(xié)同過程中，都已經(jīng)開始使用隱私計算技術(shù)?！币γ鞲嬖V記者。

　　雷濤指出，隱私計算的核心是解決數(shù)據(jù)的確權(quán)問題，將數(shù)據(jù)的所有權(quán)和使用權(quán)做到剝離，使得我們不用去搬移數(shù)據(jù)、訪問數(shù)據(jù)的前提下也可以獲取到數(shù)據(jù)價值的轉(zhuǎn)移。

　　在數(shù)據(jù)要素流轉(zhuǎn)的過程中，據(jù)李曉林介紹，隱私計算也被運用于政務(wù)數(shù)據(jù)開放與數(shù)據(jù)交易的場景之下。“在各地的政務(wù)數(shù)據(jù)流通過程中，不愿、不敢、不能共享的問題造成了數(shù)據(jù)孤島的出現(xiàn)，打造基于隱私計算的共享智能平臺可以幫助打通數(shù)據(jù)壁壘，實現(xiàn)數(shù)據(jù)的深度挖掘與價值釋放。”

　　但中國工商銀行發(fā)布的金融業(yè)首份隱私計算白皮書指出，現(xiàn)階段我國并未出臺匿名化技術(shù)標準或相關(guān)指引性文件，金融業(yè)可探討專門出臺隱私計算技術(shù)使用指引，以指導各方合規(guī)應(yīng)用相關(guān)技術(shù)。

　　人工智能立法正在進行時

　　目前海內(nèi)外對于人工智能的立法工作正在進行中。

　　就在12月5日，聯(lián)合國成員國大會剛剛通過首個關(guān)于人工智能倫理的全球標準《人工智能倫理問題建議書》（下稱“《建議書》”），旨在實現(xiàn)人工智能給社會帶來的積極效果，同時也預防潛在風險。

　　具體來說，《建議書》呼吁個體應(yīng)該有權(quán)訪問甚至刪除其個人數(shù)據(jù)記錄。它還包括改善數(shù)據(jù)保護和個體對自身數(shù)據(jù)的了解和控制權(quán)的行動，并將提高世界各地的監(jiān)管機構(gòu)的執(zhí)行能力?！督ㄗh書》明確禁止使用人工智能系統(tǒng)進行社會評分和大規(guī)模監(jiān)控，并鼓勵聯(lián)合國各會員國考慮增設(shè)獨立的人工智能倫理官員或其他相關(guān)機制，以監(jiān)督審計和持續(xù)監(jiān)測。

　　今年6月，歐盟數(shù)據(jù)保護委員會和歐盟數(shù)據(jù)保護監(jiān)督局針對歐盟今年4月發(fā)布的人工智能法規(guī)草案發(fā)表聯(lián)合意見，進一步呼吁在公共場所禁止使用人工智能自動識別個人特征，包括人臉識別、步態(tài)、指紋、DNA、聲音等生物或行為信號。

　　我國“個保法”第二十六條要求在公共場所安裝圖像采集、個人身份識別設(shè)備，應(yīng)當為維護公共安全所必需，遵守國家有關(guān)規(guī)定，并設(shè)置顯著的提示標識。所收集的個人圖像、身份識別信息只能用于維護公共安全的目的，不得用于其他目的；取得個人單獨同意的除外。

　　在上海人大剛剛通過的上海市數(shù)據(jù)條例中，更進一步地細化了人工智能技術(shù)的使用。

　　上海將限制個人信息采集的區(qū)域拓展至居住小區(qū)、商務(wù)樓宇等非公共場所，并要求不得以圖像采集、個人身份識別技術(shù)作為出入上述場所或區(qū)域的唯一驗證方式。另外，通過自動化決策方式向個人進行信息推送、商業(yè)營銷的，應(yīng)當同時提供不針對其個人特征的選項，或向個人提供便捷的拒絕方式。通過自動化決策方式作出對個人權(quán)益有重大影響的決定，個人有權(quán)要求處理者予以說明，并有權(quán)拒絕處理者僅通過自動化決策的方式作出決定。

　　記者多方了解到，目前我國多地對于人工智能的地方立法正在探索中，目前天津、南京、杭州、深圳等地已相繼出臺管理條例規(guī)范人臉識別，未來人工智能相關(guān)管理條例將主要聚焦人工智能體規(guī)范和算法規(guī)范兩大方面。

上一篇:哈爾濱獲批建設(shè)國家新一代人工智能創(chuàng)新發(fā)展試驗區(qū) 下一篇:智慧加持交通駛向可持續(xù)發(fā)展新征程

返回列表相關(guān)新聞

在線留言

*您的姓名：

*您的手機：

公司名稱：

*電子郵箱：

*留言內(nèi)容：

大數(shù)據(jù)不香了？小數(shù)據(jù)人工智能正在崛起，產(chǎn)學界探索可信AI

山東省印發(fā)新學期方案加強校門管理實行相對封閉管理

山東印發(fā)學校食堂規(guī)范管理方案鼓勵實施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知要求開學后嚴而有度把好校門關(guān)

嘉祥縣：大數(shù)據(jù)賦能智慧安防發(fā)揮數(shù)據(jù)要素“乘數(shù)效應(yīng)”

《成都市數(shù)據(jù)條例》出臺

既“主內(nèi)”又“主外”，以機代人，高效巡檢基于四足機器人的變電站智能

在線留言

聯(lián)系方式

二維碼

大數(shù)據(jù)不香了？小數(shù)據(jù)人工智能正在崛起，產(chǎn)學界探索可信AI

山東省印發(fā)新學期方案 加強校門管理 實行相對封閉管理

山東印發(fā)學校食堂規(guī)范管理方案 鼓勵實施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知 要求開學后嚴而有度把好校門關(guān)

嘉祥縣：大數(shù)據(jù)賦能智慧安防 發(fā)揮數(shù)據(jù)要素“乘數(shù)效應(yīng)”

《成都市數(shù)據(jù)條例》出臺

既“主內(nèi)”又“主外”，以機代人，高效巡檢基于四足機器人的變電站智能

在線留言

聯(lián)系方式

二維碼

大數(shù)據(jù)不香了？小數(shù)據(jù)人工智能正在崛起，產(chǎn)學界探索可信AI

山東省印發(fā)新學期方案加強校門管理實行相對封閉管理

山東印發(fā)學校食堂規(guī)范管理方案鼓勵實施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知要求開學后嚴而有度把好校門關(guān)

嘉祥縣：大數(shù)據(jù)賦能智慧安防發(fā)揮數(shù)據(jù)要素“乘數(shù)效應(yīng)”

既“主內(nèi)”又“主外”，以機代人，高效巡檢基于四足機器人的變電站智能