直播作為近來(lái)新興的互動(dòng)形態(tài),已經(jīng)成為近幾年最風(fēng)生水起的行業(yè)之一。在2016年仿佛進(jìn)入了“千團(tuán)大戰(zhàn)”的繁華。歡聚時(shí)代10億砸向虎牙和ME直播,斥資1億簽下主播MISS;騰訊4億投資斗魚(yú),后者估值10億美元;新成立的映客獲得昆侖萬(wàn)維、復(fù)賽等機(jī)構(gòu)的8000萬(wàn)人民幣投資;易直播獲得6000萬(wàn)人民幣A輪融資;360推出花椒、秒拍推出一直播....網(wǎng)絡(luò)直播正享受其最好的時(shí)光,直播"風(fēng)口"成投資方必爭(zhēng)之地。

然而網(wǎng)絡(luò)直播也因?yàn)樽叩奶?,而失去了出發(fā)的初心,主播行為、直播內(nèi)容變得不可控,低俗、大尺度、無(wú)下限成為“勁爆”欄目。針對(duì)網(wǎng)絡(luò)直播的種種怪相,12月1日,由國(guó)家網(wǎng)信辦發(fā)布的,媒體認(rèn)為“史上最嚴(yán)”的《互聯(lián)網(wǎng)直播服務(wù)管理規(guī)定》正式開(kāi)始施行?!兑?guī)定》要求直播平臺(tái)按照“后臺(tái)實(shí)名、前臺(tái)自愿”的原則,對(duì)用戶(hù)進(jìn)行移動(dòng)電話號(hào)碼等真實(shí)身份信息認(rèn)證。而對(duì)于網(wǎng)絡(luò)主播們,《規(guī)定》更要求通過(guò)審核身份證件等更為嚴(yán)格的方式進(jìn)行認(rèn)證登記。

而這些網(wǎng)絡(luò)直播在進(jìn)行實(shí)人認(rèn)證時(shí),需要對(duì)包括姓名、證件號(hào)、生物屬性、手機(jī)和位置等要素進(jìn)行識(shí)別,如何在提高用戶(hù)體驗(yàn)的同時(shí)準(zhǔn)確的判斷賬號(hào)背后真實(shí)的人,也是目前困擾著各大公司的一大難題。目前阿里聚安全實(shí)人認(rèn)證中使用的技術(shù)能夠大大提供自動(dòng)化認(rèn)證率和審核效率。

主播實(shí)人認(rèn)證

主播的實(shí)人認(rèn)證,基于自主研發(fā)的證件OCR、人臉識(shí)別等實(shí)現(xiàn)了88%以上的自動(dòng)化認(rèn)證率,并且采用云(3D、翻拍檢測(cè)等)+端(交互動(dòng)作等)相結(jié)合的活體檢測(cè)技術(shù)來(lái)防御虛假認(rèn)證的風(fēng)險(xiǎn)攻擊,以確認(rèn)主播的真實(shí)身份,降低違法風(fēng)險(xiǎn)。

對(duì)主播進(jìn)行了嚴(yán)格的實(shí)人認(rèn)證:做到人證合一,即根據(jù)認(rèn)證過(guò)的賬號(hào)身份信息,能準(zhǔn)確找到對(duì)應(yīng)的真實(shí)的自然人。

↑ 實(shí)人認(rèn)證系統(tǒng)示意圖

其中涉及的智能技術(shù)很多,介紹其中兩項(xiàng)。

1、身份證OCR

身份證OCR是把身份證圖像中的文字識(shí)別為計(jì)算機(jī)能認(rèn)識(shí)的文本,自動(dòng)與公安網(wǎng)等權(quán)威數(shù)據(jù)庫(kù)比對(duì),驗(yàn)證姓名、號(hào)碼等信息的真?zhèn)巍?/p>

基于自由拍攝證件圖像,流程見(jiàn)下圖。為保證識(shí)別率和速度,同時(shí)融合了傳統(tǒng)算法和深度學(xué)習(xí)算法。

↑ 身份證信息檢測(cè)流程圖

OCR算法對(duì)“姓名”字段的識(shí)別準(zhǔn)確率達(dá)98%以上,對(duì)“身份證號(hào)碼”和“有效期”達(dá)99.5%。 系統(tǒng)具有很強(qiáng)魯棒性,以下case都可以輕松識(shí)別。

↑ OCR可以識(shí)別的身份證舉例

2、生物特征識(shí)別

只介紹人臉識(shí)別和人臉活體檢測(cè)。

人臉識(shí)別在學(xué)術(shù)界已超肉眼的識(shí)別水平,但能在實(shí)際中的大規(guī)模應(yīng)用還比較少,原因是實(shí)際場(chǎng)景復(fù)雜和數(shù)據(jù)缺乏。挑戰(zhàn)來(lái)自光照、姿態(tài)、翻拍、化妝、衰老以及低照片質(zhì)量。

我們對(duì)用戶(hù)真人人像、身份證照、權(quán)威數(shù)據(jù)庫(kù)的頭像進(jìn)行兩兩比對(duì),以驗(yàn)證身份的真實(shí)性。算法能在0.1%的認(rèn)假率下,使得合法用戶(hù)自動(dòng)通過(guò)率達(dá)93%以上。

人臉識(shí)別包括圖像獲取、人臉檢測(cè)、活體檢測(cè)、關(guān)鍵點(diǎn)定位、特征提取、識(shí)別引擎等模塊。

↑ 人臉識(shí)別系統(tǒng)

2.1 人臉檢測(cè)

采用Boosting+RCNN框架。

↑ 人臉檢測(cè)結(jié)果圖

2.2 活體檢測(cè)

活體檢測(cè)是為了確保待認(rèn)證的用戶(hù)是“活人”,而不是事先拍好或翻拍的人臉照片、視頻,防止虛假認(rèn)證,降低主播的違法風(fēng)險(xiǎn)。

↑ 活體檢測(cè)實(shí)例圖

活體檢測(cè)模塊包括:

人臉檢測(cè)

檢測(cè)是否出現(xiàn)人臉,且不能是多張臉, 防止不同的人切換或人與照片的切換。

3D檢測(cè)

驗(yàn)證是否為立體人像,防止平面的照片或視頻攻擊。

↑ 3D檢測(cè)示意圖

活體算法檢測(cè)

驗(yàn)證用戶(hù)的操作是否正常,指定用戶(hù)做隨機(jī)動(dòng)作(凝視、搖頭、點(diǎn)頭、眨眼、上下移動(dòng)手機(jī)等)。
  
連續(xù)性檢測(cè)

防止中途切換人。

翻拍檢測(cè)

利用深度學(xué)習(xí)技術(shù), 區(qū)分獲取的人像是否為對(duì)屏幕、照片的翻拍。

2.3 人臉關(guān)鍵點(diǎn)定位

定位出眉毛、眼睛、鼻子、嘴巴等位置。主流方法有:基于參數(shù)模型的方法;基于回歸的方法;基于深度學(xué)習(xí)的方法。

我們采用基于特征的回歸方式+深度學(xué)習(xí)的方法,來(lái)訓(xùn)練關(guān)鍵點(diǎn)定位模型。

↑ 人臉關(guān)鍵點(diǎn)檢測(cè)示意圖(圖片素材來(lái)源網(wǎng)絡(luò))

2.4 特征提取**

↑ Maxout結(jié)構(gòu)示意圖

我們同時(shí)采用了傳統(tǒng)人臉特征(WLD, HOG,LBP,Gabor等)和基于深度學(xué)習(xí)(基于VGG、GoogleNet、Maxout三者的融合網(wǎng)絡(luò))的特征進(jìn)行人臉識(shí)別。

2.5 識(shí)別引擎

傳統(tǒng)人臉特征,我們采用SVM進(jìn)行pairwise距離度量;DL人臉特征,對(duì)已經(jīng)學(xué)習(xí)的分類(lèi)模型進(jìn)行微調(diào)。

實(shí)人認(rèn)證自動(dòng)化是基于人臉、OCR的識(shí)別結(jié)果,基于大數(shù)據(jù),綜合利用用戶(hù)的行為特征,進(jìn)行多維度信息融合,最后得到綜合決策模型,實(shí)現(xiàn)自動(dòng)決策的過(guò)程。而在目前互聯(lián)網(wǎng)發(fā)展的多種業(yè)務(wù)中,實(shí)人認(rèn)證技術(shù)的應(yīng)用場(chǎng)景紛繁復(fù)雜,對(duì)技術(shù)指標(biāo)的要求也不盡相同,阿里聚安全提供的實(shí)人認(rèn)證技術(shù)以生物識(shí)別、無(wú)線安全技術(shù)為支撐,保障實(shí)人認(rèn)證有效性。

目前,阿里巴巴人臉識(shí)別技術(shù)已在實(shí)際場(chǎng)景中大規(guī)模應(yīng)用,實(shí)戰(zhàn)中相關(guān)性能指標(biāo)在FPR(False Positive Rate)0.1%情況下,TPR(True Positive Rate)達(dá)96%,識(shí)別準(zhǔn)確率遠(yuǎn)遠(yuǎn)超過(guò)人體肉眼識(shí)別。阿里聚安全實(shí)人認(rèn)證技術(shù)更以實(shí)時(shí)大數(shù)據(jù)風(fēng)險(xiǎn)管理為核心,可實(shí)時(shí)判斷每一個(gè)用戶(hù)的認(rèn)證動(dòng)機(jī),對(duì)不同風(fēng)險(xiǎn)等級(jí)的用戶(hù)采取不同的認(rèn)證方式,保障正常用戶(hù)能夠方便、快捷的提交資料,而風(fēng)險(xiǎn)用戶(hù)無(wú)法簡(jiǎn)單的通過(guò)盜用他人信息通過(guò)認(rèn)證,確保認(rèn)證的真實(shí)性。

前文回顧:阿里巴巴直播內(nèi)容風(fēng)險(xiǎn)防控中的AI力量