大數據+AI打造互聯(lián)網(wǎng)金融反欺詐體系
今天分享的主題就是利用大數據和AI結合機器學(xué)習的方法在當前的技術(shù)環(huán)境下面在互聯(lián)網(wǎng)金融的一個(gè)反欺詐架構,這次分享與線(xiàn)上風(fēng)控相關(guān)。介紹一下中國當前風(fēng)控環(huán)境、反欺詐形態(tài)、目前所用的數據和算法如何在反欺詐中應用,將從以下幾個(gè)方面介紹。
國家政策對金融監管還是比較嚴格,每個(gè)國家應對的也大不相同,我國目前經(jīng)濟發(fā)展迅速,尤其互聯(lián)網(wǎng)金融發(fā)展迅猛。目前GDP中消費支出占了較大的比例(與美國已經(jīng)相差不大)消費已經(jīng)成為巨大驅動(dòng)力,比重越來(lái)越高,尤其淘寶起來(lái)很大作用。人們越來(lái)越趨向于網(wǎng)上購物,在這個(gè)過(guò)程中技術(shù)也有了飛速的發(fā)展,中國在這方面處于領(lǐng)先地位,中國的環(huán)境、服務(wù)、平臺都非常穩健,這個(gè)我們的金融科技打下來(lái)非常堅實(shí)的基礎。這個(gè)趨勢不可逆轉,雖然國家政策表面上收緊,但是還有很多正面意義,互聯(lián)網(wǎng)金融近幾年發(fā)展也確實(shí)存在很多亂象,如暴利、惡意催收。政府收緊其實(shí)是一個(gè)洗牌過(guò)程,如果你沒(méi)有技術(shù)力量,靠以前這種野蠻手段在新的監管環(huán)境你就很難生存。真正依靠數據、科技去驅動(dòng),你就可以很好地應對政策。
美國是個(gè)人消費實(shí)力很強的一個(gè)國家,我們以它為標桿。圖中藍線(xiàn)代表中國,紅線(xiàn)代表美國。預測中國短期個(gè)人貸款到2020年達10萬(wàn)億元,可見(jiàn)市場(chǎng)龐大。個(gè)人消費不僅僅靠大銀行,還要靠其他小型機構;因為大銀行本身這種特點(diǎn)(客群優(yōu)質(zhì)),很難下放到下層服務(wù)。在信用風(fēng)險中欺詐風(fēng)險在我國占的比例非常高,數額也比較大,經(jīng)常是有組織的欺詐,如做“網(wǎng)絡(luò )黑產(chǎn)”有百萬(wàn)級人員,市場(chǎng)規模為千億級,很多公司被迫無(wú)法經(jīng)營(yíng),據估計,互聯(lián)網(wǎng)金融一半以上的壞賬風(fēng)險來(lái)自欺詐風(fēng)險。對比美國這方面比例就相對小的很多,如一個(gè)千億級個(gè)人消費,中能達20-30億美元,美國則只有幾千萬(wàn)美元。原因有一點(diǎn)是美國征信做的比較好,幾乎覆蓋所有成年人。反欺詐就是提高欺詐的成本。
接下來(lái)介紹下不同領(lǐng)域的金融欺詐類(lèi)型,如銀行業(yè)釣魚(yú)網(wǎng)站,木馬病毒,做一個(gè)假的網(wǎng)站;電商行業(yè)促銷(xiāo)讓利大部分便宜了黃牛黨或競爭對手—薅羊毛,與此同時(shí)退單電信詐騙,刷評,協(xié)議支付面臨的銀行卡盜刷等問(wèn)題也是常有發(fā)生;消費信貸中借款人冒用身份、老賴(lài)、多平臺借款、黑中介、企業(yè)經(jīng)營(yíng)異常貸后無(wú)法跟蹤等問(wèn)題。
用技術(shù)去做反欺詐都是有針對性的,在進(jìn)行反欺詐時(shí)需要知道欺詐的類(lèi)型,下面是欺詐分類(lèi),有第一方欺詐,第三方欺詐等。第三方欺詐就是欺詐分子通過(guò)非法途徑獲取他人身份進(jìn)行騙貸等欺詐行為;線(xiàn)下欺詐是通過(guò)信用卡偷盜,盜取其他用戶(hù)賬戶(hù)資金的行為或者通過(guò)偽造申請材料,線(xiàn)下面對面申請的欺詐行為;申請欺詐是以欺詐為目的,申請個(gè)人信貸賬戶(hù)以騙取銀行或P2P平臺等機構資金的行為??杉毞譃樘摷偕矸萆暾埡吞摷儋Y料申請(這在反欺詐中很重要,將壞人擋于門(mén)外);交易欺詐對數據實(shí)時(shí)性比較高。欺詐風(fēng)險是惡意的,自始至終就是不想還貸,信用風(fēng)險更多的是一種還款意愿或還款能力導致無(wú)法還款。信用風(fēng)險主要是看征信、數據,建模型進(jìn)行處理,計算欺詐概率,而欺詐是要分清黑白。
接下來(lái)我們講一下大數據+AI的反欺詐,風(fēng)控需要對監管的改變,市場(chǎng)的形態(tài)我們都要時(shí)常關(guān)注。我們雖然不是銀行但是我很多事都是按銀行來(lái)做,自己做壓力測試,如果變壞我們能否承受得住,而且我們的反應一定要快。金融危機發(fā)生很快根本不會(huì )給你思考的時(shí)間,如果你去現設計或者反應可能會(huì )造成很大的損失。08年危機反應快的銀行會(huì )及時(shí)剝離壞的資產(chǎn),后面有機會(huì )我們會(huì )講如何在經(jīng)濟危機下處理我們的資產(chǎn)。對于大數據和AI來(lái)說(shuō),我們并不陌生,任何新技術(shù)出來(lái)有人會(huì )質(zhì)疑,如數據早就有了只是數據量大了點(diǎn)。最近流行的AI算法其實(shí)一點(diǎn)也不新,早就有了只是目前有一定的突破、發(fā)展快、效率比較高、得到廣泛的應用,最近消費水平的提升與技術(shù)的成熟是分不開(kāi)的。大數據在美國有種說(shuō)法叫另類(lèi)數據。美國征信數據很豐富,它屬于強金融數據,比如我在哪里借了錢(qián)、還多少、利率是多少、逾期多少等,這些數據對信貸風(fēng)險評估是非常有用的,對欺詐風(fēng)險評估也是很有用的。但在中國這種數據很多人沒(méi)有或者缺失不完整,因此補充的數據就非常有效,如有些推廣數據、你有那些銀行賬戶(hù)、安裝的APP、消費習慣、年齡段等都與他的資產(chǎn)和收入有關(guān),這是非常有用的。比如手機可以判斷他是一個(gè)正常人,不是專(zhuān)門(mén)的欺詐。大數據不是結構化的,但是征信數據是結構化的(要求嚴格),因此這類(lèi)數據分析是很容易的。機器學(xué)習提供了很多方法,如統計方法等是非常有效的。美國每個(gè)人都有一個(gè)信用評分,這個(gè)評分準確度非常高,數據結構化,采用邏輯回歸方法 。在中國你有這種高維的、稀疏的、數據準確度可能會(huì )有問(wèn)題,但是利用機器學(xué)習的方法也可以達到很好的精度。
大數據是多維的,例如在海外,不同的國家有不同的數據,如在巴西一個(gè)項目,他們有稅務(wù)的數據,這個(gè)是公開(kāi)的,也能很好地評估你的收入;還有些國家有電信的數據,如東南亞分期付款手機業(yè)務(wù),這不屬于金融數據,這方面包含數據有很多(地址、戶(hù)籍,手機是什么)。手機型號用的網(wǎng)絡(luò )進(jìn)行比較,位置指標,這些都是很好的指標。提取些規律和緯度,這些在建模時(shí)都是很有效的。
我們常用的一些反欺詐的數據和方法有:(1)身份驗證,這個(gè)是非常重要的,身份驗證在中國很偉大,如中國解決了第三方欺詐的問(wèn)題。因為中國手機實(shí)名認證,有些時(shí)候你很難去做假,這樣我們可以交叉驗證,這樣就提高了欺詐的成本;(2)法院/征信信息,內部黑名單,有公司會(huì )專(zhuān)門(mén)整理這些信息,可以公開(kāi)給我們使用。用戶(hù)信息整合,通過(guò)各公司間信息碰撞,規則匹配,如果發(fā)現過(guò)去欺詐行為就不給他提供金融服務(wù);(3)模型,評估用戶(hù)行為,進(jìn)行規則評判他這種行為是不是欺詐,如何減少錯殺準確抓住欺詐人員。
下面是欺詐與未知欺詐甄別問(wèn)題,主要是監督學(xué)習和非監督學(xué)習。監督學(xué)習是知道一個(gè)人以前欺詐(父母信息不對,電話(huà)號碼有誤等),我們就會(huì )打上標簽,歷史數據就會(huì )訓練我們的模型,統計模型所用數據大都都是有標簽的;非監督學(xué)習也是經(jīng)常使用的,因為欺詐是經(jīng)常改變的或不同特征的,我并不知道他是否是欺詐,我們用關(guān)聯(lián)網(wǎng)絡(luò ),每個(gè)人間有聯(lián)系,這種網(wǎng)絡(luò )快速發(fā)展;還有一種是兩者結合起來(lái),利用權重評估。
下面是反欺詐常用算法,比如邏輯回歸,并不是就不用了,因為它的解釋性非常好。機器學(xué)習很多時(shí)候是黑盒子,中間過(guò)程無(wú)法獲取,而銀行很少用機器學(xué)習的方法,因為監管就無(wú)法通過(guò)(比如它要了解你的資產(chǎn)質(zhì)量,但是它連你怎么評估都不清楚,它不會(huì )認可你的結果),因此很多大銀行都會(huì )用邏輯回歸。而機器學(xué)習存在過(guò)擬合現象,很難匹配一個(gè)度。因此在風(fēng)控行業(yè)經(jīng)驗非常重要,有一句老話(huà)講“風(fēng)控是技術(shù)和藝術(shù)的結合”,這絕對不是純技術(shù)問(wèn)題,單純靠技術(shù)是會(huì )存在風(fēng)險的。
復雜網(wǎng)絡(luò )這一塊用的非常多,很多公司都有開(kāi)發(fā),只是網(wǎng)的大小問(wèn)題,人都是有關(guān)系的,無(wú)論是微信或是Facebook等的人都是通過(guò)網(wǎng)絡(luò )聯(lián)系在一起的。而且“物以類(lèi)聚,人以群分”,欺詐團伙因素,比如不一定你是欺詐,但是和欺詐有關(guān)系的人風(fēng)險會(huì )很高。如通話(huà)記錄、短息記錄、住址等利用模糊匹配。提一點(diǎn)在欺詐模型評估時(shí)主要用到準確率和召回率指標。
接下來(lái)講一下我們線(xiàn)上的一個(gè)反欺詐系統框架,下圖簡(jiǎn)化了實(shí)際反欺詐系統。介紹了基本流程,首先是身份的交叉驗證,證明你是你。不光是銀行卡、手機、身份證交叉認證,還有你的照片、活體認證(你在上面動(dòng)來(lái)動(dòng)去);內部數據和外部數據有一個(gè)決策引擎,這里面存儲了各種規則;接下就是一個(gè)評分分析系統,這些數據有手機的行為數據也有其他外部數據(不可控,最好有個(gè)穩定模型進(jìn)行備份);除此之外還有個(gè)預警系統,對我們的模型進(jìn)行監管,需要對實(shí)時(shí)數據進(jìn)行一些評估,這一點(diǎn)也是非常重要的。
下面是欺詐模型建模過(guò)程,底層是基礎數據的數據倉庫將所有外部數據、內部數據、不同來(lái)源的數據搜集起來(lái)。中間層是如何提取一些特征,將多維的、離散的數據進(jìn)行整合。模型是金字塔的頂端,一個(gè)好的模型往往是非常困難的,社會(huì )上也很缺乏這種人才。
閉環(huán)系統也就是打標簽,比如我們公司就有專(zhuān)門(mén)的反欺詐的專(zhuān)員不僅對已有的客戶(hù),也會(huì )追蹤一些論團、微信群或者黑產(chǎn)群、戒賭吧,了解他們的動(dòng)態(tài),搜集數據,這些會(huì )反饋在我們的模型上。及時(shí)獲取最新欺詐手段或技術(shù)非常重要。
對未來(lái)一點(diǎn)展望,欺詐永遠不會(huì )停止、不會(huì )消失,尤其在中國征信沒(méi)有完全建立,人口多,社會(huì )缺乏金融知識,對征信了解很少,收入差距比較大的環(huán)境下,欺詐現象會(huì )長(cháng)期存在,這在風(fēng)控里面是考慮的一個(gè)重要部分。征信體系的建立和完善,雖然這個(gè)過(guò)程會(huì )很長(cháng);目前第三方反欺詐公司推出的服務(wù)產(chǎn)品有同質(zhì)化的特點(diǎn),預計行業(yè)發(fā)展到后期會(huì )競爭加劇,最終會(huì )形成幾家專(zhuān)業(yè)化的行業(yè)巨頭。(文字來(lái)源:今日頭條)