50岁熟妇大白屁股真爽,freewebvideo性欧美,亚洲精品国产综合麻豆久久99,国产美女久久久亚洲综合,亚洲欧洲精品专线

?
公司新聞
當(dāng)前位置: 首頁 > 新聞中心 > 公司新聞 > 【CCF BDCI大賽】明朝萬達(dá)專家解讀基于UEBA的算法賽題! 返回
【CCF BDCI大賽】明朝萬達(dá)專家解讀基于UEBA的算法賽題!
發(fā)布時間:2021-10-11 打印 字號:


  計算機(jī)精英們,注意啦~

2021年 CCF大數(shù)據(jù)與計算智能大賽

(簡稱 2021 CCF BDCI大賽)已上線三周啦!

各賽題都已陸續(xù)揭開神秘面紗~

此時發(fā)布賽題解讀,希望在為參賽小伙伴們答疑解惑之余提供更多靈感和啟發(fā)。以下,為大家送上的是:「基于UEBA的用戶上網(wǎng)異常行為分析」的多維度超詳細(xì)賽題解讀。

選手們,快來了解~

 

2021 CCF BDCI 數(shù)據(jù)算法賽道

· 賽題名稱:基于UEBA的用戶上網(wǎng)異常行為識別

· 出題單位:北京明朝萬達(dá)科技股份有限公司

· 賽題鏈接:http://navo.top/n6zeIv

賽題背景

企業(yè)應(yīng)對內(nèi)部的敏感數(shù)據(jù)泄露問題,安全信息及事件管理Security Information and Event Management,SIEM)是一種應(yīng)用最為廣泛采用的數(shù)據(jù)防泄漏技術(shù)。該技術(shù)是安全信息管理SIM)和安全事件管理SEM)的結(jié)合體,能夠?yàn)槠髽I(yè)內(nèi)部所有IT資源產(chǎn)生的安全信息進(jìn)行統(tǒng)一的實(shí)時監(jiān)控、歷史分析。SEIM主要是由采集層,存儲層,計算層,輸出層四部分組成。采集層主要用來采集所有網(wǎng)絡(luò)安全信息源,并對數(shù)據(jù)集進(jìn)行簡單處理,轉(zhuǎn)化為統(tǒng)一的格式,便于存儲。存儲層主要功能是存儲采集的原始數(shù)據(jù)和計算分析完成的結(jié)果,并為后續(xù)的分析與可視化展示提供數(shù)據(jù)支撐。計算層,是SIEM中最為重要的一層,包括規(guī)則匹配計算,算法計算,流量分析計算等多種計算分析模型。輸出層主要是將計算層分析的結(jié)果進(jìn)行多種輸出方式實(shí)現(xiàn)可視化展示,企業(yè)可以根據(jù)不同業(yè)務(wù)部門的不同需求選擇合適的輸出方式。

基于日志分析和規(guī)則匹配技術(shù),SIEM系統(tǒng)并不斷融合關(guān)聯(lián)分析等其他方法,對安全事件進(jìn)行監(jiān)視、聚合、關(guān)聯(lián)和報告,在防止企業(yè)內(nèi)部敏感信息的泄漏中發(fā)揮著重要的作用。然而,隨著數(shù)據(jù)泄露途徑的增加和應(yīng)用場景的多樣性,SIEM也存在如下問題:

1、當(dāng)企業(yè)內(nèi)部的日志事件符合預(yù)先設(shè)定的規(guī)則時,SIEM能夠快速的做出報警,但其警報的有效性往往取決于規(guī)則制定的合理性。不合理的監(jiān)控規(guī)則,會大大增加數(shù)據(jù)泄露事件的誤報數(shù)量,導(dǎo)致安全運(yùn)維中心被誤報信息所淹沒。

2、SIEM監(jiān)控規(guī)則的制定是一件非常復(fù)雜和耗時的工程,隨著數(shù)據(jù)泄露方式和渠道的日新月異,靜態(tài)的規(guī)則實(shí)現(xiàn)數(shù)據(jù)防泄漏始終慢人一步,維護(hù)與革新企業(yè)內(nèi)部不斷增加監(jiān)控規(guī)則將會產(chǎn)生巨大經(jīng)濟(jì)消耗。

3、企業(yè)內(nèi)部具有高權(quán)限的管理人員,能夠直接接觸到核心的敏感數(shù)據(jù),其主動或者無意的操作,更易發(fā)生數(shù)據(jù)泄露現(xiàn)象,而SIEM難以有效地處理此類情況。

4、日志事件警報數(shù)量的增加,促使企業(yè)擴(kuò)充安全運(yùn)維中心的人員數(shù)量和增加人員安全培訓(xùn)成本,這無疑增加了企業(yè)的經(jīng)濟(jì)負(fù)擔(dān)。

5、SIEM提供的海量警報中摻雜著準(zhǔn)報和誤報,卻無法完成對事件風(fēng)險程度進(jìn)行劃分,這可能造成真正的數(shù)據(jù)泄露事件無法及時處理,最終造成巨大的安全隱患和經(jīng)濟(jì)損失。

綜上所述,基于規(guī)則的SIEM數(shù)據(jù)防泄漏技術(shù)對于數(shù)據(jù)泄露事件的精準(zhǔn)預(yù)報、動態(tài)的數(shù)據(jù)泄露途徑與方式,特殊員工的行為監(jiān)控,實(shí)時的行為預(yù)測與風(fēng)險評分,難以達(dá)到現(xiàn)在企業(yè)對于數(shù)據(jù)安全的要求。因此,對于防止內(nèi)部敏感數(shù)據(jù)發(fā)生泄漏,企業(yè)迫切需求一種能夠彌補(bǔ)傳統(tǒng)SIEM的數(shù)據(jù)防泄漏技術(shù),用戶實(shí)體行為分析技術(shù)應(yīng)運(yùn)而生。

 

出題單位介紹

明朝萬達(dá)成立于2005年,是中國新一代信息安全技術(shù)企業(yè)的代表廠商,專注于數(shù)據(jù)安全、公共安全、云安全、大數(shù)據(jù)安全及加密應(yīng)用技術(shù)解決方案等服務(wù)。憑借在數(shù)據(jù)安全領(lǐng)域取得的優(yōu)異成就,明朝萬達(dá)于2019年獲得中央網(wǎng)信辦背景中網(wǎng)投、國家發(fā)改委背景國投創(chuàng)合聯(lián)合投資,并于2020年獲得中國電科集團(tuán)(CETC)戰(zhàn)略投資。

基于“動態(tài)數(shù)據(jù)安全,數(shù)據(jù)全生命周期管控”的產(chǎn)品理念,明朝萬達(dá)始終以守護(hù)用戶數(shù)據(jù)價值為己任,致力于讓安全真正服務(wù)于業(yè)務(wù)發(fā)展。歷經(jīng)十余年的發(fā)展與積累,明朝萬達(dá)現(xiàn)有員工600余人,總部位于北京,在上海、廣州、成都、西安、貴陽、天津、武漢、南京、長春、無錫等地設(shè)有分支機(jī)構(gòu)。明朝萬達(dá)客戶已覆蓋金融、政府、公安、電信運(yùn)營商、能源、設(shè)計院所和研發(fā)制造業(yè)等領(lǐng)域,簽約用戶超過3000家。

 

賽題重點(diǎn)

1、從海量無標(biāo)簽的日志數(shù)據(jù)中構(gòu)建用戶上網(wǎng)行為基線,要求基線能準(zhǔn)確刻畫用戶實(shí)際行為。

2、從海量無標(biāo)簽的日志數(shù)據(jù)中構(gòu)建上網(wǎng)行為評價模型,要求能準(zhǔn)確評價單個上網(wǎng)行為與基線的偏離程度。

 

解題思路舉例(不限定)

1、首先海量無標(biāo)簽數(shù)據(jù)場景,只能選擇無監(jiān)督算法進(jìn)行求解。

2、算法除了要刻畫是否異常,還需要刻畫異常程度進(jìn)行排序,因此輸出結(jié)果是一個連續(xù)值比較符合要求,因此它應(yīng)該是一個生產(chǎn)式模型,而不是一個判別式模型。

3、異常行為分析的定義,對正常行為建模,不在正常范圍之內(nèi)的都是異常。

4、使用同比和環(huán)比的方法構(gòu)建行為基線,同比是同一個人的不同時間的行為聚類,找到聚類中心作為基線。環(huán)比是根據(jù)同一個部門不同的人的行為進(jìn)行聚類,聚類的中心作為基線。

5、使用相同的特征處理對單個行為進(jìn)行處理,得到單個行為特征向量,計算單個行為特征向量到極限的距離來刻畫異常程度(例如歐式距離)。

 

常見問題

Q1

為什么不使用有監(jiān)督?

賽題來源于實(shí)際生產(chǎn)應(yīng)用場景,企業(yè)實(shí)際應(yīng)用場景中一類操作(例如發(fā)送郵件、上網(wǎng)、傳輸文件等)日志每天大概平均5萬條,操作種類也很多不可枚舉,人工標(biāo)記數(shù)據(jù)工作量大,容易出錯,不具備可操作性。因此需要使用無監(jiān)督算法來解決。

Q2

要求無監(jiān)督的解決方案,為什么訓(xùn)練集有標(biāo)簽?

賽題和數(shù)據(jù)是北京明朝萬達(dá)有限公司應(yīng)CCF大賽平臺要求提供,也需要滿足公平公正公開原則進(jìn)行賽題準(zhǔn)備和數(shù)據(jù)準(zhǔn)備,因此訓(xùn)練集提供了參考標(biāo)簽值,正向引導(dǎo)選手解決問題的思路。無標(biāo)簽數(shù)據(jù)才是實(shí)際場景具備的條件。

Q3

數(shù)據(jù)集里面的標(biāo)簽ret的值怎么來的?

首先經(jīng)過機(jī)器預(yù)處理,可視化展示,業(yè)務(wù)專家校準(zhǔn)之后提供的。

Q4

無監(jiān)督的輸出結(jié)果是分類標(biāo)簽,為什么測試集的結(jié)果要求是連續(xù)值?

在背景介紹里面有實(shí)際場景面臨的問題描述,異常行為檢測結(jié)果參雜著準(zhǔn)報和誤報,卻無法完成對事件風(fēng)險程度進(jìn)行劃分,工作量增大,而人力資源有限,需要按異常行為排序進(jìn)行稽核處理,優(yōu)先處理異常程度較大的安全事件,盡量避免較大的數(shù)據(jù)泄露造成的經(jīng)濟(jì)損失。

Q5

為什么使用RMSE作為評分規(guī)則?

這個問題有兩層疑問,一是字面意思,這個建議自己去檢索RMSE相關(guān)資料了解即可;二是,測試集里面的ret是否有效,參見問題3。

Q6

能不能給出行為基線(baseline)?

抱歉,這個暫不能提供。用戶異常行為分析的定義,構(gòu)建正常行為基線,所有不符合正常行為的即為異常。正常行為建模得到的是基線,基線是核心成果之一,其本身就是需要求解的核心問題之一。

 

評價方法

 

本賽題的評價指標(biāo)為均方根誤差Root Mean Square Error,簡稱RMSE),它是異常觀測值與真實(shí)值偏差的平方和觀測次數(shù)N比值的平方根,RMSE的計算公式如下: 

 

式中:

· RMSE — 均方根誤差;

· N — 樣本數(shù)量;X — 用戶行為評分;

· 線上排名得分Score值計算方法如下(得分越趨近于1排名越靠前):

 

 

關(guān)于該賽題的解讀就說到這兒吧,

希望看到的選手們都能有所得

快快行動起來!

400-650-8968