引言/導讀
北京金睛云華科技有限公司(以下簡稱“金睛云華”),2016年成立于北京,致力于成為以AI智體為核心的新一代網絡安全產品與引擎提供商。創始人及核心團隊主要來自于清華大學KEG實驗室、華為、啟明星辰、東軟等一線AI科學家與網絡安全專家,在網絡安全和人工智能領域有二十余年豐富的經驗和技術積累,已申請100余項基于人工智能的網絡安全發明專利。在北京與沈陽建立了研創中心與安全運營中心,并在北京、上海、廣州、深圳等二十余個省市建立了營銷與服務網絡,已形成研發、創新、營銷與服務覆蓋全國的戰略布局。
金睛云華作為國內最早專注人工智能和NDR領域的公司,實施了創新驅動發展戰略,形成了以AI檢測智體為核心的XDR解決方案和以AI運營智體為核心的智能安全運營(AISecOps)兩條業務線,并在兩個方向上持續拓展,踐行金睛云華在用戶數字化轉型和智能化升級時代的使命一安全智體平權,踐行“普惠安全”。金睛云華打造的產品體系涵蓋以安全大腦「CyberCopilot」賦能的工業互聯網威脅檢測和智能安全運營產品族,產品包括云鑒·高級威脅檢測系統(ATD Pro)、云蹤·網絡流量回溯審計系統(TFS Pro)、云晰·加密流量檢測系統(ETD Pro)、云圖·網絡安全智能中心(CC Pro)以及云智網絡安全大腦(BOC)。以大語言模型和智能體技術為核心,金睛云華將以安全大腦賦能高級威脅檢測和智能安全運營作為公司未來戰略發展方向,完成公司從智能威脅檢測解決方案到智能安全運營解決方案的業務模式演進,最終以安全大腦「CyberCopilot」提供商的角色賦能網絡安全行業。
智能工業互聯網威脅檢測系統作為一個基于人工智能技術的網絡安全檢測工具,實時捕獲和分析網絡流量,通過機器學習、集成學習、深度學習、大語言模型(LLM)等技術,實時發現網絡中異常行為和潛在的安全威脅。系統能夠根據新的數據和威脅模式不斷更新和優化智能化檢測模型,以保持對新興威脅的有效識別能力。同時,通過自動學習建立流量白模型和識別正常行為模式,用于增強對網絡威脅的檢測和響應能力。系統提供直觀的數據分析和可視化界面,幫助安全分析師快速理解和分析安全威脅,減輕安全團隊的工作負擔。
隨著網絡攻擊的不斷增加和復雜化,網絡安全面臨著大數據和智能化的挑戰,傳統的基于規則的安全檢測技術難以應對高級持續性威脅、零日漏洞、惡意加密流量的攻擊。大語言模型(LLM)對于復雜網絡環境理解能力高,通過學習大量的數據、自動提取數據的特征和規律性,發現復雜環境下隱蔽的攻擊模式。經過微調后的檢測模型特別是對于惡意代碼變種、加密流量檢測和用戶白流量建模能力強大,大大提高了檢測的效率和準確性,降低誤報和漏報率,提升了安全防護的能力。大語言模型(LLM)也具有強大的適應能力,能不斷學習和自動適應新的數據和場景,用于檢測新型網絡攻擊。
一、關鍵詞
安全大模型,智能體,程序語言大模型、工業互聯網智能安全運營
發起公司和主要聯系人聯系方式:北京金睛云華科技有限公司,胡永亮 18698814130
二、測試床項目目標
1、本地化工業安全大模型的訓練:大語言模型通常具有數億甚至百億、千億級的參數,需要大量的GPU計算資源用于本地化訓練。如何在資源有限的情況下保證其穩定運行并提供低延遲的服務,是一個巨大的技術挑戰。
2、模型的安全性和隱私保護:在處理敏感數據時,如何確保大模型本身不被用于泄露隱私信息或進行惡意操作,以及如何避免模型被訓練出偏見或歧視性行為,是必須考慮的安全性問題。
3、智能體的構建與優化:構建能夠通過拖拽等可視化界面進行交互的智能Agent,需要將復雜的任務分解為可由大模型處理的子任務,并且要確保這些子任務能夠有效地組合起來完成整體任務,這需要高度的抽象和設計能力。
4、多源數據的整合與統籌分析:需要整合來自不同來源的數據,如情報系統、資產系統等。如何確保數據的準確性、一致性和時效性,以及如何有效地利用這些數據進行綜合分析,是系統實現的關鍵。
5、智能化的工業互聯網告警分析與降噪:需要能夠智能地分析安全告警數據,區分攻擊的真實性和危害程度,并進行有效的降噪處理。要求系統具備深度學習和自然語言理解的強大能力,能夠從大量的告警信息中提取關鍵特征,并進行準確的判斷。
三、測試床方案架構
(一)測試床應用場景
1、圍繞大語言模型的智能特性形成基于大語言模型技術的智能運營分析系統,以智能體架構為底座的能夠對接內置離線安全大模型或第三方大模型的開放式平臺,提供對話式可視化界面和API調用兩種交互方式,能夠基于思維鏈模式通過可拖拽可視化界面交互方式進行智能體構建,智能體調用大模型來構建智能化的安全運營分析。
2、系統具備基于大語言模型智能安全告警數據分析研判功能,通過思維鏈調用安全大模型,并結合情報系統、資產系統等工具進行數據整合,智能化統籌分析,達成告警深度分析研判,直接給出告警是否攻擊成功、攻擊失敗等研判結論,完成告警降噪。最終,形成告警降噪、網絡溯源、知識問答、告警解讀、攻擊載荷分析、自動化安全報告生成等關鍵能力。
(二)測試床架構
基于大模型的網絡安全運營方案可分為4個層級和2個框架。方案邏輯框架如下圖所示:
數據采集層:收集網絡流量、日志數據等待分析數據。
數據處理層:對采集的數據進行預處理,用于后續分析。
AI算法模型: 根據業務需求,通過安全運營大模型、大模型深度威脅檢測與載荷分析、多場景AI檢測小模型等功能為上層應用提供計算基礎。
業務運營層:通過利對數據進行分析研判,實現告警降噪、攻擊溯源、響應處置、態勢展示、智能報告等業務場景,也可以自定義業務場景。
容器化流量檢測引擎基礎框架:構建基于容器技術的流量檢測引擎框架,實現不同類型的檢測引擎可以靈活更新與擴展。
融合大模型的Langchain框架:通過提示詞、數據解析器完成大模型對接,通過智能Agent和鏈(Chain)完成各類數據、工具、流程和大模型決策調度整合,實現大模型可以靈活更新于擴展,支撐業務場景的設計與處理流程自定義。
(三)測試床方案
架構具體描述:
智能體:基于思維鏈進一步串聯工具(Tools),從而將大語言模型的能力和本地、云服務能力結合。對于不同的告警數據處理場景,使用不同的智能體。告警解讀從告警的攻擊者、受害者、攻擊載荷等多維度進行分析,在大模型進行分析過程中,根據不同上下文智能決策思維鏈流轉和工具交互邏輯,完成全面的告警解讀場景。
思維鏈:用于串聯 模型I/O和數據I/O模塊,以實現串行化的連續對話、推測流程
模型I/O:管理大語言模型(Models)及其輸入(Prompts)和格式化輸出(Output Parsers)。
數據I/O:主要用于建設私域知識(庫)的向量數據存儲(Vector Stores)、內容數據獲取(Document Loaders)和轉化(Transformers),以及向量數據查詢(Retrievers)。
基于大模型的網絡安全運營方案業務流程如下圖所示:
用戶可以查看大模型智能運營分析系統相關業務數據并進行交互分析。
網絡流量采集引擎接入網絡流量,包括在線流量和離線PCAP,進行檢測,檢測后產生的日志可以發送至大模型智能運營分析系統進行進一步的關聯分析。
同時,大模型智能運營分析系統通過SYSLOG等方式接收第三方告警日志等日志類數據,對所有接收的日志數據進行預處理、事件聚合、關聯分析。然后基于大語言模型的告警事件研判分析,以實現告警降噪、攻擊溯源、響應處置、態勢展示、智能報告。
第三方設備可以支持多廠商的安全探針設備,包括但不限于威努特、知道創宇等。
(四)方案重點技術
國際現狀是,人工智能在網絡安全領域的應用日益重要。通過自動化、智能化的方式,人工智能可以幫助識別、防范和應對各種網絡安全威脅。微軟推出了基于OpenAI的Security Copilot系統用于安全數據分析,提升網絡安全防御的效果和效率。谷歌云推出Security AI Workbench,這是業界首套由谷歌安全大模型Sec-PaLM提供支持的可擴展平臺。這套新安全模型針對安全用例進行了微調,并結合谷歌強大的安全情報,包括谷歌的威脅態勢可見性,Mandiant關于漏洞、惡意軟件、威脅指標與惡意黑客行為模式的一線情報。
國內現狀是,在人工智能小模型時代,真正將AI模型應用到網絡安全領域的公司不多,在大模型火熱以來,一些大型安全公司才開始思考這領域的技術方案,但還停留在宣傳和實驗室階段,還沒有幾家公司能夠將小模型技術大規模產品化,將大模型技術工程化,在具體的安全場景能夠有效解決安全問題的公司更是屈指可數。
智能威脅檢測子系統通過旁路鏡像和高性能采集技術,系統對網絡流量進行實時解碼和元數據提取,建立完整的日志、協議、數據包全字段索引庫。利用Transformer架構的大語言模型(LLM)學習大量的數據、自動提取數據的特征和規律性,采用特定或自有的大規模高精度標注的威脅數據進行模型精調,發現復雜環境下隱蔽的攻擊模式。基于Kill Chain框架,以實現對攻擊階段的全覆蓋,發現更多的攻擊威脅事件,減少盲點,并將不同階段的攻擊事件進行串聯。能夠對攻擊事件的詳細信息進行溯源分析,對攻擊源、攻擊過程、攻擊擴散面、被攻擊的業務系統、攻擊的惡意軟件功能和危害等情況進行深入的分析,幫助安全團隊更好的判定攻擊的性質、手段和影響,確定合理的應對措施。同時能夠與第三方安全防護設備聯動響應,實現對威脅的阻斷處置。并能夠與大數據安全分析子系統聯動,實時上傳日志、事件等相關信息,為大模型智能輔助分析子系統提供有力的數據支撐。
(五)方案自主研發性、創新性及先進性
1、本地化大模型的訓練問題:大語言模型通常具有數億甚至百億、千億級的參數,需要大量的GPU計算資源用于本地化訓練。如何在資源有限的情況下保證其穩定運行并提供低延遲的服務,是一個巨大的技術挑戰。
2、智能體的構建與優化:構建能夠通過拖拽等可視化界面進行交互的智能Agent,需要將復雜的任務分解為可由大模型處理的子任務,并且要確保這些子任務能夠有效地組合起來完成整體任務,這需要高度的抽象和設計能力。
3、多源數據的整合與統籌分析:需要整合來自不同來源的數據,如情報系統、資產系統等。如何確保數據的準確性、一致性和時效性,以及如何有效地利用這些數據進行綜合分析,是系統實現的關鍵。
4、智能化的告警分析與降噪:需要能夠智能地分析安全告警數據,區分攻擊的真實性和危害程度,并進行有效的降噪處理。要求系統具備深度學習和自然語言理解的強大能力,能夠從大量的告警信息中提取關鍵特征,并進行準確的判斷。
5、工業安全平臺的大模型組件采用MOE架構,通過模型調度路由將不同的輸入數據調度給對應的專有模型,通過將大規模參數的單一大模型劃分為多個中小規模大語言模型,每個模型負責專一的業務場景,比如工業安全檢測大模型、安全運營大模型、工業知識經驗大模型等。
四、測試床實施部署
1、測試床實施規劃
基于大模型的網絡安全運營方案整體建設周期為1年,建設經費包括硬件成本和軟件成本。為避免一次性投入過大,可以采取分階段、分步驟建設方式,逐步實現基于大模型的網絡安全運營與檢測建設。
2、測試床的預期可量化實施結果
研制內置安全大模型和安全運營智能體的原型系統,系統內置本地化訓練精調的具備專業安全知識的安全大模型。提供支持10類以上威脅檢測的安全檢測大模型,提供具備5類以上智能體的安全日志分析研判的運營大模型,運營大模型的參數規模不低于300億;提供分布式的內置安全大模型的原型系統,支持10wEPS處理能力,內置安全輔助智能分析助手,智能助手支持安全知識開放問答、告警解讀、告警處置、告警關聯、載荷分析等,可以進行對話式安全數據分析;系統支持通過拖拽式界面操作完成自定義安全智能體。
3、測試床的商業價值、經濟效益
工業互聯網接入的設備類型多,安全產品類別多。產生的告警日志數量龐大,采用基于大模型的工業安全平臺能夠顯著提升運營效率。根據業界經驗,一名安全服務工程師1天能夠分析500條日志,對于一天動輒幾十萬甚至百萬的日志的情況很常見。我們以每天5000條日志測算,需要10人的安服團隊。一套內置大模型的工業分析平臺24小時工作,每秒處理6條日志,即:10(人) * 500(條)--VS—6 * 60 * 24(1套)。
如此推算1套基于大模型的安全平臺,可產生100萬的經濟價值。(注:每個安服工程師10萬薪資/年)。
4、測試床的社會價值
工業安全平臺的應用能夠顯著提高組織安全性,安全運營平臺通過持續監控和分析網絡活動,提高組織對安全威脅的防御能力。通過識別和緩解安全風險,減少潛在的財務損失和聲譽損害。保護敏感數據不被泄露或濫用,維護個人和企業的隱私權益。同時,提升應急響應能力,在安全事件發生時,能夠快速響應并采取措施,減少安全事件的影響。保證業務連續性,確保關鍵業務系統的穩定運行,減少因安全問題導致的業務中斷。
5、測試床初步推廣應用案例
當前在東北大學已經進行初步應用。
6、測試床成果交付件
提供一套可驗證的原型系統,配套提供相關技術方案及相關的專利1項。
7、測試床可復制性
可以復制推廣到運營商、國家監管單位。用于大范圍的關鍵基礎設施的安全防護。
8、測試床開放性
和華為人工智能中心在大模型訓練方面進行深度合作。
9、測試床資金
基于大模型的工業安全平臺方案所需軟件包括網絡流量采集引擎軟件、大模型智能運營分析系統軟件,各軟件的成本估價如下:
網絡流量采集引擎軟件成本估價:
名稱 | 功能介紹 | 數量 (套) | 單價 (萬元) | 合計 (萬元) |
流量處理模塊 | 具備數據采集、數據過濾、數據還原功能。 | 1
| 10
| 10
|
威脅檢測模塊 | 具備特征檢測、行為檢測、威脅情報檢測、AI模型檢測能力,支持Shadowsocks流量、VPN流量、惡意加密、SQL注入、Webshell、暗網流量、DGA域名、DNS/ICMP/HTTP隱蔽隧道、惡意代碼變種等進行威脅檢測。 | |||
業務應用模塊 | 具備攻擊鏈分析、關聯與溯源、告警通知、設備聯動響應、數據外發等能力。 |
基于大模型的工業安全平臺系統軟件成本估價:
名稱 | 功能介紹 | 數量 (套) | 單價 (萬元) | 合計 (萬元) |
數據采集模塊 | 負責接收各類設備的網絡協議元數據、告警日志等數據。 | 1
| 200
| 200
|
數據流計算模塊 | 負責對接入的數據做大模型檢測、大模型輔助檢測等日志、告警檢測分析。具備大模型本地化訓練能力。 | |||
數據存儲模塊 | 負責將各類數據進行存儲,并提供數據的檢索、更新能力。 | |||
智能體模塊 | 負責通過鏈(Chains)、工具集等組件完成不同業務分析場景的智能體構建,支撐智能化安全告警輔助運營。 | |||
系統交互模塊 | 負責提供人機交付可視化界面,可以通過對話方式執行智能輔助運營任務,提供API接口和其他系統對接,賦能智能輔助運營能力。 |
10、測試床時間軸
序號 | 時間節點 | 工作內容 |
1 | 2024年6月-2024年10月 | 大模型研發,系統研發 |
2 | 2024年11月-2025年1月 | 用戶實驗局部署測試運行 |
3 | 2025年2月-2025年4月 | 針對試用效果整改完善 |
4 | 2025年5月-2024年6月 | 項目總結,結題 |
本報告所載的材料和信息,包括但不限于文本、圖片、數據、觀點、建議,不構成法律建議,也不應替代律師意見。本報告所有材料或內容的知識產權歸工業互聯網產業聯盟所有(注明是引自其他方的內容除外),并受法律保護。如需轉載,需聯系本聯盟并獲得授權許可。未經授權許可,任何人不得將報告的全部或部分內容以發布、轉載、匯編、轉讓、出售等方式使用,不得將報告的全部或部分內容通過網絡方式傳播,不得在任何公開場合使用報告內相關描述及相關數據圖表。違反上述聲明者,本聯盟將追究其相關法律責任。