數據智能(néng)采集平台全網捕獲所需互聯網公開(kāi)信息,所見即所得式采集,爲用(yòng)戶提供持續獲取外(wài)部海量數據的服務。通過數據治理(lǐ)算(suàn)法組件,對(duì)數據進行清洗、治理(lǐ),保證數據質量,爲數據應用(yòng)提供有效支撐。
支持對(duì)定向網站(zhàn)、社交平台等數據源進行配置管理(lǐ)。
将采集的定向網站(zhàn)、社交平台轉換爲采集任務,協調監控每個任務隊列的情況。
支持對(duì)采集任務異常情況進行監控預警。
支持對(duì)信息進行初步處理(lǐ)後,将其結構化入庫,數據治理(lǐ)算(suàn)法組件包括:标題抽取、新聞正文(wén)抽取、人名地名抽取、熱詞發現(xiàn)、自(zì)動聚類等。
數據采集采用(yòng)先進的分布式架構集群部署,可以抓取海量的網頁,消除單點抓取瓶頸。數據支持緩存處理(lǐ)和(hé)分庫存儲,保證采集系統穩定高(gāo)效運行。
采用(yòng)流式計(jì)算(suàn)技術,對(duì)用(yòng)戶的數據請(qǐng)求能(néng)夠秒級快(kuài)速響應。智能(néng)的調度機制,對(duì)于實時(shí)性要求較高(gāo)的源網站(zhàn)優先調度處理(lǐ)。
采用(yòng)先進的數據采集容錯機制,确保數據傳輸的性能(néng)和(hé)正确性。對(duì)于傳輸錯誤的數據能(néng)夠進行重傳。
不展示!