産品簡介

數據智能(néng)采集平台全網捕獲所需互聯網公開(kāi)信息,所見即所得式采集,爲用(yòng)戶提供持續獲取外(wài)部海量數據的服務。通過數據治理(lǐ)算(suàn)法組件,對(duì)數據進行清洗、治理(lǐ),保證數據質量,爲數據應用(yòng)提供有效支撐。

解決方案

頂層框架包括數據采集、自(zì)動清洗、智能(néng)分類、情報(bào)呈現(xiàn)、彙編報(bào)告、人工(gōng)幹預等6個部分。

産品功能(néng)

  • 數據源管理(lǐ)

    支持對(duì)定向網站(zhàn)、社交平台等數據源進行配置管理(lǐ)。

  • 任務分發

    将采集的定向網站(zhàn)、社交平台轉換爲采集任務,協調監控每個任務隊列的情況。

  • 數據監控

    支持對(duì)采集任務異常情況進行監控預警。

  • 數據治理(lǐ)

    支持對(duì)信息進行初步處理(lǐ)後,将其結構化入庫,數據治理(lǐ)算(suàn)法組件包括:标題抽取、新聞正文(wén)抽取、人名地名抽取、熱詞發現(xiàn)、自(zì)動聚類等。

産品特色

  • 海量抓取

    數據采集采用(yòng)先進的分布式架構集群部署,可以抓取海量的網頁,消除單點抓取瓶頸。數據支持緩存處理(lǐ)和(hé)分庫存儲,保證采集系統穩定高(gāo)效運行。

  • 智能(néng)調度

    采用(yòng)流式計(jì)算(suàn)技術,對(duì)用(yòng)戶的數據請(qǐng)求能(néng)夠秒級快(kuài)速響應。智能(néng)的調度機制,對(duì)于實時(shí)性要求較高(gāo)的源網站(zhàn)優先調度處理(lǐ)。

  • 數據采集完整可靠

    采用(yòng)先進的數據采集容錯機制,确保數據傳輸的性能(néng)和(hé)正确性。對(duì)于傳輸錯誤的數據能(néng)夠進行重傳。

不展示!