數(shù)據(jù)采集系統(tǒng)是一款智能化的互聯(lián)網(wǎng)數(shù)據(jù)采集工具,與內(nèi)容管理系統(tǒng)深度集成,可簡(jiǎn)單快速地將目標(biāo)網(wǎng)站的內(nèi)容采集到自己的網(wǎng)站中,以快速填充網(wǎng)站內(nèi)容,或者通過(guò)定時(shí)采集來(lái)實(shí)現(xiàn)自動(dòng)轉(zhuǎn)載目標(biāo)網(wǎng)站的新聞,以減少網(wǎng)站內(nèi)容運(yùn)維工作。

與內(nèi)容管理系統(tǒng)深度集成

數(shù)據(jù)采集系統(tǒng)能夠從目標(biāo)網(wǎng)站采集數(shù)據(jù),通過(guò)智能分析,將數(shù)據(jù)與指定內(nèi)容模型的各個(gè)字段匹配生成相應(yīng)的內(nèi)容實(shí)體,并保存至指定欄目中。目標(biāo)網(wǎng)頁(yè)中的圖片和附件會(huì)以文件形式保存在網(wǎng)站的上傳文件夾中。

支持?jǐn)?shù)據(jù)采集的內(nèi)容模型包括文章、公開(kāi)信息、政策文件等。

支持多種數(shù)據(jù)源格式

  • 網(wǎng)站
  • 網(wǎng)頁(yè)

  • RSS 源

  • API 接口
    (XML 格式)

  • API 接口
    (Json 格式)

  • 支持從網(wǎng)頁(yè)、RSS 源、API 接口(Json 格式、XML 格式)采集數(shù)據(jù)。
    當(dāng)數(shù)據(jù)源為網(wǎng)頁(yè)或 API 接口時(shí),支持設(shè)置請(qǐng)求頭參數(shù)。

采集功能完備

  • 支持按正序或倒序進(jìn)行數(shù)據(jù)采集。
  • 支持定時(shí)采集功能。
  • 支持?jǐn)帱c(diǎn)續(xù)采。
  • 支持采集排重(增量采集),可以根據(jù)標(biāo)題或 URL 進(jìn)行排重。
  • 支持自動(dòng)下載內(nèi)容中的圖片和附件。
  • 支持自動(dòng)過(guò)濾正文中的鏈接。
  • 支持更新采集,即在采集所有數(shù)據(jù)的同時(shí)不清空歷史記錄,并判斷歷史記錄中是否存在相同數(shù)據(jù),若存在則更新數(shù)據(jù),否則插入新數(shù)據(jù)。
  • 支持重新采集,即清空歷史記錄后重新采集全部數(shù)據(jù)。
  • 支持批量執(zhí)行采集任務(wù)。
  • 支持查看采集進(jìn)度。
  • 支持采集歷史記錄管理,用戶可以查看、刪除、清空采集歷史記錄。
  • 支持僅采集為鏈接內(nèi)容,并保留至源網(wǎng)頁(yè)的鏈接。
  • 可視化配置采集規(guī)則

    提供可視化操作界面,無(wú)需編寫(xiě)代碼。用戶可以通過(guò)簡(jiǎn)單的拖拽、點(diǎn)選和配置來(lái)定義采集規(guī)則,使不懂技術(shù)的編輯人員也能輕松配置采集規(guī)則。

  • 支持代理服務(wù)器

    支持采集只能通過(guò)代理服務(wù)器訪問(wèn)的網(wǎng)站內(nèi)容,或者通過(guò)代理服務(wù)訪問(wèn)來(lái)繞過(guò)目標(biāo)網(wǎng)站的反爬蟲(chóng)限制。

  • 支持采集需要身份認(rèn)證的網(wǎng)站

    支持采集需要認(rèn)證的網(wǎng)站內(nèi)容,支持的認(rèn)證方式包括 HttpBasic 認(rèn)證、Token 認(rèn)證和 Jwt 認(rèn)證。

  • 反反爬蟲(chóng)

    具備簡(jiǎn)單的反反爬蟲(chóng)機(jī)制,通過(guò)模擬正常瀏覽器的 UA、調(diào)整采集間隔時(shí)間和通過(guò)代理服務(wù)器訪問(wèn)等手段,有效應(yīng)對(duì)網(wǎng)站的反爬蟲(chóng)機(jī)制,確保采集過(guò)程的穩(wěn)定性和可靠性。

  • 實(shí)時(shí)監(jiān)控與預(yù)警

    系統(tǒng)保存完整的采集日志記錄,可通過(guò)日志還原采集過(guò)程,幫助分析采集過(guò)程中出現(xiàn)的問(wèn)題。同時(shí),借助完善的日志功能,系統(tǒng)能夠?qū)崟r(shí)統(tǒng)計(jì)各項(xiàng)采集指標(biāo),并提供實(shí)時(shí)預(yù)警。

×

用戶登錄