关于深网,就是不能从搜索引擎搜索到的公开内容
深网里大部分数据都是从数据库里面查询出来的结构化数据
实时数据(比如log)采集流程
采集log-》flume(装载工具)->kafka->spark/storm/flink(计算引擎)->存储rdbms(Relational Database Management System)/nosql-》处理-》展示
系统日志的采集工具
facebook的scribe
hadoop平台的chukwa
cloudera公司的flume
处理效率,每秒上百兆
标签的前端管理
离线数据的可视化等功能依赖Springboot+Vue.js搭建的前后端分离系统进行展示
而Hive和Druid的可视化查询功能,我们可以用Superset这个BI工具,
superset的搭建和使用参考:https://www.jianshu.com/p/b02fcea7eb5b