数据采集是一切有效分析的前提。如:数据接入;数据传输;数据建模/存储;数据查询;数据可视化等。总体上可以将企业大数据体系分成:
采集与存储平台:主要职责是对企业的相关大数据进行收集,并将收集到的数据进行存储。以便与企业管理及运用,同时也是未来数字企业的最重要资产之一。
分析与挖掘平台:主要职责是对企业采集到的数据进行专门的分析、bi等,以及在此基础上进一步的数据挖掘、人工智能等。
洞察与决策平台:主要职责是利用大数据分析的结果,通过自动加人工双重决策,更高效的运用到产品,业务,商业等环节以及相应的行动等。
覆盖全局数据安全平台:主要职责是负责确保数据的安全性,保证企业的数据资产不受到损害,例如数据不丢失、不损坏、不被窃、不被改等。
数据采集与存储平台将占据非常重要的位置。将来自各种数据源的原始大数据采集、分析、存储等。通常中小企业也可以不用自己拥有专门的大数据分析与挖掘平台,选择与相对专业的企业合作。
面对来源各异、以结构化/半结构化为主的数据,拍拍信使用linkedin开源的camus来采集消息类数据,使用kettle来采集rmdb的数据,具有以下优势:
1提高采集效率,降低工程成本;
2支持web、ios、android、html等多种平台;
3采集全面属性、维度、指标等,使数据资源更优质;
4建立预测模型,实时智能监控、分析、预测用户行为;
5支持代码埋点,和全(无)埋点,按需选择,灵活运用。
采集方案:客户端(前端);服务器日志;业务数据库;历史数据;第三方数据等。
数据采集与存储平台一般也可以分为三个层次,即数据采集层、预处理层和存储层。同时,大数据采集平台还需要一个覆盖全局的数据安全体系。
采集层负责采集企业各种来源的大数据;预处理层负责对采集回来的数据进行一些规范化的处理;存储层则是将预处理后的大数据进行存储,将企业大数据资产用一种方式保存起来。数据安全体系即数据安全平台。值得注意的是,当存储技术足够好、存储设备成本足够低容量足够大时,预处理层或可以选择忽略。
本期对大数据采集的分享就到这里啦,欢迎大家联系探讨。
(小编的鸡腿就靠各位老板啦(づ ̄ 3 ̄)づ)
感谢您对拍拍信的认可与支持
我们一直在路上