大数据平台技术应用方案V1.2
- 310*748
-
1 次阅读
-
共13页
-
2021-10-09 11:42:13
文档简介:
大数据平台技术应用方案V1.2大数据平台技术应用方案1.背景背景2000年后,随着互联网的快速发展,互联网中网页的数量呈几何式增长,大规模数据分析相关应用和技术开始倍受关注。至2000年底,全球网页的数量已达到40亿,互联网用户从网络中检索信息越来越不方便,为解决这一问题,谷歌等大型互联网公司率先建立了覆盖数十亿网页的索引库,并为互联网用户提供精准的检索服务,有效地提升了互联网内容的检索效率。随着网页库的不断增大,需要存储、管理和处理的数据量不断增大、种类不断增多,这对互联网公司提出新的挑战,传统的技术在效率和效果上已经无法满足实际的应用需求。为以较低成本实现对以往技术无法达到的数据处理规模,Google分别提出分布式系统GoogleFileSystem(GFS)、分布式并行计算框架MapReduce和分布式数据库BigTable等,这些技术奠定了大规模数据处理和应用基础。随着大规模数据在互联网领域的商业价值的体现,启发了社会对数据价值的重新审视。2011年,麦肯锡、世界经济论坛等知名机构和组织对大规模数据分析领域进行了研究总结,随即世界范围的“大数据”(BigData)热潮发起。政府、医药、电信、银行、制造等经过多年积累而掌握了大数据的行业开始关注以“数据驱动创新”的领域,并且都想利用这些数据(命名为“行业大数据”),从中获取“知识”,从而帮助提升行业建设并创造更高的经济价值。行业大数据产业的发展急需面向行业的大数据应用开发和分析平台的支撑。尽管目前业界已有诸多数据挖掘工具,如KNIME、Clementine、SPSS、WEKA等。然而这些工具仅针对数据分析单一环节,并且,这些工具的可扩展性不高,功能扩展具有局限性,还不能有效快捷的行业订制化大数据应用开发和部署。建立统一、灵活、易用的行业大数据应用开发和分析平台具有重要的研究价值和实际应用价值,它将进一步提升行业大数据的实际价值,推动行业大数据技术的进步,带动各行业大数据智能应用产业的发展。2.相关现状相关现状KNIMEClementine
评论
发表评论