首页 / 科技创新 / 大数据究竟是什么-一篇文章让你认识并读懂大数据(大数据究竟是什么可以用在哪些地方)

大数据究竟是什么-一篇文章让你认识并读懂大数据(大数据究竟是什么可以用在哪些地方)

Time:2023-12-31 14:22:21 Read:163 作者:CEO

近年来,大数据的概念逐渐深入人心,大数据的趋势也越来越盛行。但大数据到底是什么?怎样才能用好大数据呢?

大数据的基本含义是海量数据。麦肯锡全球研究院给出的定义是:规模如此庞大,其获取、存储、管理和分析能力大大超出传统数据库软件工具能力的数据集合。它有海量的数据。它具有四大特点:规模大、数据流动快、数据类型多样、价值密度低。

大数据究竟是什么-一篇文章让你认识并读懂大数据(大数据究竟是什么可以用在哪些地方)

数字经济的要素之一是大数据资源。现在大家谈论最多的大数据就是基于现有大数据的应用开发。

如今,大数据技术已经应用到各行各业。小麦举了一个例子,讲述了离我们生活最近的民生服务是如何利用大数据的。

近日,电视新闻提到一网统一管理精准救援场景。传统的救助方式往往要经过困难家庭的申请、审核、审批等多个程序。遇到需要跨部门、跨层级、跨区块协调解决的案件,还需要召开各级协调会议协商解决。

现在通过精准帮扶,民政部门在日常排查中了解情况,将相关信息录入统一管理数据中心,然后根据数据模型识别出需要救助的家庭,然后形成走访工单并下发向社会工作者寻求帮助。帮助,从而提高救援效率,在需要时提供帮助。

数字政府转型前,各部门只掌握自己负责的数据,形成信息孤岛;通过大数据分析平台,所有数据信息已打通办公室和省长两个渠道。

政府可以充分利用大数据技术,打造统一网络,管理精准救援场景,大大提高社会救助的科学性和准确性,让城市更有温度。

我们以悟空问答为例,讲述一下大数据的故事。下面提到的数字都不是真实的,它们都是我的假设。

例如,每天有1亿用户在悟空问答上回答问题或阅读问答。

每天生成的内容假设平均每天有1000 万用户回答一个问题。一题平均1000字,平均一个汉字占2个字节,三张图片。平均图片为300KB。那么每天的数据量为:

为了收集用户行为,所有进入和退出悟空问答页面的用户都被包含在内。点击、查询、停留、点赞、转发、收藏都会生成记录并存储。这个幅度更大。

所以粗略估计是每天20TB 的数据。典型的PC 配置约为1TB,每天需要存储20 台PC。

如果是一个月或者一年的数据,可以计算出多少?传统的数据库系统在体量上很难实现。

另外,这些数据都是文档类型的数据。需要各种存储系统的支持,例如NoSQL数据库。

需要分布式数据存储,比如Hadoop的HDFS。

数据流。以上1000万个答案将被1亿人阅读。有数百个系统提供服务。这些数据需要在互联网上的各个系统之间来回传输。需要一个像Kafka这样的消息系统。

高峰时期同时在线用户数可能达到数千万。如此大的访问量需要多台前端服务器同时提供一致的服务。为了给用户提供秒级的服务性能,需要添加redis等缓存系统。

机器学习和智能推荐。所有包括图片在内的内容都将通过机器学习进行分析,以获取每个用户的偏好,并向用户推荐合适的内容和广告。还有如此大量的数据必须实时分析和审查。审核通过后才能发布。人工审核肯定是不可能的。必须使用机器进行智能分析,这需要模式识别、机器学习和深度学习。实时计算需要Spark、Flink等流式计算技术。

服务器管理涉及数千台服务器一起工作。经常出现网络和硬件问题。如此多的资源的有效利用需要借助云计算技术、K8S等容器管理工具。还需要分布式系统可靠性和灾难恢复技术。

Copyright © 2002-2024 讯肆科技网 版权所有 

免责声明: 1、本站部分内容系互联网收集或编辑转载,并不代表本网赞同其观点和对其真实性负责。 2、本页面内容里面包含的图片、视频、音频等文件均为外部引用,本站一律不提供存储。 3、如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除或断开链接! 4、本站如遇以版权恶意诈骗,我们必奉陪到底,抵制恶意行为。 ※ 有关作品版权事宜请联系客服邮箱:478923*qq.com(*换成@)

备案号: 沪ICP备2023025279号-31