头条资讯网

我们
只是即时资讯的搬运工
头条资讯网-国内外时事,奇事,新鲜事

什么是大数据,大数据的典型案例有哪些大数据元年是指哪一年? 头条资讯

更新时间:2021-10-14 04:05:22点击:

2013年
数据就是资源
信息爆炸推动媒体转型
大数据并不是一个新概念,但大数据时代却是伴随着近年来信息爆炸式增长而来。
互联网上,每天新浪微博用户发博量超过1亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到10TB……
数据量的爆发式增长也带来了数据储存方式的革命。“今天我们花不到100美元就可以买到1个T的存储,成本只是10年前的1%。”微软亚太研发集团首席技术官孙博凯说。在2000年,数字化储存的信息只占全球数据量的1/4,而在2007年,所有数据中只有7%是储存在报纸、书籍、图片等媒介上,其余全是数字数据。
“新媒体的本质就是数据分析。我们已经从信息时代走到了数字时代和智能时代,如果数据被赋予背景,它就成了信息;如果数据能够提炼出规律,它就是知识;如果数据能够借助于各种各样的工具在分析的基础之上为我们提供正确的决策,它就是资源。”解放日报报业集团社长尹明华在近日举行的中国传媒大会上说。
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
大数据时代,信息的内涵已不仅仅是消息等***,而是各种各样的数据。这就要求媒体必须适应新的信息生产和传播方式,以多元化媒介来承担信息传播的职能。生产、分析、解读数据,探索一条为受众和用户提供分众化服务和体验的媒体发展之路,将成为媒体竞争的必备技能。
基础架构:云存储、分布式文件存储等。
量身打造资讯
媒体转型发展新思路
数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。什么是大数据,大数据的典型案例有哪些大数据元年是指哪一年? 头条资讯(图1)
中国社科院信息化研究中心秘书长姜奇平说,“媒体通过对数据的整合和分析,针对不同的受众需求,满足个性化和专业化的需求。”
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。
腾讯网总编辑陈菊红说:“目前门户网站之间、网络媒体之间同质化非常严重。未来的媒体和门户网站应充分利用大数据和关系链,在为用户筛选、推荐最适合的内容,提供近乎量身打造的***资讯的同时,使他们体验社交媒体的感受。”
第一,数据体量巨大。从TB级别,跃升到PB级别。
从理论到实践,大数据的发展为掌握了大量数据源的媒体和门户网站提供了转型的良好契机。过去一年,国内几家大的互联网企业纷纷调整自己的发展战略,迎接大数据时代的到来。
第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
浙报集团去年开始投资数据分析项目,将目光放在了未来社交网络的数据深度挖掘上;优酷和土豆合并,搜索平台可以挖掘和推算出4亿多视频用户的浏览行为数据;搜狐正着手搭建基于云计算的大数据平台,将旗下数据资产全面打通整合,获取每月9亿多人次的用户数据资产;腾讯启用新版首页,并启动门户、微博、视频、无线的跨平台深度整合战略……在云计算、移动互联网等新技术推动下,一场关于数据的圈地运动正在互联网上拉开大幕,竞争日益激烈。
挑战也是机遇
赢得大数据时代的主动权
第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据时代的媒体转型和发展,需要结合自身特色,走一条符合传播规律、符合自身实际、符合受众需求的发展之路。这对媒体既是机遇也是挑战。
大数据考验媒体的战略决策能力。姜奇平说:“数据量的快速增长,需要在带宽和存储设备等基础设施方面加大投入,这令很多媒体进退维谷。”不转型,就会丧失主动权,被淘汰或边缘化;要转型,就要对当前的报道形式和运行体系进行全面改造。这将考验决策者的胆魄和智慧。
媒体应对大数据时代的另一个挑战是数据加工能力的匮乏。专家指出,当前大数据建设缺乏专门的数据分析方法、使用体系和高端专业人才,很多媒体没有专门的数据管理和分析部门和专家。如果软件跟不上,却一窝蜂地投身数据平台的搭建,对媒体长远发展不利。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术头条资讯。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量有媒体担心,在大数据时代的转型道路上,媒体是否会迷失方向,变成咨询公司或是社交网站?
对此,孙博凯说:“老技术既有的投资、数据和价值观,是不可能被新技术全部抹杀的,而是融合、整合到新的业务中去,在更高层次上得以发展。”媒体也应该有这样的信念。只有积极谋略全局,着眼长远,才能赢得大数据时代的主动权。