大数据处理

想问一下大数据处理的前景怎么样?还有Hadoop方向怎么样?
恳请说些百度上查不到的,最好是内行人来说一下。

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

                 

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

               

互联网是个神奇的大网,大数据开发和软件定制也是一种模式,这里提供最详细的报价,如果你真的想做,可以来这里,这个手技的开始数字是一八七中间的是三儿零最后的是一四二五零,按照顺序组合起来就可以找到,我想说的是,除非你想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了。

大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。

                 

二、大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。


               

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

                   

四、大数据分析及挖掘技术

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析
(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

              

从挖掘任务和挖掘方法的角度,着重突破:

1.可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。

2.数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。

3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

4.语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

5.数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

                      

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2014-03-27
这要看你从事的大数据的方向和量级,大数据处理挺麻烦的,和公司的程序猿聊天的时候,他们说的最多的一句话就是:大数据可以比你妈还了解你,但总免不了有些奇葩分析不了。追问

您也是程序猿么?能不能加Q聊一下啊?!小弟还是大学生,需要大神指导一下。谢谢

您也是程序猿么?能不能加Q聊一下啊?!小弟还是大学生,需要大神指导一下。谢谢

第2个回答  2014-12-05
建议楼主可以下一个FineBI试一试。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。本回答被网友采纳
第3个回答  2019-07-18
生活在数据裸奔的时代,普通人在喊着如何保护自己的隐私数据,黑心人在策划着如何出售个人信息,而有心人则在思考如何处理大数据,数据的处理分几个步骤,全部完成之后才能获得大智慧。

大数据处理流程完成的智慧之路:
头一个步骤叫数据的收集。
首先得有数据,数据的收集有两个方式:
头一个方式是拿,专业点的说法叫抓取或者爬取。例如搜索引擎就是这么做的:它把网上的所有的信息都下载到它的数据中心,然后你一搜才能搜出来。比如你去搜索的时候,结果会是一个列表,这个列表为什么会在搜索引擎的公司里面?就是因为他把数据都拿下来了,但是你一点链接,点出来这个网站就不在搜索引擎它们公司了。比如说新浪有个新闻,你拿百度搜出来,你不点的时候,那一页在百度数据中心,一点出来的网页就是在新浪的数据中心了。
第二个方式是推送,有很多终端可以帮我收集数据。比如说小米手环,可以将你每天跑步的数据,心跳的数据,睡眠的数据都上传到数据中心里面。
第二个步骤是数据的传输。
一般会用队列方式进行,因为数据量实在是太大了,数据必须经过处理才会有用。可系统处理不过来,只好排好队,慢慢处理。
第三个步骤是数据的存储。
现在数据就是金钱,掌握了数据就相当于掌握了钱。要不然网站怎么知道你想买什么?就是因为它有你历史的交易的数据,这个信息可不能给别人,十分宝贵,所以需要存储下来。
第四个步骤是数据的处理和分析。
上面存储的数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。
比如盛传的沃尔玛超市的啤酒和尿布的故事,就是依靠对人们的购买数据进行分析,发现了男人一般买尿布的时候,会同时购买啤酒,这样就发现了啤酒和尿布之间的相互关系,获得知识,然后应用到实践中,将啤酒和尿布的柜台弄的很近,就获得了智慧。
第五个步骤是对于数据的检索和挖掘。
检索就是搜索,所谓外事不决问Google,内事不决问百度。内外两大搜索引擎都是将分析后的数据放入搜索引擎,因此人们想寻找信息的时候,一搜就有了。
另外就是挖掘,仅仅搜索出来已经不能满足人们的要求了,还需要从信息中挖掘出相互的关系。比如财经搜索,当搜索某个公司股票的时候,该公司的高管是不是也应该被挖掘出来呢?如果仅仅搜索出这个公司的股票发现涨的特别好,于是你就去买了,其实其高管发了一个声明,对股票十分不利,第二天就跌了,这不坑害广大股民么?所以用各种算法挖掘数据中的关系,形成知识库,十分重要。
第4个回答  2014-03-27
HADOOP是一个分布式系统基础架构,由Apache基金会所开发。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
现在产业的真正的大数据解决方案,基本都成功应用上了hadoop。
说道大数据解决方案,不得不提商业智能。

  传统的管理系统对企业的管理可以分为3个层次:战略管理、业务管理和作业管理。其中,战略管理是配置企业资源,建立并维持企业运营秩序,从宏观层面规划企业的发展方向及其路径;业务管理是对企业的资源、计划、供应链、客户关系等进行管理;作业管理是直接帮助员工处理业务数据。商业智能并非推翻传统的管理职能,而是以智能化的方式对现有管理模式进行改造,其目的是将人工智能和技术因素进行高效的智能整合,使企业变得更“聪明”。

  商业智能虽然不能为企业带来直接的经济效益,但它为企业带来经过科学武装的管理思维,带来决策的快速性和准确性、发现问题的及时性以及认识潜在知识和规律的敏锐性。这些都是企业产生经济效益的基础和关键。

(一)决策支持系统智能化使企业的“大脑”更聪明

  企业的“大脑”就是其决策层。决策支持系统服务于企业决策者,它的智能化能帮助决策者快速、准确、明智地进行决策,最终将知识转化为切实的利润。它具有如下功能。

1.赋予能力的功能

  商业智能系统能让合适的角色在合适的场景、合适的时间里获取合适的数据和知识,充分发掘和释放人的潜能,并真正让企业的数据、信息转变为一种能够指导人行为的意念和能力,从以往“人找系统”转变为“系统找人”,体现了管理系统的最大价值与作用。商业智能这种赋予能力的功能不仅使决策者更敏感,决策更迅速、更果断,而且还支持和扩展员工的记忆力、洞察力、活动范围及决策和行动的权力。随着自动化功能完成越来越多的常规决策,更多的员工被授予了进行更高价值的决定并据以采取行动的权力,从而扩大了参与决策的员工的范围,提高了员工迅速采取正确行动的能力。

2.整合功能

  决策支持系统的整合功能使决策者看问题更全面,决策更明智,减少或避免失误。商业智能能以一种符合企业需要的方式,跨越地区、企业、部门、业务单元和团队,将从前端到后端、从内部到外部的职能连接起来,以共享所有信息和想法,从而实现互惠互利。《从绿到金》的作者丹尼尔·C·埃斯蒂说:“企业在做决策时。不仅要考虑显而易见的金钱回报,也要把其他因素考虑在内,如提升品牌形象、公司声誉,提升员工士气等无形收益。如美国东北公用事业公司的环保团队在解决路线方面的环保问题时,不仅计算节省下来的成本。而且计算节约的管理时间,减轻的监管压力,以及其他的间接成本”。这样所形成的决策更积极稳妥。

3.质疑、创新功能

  决策支持系统的质疑、创新功能使企业看问题更准确,决策更精明、更合理。商业智能能质疑现状,同时创造新的机会。它使企业的管理者不只是按照表面价值来看待任务,而是发掘出其中包含的机会:即如何以更低的成本、更快的速度、更高的质量完成任务;如何令客户更加满意;如何使投资更安全,等等。这使管理者能在质疑中不断以创新来获得差异化竞争优势。

4.预测功能

  决策支持系统的数据库具有完备的分析能力,它提供了内置于执行分析任务的数据服务器中的嵌入式提取、转换和加载(ETL),联机分析处理(OLAP)以及数据挖掘、预测等功能。决策支持系统的预测功能使企业看问题更长远,决策更具前瞻性。商业智能不只是做出反应或者调整行动方案,还会驾驭和评估折衷方案。例如,很多企业把环境问题作为负担,而通过商业智能对环保投入进行预测就能知道,环保固然会导致成本增加和短期竞争力减弱,但是它也可以成为企业发展的机遇(比如企业通过节能减排,在短期内就能回收投资成本)。

(二)商业智能使企业的“神经”更健全

  企业的“神经系统”就是管理信息系统,它的智能化就是信息系统和人工智能的完美结合(转变为商业智能),它是商业智能的核心。它像人的神经系统,把企业从上到下、从里到外有机地联系起来。商业智能的最大价值是以智能的方式改造管理体系,使企业从传统的经验化、制度化的管理模式逐渐向数字化的管理模式转变,从侧重技术到侧重业务的转变,进而给企业带来能力和绩效的提升。具体作用有如下几点。

1.增加利润

  商业智能能帮助企业提升传统利润,榨干业务流程中的最后一滴水。美国得克萨斯大学Mc Combs商学院对150家位列财富1000强的企业调查后发现,每年花很少的成本将共享数据容易管理的程度提升10%,就会使人均销售量提高55 900美元,实现销售量整体增长,从而获得巨大的收益。

2.帮助企业开源和节流

  一是增加客户数量、改进关系、发现新市场以及开发新产品和服务;二是整合资源(包括有关的外部资源),优化资源和资本的配置;三是以符合其业务战略和目标的方式来管理成本;四是通过企业内部来压缩成本,减少浪费。

3.帮助企业进行主动式风险管理

  管理信息系统智能化除了使内网和外网互通丰富、动态的信息(而不是静态的报告或者计算数据),还能提供主动警讯管理(通过事先设置警讯条件,系统可主动通过各种手段向管理人员提供报警通知),提高员工预测、识别、处理风险事件的能力,减少企业的漏洞,风险更可控,具有更大的确定性和安全性。

4.直接提高企业的绩效

  通过信息化工具,商业智能可以提高企业的资金周转率和供应链响应效率。如某物流公司供应链使用商业智能模式以后,储运中心从100个左右降低到40个左右;区域运输费用和车队运输费用分别降低了21%和6.6%;库存降低了22%;碳排放量降低22%。

(三)商业智能使企业的“肌肉”更有力

  企业的员工和业务系统组成企业的“肌肉”,业务系统的智能化可以使企业的“肌肉”更有力。智能业务系统直接帮助员工处理业务数据,使整个组织内部信息使用者能活用信息。员工在拥有人机结合智能后就形成了企业群体智能,弥补了人工智能的不足。

1.极大地提高员工的工作效率

埃森哲的最新调查显示:各位经理每天都需要花费2小时来搜索信息;50%以上的经理每周至少会用错1次信息;经理收到的50%以上的信息都毫无价值可言。商业智能的使用可极大地改变这种状况。例如甲骨文公司开发的Oracle数据仓库突破了现有数据仓库产品的局限,能够帮助企业以任何方式访问存放在任何地点的信息,在企业中的任何层次上满足信息检索和商业决策的功能需要,帮助非专业分析人员消化那些智能数据。假如一个采购员看到一个采购清单,Oracle数据仓库就可以帮助他进行历史对比,他可以从中知道供应商报价、产品质量等情况,及时采取正确的决策。

2.提高管理的客观性。避免管理中的道德问题

  商业智能的客观性得益于大量新方法和新工具的应用。如浙江省奉化市构建“制度+科技”防腐新模式,在该市红胜海塘项目上采用现代远程科技进行监管,杜绝了人为因素干扰。既节约了管理成本,又增强了防腐效能。

3.节约资源和成本

  如广州毅昌科技股份有限公司与电力部门合作。利用“企业用电综合管理系统”实时监测每个部门、每台设备的用电情况,然后根据用电的不同峰谷平期进行比重调整。结果显示,在开始试行的2010年6一11月,每件产品平均用电1.92度,明显低于2009年同期的2.06度。
推荐楼主有时间的话关注一下FINEBI,我们单位再用,挺好的,。。追问

大哥,不是说不要能百度到的答案吗?!