AmosCloud

Library

Have a Question?

If you have any question you can ask below or enter what you are looking for!

大数据和云计算

名词解释

  • 大数据

    • 大数据(英语:Big data[1][2][3]),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语[4][5]。

    • 大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。[6] [7]

    • 截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节(EB)[8]。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学[9]、神经网络体学、复杂的物理模拟[10],以及生物和环境研究[11]。这样的限制也对网络搜索、金融与经济信息学造成影响。数据集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频识别(RFID)和无线感测网络。自1980年代起,现代科技可存储数据的容量每40个月即增加一倍[12];截至2012年,全世界每天产生2.5艾字节(2.5×1018字节)的数据[13]。

    • 大数据几乎无法使用大多数的数据库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”(电脑集群是其中一种常用方式)[14]。大数据的定义取决于持有数据组的机构之能力,以及其平常用来处理分析数据的软件之能力。“对某些组织来说,第一次面对数百GB的数据集可能让他们需要重新思考数据管理的选项。对于其他组织来说,数据集可能需要达到数十或数百TB才会对他们造成困扰。”[15]

    • 随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对大数据感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的时髦术语(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。

    • 大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(right to be forgotten)一案作出裁定,判决谷歌应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。

参考资料

  1. White, Tom. Hadoop: The Definitive Guide. O'Reilly Media. 2012-05-10: 3. ISBN 978-1-4493-3877-0.
  2. MIKE2.0, Big Data Definition.
  3. 巨量资料与进阶分析解决方案. 已忽略文本“ Microsoft Azure ” (帮助)
  4. Kusnetzky, Dan. What is big data. ZDNet. (原始内容存档于2010-02-21).
  5. Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 2010-04-22.
  6. Li, Rita Yi Man. Have Housing Prices Gone with the Smelly Wind? Big Data Analysis on Landfill in Hong Kong, Sustainability 2018, 10(2), 341; doi:10.3390/su10020341. MDPI.
  7. MIKE2.0, Big Data Definition.
  8. Francis, Matthew. Future telescope array drives development of exabyte processing. 2012-04-02 [2012-10-24].
  9. Community cleverness required. Nature. 4 September 2008, 455 (7209): 1. doi:10.1038/455001a.
  10. Sandia sees data management challenges spiral. HPC Projects. 2009-08-04. (原始内容存档于2011-05-11).
  11. Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. Challenges and Opportunities of Open Data in Ecology. Science. 2011, 331 (6018): 703–5. doi:10.1126/science.1197962.
  12. Hilbert & López 2011
  13. IBM What is big data? — Bringing big data to the enterprise. www.ibm.com. [2013-08-26].
  14. Jacobs, A. The Pathologies of Big Data. ACMQueue. 6 July 2009.
  15. Magoulas, Roger; Lorica, Ben. Introduction to Big Data. Release 2.0 (Sebastopol CA: O'Reilly Media). 2009-02, (11).
  • 云计算

    • 云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备,使用服务商提供的电脑基建作计算和资源。

    • 云计算是继1980年代大型计算机到客户端-服务器的大转变之后的又一种巨变。用户不再需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制[1]。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源[2][3]。

    • 在“软件即服务(SaaS)”的服务模式当中,用户能够访问服务软件及数据。服务提供者则维护基础设施及平台以维持服务正常运作。SaaS常被称为“随选软件”,并且通常是基于使用时数来收费,有时也会有采用订阅制的服务。

    • 推广者认为,SaaS使得企业能够借由外包硬件、软件维护及支持服务给服务提供者来降低IT营运费用。另外,由于应用程序是集中供应的,更新可以即时的发布,无需用户手动更新或是安装新的软件。SaaS的缺陷在于用户的数据是存放在服务提供者的服务器之上,使得服务提供者有能力对这些数据进行未经授权的访问。

    • 用户透过浏览器、桌面应用程序或是移动应用程序来访问云的服务。推广者认为云计算使得企业能够更迅速的部署应用程序,并降低管理的复杂度及维护成本,及允许IT资源的迅速重新分配以因应企业需求的快速改变。

    • 云计算依赖资源的共享以达成规模经济,类似基础设施(如电力网)。服务提供者集成大量的资源供多个用户使用,用户可以轻易的请求(租借)更多资源,并随时调整使用量,将不需要的资源释放回整个架构,因此用户不需要因为短暂尖峰的需求就购买大量的资源,仅需提升租借量,需求降低时便退租。服务提供者得以将目前无人租用的资源重新租给其他用户,甚至依照整体的需求量调整租金。

参考资料

  1. Danielson, Krissi. Distinguishing Cloud Computing from Utility Computing. Ebizq.net. 2008-03-26 [2010-08-22].
  2. Gartner Says Cloud Computing Will Be As Influential As E-business. Gartner.com. [2010-08-22].
  3. Gruman, Galen. What cloud computing really means. InfoWorld. 2008-04-07 [2009-06-02].

产业规模

  • 大数据
    • 2019产业地图,全国三千余家大数据企业。

file

  • 2020年5月智联招聘北京大数据相关岗位90个*12页=1080个相关岗位。
    file
  • 云计算
    • 2019产业地图,全国近50家云计算企业。

file

  • 2020年5月智联招聘北京云计算相关岗位90个*2页不到100个相关岗位。

file

技术栈

  • 大数据(以下技术栈不包含Java基础和JavaEE部分)

  • 云计算

You must be logged in to post a comment.