李翔-大数据技术

Big data technology!

第1章 大数据概述

一、前言

怎么学习这个专业?多练习!!!!!!!!!!!!!!!!!

1.1 必备的基础知识:

  • 计算机专业知识:

    • 语言类:JAVA、Python、SCALA

    • 前端:HTML+CSS+JS

    • 数据库:mysql(SQL语句的用法)

    • 计算机网络:有一定了解

    • 操作系统:LiNUX  

  • 基础能力

    • 英语:计算机专业英语(java + python + web + mysql

    • 数学:专升本 → 大数据专业 → 机器学习 → 算法 → 数学模型.......

    • 交叉学科:计算机、网络、数学、统计学


1.2 学习难度:

环境的要求较高:硬件环境+软件环境+数据环境

学习成本:困难


一分钟,瞬息万变的互联网在一分钟内到底能够发生什么?会产生多少数据?

微信用户每一分钟发布46.52万张图片;每一分钟发起22.91万次视频通话;每一分钟会有54.16万人进入朋友圈。百度用户每一分钟进行416.6万次搜索。每分钟会有6.94万次语音播报。美团每一分钟会有3.06万单。淘宝每一分钟会有658.8万人民币销售额。天猫每分钟会有767.59万销售额。滴滴每一分钟2.84万单。B站每分钟会有83.3万次播放。京东每分钟会有496.57万销售额Fackbook在一分钟内分享了24万张照片Facebook一分钟获得收入21万美元。抖音海外版 TikTok 用户一分钟观看了 1.67 亿条视频亚马逊用户一分钟买了 28 万美元的商品。苹果用户一分钟发送了1200万 iMessage。苹果每一分钟获得收入84万美元谷歌用户一分钟进行了570万次搜索。Alphabet(Google)每一分钟获得收入43万美YouTube (油管)用户一分钟观看了 69.4 万个视频。


二、大数据的概念:

无法在一定时间内使用常规软件工具进行捕捉、管理和处理的数据集合。需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的管理数据技术。


2.1 主要解决的问题:

海量数据的存储和海量数据的分析计算

海量的理解:TB  PB  EB 及以上 ZB  YB   BB  NB  DB等等

1Byte = 8bit         1KB = 1024Byte        1MB = 1024KB         1GB = 1024MB 1G = 1024MB       1TB = 1024GB          1PB = 1024TB           1EB = 1024PB  


2.2 大数据的特点:(5v)

1、Volume(大量)

截至目前,人类生产的所有 印刷材料的数据量是 200PB ,而历史上全人类总共说过的话的数据量大约是 5EB 。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大 企业的数据量已经接近 EB 量级。

2 、 Velocity (高速)这是大数据区分于传统数据挖掘的最显著特征。根据 IDC 的“数字宇宙”的报告, 预计到 2025 年,全球数据使用量将达到 163ZB 。在如此海量的数据面前,处理数据的效率就是企业的生命。

天猫双十一: 2017 年 3 分 01 秒,天猫交易额超过 100 亿2020 年 96 秒,天猫交易额超过 100 亿

3 、 Variety (多样)

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库 / 文本为主的结构化数据 , 非结构化数据 越来越多,包括 网络日志、音频、视频、图片、地理位置信息 等,这些多类型的数据对数据的处理能力提出了更高要求。

4 、 Value (低价值密度)

价值密度的高低与数据总量的大小成反比。如何 快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。

5、Veracity (真实性)

可信性,真伪性 来源   有效性 可审计性


2.3 大数据的应用场景

1 、抖音:推荐的都是你喜欢的视频

2 、电商站内广告推荐:给用户推荐可能喜欢的商品

3 、零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。

经典案例,纸尿布 + 啤酒。

调查发现:出来买尿不湿的家长以父亲居多,如果他们在买尿不湿的同时看到了啤酒,将有很大的概率购买,这样就可以提高啤酒的销售量。

形象地说明大数据分析给商业带来的无限商机

4 、物流仓储:京东物流,上午下单下午送达、下午下单次日上午送达

5 、保险:海量数据挖掘及风险预测,助力保险 行业精准营销,提升精细化定价能力

6 、金融:多维度体现用户特征,帮助金融机构 推荐优质客户,防范欺诈风险

7 、房产:大数据助力房地产行业,打造精 准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人

8 、人工智能 + 5G + 物联网 + 虚拟与现实


2.4 大数据发展前景

1、党的十九大提出“ 推动互联网、大数据、人工智能和实体经济深度融合 ”。

2、2020年初, 中央推出 34万亿 “新基建”投资计划

image-20220901150547620


3 、下一个风口

       2020年是 5G 的元年, 国家在大力铺设 5G 设备 , 2021 年就是 5G 手机应用的开始, 也是大数据要爆发的 1 年 。 5G 带来的是每秒钟 10g 的数据,会给每家公司都 带来海量的数据。那么传统的Java 工具根本解决不了海量数据的存储。就更不用 说海量数据的计算了。如果你对5G 的感触不够深,可以回忆一下 3G 和 4G 的区别。3G时只能打电话、发短信 ,当时还觉得很好,觉得 3G 不错。但是 4G 来了后 ,大家很少打电话和发短信了,都改为 语音、视频、直播、网上购物 等生活方式, 带火了淘宝、京东、美团、字节跳动等企业 。

4 、人才紧缺、竞争压力小

       有句话叫:“ 选择大于努力 ”选择一个好的方向,少奋斗十年。国家在2017 年才开设大数据课程,当时是北京大学、人民大学 等 25 所高校开设第一批大数据课程。目前,大数据专业的毕业生市场上较少,而像 Java 、前端大学已经开设10多年,可想而知目前市场上,Java和前端的人才有多少。


三、Hadoop生态体系

3.1:hadoop基础介绍

Hadoop 是分布式系统基础框架,主要解决海量数据的存储和海量数据的分析计算问题。

案例:电信行业手机计费系统的数据存储在磁盘数据中,处理起来会有延时,所以导致停机延时,数据不存在在磁盘中,存储在内存中(内存数据库),停机延时问题得到了解决,随着内存数据的增多,分布式内存数据库得到研发。


3.2:Hadoop的优势:(4高)

1、高可靠性            hadoop底层维护多副本数据,某个机器下线,也不会导致数据的丢失

2、高扩展性            扩展服务节点方便

3、高效性                hadoop工作是并行的,加快了处理的速度

4、高容错性            能够自动将失败的任务重新分配执行


3.3:Hadoop组成:

以hadoop2为例:

HDFS            分布式存储

MapReduce 分布式计算

Yarn               资源调度

Common 辅助工具


3.4:HDFS

HDFS架构:是一个分布式文件系统,解决海量数据(很多个文件)存储问题        1、NameNode(nn):存储文件的元数据(描述真实数据的数据),一条元数据中可能包含文件名、目录结构、文件属性(生成时间、副本数、权限),以及每个文件的块数据的分布列表(所在的nd机器上),相当于数据的目录。         2:DataNode(dn):在HDFS系统上管理着真实的数据,为了数据的安全,将数据切成块的形式,分别存储的不同的节点上(服务器上),块数据的校验。         3:SecondaryNameNode:每隔一段时间帮助NameNode元数据进行备份也可以在NameNode死掉并数据丢失的情况下紧急恢复NameNode中的数据,但是注意可能会造成数据的丢失以后开发中会使用高可用集群,在此时是没有SecondaryNameNode节点。



3.5:MapReduce

分布式编程框架,主要用于海量数据分析计算

计算过程分为两个阶段:

  • Map阶段(MapTask):并行业务处理                

  • Reduce阶段(ReduceTask):对Map阶段的结果进行汇总


3.6:YARN

资源管理器:对程序(作业、任务、进程)进行资源调配

Client(用户)提交任务作业(如MapReduce分布式程序)  ,yarn负责资源的调度和管理,确保任务在集群中得到分配和执行,这包括分配计算资源(如CPU和内存)以及数据存储资源(如HDFS中的数据块)。

YARN在客户端提交作业后进行资源的调度。

 

四、大数据Hadoop生态圈-组件介绍

Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。

Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:

image-20220901151605570


五、大数据与云计算、物联网的关系

image-20220901151822356


六、算法

算法是一组明确定义的步骤或规则,用于解决特定问题或执行特定任务。类似于计算机程序的指导书。

算法是一种计算机程序,它可以解决各种问题,例如排序、搜索、过滤和分类。它告诉计算机如何执行特定的任务,就像食谱告诉你如何制作美食一样。当你遵循食谱时,你会按照特定的步骤和顺序执行操作,以获得最终的结果。同样,当计算机执行算法时,它会按照特定的步骤和顺序执行操作,以获得最终的结果。因此,算法是一种程序设计的思想和方法,而不是代码本身。

例如:

  • 当你使用地图或导航应用找到从一个地方到另一个地方的路线时,你实际上是在使用一种算法。这个算法考虑了道路、距离、交通状况等因素,并为你提供了明确的步骤,以便你能够成功到达目的地。这就像是一个导航算法,它告诉你在地图上应该如何移动,就像食谱告诉你如何准备一道菜一样。算法就是这样的一种指南,用于执行特定任务或解决问题。

  • 当你使用搜索引擎查找信息时,搜索引擎背后就是一个搜索算法在工作。这个算法会分析数以亿计的网页,确定哪些网页最相关,并按照相关性对它们进行排序,然后向你呈现搜索结果。这个过程中,算法会考虑关键字、链接数量、网页质量、竞价排行等因素,以帮助你找到最相关的信息。这就是一个实际生活中的算法示例,它帮助你解决了信息检索的问题。


七、机器学习

机器学习是一种方法或技术,旨在使计算机能够从数据中学习模式、规律或特征,并根据学习到的知识做出预测或做出决策。

机器学习就像是教计算机如何做事情的方法。这不同于传统的编程,你不需要明确告诉计算机每个步骤,而是给计算机一些数据和规则,让它自己学会如何完成任务。

想象一下,你要教计算机识别猫和狗的图片。在传统编程中,你需要编写规则,例如告诉计算机:“如果图片中有长尾巴,大耳朵,那就可能是狗。”但机器学习不同,你只需提供大量的猫和狗的图片,然后告诉计算机:“根据这些图片,自己找出猫和狗的不同之处。”

机器学习会自动从这些图片中学到一些规律,例如猫通常有尖耳朵,狗通常有圆脸等等。然后,当你给它一张新的图片时,它会尝试根据学到的规律告诉你这是一只猫还是一只狗。

所以,机器学习就是让计算机从数据中学习,然后用这些学到的知识来做出预测或决策的方式。这让计算机能够处理各种复杂的任务,例如图像识别、语音识别、自然语言处理等。


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.7.3

版权:李翔
备案/许可证编号为:新ICP备2024006115号-1