自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sowhat

点点滴滴,皆是学问

原创 全网最强HashMap讲解
原力计划

文章目录预备知识位运算知识ArrayListLinkedListRedBlackTreeHashTableHashMap 预备知识 位运算知识 位运算操作是由处理器支持的底层操作,底层硬件只支持01这样的数字,因此位运算运行速度很快。尽管现代计算机处理器拥有了更长的指令流水线和更优的架构设计,使得...

2020-03-23 22:58:26 4628 144

原创 【tensorflow】浅谈什么是张量tensor

也许你已经下载了TensorFlow,而且准备开始着手研究深度学习。但是你会疑惑:TensorFlow里面的Tensor,也就是“张量”,到底是个什么鬼?也许你查阅了维基百科,而且现在变得更加困惑。也许你在NASA教程中看到它,仍然不知道它在说些什么?问题在于大多数讲述张量的指南,都假设你已经掌握...

2020-02-12 17:43:37 61886 98

原创 第一天:什么是Flink、WordCount入门、Flink安装、并行度
原力计划

Flink官方依赖文档说明:官方依赖入手 Snagit Editor

2020-07-13 18:50:15 465 1

原创 Numpy 轻松学
原力计划

1. Numpy 简介 NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组...

2020-07-12 20:09:13 49 1

原创 Redis GeoHash核心原理解析
原力计划

1. 引言 小麦同学是个吃货+技术宅,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐。 饱暖思yin欲的麦叔饭后思考地图后台如何根据自己所在位置查询来查询附近餐馆的呢?苦思冥想了半天,小麦想出了个...

2020-07-10 16:07:06 73 0

原创 8. 经典的同期群分析
原力计划

理论回顾 同期群分析是数据分析中一个hin经典的思维,核心是将用户按初始行为的发生时间,划分为不同的群组,进而分析相似群组的行为如何随时间变化而变化。一般是通过像这样的留存表来实现: 每一行,代表当月新增客户,在接下来几个月的留存情况。 通过横向对比,能够对客户留存和生命周期有初步的认识。基于纵向...

2020-07-07 19:30:27 64 0

原创 7. RFM用户分析模型

RFM,是一种经典到头皮发麻的用户分类、价值分析模型,同时,这个模型以直白著称,直白到把需要的字段写在了脸上: R:Rencency,即每个客户有多少天没回购了,可以理解为最近一次购买到现在隔了多少天。 F:Frequency,是每个客户购买了多少次。 M:Monetary,代表每个客户平均购买...

2020-07-07 16:53:23 184 0

原创 6. 批量处理分析数据

需求:有20个品牌共生产了127个类目的产品,筛选出近一年销售额总额TOP5的品牌以及对应的销售额。 思路:先做第一个然后如法炮制将结果汇总即可。 数据信息如下: 加载数据: 接着,是要汇总不同品牌在这个细分行业下的销售额,我们要汇总的是各品牌近一年(2018年9月-2019年8月)的销售额,...

2020-07-07 11:29:18 72 0

原创 5. TGI指数分析实战
原力计划

引言 经常有一些专业的数据分析报告,会提到TGI指数,例如“基于某某TGI指数,我们发现某类用户更偏好XX”。对于不熟悉TGI定义的同学,看到类似的话一定是云山雾罩。这次,我们就来聊一聊什么是TGI指数以及怎么样结合案例数据实现简单的TGI偏好分析。 对于TGI指数,百科是这样解释的——TGI指数...

2020-07-06 21:26:28 113 0

原创 4. 优雅的apply
原力计划

引言 本文主要讲的是Pandas中第二好用的函数——apply。为什么说第二好用呢?做人嘛,最重要的就是谦虚,做函数也是一样的,而apply就是这样一个优雅而谦虚的函数。 我们单独用一篇来为apply树碑立传,原因有二, 一是因为apply函数极其灵活高效,甚至是重新定义了pandas的灵活,一...

2020-07-06 20:32:00 69 0

原创 3. 清洗常用4板斧
原力计划

引言 这是Python数据分析实战基础的第三篇内容,主要对前两篇进行补充,把实际数据清洗场景下常用但零散的方法,按增、删、查、分四板斧的逻辑进行归类,以减少记忆成本,提升学习和使用效率。 数据集 一级流量 流量级别 投放地区 访客数 支付转化率 客单价 支付金额 一级 A区 44,...

2020-07-06 19:49:04 85 0

原创 2. 灵活的Pandas索引
原力计划

序言 学习了Pandas的同学,有超过60%仍然投向了Excel的怀抱,之所以做此下策,多半是因为刚开始用Python处理数据时,选择想要的行和列实在太痛苦,完全没有Excel想要哪里点哪里的快感。 初识Pandas 教程考虑到篇幅问题只讲了最基础的列向索引,但这显然不能满足同志们日益增长的个性化...

2020-07-06 16:33:53 104 0

原创 1. 初识Pandas
原力计划

1. 重要前言 这段时间和一些做数据分析的同学闲聊,我发现数据分析技能入门阶段存在一个普遍性的问题,很多凭着兴趣入坑的同学,都能够很快熟悉Python基础语法,然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中,硬着头皮啃完之后,好像自己什么都会了一点,然而实际操作起来既不知从何...

2020-07-06 15:41:36 99 2

原创 PageRank通俗说

PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的很好demo,算法维护两个数据集(pageID,listList) 包含每个页面的相邻页面列表。(pageID,ra...

2020-07-06 06:55:00 3553 0

原创 第四天:Spark Streaming
原力计划

Spark Streaming概述 1. Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度...

2020-07-02 07:45:29 99 1

原创 第三天:SparkSQL
原力计划

第1章 Spark SQL概述 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集...

2020-06-30 20:08:37 146 2

原创 第二天:Spark Core
原力计划

Java IO回忆 字节跟字符区别,InputStream、OutputStream、Writer、Reader 。 字节流,分2种: a.输入 b.输出 2.字符流,也分2种: a.输入(读,即读取) b.输出(写,即写入) PS: 字节流是万能的,方便人类读写才出来的字符流。字符流...

2020-06-29 10:16:44 152 0

原创 第二天:Kafka API操作
原力计划

API 消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator,Sender线程不断从R...

2020-06-28 15:10:23 6527 0

原创 第一天:Kafka理论学习
原力计划

Kafka 概述 1. 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 2. 消息队列 传统场景 MQ传统应用之异步处理队列。 消息队列两种模式 点对点模式(一对一,消费者主动拉取数据(不断的轮询),消息收到后消息清除) ...

2020-06-26 18:16:57 137 0

原创 第四天:HBase 优化
原力计划

1. 高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 关闭HBase集群(如...

2020-06-22 17:58:01 176 2

原创 第三天:HBase API
原力计划

API调用 工作中更常用的绝对是通过HBase的API来调用实现类似HBase shell的操作。 环境准备 IDEA + Maven + HBase <?xml version="1.0" encoding="UTF-8"?> <proj...

2020-06-20 12:38:39 144 0

原创 第二天:Hbase进阶
原力计划

HBase 安装 跟 shell操作,以及HBase 的若干原理

2020-06-18 22:41:53 277 4

原创 第一天:Hbase 概述
原力计划

1. 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的顶级项目来开发维护,用于支持结构化的数据存储。 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结...

2020-06-17 18:46:18 825 2

原创 第一天:spark基础
原力计划

Hadoop体系回顾 Hadoop 的概念可追溯到 2003,2004 Google2篇论文(老版三辆马车),2011年发布1.0版本,2012年发布稳定版。 Hadoop 在2.0版本之前组件主要是 HDFS跟MapReduce。 1.0版本框架主要如下: 职责: HDFS负责文件存储 Ma...

2020-06-12 17:57:10 378 0

原创 Sqoop看这篇文章就够了
原力计划

Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…) 间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的 数据导进到 Hadoop 的 HDFS 中,也可以...

2020-06-11 17:29:45 258 0

原创 Zookeeper实战
原力计划

注册服务跟发现 定义:微服务时代,多个相同的jar包在不同的服务器上开启相同的服务,可以通过nginx在服务端进行负载均衡的配置。也可以通过ZooKeeper在客户端进行负载均衡配置。 多个服务注册 客户端获取中间件地址集合 从集合中随机选一个服务执行任务 服务端代码 用SpringB...

2020-06-10 21:32:22 363 4

原创 浅谈大数据中的 2PC、3PC、Paxos、ZAB
原力计划

一致性 简述 一致性,是指对每个节点一个数据的更新,整个集群都知道更新,并且是一致的。假设一个具有N个节点的分布式系统,当其满足以下条件时,我们说这个系统满足一致性: 全认同: 所有N个节点都认同一个结果 值合法: 该结果必须由N个节点中的过半节点提出 可结束: 决议过程在一定时间内结束,不会...

2020-06-09 19:29:40 882 4

原创 分布式系统浅谈
原力计划

分布式系统基础知识 一个tomcat打天下的时代,不能说完全淘汰了,在一个管理系统,小型项目中还经常使用,这并不过分,出于成本的考虑,这反而值得提倡。但如果要延伸到高并发场景下就必然要了解分布式系统: 分布式系统 分布式系统:一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进...

2020-06-08 14:17:48 1053 3

原创 6W字的Hive讲解只为你更懂它
原力计划

1. Hive 入门 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质:将HQL转化成MapReduce程序 Hive特性: Hive处理的数据存...

2020-06-08 10:30:45 556 2

原创 分布式思维概述
原力计划

软件-互联网的发展史 大型主机优点: 集中式的计算机系统,高的稳定性和安全性。 大型主机缺点: 非常贵,一般的小企业用不起。 比较复杂,培养人才的成本比较高。 单点一旦故障,整个系统停转,损失非常大。 个人PC电脑的性能越来越高,成本也越来越低。 Web时代 c/s时代: 富客户端方...

2020-06-07 20:27:45 1648 7

原创 少年:ZooKeeper学一下
原力计划

ZooKeeper 了解下 少年

2020-05-31 14:01:18 1758 5

原创 Hadoop复习看这篇文章就够了
原力计划

高清思维导图已同步Git:https://github.com/SoWhat1412/xmindfile Hadoop入门 HDFS MapReduce And YARN 总结 日常 Hadoop企业优化日常工作 1 MapReduce 跑的慢的原因 Mapreduce 程序效率的瓶颈在...

2020-05-29 16:45:36 1763 12

原创 少年:Scala 学一下
原力计划

思维导图已同步Git: 前言 一个不太恰当的比喻:Java像白话文,Scala像文言文。 庙堂之上,朽木为官,殿陛之间,禽兽食禄;狼心狗行之辈,滚滚当道,奴颜婢膝之徒,纷纷秉政。以致社稷丘墟,苍生涂炭. 豫章故郡,洪都新府。星分翼轸,地接衡庐。襟三江而带五湖,控蛮荆而引瓯越 … 落霞与孤鹜齐...

2020-05-25 19:57:12 1835 17

原创 少年: Nginx了解下
原力计划

Nginx 简介 通俗形象说

2020-05-12 17:36:06 2867 15

原创 手写个Tomcat雏型
原力计划

前言 目的: 网络编程在编程领域随处可见,本文尝试手写一个简单的HttpServer,了解网络请求后台的大致思路及为学习Tomcat打好基础。 准备知识: OOP:面向对象编程思想 collection:Java常用容器 IO:网络IO操作 Thread:多线程 Socket:网络编程 X...

2020-05-10 14:46:55 1576 23

原创 你写的JSP就是JSP么?

以前 Java Web是使用Java语言进行web系统开发,以前一般情况下我们写好的Java代码都要打包诚war包,然后放入到Tomcat容器下,启动Tomcat。系统会自动进行解压。 注意:前端收到的一定是HTML、CSS、JS这样的代码。服务器端在JSP没出现前只能调用resp.getWrit...

2020-04-26 09:07:49 3474 75

转载 cookie、session、token 形象说

发展史 1、很久很久以前,Web 基本上就是文档的浏览而已, 既然是浏览,作为服务器, 不需要记录谁在某一段时间里都浏览了什么文档,每次请求都是一个新的HTTP协议, 就是请求加响应, 尤其是我不用记住是谁刚刚发了HTTP请求, 每个请求对我来说都是全新的。这段时间很嗨皮 2、但是随着交互式...

2020-04-24 15:16:09 1060 28

原创 通过分析周榜前100名专家的博客文章 手把手教你写出爆款文章
原力计划

引言 或许你也在用博客来记录自己的学习历程,与别人分享技术。可是有时候你会感觉为什么我的文章也是用心烹饪的,感觉自己文章跟大佬的文章相比质量并不差啊,可是从访问量、点赞数、收藏数、评论数、粉丝数等多个纬度来看都跟大佬差别那么大呢? 看到这赤裸裸的数据对比是否引发你深深的共鸣呢?尤其是最近博客后...

2020-04-18 17:39:13 8088 147

原创 【Spring】4.助你跟面试官侃一个小时的IOC
原力计划

1. BeanFactoryPostProcessor BeanFactoryPostProcessor:beanFactory的后置处理器; 作用如下: 在BeanFactory标准初始化之后调用,来定制和修改BeanFactory的内容; 所有的bean定义已经保存加载到beanFacto...

2020-04-15 19:06:28 4147 62

原创 【Spring】3.助你跟面试官侃一个小时的AOP

Spring IoC初始化跟销毁Bean的过程,大致分为Bean定义、Bean初始化、Bean的生存期跟Bean的销毁4个部分。 其中Bean的定义过程大致如下: 1.Spirng 通过我们的配置比如@ComponentScan 定义的扫描路径去找到所有带有@Component的类,这是一个资源...

2020-04-12 11:14:01 2236 54

提示
确定要删除当前文章?
取消 删除