自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sowhat

点点滴滴,皆是学问

原创 全网最强HashMap讲解
原力计划

文章目录预备知识位运算知识ArrayListLinkedListRedBlackTreeHashTableHashMap 预备知识 位运算知识 位运算操作是由处理器支持的底层操作,底层硬件只支持01这样的数字,因此位运算运行速度很快。尽管现代计算机处理器拥有了更长的指令流水线和更优的架构设计,使得...

2020-03-23 22:58:26 5032 146

原创 【tensorflow】浅谈什么是张量tensor

也许你已经下载了TensorFlow,而且准备开始着手研究深度学习。但是你会疑惑:TensorFlow里面的Tensor,也就是“张量”,到底是个什么鬼?也许你查阅了维基百科,而且现在变得更加困惑。也许你在NASA教程中看到它,仍然不知道它在说些什么?问题在于大多数讲述张量的指南,都假设你已经掌握...

2020-02-12 17:43:37 73037 102

原创 【机器学习】李航 统计学习方法 知识点总结

机器学习实战代码 阅读目录 知识点 感知机 k近邻法 朴素贝叶斯 决策树 logistic回归和最大熵模型 支持向量机 提升方法 EM算法 隐马尔可夫模型(HMM) 统计学习方法总结 神经网络 K-Means Bagging Apriori 降维方法 引用 因为...

2019-06-21 10:43:42 13150 5

原创 SpringCloud 快速学习

1. 学习前言 1.1 内容概述 学习前提: JavaSE 数据库(MySQL + Redis) 前端(HTML +CSS + JS) Servlet(Tomcat) Http Mybatis + Spring + SpringMVC Springboot Dubbo + Zookeeper +...

2020-09-25 20:45:33 183 0

翻译 免费福利100天, 镭速传输 “百日计划”提前大曝光!Raysync传输协议要开放?

免费薅羊毛100天, 镭速传输 “百日计划”提前大曝光!Raysync传输协议要开放?

2020-09-08 18:41:39 4206 0

原创 MySQL 05、MVCC 进阶

前面讲事务隔离级别的时候提到过,如果是可重复读隔离级别,事务T启动的时候会创建一个视图read-view,之后事务T执行期间,即使有其他事务修改了数据,事务T看到的仍然跟在启动时看到的一样。也就是说,一个在可重复读隔离级别下执行的事务,好像与世无争,不受外界影响。 但是分享行锁的时候又提到,一个事...

2020-09-02 15:17:24 421 2

原创 MySQL 06、普通索引和唯一索引如何抉择 为什么有时候选错索引 字符串添加索引建议

普通索引和唯一索引如何抉择 为什么有时候选错索引 字符串添加索引建议

2020-09-01 09:29:20 94 0

原创 MySQL 04、全局锁、表锁、行锁

数据库锁设计的初衷是处理并发问题。作为多用户共享的资源,当出现并发访问的时候,数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。 根据加锁的范围,MySQL里面的锁大致可以分成**全局锁、表级锁和行锁**三类。这里需要说明的是,锁的设计比较复杂,本文不会涉及锁的具体实...

2020-08-31 18:33:39 144 0

原创 MySQL 03、深入浅出索引

引言 提到数据库索引,我想你并不陌生,在日常工作中会经常接触到。比如某一个SQL查询比较慢,分析完原因之后,你可能就会说 给某个字段加个索引吧 之类的解决方案。但到底什么是索引,索引又是如何工作的呢?今天就让我们一起来聊聊这个话题吧。 索引是数据库系统里面最重要的概念之一,一句话简单来说,索引的出...

2020-08-31 17:16:42 156 0

原创 MySQL 02、高频面试点之事务隔离

引言 提到事务,你肯定不陌生,和数据库打交道的时候,我们总是会用到事务。最经典的例子就是转账,你要给朋友小王转100块钱,而此时你的银行卡只有100块钱。 转账过程具体到程序里会有一系列的操作,比如查询余额、做加减法、更新余额等,这些操作必须保证是一体的,不然等程序查完之后,还没做减法之前,你这1...

2020-08-31 15:16:47 707 2

原创 MySQL 01、一条SQL插入跟更新执行流程以及日志系统原理

查询如何执行 平时我们使用数据库,看到的通常都是一个整体。比如,你有个最简单的表,表里只有一个ID字段,在执行下面这个查询语句时: mysql> select * from T where ID=10; 我们看到的只是输入一条语句,返回一个结果,却不知道这条语句在MySQL内部的执行过程。...

2020-08-31 13:42:29 86 0

原创 MyBatisPlus极速入门

MyBatisPlus概述 需要的基础:MyBatis、Spring、SpringMVC就可以学习这个了! 为什么要学习它呢?MyBatisPlus可以节省我们大量工作时间,所有的CRUD代码它都可以自动化完成! JPA 、 tk-mapper、MyBatisPlus,偷懒用的! 简介 是什么? ...

2020-08-30 20:34:18 3188 8

原创 SpringBoot 13、整合Shrio

Shiro 什么是 Shiro 官网:http://shiro.apache.org/ 是一款主流的 Java 安全框架,不依赖任何容器,可以运行在 Java SE 和 Java EE 项目中,它的主要作用是对访问系统的用户进行身份认证、授权、会话管理、加密等操作。不用第三方框架完全自己开发用Fi...

2020-08-30 11:04:45 49 0

原创 【急速入门】Spring 极速入门

Spring IOC AOP 急速入门

2020-08-10 14:30:04 1004 2

原创 MyBatis 极速入门
原力计划

前情概要 环境说明: jdk 8 + MySQL 5.5 maven-3.6.1 IDEA 学习前需要掌握: JDBC MySQL Java 基础 Maven Junit 什么是MyBatis MyBatis 是一款优秀的持久层框架 MyBatis 避免了几乎所有的 JDBC 代码...

2020-08-03 09:58:25 1987 5

原创 9种分布式ID生成方式,总有一款适合你

分布式ID必要性。 业务量小于500W的时候单独一个mysql即可提供服务,再大点的时候就进行读写分离也可以应付过来。但当主从同步也扛不住的是就需要分表分库了,但分库分表后需要有一个唯一ID来标识一条数据,数据库的自增ID显然不能满足需求;特别一点的如订单、优惠券也都需要有唯一ID做标识。此时一个...

2020-07-28 19:11:15 843 3

原创 5分钟了解啥是数仓

1. 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2. 数据仓库能...

2020-07-23 20:39:16 1127 0

原创 第三天:Flink的State、CheckPoint、Window窗口

5. Flink State管理跟回复 Flink 是一个默认就有状态的分析引擎,前面的 WordCount 案例可以做到单词的数量的累加,其实是因为在内存中保证了每个单词的出现的次数,这些数据其实就是状态数据。但是如果一个 Task 在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都...

2020-07-22 23:03:22 341 2

原创 RabbitMQ极速入门
原力计划

1. 消息队列解决了什么问题 1. 异步处理 一个用户登陆网址注册,然后系统发短信跟邮件告知注册成功,一般有三种解决方法。 串行到依次执行,问题是用户注册后就可以使用了,没必要等验证码跟邮件。 注册成功后,邮件跟验证码用并行等方式执行,问题是邮件跟验证码是非重要的任务,系统注册还要等这俩完成么?...

2020-07-19 23:12:02 1303 7

原创 用了这些IDEA 插件后我已经在跟测试妹子聊天了你还在苦逼的 coding

1.Translation 翻译插件,现支持Google翻译、有道翻译。 2. Free Mybatis plugin 平时dao层找对应的xml时候需要很麻烦的去找,有了这个插件就不用了 3. Lombok plugin 有了这个插件就不用get set方法了 4. activate-pow...

2020-07-17 19:29:53 2833 18

原创 第二天:Flink数据源、Sink、转换算子、函数类 讲解
原力计划

4. Flink 常用API详解 1. 函数阶层 Flink 根据抽象程度分层,提供了三种不同的 API 和库。每一种 API 在简洁性和表达 力上有着不同的侧重,并且针对不同的应用场景。 1 . ProcessFunction ProcessFunction 是 Flink 所提供最底层接口。P...

2020-07-15 18:26:06 8100 4

原创 第一天:什么是Flink、WordCount入门、Flink安装、并行度
原力计划

Flink官方依赖文档说明:官方依赖入手 Snagit Editor

2020-07-13 18:50:15 870 1

原创 Numpy 轻松学
原力计划

1. Numpy 简介 NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组...

2020-07-12 20:09:13 8071 1

原创 Redis GeoHash核心原理解析
原力计划

1. 引言 小麦同学是个吃货+技术宅,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐。 饱暖思yin欲的麦叔饭后思考地图后台如何根据自己所在位置查询来查询附近餐馆的呢?苦思冥想了半天,小麦想出了个...

2020-07-10 16:07:06 560 0

原创 8. 经典的同期群分析
原力计划

理论回顾 同期群分析是数据分析中一个hin经典的思维,核心是将用户按初始行为的发生时间,划分为不同的群组,进而分析相似群组的行为如何随时间变化而变化。一般是通过像这样的留存表来实现: 每一行,代表当月新增客户,在接下来几个月的留存情况。 通过横向对比,能够对客户留存和生命周期有初步的认识。基于纵向...

2020-07-07 19:30:27 217 0

原创 7. RFM用户分析模型

RFM,是一种经典到头皮发麻的用户分类、价值分析模型,同时,这个模型以直白著称,直白到把需要的字段写在了脸上: R:Rencency,即每个客户有多少天没回购了,可以理解为最近一次购买到现在隔了多少天。 F:Frequency,是每个客户购买了多少次。 M:Monetary,代表每个客户平均购买...

2020-07-07 16:53:23 376 0

原创 6. 批量处理分析数据

需求:有20个品牌共生产了127个类目的产品,筛选出近一年销售额总额TOP5的品牌以及对应的销售额。 思路:先做第一个然后如法炮制将结果汇总即可。 数据信息如下: 加载数据: 接着,是要汇总不同品牌在这个细分行业下的销售额,我们要汇总的是各品牌近一年(2018年9月-2019年8月)的销售额,...

2020-07-07 11:29:18 3944 0

原创 5. TGI指数分析实战
原力计划

引言 经常有一些专业的数据分析报告,会提到TGI指数,例如“基于某某TGI指数,我们发现某类用户更偏好XX”。对于不熟悉TGI定义的同学,看到类似的话一定是云山雾罩。这次,我们就来聊一聊什么是TGI指数以及怎么样结合案例数据实现简单的TGI偏好分析。 对于TGI指数,百科是这样解释的——TGI指数...

2020-07-06 21:26:28 336 0

原创 4. 优雅的apply
原力计划

引言 本文主要讲的是Pandas中第二好用的函数——apply。为什么说第二好用呢?做人嘛,最重要的就是谦虚,做函数也是一样的,而apply就是这样一个优雅而谦虚的函数。 我们单独用一篇来为apply树碑立传,原因有二, 一是因为apply函数极其灵活高效,甚至是重新定义了pandas的灵活,一...

2020-07-06 20:32:00 185 0

原创 3. 清洗常用4板斧
原力计划

引言 这是Python数据分析实战基础的第三篇内容,主要对前两篇进行补充,把实际数据清洗场景下常用但零散的方法,按增、删、查、分四板斧的逻辑进行归类,以减少记忆成本,提升学习和使用效率。 数据集 一级流量 流量级别 投放地区 访客数 支付转化率 客单价 支付金额 一级 A区 44,...

2020-07-06 19:49:04 189 0

原创 2. 灵活的Pandas索引
原力计划

序言 学习了Pandas的同学,有超过60%仍然投向了Excel的怀抱,之所以做此下策,多半是因为刚开始用Python处理数据时,选择想要的行和列实在太痛苦,完全没有Excel想要哪里点哪里的快感。 初识Pandas 教程考虑到篇幅问题只讲了最基础的列向索引,但这显然不能满足同志们日益增长的个性化...

2020-07-06 16:33:53 194 0

原创 1. 初识Pandas
原力计划

1. 重要前言 这段时间和一些做数据分析的同学闲聊,我发现数据分析技能入门阶段存在一个普遍性的问题,很多凭着兴趣入坑的同学,都能够很快熟悉Python基础语法,然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中,硬着头皮啃完之后,好像自己什么都会了一点,然而实际操作起来既不知从何...

2020-07-06 15:41:36 219 2

原创 PageRank通俗说

PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的很好demo,算法维护两个数据集(pageID,listList) 包含每个页面的相邻页面列表。(pageID,ra...

2020-07-06 06:55:00 5922 0

原创 第四天:Spark Streaming
原力计划

Spark Streaming概述 1. Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度...

2020-07-02 07:45:29 202 1

原创 第三天:SparkSQL
原力计划

第1章 Spark SQL概述 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集...

2020-06-30 20:08:37 263 2

原创 第二天:Spark Core
原力计划

Java IO回忆 字节跟字符区别,InputStream、OutputStream、Writer、Reader 。 字节流,分2种: a.输入 b.输出 2.字符流,也分2种: a.输入(读,即读取) b.输出(写,即写入) PS: 字节流是万能的,方便人类读写才出来的字符流。字符流...

2020-06-29 10:16:44 262 0

原创 第二天:Kafka API操作
原力计划

API 消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator,Sender线程不断从R...

2020-06-28 15:10:23 6751 0

原创 第一天:Kafka理论学习
原力计划

Kafka 概述 1. 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 2. 消息队列 传统场景 MQ传统应用之异步处理队列。 消息队列两种模式 点对点模式(一对一,消费者主动拉取数据(不断的轮询),消息收到后消息清除) ...

2020-06-26 18:16:57 250 0

原创 第四天:HBase 优化
原力计划

1. 高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 关闭HBase集群(如...

2020-06-22 17:58:01 265 2

原创 第三天:HBase API
原力计划

API调用 工作中更常用的绝对是通过HBase的API来调用实现类似HBase shell的操作。 环境准备 IDEA + Maven + HBase <?xml version="1.0" encoding="UTF-8"?> <proj...

2020-06-20 12:38:39 232 0

提示
确定要删除当前文章?
取消 删除