性能优化公式与实践@慕课网原创_慕课网

“性能优化“相信是每个程序员都关心的问题，在实际工作中也常会对系统做优化。关于性能优化有两个问题很值得探讨：

HOW：影响性能的因素很多，该从何入手？找到需要优化的点后，如何进行优化？
WHY：优化后为什么能提升性能？为什么有些优化点更值得做？

至于WHAT，我认为是不言而喻的，性能优化的终极目标只有两点：QPS和RT，可以说所有优化最终都是为了这两个指标。

本文讨论的核心内容是几个与性能相关的公式，比如QPS公式、RT公式、线程数公式等。熟悉这几个公式能让我们抓住系统性能的底层逻辑，有助于在实践过程中对症下药。这些公式在一些性能相关的书籍里都有出现，公式提供了很好的理论支持，但关于如何实践的文章并不多。

本文先对公式进行简单推导和验证，熟悉的同学可以跳过这部分。

针对HOW：本文会通过一个线上应用的优化案例，尝试探讨出一套可参照的实践流程。
针对WHY：在公式验证和实践中，对实际优化结果结合公式进行定量计算，解释类似如下问题——为什么做了一个优化，QPS能提升100或者50%？

PS：个人水平有限，难免出现纰漏，欢迎指正。

公式推导

本小节对几个核心公式进行简单推导，帮助尚不太了解的同学弄清来龙去脉。

QPS和RT

前文提到，QPS和RT是性能优化的终极目标。其中QPS(Query per second)描述了单位时间内系统的吞吐量，而RT长短则反应了接口响应速度。提升QPS能帮助我们利用更少的机器资源扛住更多的流量，而降低RT能提升用户体验。

单线程QPS公式

在单线程下，这个公式永远正确。而我们的系统都是多线程的，所以我们需要知道多线程的QPS如何计算。

多线程QPS公式

很简单，就是单线程的QPS * 线程数：

可以看到，多线程下的QPS和两个因素相关：RT和线程数，接下里分别讨论下RT和线程数。

RT公式

RT一般可分为客户端RT和服务端RT，客户端RT包含浏览器发出请求—》服务器处理—》请求报文返回三个阶段。
两者关系如下：
客户端RT = 服务端RT + 2*网络耗时

网络耗时可以通过CDN、专线等方式减小，我们重点关注下服务端RT。

一个请求打到服务器上，会由一个线程来承载，同步模型下，而线程从创建到退出的过程，就是一次请求的处理过程。而线程从创建到退出的状态流转，涉及到多线程的调度，这里简单说明下线程的调度。

线程调度

在Linux/Windows上，从JDK1.2开始，JVM线程直接绑定一个内核线程(1:1模型)，由系统内核的调度器来调度，在内核看来，内核线程和进程没有区别。对于java这类非实时进程，Linux的调度策略是基于优先级的抢占式调度。

系统将CPU时间切分成多个时间片，从就绪队列中，选取一个就绪的进程，为其分配时间片执行，可能有三种结果：

时间片耗尽前，进程执行完毕，任务退出。
时间片耗尽，进程仍未执行完毕，返回就绪队列，等待调度。
进程执行过中遇到阻塞事件，放弃时间片，进入阻塞队列，等待事件返回，再进入就绪队列，等待调度。

根据上述过程，进程有以下几种基本状态：创建、运行、等待（阻塞）、就绪、销毁。转换关系如下：

讲了这么多，根据上述状态可知，服务器RT由运行态耗时和非运行态耗时(创建、阻塞、就绪、销毁）组成，使用线程池的情况下，可以忽略创建和销毁的时间，得到公式如下：

CPUTime描述了需要CPU时间片的运行时间，WaitTime描述了阻塞的实际，而ReadyTime描述了就绪队列中等待调度的时间。
公式意义：RT和三个变量有关，分别是优化其中任意一项，都能减小RT。

最佳线程数公式

前面讲述了RT公式，接下来推导线程数该设置为多少？

以单核单线程为例，假设线程(Thread A)执行过程中，有部分时间在做阻塞IO，那么从线程和CPU的视角来看一个时间段的线程状态和CPU使用情况，如下图，可以发现，CPU有相当一段时间，处于闲置状态，未能充分利用。

同样单核的情况下，尝试增加一个线程B，做同样的事，根据前面线程的调度模型与DMA，线程和CPU情况如图。在CPU未达到满负荷情况下，线程数增加一倍，理论上QPS和CPU利用率提升了一倍。

继续增加线程数，可以发现，当达到某个临界值之后，CPU等待阻塞的空闲时间能被完全利用。

根据前面的推导，在同步模型下，最佳线程数定义：刚好消耗完线程阻塞时间的线程数临界值

在多核的情况下，在《Programming Concurrency on the JVM》一书中，描述最佳线程数=核心数 / (1-阻塞系数)，其中阻塞系数=阻塞时间／(阻塞时间+线程CPU时间)，代入可得：

其中UseRatio代表CPU使用率，在系统有其他瓶颈(IO、网卡、内存、锁等)时，利用率很难达到90%以上，这需要先解决瓶颈问题。
公式意义：线程不够，无法充分利用CPU的空闲资源，导致实际QPS上不去，线程过多会引起就绪队列变长，CPU频繁调度导致线程等待cpu时间片变长，进而影响RT，线程数存在一个最佳的线程数临界值。

最大QPS公式

根据多线程的QPS公式可知，最佳线程数下，系统具有最大QPS。分别代入RT公式和最佳线程数公式：

这里假设最佳线程数下，线程几乎不需要等待调度，即ReadyTime=0。
公式意义：理论上，系统的最大QPS和线程CPU计算时间成反比，和线程阻塞时间无关，提升QPS需要减小CPU计算时间。另外，考虑上下文切换开销、CPU利用率、STW等因素，实际QPS会小于理论值。

公式因子

CPU Time由算法和数据结构决定，会影响RT和最大QPS值，反应线程拿到时间片后，需要执行的时间。
Wait Time在应用中主要表现为线程wait(park,sleep)或者IO耗时，很大程度决定了RT和需要的线程数。

http://click.aliyun.com/m/1000003892/