当存储系统成为瓶颈时,比如高并发、读多写少等场景,我们首先会想到的就是利用缓存来提高整个系统的性能。
缓存虽然能够大大提升整个系统的性能,但同时也引入了更多复杂性。
如果没有针对缓存进行比较好的处理,某些场景下甚至会导致整个系统崩溃。
这次我们要聊的就是:缓存穿透。
缓存穿透
缓存穿透是指在查询缓存数据时,缓存中没有对应数据,还需要去存储系统中查询数据。
一般有以下两种情况:
对应数据根本不存在
如果存储系统中没有某个数据,一般不会在缓存中存储相应的数据。
这样就导致在查询缓存数据的时候,在缓存中找不到对应的数据,每次都要去存储系统中再查询一遍,然后返回数据不存在。
在这个场景中,缓存并没有起到分担存储系统访问压力的作用。
读取不存在的数据的请求量一般不会太大,但如果出现一些恶意攻击,故意大量访问某些不存在的数据,就会对存储系统造成很多压力。
解决办法
-
如果查询存储系统的数据没有找到,则直接设置一个特定值存到缓存中。之后读取缓存时就会获取到这个特定值,直接返回空值,就不会继续访问存储系统了。
-
把已存在数据的key存放在布隆过滤器中。当有新的请求时,先到布隆过滤器中查询是否存在,如果不存在该条数据直接返回;如果存在该条数据再查询缓存查询存储系统。
缓存数据时生成耗时较长
存储系统中存在对应的数据,但生成缓存数据需要耗费较长时间或者大量资源。
如果刚好在访问的时候对应的缓存失效了,那么缓存不会发挥作用,访问压力全部都集中在存储系统上。
比如某宝上的分类商品列表,因为数据量巨大,并且还有按销量、信用、价格等各种排序,不可能把所有数据都缓存起来,所以只能按照分页的页数进行缓存。
如果每次点击分页的时候按分页计算并生成缓存数据,一般情况下是没问题的,因为真正的用户不会从第一页一直翻到最后一页。
真正的用户访问一般都集中在前十页,所以第十页以后的缓存过期失效的可能性很大。
那么问题就来了,假如被竞争对手用爬虫来遍历所有分页的时候,此时很多分页缓存可能都失效了,从存储系统中生成缓存数据又非常耗费时间,所以爬虫会将整个存储系统全部拖慢,整个系统性能就可能出现问题。
解决办法
-
限制分页的数量,比如某宝上分类商品列表,最大分页就到100页。当然,从产品角度看,这样的做法不是很好,因为100页以后的商品将永远不会被用户看到。
-
后台作业定时更新缓存,而不是在访问页面时生成缓存数据。这样可以按照一定策略定时更新缓存,不会对存储系统较大的瞬时压力。
总结
缓存穿透是指在查询缓存数据时,缓存中没有对应数据,还需要去存储系统中查询数据。
通常情况下有两种情况:对应数据根本不存在、缓存数据时生成耗时较长。
最后,感谢你的点赞、推荐和关注,帅气又美丽。