有关CPU占用和缓存的一些见解，希望给大家一些启发

lovnet

浏览: 6713768 次
性别:
来自: 武汉

最近访客更多访客>>

u012363178

jx_colin

MauerSu

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (7414)

社区版块

存档分类

2013-03 ( 20)
2013-02 ( 53)
2013-01 ( 90)
更多存档...

Linq memcached 数据结构应用服务器 SQL

首先说说缓存的问题，比如我们有1000000个字符串构成的List<string>需要缓存在内存中，大约占用了100M的内存空间。如果需要对这些数据进行检索的话，很明显直接由于数据量太大，即使在内存中检索效率也不会太高。

一般可以想到的办法就是利用层次话的字典结构来解决，比如SortedList<char, Sorted<char, List<string>> 这样就构成了2层结构，可以把字符串的第一个和第二个字母作为字典的Key，这样一下子可以把检索的数据量下降2个数量级都不止。

当然，在现实应用中可能存放的不是List<string>而是一个List<Entity>，这个Entity里面可能有N个属性，我们可能需要检索的就不止是一个字段这么简单了，可能需要为了检索Entity中的ID属性做个Dictionary<int, Entity>，也可能需要为了检索其中的Name属性做一个Dictionary<char, List<Entity>>，这就需要多份字典。

前面说过了，这个原始数据List<string>占用100M内存，那么你可能会想了，再来一个SortedList<char, Sorted<char, List<string>>那么就需要200M内存了，如果多份字典的话，更占内存？但是想想字典结构的效率真是高啊，怎么取舍呢？其实，如果你试验一下的话可以发现，再弄个SortedList<char, Sorted<char, List<string>> 可能只会占用1M内存，加起来一共是101M而不是200M，这是为什么呢？

记得引用类型和值类型的区别吗，如果你的数据结构大部分是引用类型，比如string的话，一个string的List，它其实存放了N个处于托管堆上的string的指针，那么如果我们再来一个字典结构的话，不是说我们就多存放了这些string，而是多存放了一套指针，外加Key所占用的一些空间。所以，遇到这种情况不用吝啬多一些字典结构来提高效率。

上面的例子我想说明一个问题，缓存多份数据不一定会占用相同的多份内存。

还有，缓存的数据可以放在那里呢？一般来说有这么几种，static变量，.NET类库提供的HttpRuntime.Cache或者就是一些分布式的缓存解决方案，比如memcached。

有一些误解，很多人非常不喜欢static变量，我想有两个原因，一是可能觉得把100M数据存放到一个变量中，这是很可怕的事情，一个变量竟然占用100M内存，其实我们大多时候缓存的是一个引用类型，变量存放的只是一个指针罢了，100M的值类型确实可怕，二是很多做ASP.NET的人会觉得不能乱用static变量，就产生了这个错觉。其实，我觉得static变量的问题在于它没有线程安全的机制，二是它作为缓存方案不能过期，一旦创建后也不能删除，只能把它设置为空引用，等待GC回收。但对于某些情况，静态变量是适合的，比如我们缓存的数据是只读并且永远不需要过期的，静态变量作为缓存的确足够简单，也不用担心“丢失”！

HttpRuntime.Cache之类的方案的优势在于它提供了过期、依赖、线程同步的支持，也是我们用的最多的。

最后说说分布式缓存解决方案，比如memcached。其实我觉得在一般情况下不要去随便使用分布式的缓存方案，除非我们能满足以下的需求：1、缓存的数据非常多，一台机器的内存不够用，确实需要分布。2、需要确保数据不能丢失，在多台机器上做备份。为什么说不要轻易用，因为分布是有代价的，如果应用服务器和缓存服务器分开的话，势必就需要TCP通讯，这是一个消耗，另外一个消耗是缓存的数据需要序列化和反序列化。分布式缓存使用缓存一些直接能绑定到UI的数据，或者说直接用于呈现的数据，对于大块的数据非常不适合存放到memcached中。比如之前提到的List<string>，如果这个数据是100M，它不能直接用需要做一些计算再返回给WEB服务器，那么我们做的事情就是序列化后缓存到memcached中，然后再反序列化从TCP获取，放到内存中计算后返回给WEB服务器，然后内存中的100M数据等待GC回收。其中白白折腾了网络、CPU和内存（虽然会回收，但是GC一直回收100M的数据，谁受得了）。

上面的例子我想说明一个问题，缓存的方案需要根据应用来选择，静态变量不一定不好，分布式缓存也不一定好。

最后，还有一个有关CPU占用的有趣问题，很多人很怕服务器占用CPU很高，觉得CPU占用一高就有性能问题。其实我想说的是，有的时候CPU占用的高不一定是坏事情。假设有两个网站。A网站它的数据源是数据库，每一个请求（假设是同步请求数据库）都需要1秒来从数据库获取数据，由于IO操作的时间会比CPU处理数据时间长很多，所以这个网站即使很繁忙，WEB服务器的CPU占用还不是很高，用户一个页面打开至少要等1秒，网站管理员看着WEB服务器CPU常年处理20%的情况觉得很满意，但想想这真能说明网站性能高吗？还有一个网站B，它数据都是从内存中读取的，由于内存的操作会比IO操作快很多，CPU处理一个请求的数据只需要20毫秒，由于网站页面速度快，用户满意度和数量比A网站高很多，CPU很忙，常年处于90%的负荷，网站管理员看了觉得很害怕，是不是哪里出现性能问题了，服务器会不会瘫痪。其实，我觉得B网站的管理员应该高兴，因为B网站的用户比A网站高一个数量级，服务器虽然很忙，但页面打开速度很快，CPU得到了充分的利用。

上面的例子我想说明一个问题，只要不是死循环等恶性代码问题的话，CPU如果占用的高不一定就是坏事情。

很多时候事情往往不是像我们想的那样，很多时候好的东西往往也不一定是适合的。希望这三个小例子能给大家一些启发。

最后，想说一下最近使用LINQ的经验。不可否认，如果不分层，在网站中直接使用LINQ TO SQL和LINQ进行数据的存取以及转换，结合匿名类型等特性，至少提高开发效率一倍。有很多人关心LINQ的效率，其实我们应该要区分LINQ还是LINQ TO SQL，是使用LINQ TO SQL进行数据的转换还是使用LINQ进行内存中数据的转换很关键。要知道，尽量从数据库中拿少点东西，尽量少的进行数据库访问，所以说LINQ TO SQL的代码不适合放在循环中，如果要对大量数据操作的话，要先ToList()加载到内存中，然后之后的工作就是LINQ(TO OBJECT)了。如果项目对性能要求高的话，尽量在做好项目之后，多看看SQL监视器，观察一下页面究竟访问了几次数据库，因为程序写的很爽的时候可能会迷糊，导致页面访问N次数据库，这个时候要使用LoadWith来“化解”。

分享到：