Archive for 七月, 2012

数据库访问时,经常需要分页获取并获得总数,有两种方式:

1.  使用两条sql句子:

select * from table where … order by … limit …

select count(1) as cnt from table where …

2. 使用一条sql句子:

select SQL_CALC_FOUND_ROWS * from table where …

3. 不返回总数,而是是否还有下一页

从代码的整洁度而言,显然后者较优,但是性能角度考虑的话,则需要视情况而定,以下先分析方法1和2。

针对当前的一条sql句子做了测试,profile输出如下:

| 13 | 0.00911600 | select SQL_CALC_FOUND_ROWS SQL_NO_CACHE * FROM “table` AS `a` WHERE (a.appid = ’57’) AND (a.parentid != 0) ORDER BY `authtag` desc LIMIT 4 |
| 14 | 0.00234600 | select SQL_NO_CACHE * FROM `table` AS `a` WHERE (a.appid = ’57’) AND (a.parentid != 0) ORDER BY `authtag` desc LIMIT 4 |
| 15 | 0.00262500 | select SQL_NO_CACHE count(1) FROM `table` AS `a` WHERE (a.appid = ’57’) AND (a.parentid != 0) |

具体如下:

mysql> show profile for query 13;
+——————–+———-+
| Status | Duration |
+——————–+———-+
| (initialization) | 0.000072 |
| Opening tables | 0.000013 |
| System lock | 0.000005 |
| Table lock | 0.000009 |
| init | 0.000033 |
| optimizing | 0.000014 |
| statistics | 0.000018 |
| preparing | 0.000016 |
| executing | 0.000003 |
| Sorting result | 0.000005 |
| Sending data | 0.008898 |
| end | 0.00001 |
| query end | 0.000002 |
| freeing items | 0.00001 |
| closing tables | 0.000005 |
| logging slow query | 0.000003 |
+——————–+———-+
16 rows in set (0.00 sec)

mysql> show profile for query 14;
+——————–+———–+
| Status | Duration |
+——————–+———–+
| (initialization) | 0.0000749 |
| Opening tables | 0.000013 |
| System lock | 0.000004 |
| Table lock | 0.00001 |
| init | 0.000033 |
| optimizing | 0.000015 |
| statistics | 0.000017 |
| preparing | 0.000016 |
| executing | 0.000004 |
| Sorting result | 0.000005 |
| Sending data | 0.002134 |
| end | 0.000004 |
| query end | 0.000003 |
| freeing items | 0.000006 |
| closing tables | 0.000005 |
| logging slow query | 0.000002 |
+——————–+———–+
16 rows in set (0.00 sec)

mysql> show profile for query 15;
+——————–+———-+
| Status | Duration |
+——————–+———-+
| (initialization) | 0.000073 |
| Opening tables | 0.000014 |
| System lock | 0.000005 |
| Table lock | 0.000009 |
| init | 0.000028 |
| optimizing | 0.000016 |
| statistics | 0.000017 |
| preparing | 0.000015 |
| executing | 0.000006 |
| Sending data | 0.00242 |
| end | 0.000006 |
| query end | 0.000003 |
| freeing items | 0.000006 |
| closing tables | 0.000005 |
| logging slow query | 0.000002 |
+——————–+———-+
15 rows in set (0.00 sec)

原因呢?当使用SQL_CALC_FOUND_ROWS时,会获取全部符合标准的条目(即使该条目不在limit的范围内),这样就使两者的Sending data时间差别很大。

可以参考:

http://hi.baidu.com/thinkinginlamp/blog/item/df85b31c93cd148686d6b64f.html

http://www.mysqlperformanceblog.com/2007/08/28/to-sql_calc_found_rows-or-not-to-sql_calc_found_rows/

在分析SQL_CALC_FOUND_ROWS的时候,可以看到count操作是比较费时的,那有没有其他方法了呢?获取总数是为了分页,但是总页数真的那么重要吗?如果改成“下一页”的思路呢?

在淘宝开放平台的api里, 对于某些对于总数并不是很敏感且逻辑较为复杂的操作,可以使用use_has_next参数:

 use_has_next:是否启用has_next的分页方式,如果指定true,则返回的结果中不包含总记录数,但是会新增一个是否存在下一页的的字段,通过此种方式获取增量交易,效率在原有的基础上有80%的提升

当指定该参数时,不返回总条数,但是返回是否还有下一页的数据,通过这种方式可以获得性能方面较大的提升!那么怎样方便的实现呢?还是以上面的sql为例,原始sql为:

select SQL_NO_CACHE * FROM `table` AS `a` WHERE (a.appid = ’57’) AND (a.parentid != 0) ORDER BY `authtag` desc LIMIT 4 offset 0

这时,计算offset的方法不变,还是(page-1)*per_page,但是limit时,我们多取一个,即limit=per_page + 1。如果获取到的条目=per_page+1,则说明有下一页,否则就没有下一页了!

我们的一个开发环境的项目中(php 5.2.17),初始化时,调用session_set_save_handler注册了session的open,close,read,write,destroy,gc方法,并session_start了。

但是连续刷新同一个页面时,仅第一次是正常的,后面就都“服务器无响应”,而apache的error_log中显示“child pid 22924 exit signal Segmentation fault (11)”。

在php手册“http://cn2.php.net/manual/en/function.session-set-save-handler.php”中,有如下的warning:

When using objects as session save handlers, it is important to register the shutdown function with PHP to avoid unexpected side-effects from the way PHP internally destroys objects on shutdown and may prevent the write and close from being called. Typically you should register 'session_write_close' using the register_shutdown_function()  function.

As of PHP 5.0.5 the write and close handlers are called after object destruction and therefore cannot use objects or throw exceptions. Exceptions are not able to be caught since will not be caught nor will any exception trace be displayed and the execution will just cease unexpectedly. The object destructors can however use sessions.

It is possible to call session_write_close() from the destructor to solve this chicken and egg problem but the most reliable way is to register the shutdown function as described above.

The “write” handler is not executed until after the output stream is closed. Thus, output from debugging statements in the “write” handler will never be seen in the browser. If debugging output is necessary, it is suggested that the debug output be written to a file instead.

由上可知,在PHP的某些版本里,session的write和close hanlders是在进程资源回收之后调用的,这时,会导致无法找到相应的handler类,或其使用的对象资源。

将session相关代码提取出来,写了一个测试页面,在php-5.2.17下会报错,但是php-5.3.10下就是正常的。5.2.17下可以通过添加register_shutdown_function(‘session_write_close’),使session的write和close函数提前执行,从而避免错误。

array(
                array( 'host'=>'127.0.0.1', 'port'=>11211),
        ),
        'slave'=>array(
                array( 'host'=>'127.0.0.1', 'port'=>11211),
        ),
));

Crab_Session_Memcached::start();
var_dump($_SESSION);

#register_shutdown_function('session_write_close');


$_SESSION = array('abc' => 123);
var_dump($_SESSION);

echo "I'm here";
exit;

这篇blog几乎跟什么深奥的技术没有关系,甚至可能略显小儿科。

核心是,程序员不应该浪费时间在重复的劳动上,除非这重复工作确实不可避免,并且意义足够重大,比如说拯救地球-,-。而最近的工作中,发现几个违反了懒惰规则的地方,写了几个小工具,记录一下。

  1. phpunit的testSuite.php入口文件
  2. api使用的参数检查checker类
  3. 新修改代码的批量语法检查
  4. 脚本替换

phpunit的testSuite.php入口文件

在一个项目里,发现phpunit的入口文件testSuite.php中,定义了一个继承自PHPUnit_Framework_TestSuite的类,该类的构造函数中,hard code了一些测试用例的声明。每次有新测试用例,都会把之前旧用例注释掉。

//require_once ‘libs/ATest.php';
//$this->addTestSuite(‘ATest’);

require_once ‘libs/BTest.php';
$this->addTestSuite(‘BTest’);

由于是多人开发,还会出现冲突。其实只要一个小小的改动:

      public function __construct() {
          $this->setName('TestsSuite');

          global $argv;
          if (($cnt=count($argv)) > 2){
              for($idx=2; $idxaddTestFile($argv[$idx]);
              }
          }
      }

使用的时候,传入用例的文件名称即可(还可以利用linux的文件名自动补完):

phpunit TestsSuite.php ‘cases/ATest.php’

api使用的参数检查checker类

严格意义上来说,每个方法都不应该信任调用者传来的参数,而进行严格的参数检查。但这真是个体力活!导致的结果,要不然就重复的编码,要不然就是直接省略,把参数检查的责任交给下一级方法或者引入安全问题。其实可以抽象一下。

写了个简单的checker类,调用者配置待检查的参数是否必须存在,若存在使用什么检查handler(比如_check_string检查是多长的字符串,_check_unsignedint检查必须是正整数等),如果不符合要求,返回什么错误码和错误提示。

于是,参数检查不但变得简单,而且该配置本身还起到了代码注释的作用!

新修改代码的批量语法检查

打字快了的时候,难免没有手误,在测试和提交前,可以利用php -l来检查文件里是否有语法错误。但是每次都手工执行,多麻烦啊!写了一个脚本,通过svn st命令获取到新修改文件的名称,再检查所有以”.php”结尾的文件(如果有其他后缀的php文件,也可以添加)。

#!/bin/bash

### 检查新修改的php文件,是否有语法错误(svn st)

svnmodified=$(svn st)

# 错误个数
errnum=0

for line in $svnmodified;do
        pos=${#line}-4
        tail=${line:$pos}

        if [ "$tail" == ".php" ];then
                php -l $line

                if [ $? -ne 0 ];then
                        ((errnum=errnum+1))
                fi
        fi
done

echo -e "\n\n####### Total errors: $errnum ######\n\n" >&2

我们还可以进一步,把它和svn想绑定,每次svn ci的时候,都自动执行一遍。

脚本替换

有时项目里,会有大量文件的内容替换工作,比如这次,我需要将某一类老的方法调用替换到新方法上去,共计500多处,如果手工修改,估计就直接放弃了。

通过分析新老调用的区别,其实用sed命令,可以很容易实现,最后,用了一行代码:

sed -i’.bak’ “s/OldLog::Log\s*(\s*\([^,]\{1,\},\)\{2\}/NewLog::notice(/g” `grep  “OldLog::Log” -rwl * | grep -v svn | grep -v tags`

完成之后,svn diff检查结果,再略微手工调整,工作量大大减少。

结语

程序员的工作,可以很快乐,但乐子是自己找的。

Sed学习笔记

作者:Jims of 肥肥世家

Copyright © 2004,2005, 本文遵从GNU 的自由文档许可证(Free Document License)的条款,欢迎转载、修改、散布。

发布时间:2004年09月20日

最近更新:2005年12月22日,增加小技巧章节。


1. Sed简介

sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。以下介绍的是Gnu版本的Sed 3.02。

2. 定址

可以通过定址来定位你所希望编辑的行,该地址用数字构成,用逗号分隔的两个行数表示以这两行为起止的行的范围(包括行数表示的那两行)。如1,3表示1,2,3行,美元符号($)表示最后一行。范围可以通过数据,正则表达式或者二者结合的方式确定 。

3. Sed命令

调用sed命令有两种形式:

  • sed [options] ‘command’ file(s)
  • sed [options] -f scriptfile file(s)

 

a\
在当前行后面加入一行文本。
b lable
分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾。
c\
用新的文本改变本行的文本。
d
从模板块(Pattern space)位置删除行。
D
删除模板块的第一行。
i\
在当前行上面插入文本。
h
拷贝模板块的内容到内存中的缓冲区。
H
追加模板块的内容到内存中的缓冲区
g
获得内存缓冲区的内容,并替代当前模板块中的文本。
G
获得内存缓冲区的内容,并追加到当前模板块文本的后面。
l
列表不能打印字符的清单。
n
读取下一个输入行,用下一个命令处理新的行而不是用第一个命令。
N
追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码。
p
打印模板块的行。
P(大写)
打印模板块的第一行。
q
退出Sed。
r file
从file中读行。
t label
if分支,从最后一行开始,条件一旦满足或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。
T label
错误分支,从最后一行开始,一旦发生错误或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾。
w file
写并追加模板块到file末尾。
W file
写并追加模板块的第一行到file末尾。
!
表示后面的命令对所有没有被选定的行发生作用。
s/re/string
用string替换正则表达式re。
=
打印当前行号码。
#
把注释扩展到下一个换行符以前。
以下的是替换标记
  • g表示行内全面替换。
  • p表示打印行。
  • w表示把行写入一个文件。
  • x表示互换模板块中的文本和缓冲区中的文本。
  • y表示把一个字符翻译为另外的字符(但是不用于正则表达式)

4. 选项

-e command, –expression=command
允许多台编辑。
-h, –help
打印帮助,并显示bug列表的地址。
-n, –quiet, –silent
取消默认输出。
-f, –filer=script-file
引导sed脚本文件名。
-V, –version
打印版本和版权信息。

5. 元字符集

^
锚定行的开始 如:/^sed/匹配所有以sed开头的行。
$
锚定行的结束 如:/sed$/匹配所有以sed结尾的行。
.
匹配一个非换行符的字符 如:/s.d/匹配s后接一个任意字符,然后是d。
*
匹配零或多个字符 如:/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。
[]
匹配一个指定范围内的字符,如/[Ss]ed/匹配sed和Sed。
[^]
匹配一个不在指定范围内的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头,紧跟ed的行。
\(..\)
保存匹配的字符,如s/\(love\)able/\1rs,loveable被替换成lovers。
&
保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。
\<
锚定单词的开始,如:/\<love/匹配包含以love开头的单词的行。
\>
锚定单词的结束,如/love\>/匹配包含以love结尾的单词的行。
x\{m\}
重复字符x,m次,如:/0\{5\}/匹配包含5个o的行。
x\{m,\}
重复字符x,至少m次,如:/o\{5,\}/匹配至少有5个o的行。
x\{m,n\}
重复字符x,至少m次,不多于n次,如:/o\{5,10\}/匹配5–10个o的行。

6. 实例

删除:d命令
  • $ sed ‘2d’ example—–删除example文件的第二行。
  • $ sed ‘2,$d’ example—–删除example文件的第二行到末尾所有行。
  • $ sed ‘$d’ example—–删除example文件的最后一行。
  • $ sed ‘/test/’d example—–删除example文件所有包含test的行。
替换:s命令
  • $ sed ‘s/test/mytest/g’ example—–在整行范围内把test替换为mytest。如果没有g标记,则只有每行第一个匹配的test被替换成mytest。
  • $ sed -n ‘s/^test/mytest/p’ example—–(-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说,如果某一行开头的test被替换成mytest,就打印它。
  • $ sed ‘s/^192.168.0.1/&localhost/’ example—–&符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加localhost,变成192.168.0.1localhost。
  • $ sed -n ‘s/\(love\)able/\1rs/p’ example—–love被标记为1,所有loveable会被替换成lovers,而且替换的行会被打印出来。
  • $ sed ‘s#10#100#g’ example—–不论什么字符,紧跟着s命令的都被认为是新的分隔符,所以,“#”在这里是分隔符,代替了默认的“/”分隔符。表示把所有10替换成100。
选定行的范围:逗号
  • $ sed -n ‘/test/,/check/p’ example—–所有在模板test和check所确定的范围内的行都被打印。
  • $ sed -n ‘5,/^test/p’ example—–打印从第五行开始到第一个包含以test开始的行之间的所有行。
  • $ sed ‘/test/,/check/s/$/sed test/’ example—–对于模板test和west之间的行,每行的末尾用字符串sed test替换。
多点编辑:e命令
  • $ sed -e ‘1,5d’ -e ‘s/test/check/’ example—–(-e)选项允许在同一行里执行多条命令。如例子所示,第一条命令删除1至5行,第二条命令用check替换test。命令的执行顺序对结果有影响。如果两个命令都是替换命令,那么第一个替换命令将影响第二个替换命令的结果。
  • $ sed –expression=’s/test/check/’ –expression=’/love/d’ example—–一个比-e更好的命令是–expression。它能给sed表达式赋值。
从文件读入:r命令
  • $ sed ‘/test/r file’ example—–file里的内容被读进来,显示在与test匹配的行后面,如果匹配多行,则file的内容将显示在所有匹配行的下面。
写入文件:w命令
  • $ sed -n ‘/test/w file’ example—–在example中所有包含test的行都被写入file里。
追加命令:a命令
  • $ sed ‘/^test/a\\—>this is a example’ example<—–‘this is a example’被追加到以test开头的行后面,sed要求命令a后面有一个反斜杠。
插入:i命令
$ sed ‘/test/i\\new line

————————-‘ example

如果test被匹配,则把反斜杠后面的文本插入到匹配行的前面。

下一个:n命令
  • $ sed ‘/test/{ n; s/aa/bb/; }’ example—–如果test被匹配,则移动到匹配行的下一行,替换这一行的aa,变为bb,并打印该行,然后继续。
变形:y命令
  • $ sed ‘1,10y/abcde/ABCDE/’ example—–把1–10行内所有abcde转变为大写,注意,正则表达式元字符不能使用这个命令。
退出:q命令
  • $ sed ’10q’ example—–打印完第10行后,退出sed。
保持和获取:h命令和G命令
  • $ sed -e ‘/test/h’ -e ‘$G example—–在sed处理文件的时候,每一行都被保存在一个叫模式空间的临时缓冲区中,除非行被删除或者输出被取消,否则所有被处理的行都将打印在屏幕上。接着模式空间被清空,并存入新的一行等待处理。在这个例子里,匹配test的行被找到后,将存入模式空间,h命令将其复制并存入一个称为保持缓存区的特殊缓冲区内。第二条语句的意思是,当到达最后一行后,G命令取出保持缓冲区的行,然后把它放回模式空间中,且追加到现在已经存在于模式空间中的行的末尾。在这个例子中就是追加到最后一行。简单来说,任何包含test的行都被复制并追加到该文件的末尾。
保持和互换:h命令和x命令
  • $ sed -e ‘/test/h’ -e ‘/check/x’ example —–互换模式空间和保持缓冲区的内容。也就是把包含test与check的行互换。

7. 脚本

Sed脚本是一个sed的命令清单,启动Sed时以-f选项引导脚本文件名。Sed对于脚本中输入的命令非常挑剔,在命令的末尾不能有任何空白或文本,如果在一行中有多个命令,要用分号分隔。以#开头的行为注释行,且不能跨行。

8. 小技巧

  • 在sed的命令行中引用shell变量时要使用双引号,而不是通常所用的单引号。下面是一个根据name变量的内容来删除named.conf文件中zone段的脚本:
    name='zone\ "localhost"'
    sed "/$name/,/};/d" named.conf

     

    ===============================

    2012-08-28添加

    取反通过“!”实现:sed -i ‘/^[a-zA-Z]\{3\} Aug/!d’ filename