有一个同事的数据迁移程序有个问题,没有考虑中文编码字符,由于迁移的表有几千万数据,但是有中文的记录集很少,问我能否找出有中文内容的记录数。首先我想到的是采用检测每个字节ASCII的方式,这样的话需要写一个自定义函数,然后SQL中调用得到结果。但是感觉这个方法估计很耗时,毕竟每个字符都要比较,所以没有去实现。突然想到Oracle有一个编码转换的函数叫Convert,如果一个字符串编码转换前后不一样表示字符串里面含有非ASCII字符,这样得到结果。后写出来测试了一下,确实可行,5500万记录10秒钟扫描结束。以下是测试用例:
  select*
  from(select'abcd'c1fromdual
  unionall
  select'ab测试cd'c1fromdual)
  wherec1<>CONVERT(c1,'US7ASCII','ZHS16GBK');
  C1
  --------
  ab测试cd
  CONVERT函数说明:
  CONVERT(inputstring,dest_charset,source_charset)
  inputstring:要转换的字符串
  dest_charset:目标字符集
  source_charset:原字符集