请教如何让 isalpha 正确判断非 ascii 的扩展字符。

poet · 发表于 2008-12-2 10:29:16

阅读 locale 相关知识的时候知道，ctypes.h 中的各种函数都是可以正确识别 locale 的。例如 isalpha。

但是实际应用中我发现 isalpha , isalnum, isgraph 对所有汉字字符均返回假。

于是我查阅了 libc 源代码，最后发现是读取的本机 locale 信息，然后再看该信息，发现中文 locale 的 lc_ctype 已经包含了 i18n，如果仔细阅读 i18n 里面关于 lc_ctype 的定义的话，会发现这里面已经非常完整的定义了所有的 unicode 字符的类别。理论上，是可以正常识别 alpha, graph, upper, lower 等类型判断的。

当然，如果只传一个单字节字符参数给 isalpha 确实不可能获取整个 unicode 代码，那么究竟是如何处理的呢？这块代码宏太多，又涉及到 tsd 那个跨线程库，实在不容易弄懂，看起来固定是读入到某个数组，然而这个数组是怎么生成的，一直没有看懂。我已经 setlocale 到中国了，应该会让 isalpha 返回真才对，是不是呢？

remote fish · 发表于 2008-12-2 12:20:56

试试
man iswalpha

poet · 发表于 2008-12-2 13:09:12

上面的方法确实是可以的。我也知道可行，不过问题在于，如果这么做的话，必须把 utf-8 字符串转换成 wchar 字符串才能处理。这导致了：输入输出是utf-8单字节字符串，内部处理却是wchar字符串。程序中增加太多这种转换显然会显著影响效率。大家是如何处理这个问题的呢？

		自动登录	找回密码
密码			注册