如果想批处理以前下载的一堆文件,把文件里的关键内容用正则匹配出来,集中处理。操作文件时遇到一个问题,就是windows操作系统中的编码问题。本文将带着大家详细探讨此问题。
我们都知道windows中(当然是中文版),文件名和文件内容等编码都是gbk,而我们在开发过程中,IDE里的编码则是UTF-8,(这里不讨论为什么等等问题,只考虑怎么把编码转变成一样的)所以导致我写的UTF-8编码的正则模式字符串中的中文在gbk编码的文件中并不能正确匹配。
一开始,我并没有什么办法,试过把PHP脚本文件的编码也改成GBK,也可以用,但是想到这种方法太low了,所以找一找PHP中有没有函数可以满足我的需求。
这时,我想到了以前在处理windows中的文件名时用的函数iconv(),其函数原型如下:
stringiconv(string$in_charset,string$out_charset,string$str)
Performsacharactersetconversiononthestringstrfromin_charsettoout_charset.
我们常使用:
$out_charset='utf-8';
$fileName=iconv($fileName,$out_charset,'gbk');
来处理文件名,将文件名改从gbk改为UTF-8而内容不变。
手册翻译附加:
- 如果你在输出字符串$out_charset后面添加//TRANSLIT即$out_charset='utf-8//TRANSLIT',在遇到不能转换为UTF-8的字符时,程序会自动替换为一个相似字符的UTF-8字符;
- 如果你在输出字符串$out_charset后面添加//IGNORE即$out_charset='utf-8//IGNORE',在遇到不能转换为UTF-8的字符时,程序会自动跳过这个字符。
- 如果你什么都没加,就在遇到不能替换成UTF-8的字符时,替换会被中断。
但是,我在用这个函数处理时,结果却是这样:
例如strpos()函数,找到一个字符串在另一个字符串中的位置。
strpos("欢迎来访问","问",0)返回的结果是12,因为脚本是UTF-8编码,而将字符串转为UTF-8编码后,每个中文字符会占用3个字节。
而在mb_strpos()函数中,mb_strpos("欢迎来访问","问",0,'utf-8')则会返回4,它会将字符串当作已经转UTF-8的状态执行。
而mb_strpos("欢迎来访问","问",0,'gbk')会返回6
以上就是详解PHP用mb_string处理windows中文字符的详细内容,更多关于PHP用mb_string处理windows中文字符的资料请关注编程学习网其它相关文章!
本文标题为:详解PHP用mb_string处理windows中文字符


- PHP中PDO事务处理操作示例 2022-10-15
- Laravel balde模板文件中判断数据为空方法 2023-08-30
- laravel通用化的CURD的实现 2023-03-17
- 用nohup命令实现PHP的多进程 2023-09-02
- laravel实现按月或天或小时统计mysql数据的方法 2023-02-22
- PHP仿tp实现mvc框架基本设计思路与实现方法分析 2022-10-18
- PHP实现微信支付(jsapi支付)流程步骤详解 2022-10-09
- php微信公众号开发之秒杀 2022-11-23
- windows下9款一键快速搭建PHP本地运行环境的好工具(含php7.0环境) 2023-09-02
- PHP简单实现二维数组的矩阵转置操作示例 2022-10-02