软游网-免费.绿色热门软件一站式下载-高速、纯净、安全、无捆绑

windows语言设置(windows语言设置里面Unicode字符)

时间:2024-10-18 13:25 点击:280 编辑:admin

1. windows语言设置里面Unicode字符

按照Windows的标准处理一个纯文本文件有令人难以想象的复杂度,尤其是打开了自动换行的情况下:

识别编码并转化为Unicode

按换行符将文本拆分成行,每行当作一个段落处理

按照Unicode语义分析文本,将文本按照不同语言分拆成从左到右和从右到左的段。这一步是比较复杂的,某些语言在字符串当中是abcdefg的顺序,但显示的时候必须从右到左显示为gfedcba,但是如果再中间换了行,比如在d的后面换行,又要变成dcba \n gfe……而且,按照规范,从左到右的文本中可以嵌入从右到左的文本,从右到左的文本又能嵌入从左到右的文本,这个嵌入还是可以嵌套的,比如最外层是从左到右,里面有一段文字是从右到左,这个从右到左的文字里面又嵌入了从左到右的词……

将每个从左到右或者从右到左的段进一步进行语义分析,找出:字符边界(部分连续的多个Unicode字符是不可拆分的,比如字符与上面的注音符号,选择文本的时候只能选到字符边界,不能选进字符里);可以换行的断点;可以分词的断点(在编辑器中双击一个字符会选中词,对英文就是按空格,对中文一般就是选中单字);定宽的空格;不定宽的空格等等。这个过程对不同的语言有完全不同的处理方式,需要按照字符选择相应语言的处理方法。

尝试将文本转换为符号(Glyphs)。Unicode字符到符号的映射并不是一一对应的,对于某些语言来说,字符的上下文会影响字符的显示,让字符显示为完全不同的样子;符号的排布并不是简单的从左到右按顺序,某些字符需要在之前字符的基础上调整位置(比如上下标,注音符号,还有泰语里面那个会飞出去的字符)从右到左的文本也会有影响,在处理时会将符号逆序,统一处理成从左往右。 这一步对于自动换行的程序来说要更复杂一些,不过事实上所有的文本编辑器都自动换行,区别只是打开自动换行的时候换行按照当前视口的宽度,而关闭的时候按照一个固定的最大宽度(你可以尝试在记事本里面输入非常多的字符,你会发现最终还是换行了的)。对于自动换行的程序来说,不能一次性转换成符号然后判断宽度,因为不同的输入内容可能导致不同的符号输出,而且混排从右到左和从左到右的情况下,换行会导致符号顺序发生严重的变化,因此唯一可靠的方法是按照前一步找出的所有可以换行的断点分别尝试,直到得到的符号总宽度超过行宽为止。在前一个断点将文本拆开换行。如果第一个可以换行的断点就超出宽度了,还需要再尝试从词或者字的边界换行。

处理对齐。文本显示有左对齐、右对齐、中间对齐、两端对齐四种主流的方式,如果最外层文本从右到左显示一般基础是右对齐,否则是左对齐,内部嵌入的文本不影响对齐方式。前三种相对处理起来容易,两端对齐就要用到前面计算出的定宽空格和不定宽空格的问题了:在某些语言中,某些空格必须是固定的宽度,不能变得更宽,而某些空格允许在两端对齐的时候增加宽度,在两端对齐的时候,必须只加宽那些可以变宽的空格,而不加宽那些不能变宽的空格。

渲染文字。按照符号和字体,将字体里的图画出来,变成图像。字体可能按不同字号有不同的绘制方法,还有抗锯齿、ClearType等处理,不再细说。

计算行高。相对简单,一般按照字体、字号折算一下就行了。

即便如此,我们还是有必要指出:对于现代的文本编辑器,即使是Windows 10的记事本,也能瞬间打开一个几兆的文本文件,这主要还是算法优化的效果,以前旧版本总是会尝试一次把所有的文本都渲染出来,自然就比较慢。而且以前的GDI接口也比较慢。

2. unicode格式的字符

Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。

Unicode影响到了电脑工业的每个部分,但也许会对作业系统和程式设计语言的影响最大。从这方面来看,我们已经上路了。WindowsNT从底层支援Unicode。

目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(AmericanStandardCodeforInformationInterchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。

Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符,比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制,2的16次方等于65536,所以UCS-2最多能编码65536个字符。编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97,对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的,简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符

3. 怎么设置unicode

Unicode或者宽字符都没有改变char数据型态在C中的含义。char继续表示1个字节的储存空间,sizeof (char)继续返回1。理论上,C中1个字节可比8位长,但对我们大多数人来说,1个字节(也就是1个char)是8位宽。 C中的宽字符基于wchar_t数据型态,它在几个表头文件包括WCHAR.H中都有定义,像这样:

typedef unsigned short wchar_t ; 因此,wchar_t数据型态与无符号短整数型态相同,都是16位宽。 要定义包含一个宽字符的变量,可使用下面的语句:

wchar_t c = 'A' ; 变量c是一个双字节值0x0041,是Unicode表示的字母A。(然而,因为Intel微处理器从最小的字节开始储存多字节数值,该字节实际上是以0x41、0x00的顺序保存在内存中。如果检查Unicode文字的计算机储存应注意这一点。)

您还可定义指向宽字符串的指针:

wchar_t * p = L"Hello!" ; 注意紧接在第一个引号前面的大写字母L(代表「long」)。

这将告诉编译器该字符串按宽字符保存-即每个字符占用2个字节。通常,指针变量p要占用4个字节,而字符串变量需要14个字节-每个字符需要2个字节,末尾的0还需要2个字节。

同样,您还可以用下面的语句定义宽字符数组:

static wchar_t a[] = L"Hello!" ; 该字符串也需要14个字节的储存空间,sizeof (a) 将返回14。索引数组a可得到单独的字符。a[1] 的值是宽字符「e」,或者0x0065。 虽然看上去更像一个印刷符号,但第一个引号前面的L非常重要,并且在两个符号之间必须没有空格。只有带有L,编译器才知道您需要将字符串存为每个字符2字节。

稍后,当我们看到使用宽字符串而不是变量定义时,您还会遇到第一个引号前面的L。幸运的是,如果忘记了包含L,C编译器通常会给提出警告或错误信息。

您还可在单个字符文字前面使用L前缀,来表示它们应解释为宽字符。如下所示:

wchar_t c = L'A' ; 但通常这是不必要的,C编译器会对该字符进行扩充,使它成为宽字符。

4. win10 unicode中文设置

在电脑中用记事本打开,然后文件--另存为,在弹出的对话框的下页的编码中选择unicode编码即可。

5. 显示unicode控制字符

先用电脑,建立一个笔记本,然后在里面点击右键,点击插入unicode控制字符,然后选择从上到下第7个,会出现一个黑框,用电脑复制,然后登陆网页版,粘贴发给手机上面,然后在手机复制,在微信上边粘贴,然后保存即可。

6. unicode控制字符使用方法

QQ设置空白昵称的方法:

所需材料:文本文档、电脑QQ。

一、桌面点击右键,点击“新建”,然后点击“文本文档”。

二、打开新建的文档。

三、文档内点击右键,选择“插入Unicode控制字符”,然后点击“LRO”。

四、全选插入的字符,这里能够看到光标“红蓝闪烁”代表插入成功,然后Ctrl+C键复制。

五、点击QQ个人头像。

六、点击“编辑资料”。

七、清空当前昵称,使用Ctrl+V键粘贴。

八、最后点击“确定”即可设置为空白昵称。

7. windows unicode

Unicode是一种可能的宽字符集。由 Unicode 协会开发的能表示几乎世界上所有书写语言的字符编码标准。Unicode 字符清单有多种代表形式,包括 UTF-8、UTF-16 和 UTF-32。大多 Windows 界面使用 UTF-16。 Unicode 传输格式 8 (UTF-8) 在 ASCII 码基础上发展的协议字符设置。

UTF-8 协议提供 ASCII 码的扩展支持,UCS-2 码的翻译,国际 16 进制 Unicode 编码字符设置。

与使用字符数据的 ASCII 或扩展 ASCII 编码相比,UTF-8 可获得更大范围的名称。 Unicode 字符系统 (UCS) 作为 Unicode 标准一部分的国际标准字符集参考。现在广泛使用的 UCS 标准的版本是 UCS-2,该版本指定的 16 位字符数值已作为世界上大多数语言的编码标准而被接受,并得到了承认。 直接选unicode就可以了。 如果没有特殊字符,ansi保存也没事。

8. 电脑非unicode语言设置

提供一个我自己试过有效的方法,win10系统,在控制面板-区域-管理选项卡下,有一个"非Unicode程序使用的语言",设置成日语,重启计算机,文件名就不是乱码了。不需要对文件名本身作任何改动。

另外这样处理之后不仅文件名没有乱码了,各种日文软件和文档也可以不需要转区软件直接打开,日文显示正常。

9. windows unicode编码

Unicode13.0中收入的汉字大约93000字左右

BabelStone Han显示CJK 基本区加上A-G区大概92856字,另外仍然有一千多人名地名用汉字没有收入Unicode。

它不能表示所有的汉字。汉字的数量是极大的。统一码只能表示很少一部分。

比如biangbiang面的biang就表示不出来。

10. 实现字符的unicode编码方式与windows

java中将unicode码转换成汉字的方式是直接使用string类型,打印即可:企业Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。

11. unicode设置简体中文

你可以通过安装语言包的方式来修改默认语言。

步骤:

1. 通过控制面板打开“语言”

2. 在更改语言首选项中点击“添加语言”

3. 找到简体中文点击“打开”,选择您想要添加的简体中文版本点击“添加”

4. 在所选语言的右侧点击“选项” ,在windows 显示语言中点击“下载并安装语言包”

5. 等待语言包下载并安装完成

6. 返回第四步,打开选项,在windows 显示语言中点击“使该语言成为主要语言”,然后注销电脑即可 如果在使用过程中出现文字乱码,您可以在区域中修改非Unicode程序语言,修改为“中文(简体)”即可。

相关阅读