这是最精彩的Unicode“好东西”以及软件包和资源的更新列表。

Unicode很棒！在它出现之前，国际交流就已经精疲力尽：每个人都在ASCII的上半部分（即所谓的代码页）中定义了自己的扩展字符集。这造成了冲突。试想一下，德国人必须与韩国人进行谈判，其代码页在哪里。幸运的是，Unicode出现并引入了一个通用标准。 Unicode 8.0包含来自129多个脚本的120,000个字符。无论是现代的还是古代的，仍然没有被解密。 Unicode支持从左到右和从右到左的文本，覆盖字符，并包括各种文化，政治，宗教符号和表情符号。 Unicode非常人性化，其功能被大大低估了。

目录内容

简要介绍

Unicode标准中包含哪些字符？

Unicode标准定义了主要现代语言中字符的代码。这些是欧洲字母脚本，从右到左的中东脚本以及许多亚洲脚本。

该标准还包含标点符号，变音符号，数学符号，技术符号，箭头，装饰符号，表情符号等。它为变音符号提供了更改字符符号的代码，例如波浪号（〜）。它们与基本字符结合使用以表示重音字符（例如ñ）。通常，Unicode版本9.0提供了来自世界字母表，表意文字集和字符集的128,172个字符的代码。

最常见的字符放置在前64K代码点中，这是代码空间的一个区域，称为主多语言平面，简称BMP。还有其他十六种其他平面可用于编码其他字符，其中有超过850,000个未使用的代码点。他们可能会派上用场，以便在将来的标准版本中添加新字符。

Unicode标准还保留了代码点供私人使用。供应商或最终用户可以在自己的系统中为其字符指定字符，或将它们与专用字体一起使用。如果6400不足以用于特定应用，则BMP具有6400个供私人使用的代码点和131068个供私人使用的其他代码点。

Unicode字符编码

字符编码标准不仅确定每个字符的标识及其数字值或代码点，还确定如何以位表示此值。

Unicode标准定义了三种编码形式，它们允许传输相同的数据：一个字节，一个字和一个双字（即，每单位代码8、16或32位）。所有这三种形式都编码相同的公共字符集，并且可以有效地相互转换而不会丢失数据。 Unicode协会完全认可使用这些编码形式中的任何一种作为实现Unicode标准的公认方式。

UTF-8在HTML和类似协议中很流行。 UTF-8是将所有Unicode字符转换为可变字节长度编码的一种方式。它的优点是，与熟悉的ASCII集相对应的Unicode字符具有与ASCII相同的字节值，并且转换为UTF-8的Unicode字符可以与许多现有软件一起使用，而无需进行重大软件修改。

UTF-16在许多需要平衡对字符的有效访问与经济存储之间的环境中很流行。它非常紧凑，所有常用字符都放在一个16位代码块中，而其他所有字符都可以通过成对的16位代码块使用。

UTF-32在不考虑内存量但需要访问单个固定宽度代码中的字符的情况下很有用。在这里，每个Unicode字符都被编码在单个32位代码块中。

所有三种编码形式的每个字符都要求不超过4个字节（或32位）。

谈论数字

Unicode字符集分为17个主要段（平面），这些主要段又分为块。在每个平面中都有65 536（2 ¹⁶ ）个代码点的位置，总共创建了1,114,112个代码点。公司/用户自行决定分配两个“专用平面”（第16号和第17号）以供使用。它们具有131,072个代码点。

不行	职称	射程
1。	主多语种飞机	（从U + 0000到U + FFFF）
2。	额外的多语种飞机	（从U + 10000到U + 1FFFF）
3。	附加表意平面	（从U + 20,000到U + 2FFFF）
4。	第三表意平面	（从U + 30000到U + 3FFFF）
5，	飞机5（未使用）	（从U + 40,000到U + 4FFFF）
6。	飞机6（未使用）	（从U + 50,000到U + 5FFFF）
7	飞机7（未使用）	（从U + 60,000到U + 6FFFF）
8。	平面8（未使用）	（从U + 70,000到U + 7FFFF）
9。	飞机9（未使用）	（从U + 80,000到U + 8FFFF）
10。	飞机10（未使用）	（从U + 90,000到U + 9FFFF）
11。	平面11（未使用）	（从U + A0000到U + AFFFF）
12	平面12（未使用）	（从U + B0000到U + BFFFF）
13	平面13（未使用）	（从U + C0000到U + CFFFF）
14。	平面14（未使用）	（从U + D0000到U + DFFFF）
15	专门的附加飞机	（从U + E0000到U + EFFFF）
16。	私人区域-A	（从U + F0000到U + FFFFF）
17。	私人私人空间-B	（从U + 100000到U + 10FFFF）

第一个平面称为主多语言平面或BMP。它包含从U + 0000到U + FFFF的代码点，即最常用的字符。其余的十六个平面（U + 010000→U + 10FFFF）被称为附加或星空。

代理对UTF-16

主平面外部的符号（如表示中心的四卦符号（U + 1D306））可以用仅两个16位代码单元的UTF-16编码：0xD834 0xDF06。这称为代理对。请注意，代理对仅代表一个字符。

代理对的第一个代码单元始终在0xD800到0xDBFF的范围内，被称为对的第一部分。

代理对的第二个代码单元始终在0xDC00到0xDFFF的范围内，被称为该对的底部。

马蒂亚斯·比恩斯（Matthias Binens）

代理对：一个抽象符号的表示形式，由两个16位代码单元的序列组成，其中该对的第一个值是顶部代理代码单元，第二个是较低代理代码单元。代理对仅在UTF-16中使用。

Unicode 8.0第3.8章-替代

代理对的计算

UTF-16中的Unicode字符“堆屎”（U + 1F4A9）必须编码为一个代理对，即两个代理。要将任何代码点转换为代理对，请使用此算法（在JavaScript中）。请记住，我们使用十六进制表示法。

var High_Surrogate = function(Code_Point){ return Math.floor((Code_Point - 0x10000) / 0x400) + 0xD800 }; var Low_Surrogate = function(Code_Point){ return (Code_Point - 0x10000) % 0x400 + 0xDC00 }; // Reverses The Conversion var Code_Point = function(High_Surrogate, Low_Surrogate){ return (High_Surrogate - 0xD800) * 0x400 + Low_Surrogate - 0xDC00 + 0x10000; };

组成与分解

Unicode包含一种更改字符形状的机制，该机制大大扩展了支持的字形集。这适用于可组合变音符号。它们被插入到主角之后。多个变音标记可以应用于同一标记。 Unicode还包含大多数此类组合的预编译版本，以供正常使用。

某些字符序列也可以表示为单个字符，称为预组合字符，也称为复合字符。例如，可以将字符[ü]编码为唯一的代码点U + 00FC或基本字符U + 0075（u），然后再编码为非独立字符U + 0308（¨）。 Unicode标准对复合字符进行编码，以与既定标准兼容，例如Latin 1，其中包括许多复合字符，例如[ü]和[ñ]。

可以扩展复合字符以进行一致性或分析。例如，当按字母顺序排序时，符号[ü]可以分解为[u]，后跟非独立符号[¨]。经过这样的分解，该算法更易于处理一系列字符。这使得在字符修饰符不影响字母顺序的语言中更容易进行排序。 Unicode标准设置所有复合字符的分解顺序。它还定义了规范化形式以提供字符的唯一表示形式。

Unicode神话

摘自Mark Davis的幻灯片“ Unicode的神话” 。

Unicode只是16位代码 。 -有些人错误地认为Unicode只是一个16位代码，其中每个字符占用16位，因此有65,536个可能的字符。实际上，这并非完全正确。这是最常见的Unicode神话，因此如果您之前也这么认为，请不要气disc。
您可以采用未满足您需求的任何代码点 。 -不总有一天，这个地方会被另一个符号代替。取而代之的是，将飞机用于私人用途，或者在每个飞机上没有字符的区域中，根据标准，这些字符将不包含字符。
每个Unicode代码点代表一个字符 。 -不有很多不带字符的点（FFFE，FFFF，1FFFE等），此外，还包括替代代码点，私有和未使用的代码点，以及控制/格式化“字符”（RLM，ZWNJ等）。
Unicode空间不足 。 -如果线性填充，它将在2140年结束。但是该位置不是线性填充的。将来的计划请看这里。
所有字符都一一对应 。 -不选项包括：
- 一对多：（β→SS）
- 给定上下文：（...Σ←→...ς并同时...ΣΤ...←→...στ...）
- 根据语言环境：（I←→ı，同时İ←→i）

Unicode应用程序编码

编码类型	例子
HTML对象（十进制）
HTML对象（十六进制）
URL控制码	％F0％9F％96％96
UTF-8（十六进制）	0xF0 0x9F 0x96 0x96（f09f9696）
UTF-8（二进制）	11110000：10011111：10010110：10010110
UTF-16 / UTF-16BE（十六进制）	0xD83D 0xDD96（d83ddd96）
UTF-16LE（十六进制）	0x3DD8 0x96DD（3dd896dd）
UTF-32 / UTF-32BE（十六进制）	0x0001F596（0001f596）
UTF-32LE（十六进制）	0x96F50100（96f50100）
八进制转义序列	\ 360 \ 237 \ 226 \ 226

源代码

编码类型	例子
Java脚本	\ u1F596
杰森	\ u1F596
ç	\ u1F596
C ++	\ u1F596
爪哇	\ u1F596
巨蟒	\ u1F596
佩尔	\ x {1F596}
红宝石	\ u {1F596}
的CSS	\ 01F596

令人惊叹的角色列表。

从U + 202a到U + 202e的管理人员的安排越来越混乱，共享文档可以迅速将编辑变成书面说唱战

特殊字符

Unicode联盟已发布了通用标点图，您可以在其中找到更多信息。

记号	职称	内容描述
`''`	U + FEFF零宽度的不间断空间（字节顺序标记-BOM）	更改字节顺序时，它具有唯一性的重要属性。它还具有零宽度和不可见性。在不合适的软件（例如PHP解释器）中，这会导致各种有趣行为的示例。
`'￯'`	'\ uFFEF'反向BOM	除文本开头外，不等于字符。
`''`	'\ u200B'零宽度的不间断空间	除防止结扎外，无外观，无作用的符号。
`' '`	U + 00A0不间断空间	使相邻字符粘在一起。众所周知在HTML中。
`''`	U + 00AD软连字符	在HTML中，它的工作方式类似于零宽度的空间，但是当遇到行尾时（仅在这种情况下）会显示连字符。
`'‍'`	U + 200D零宽度符号（带并集）	使相邻字符连接（例如，阿拉伯字符或受支持的表情符号）。可用于顺序组合的表情符号。
`'⁠'`	U + 2060字连接器	与U + 00A0相同，但完全不可见。适用于Twitter上的@ font-face。
`' '`	U + 1680 Ogham空格字符	标记一个看起来像破折号的空间。非常适合使程序员更接近疯狂：1 + 2 === 3。
`';'`	U + 037E希腊问号	看起来像分号。也是吸引开发人员的一种有趣方式。
`'‭'`	U + 202D	从左到右更改文本的方向。
`'‮'`	U + 202E	从右到左更改文本的方向。
`'ꓸ'`	U + A4F8 su字母音符	加倍。
`'ꓹ'`	U + A4F9 su字母音na po	加倍逗号。
`'ꓼ'`	U + A4FC Lisu字母音韵	双分号。
`'ꓽ'`	U + A4FD Lisu字母音mya jeu	加倍冒号。
`'︀'`	选项选择器（从U + FE00到U + FE0F，从U + E0100到U + E01EF）	具有ID_Continue属性的零宽度的256个字符的块，即可以在变量名（不是第一个字母）中使用。使它们与众不同的是，鼠标光标经过它们，因为它们结合了字符，这与大多数其他零宽度字符不同。
`'ᅟ'`	U + 115F占位符Hangul Choson	本质上填补了空间。渲染为零宽度字符（不可见），除非在渲染中明确支持。标记为ID_Start
`'ᅠ'`	U + 1160占位符Chunson	也许充满空间？渲染为零宽度字符（不可见），除非在渲染中明确支持。标记为ID_Start
`'ㅤ'`	U + 3164韩文聚合	通常，它会填充空间。渲染为零宽度字符（不可见），除非在渲染中明确支持。标记为ID_Start

等等...我刚刚读了什么？

变量标识符可以包含空格！

U + 3164 Hangul占位符显示为宽空格。如果在渲染中显然不支持该字符，则该字符将显示为完全不可见（并且不占用空间，即“零宽度”）。这意味着您将永远不会看到丑陋的字符替换字符（）。

我还不确定为什么要指示U + 3164以这种方式运行。有趣的是，U + 3164在1.1版（1993年）中添加到Unicode中-因此，联盟专家有很多时间来考虑它。无论如何，这里有一些例子。

 > var ᅟ = 'foo'; undefined > ᅟ 'foo' > var ㅤ= alert; undefined > var foo = 'bar' undefined > if ( foo ===ㅤ`baz` ){} // alert undefined > var varㅤfooㅤ\u{A60C}ㅤπ = 'bar'; undefined > varㅤfooㅤꘌㅤπ 'bar'

**注：**我在Ubuntu和OS X上使用以下参数测试了U + 3164渲染：`node`，`php`，`ruby`，`python3.5`，`scala`，`vim`，`cat` ，`chrome` +`github gist'。 Atom是唯一失败（错误地）显示空白字段的系统。我尚未检查Emacs和Sublime中的代码。据我了解，Unicode联盟不会重新分配或重命名字符或代码点，但是可以说服它更改字符的属性，例如ID_Start和ID_Continue。

修饰符

零宽度组合器（ZWJ）是计算机中某些复杂字体（例如阿拉伯语或任何印度字体）中的不可打印字符。当ZWJ放置在否则无法连接的两个字符之间时，将强制它们以组合形式打印。

零宽度隔离器（ZWNJ）是带有连字的基于计算机的书写集中的不可打印字符。当放置在两个本来要连字的字符之间时，ZWNJ会强制它们分别以最终形式和原始形式打印。充当空格，但在需要使单词彼此靠近或将单词与其词素结合在一起时使用。

 > 'a' "a" > 'a\u{0308}' "ä" > 'a\u{20DE}\u{0308}' "a⃞̈" > 'a\u{20DE}\u{0308}\u{20DD}' "a⃞̈⃝" // Modifying Invisible Characters > '\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}' "‎‎‎‎‎‎‎‎‎‎" > '\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}\u{200E}'.length 10

大写变换冲突

记号	代码点	结果
ß	0x00DF	`SS`
ı	0x0131	`I`
ſ	0x017F	`S`
ﬀ	0xFB00	`FF`
科幻	0xFB01	`FI`
ﬂ	0xFB02	`FL`
ﬃ	0xFB03	`FFI`
ﬄ	0xFB04	`FFL`
ﬅ	0xFB05	`ST`
ﬆ	0xFB06	`ST`

小写转换冲突

记号	代码点	结果
ķ	0x212A	`k`

怪癖和故障排除

线长通常由代码点数决定 。这意味着代理对将被视为两个字符。几个变音符号可以叠加在一个符号上： a + ̈ == ̈a 。这增加了字符串的长度，仅产生一个字符。
同样，字符串倒置通常成为一项不平凡的任务 。同样，代理对和变音符号应一起反转。 ES Reverser提供了一个很好的解决方案。

大写和小写比较并不总是匹配 。它们可以用以下关系表示：

一对多：（ß→SS）
给定上下文：（...Σ←→...ς和...ΣΤ...←→...στ...）
基于语言环境：（I←→ı和İ←→i）

一对多比较

下面的大多数字符以大写形式表示它们的一对多映射，以小写形式表示其他字符。原则上，列表可以分为两部分。

代码点	记号	职称	相关角色	关联代码点
U + 00DF	`ß`	拉丁小写护送（S急性）	`s`	U + 0073，U + 0073
U + 0130	`İ`	拉丁大写字母“ I”上方带有点	`i` ，	U + 0069，U + 0307
U + 0149	`ŉ`	前一个撇号的拉丁小写字母“ n”	`ʼ`	U + 02BC，U + 006E
U + 01F0	`ǰ`	拉丁小写字母j	，	U + 006A，U + 030C
U + 0390	`ΐ`	希腊小写的iota，带有透析和tonos。	`ι` ， `̈` ，	U + 03B9，U + 0308，U + 0301
U + 03B0	`ΰ`	希腊小写字母ipsilon，带有透析和tonos。	`υ` ， `̈` ，	U + 03C5，U + 0308，U + 0301
U + 0587	`և`	亚美尼亚小写字母ech yiwn	`ե` ， `ւ`	U + 0565，U + 0582
U + 1E96	`ẖ`	拉丁小写字母h在下面一行	，	U + 0068，U + 0331
U + 1E97	`ẗ`	带反渗透的拉丁小写字母t	，	U + 0074，U + 0308
U + 1E98	`ẘ`	带环的拉丁文小写字母w	，	U + 0077，U + 030A
U + 1E99	`ẙ`	带圆环的拉丁文小写字母y	`y`	U + 0079，U + 030A
U + 1E9A	`ẚ`	拉丁小写字母a，右半边	，	U + 0061，U + 02BE
U + 1E9E	`ẞ`	拉丁大写字母A	`s`	U + 0073，U + 0073
U + 1F50	`ὐ`	带有psil的希腊小写字母ipsilon	，	U + 03C5，U + 0313
U + 1F52	`ὒ`	希腊小写字母ipsilon与psili和varia	`υ` ， `̓` ，	U + 03C5，U + 0313，U + 0300
U + 1F54	`ὔ`	希腊小写字母ipsilon与psily和oxy	`υ` ， `̓` ，	U + 03C5，U + 0313，U + 0301
U + 1F56	`ὖ`	希腊小写字母ipsilon，带有psily和Perisome	`υ` ， `̓` ，	U + 03C5，U + 0313，U + 0342
U + 1F80	`ᾀ`	希腊小写字母alpha与psili和ipogemen	`ἀ` ， `ι`	U + 1F00，U + 03B9
U + 1F81	`ᾁ`	希腊小写字母alpha与dasia和ipogemen	`ἁ` ， `ι`	U + 1F01，U + 03B9
U + 1F82	`ᾂ`	希腊小写字母alpha与psilia，varia和ipogemen	`ἂ` ， `ι`	U + 1F02，U + 03B9
U + 1F83	`ᾃ`	希腊小写字母alpha与dasia和varia和ipogemen	`ἃ` ， `ι`	U + 1F03，U + 03B9
U + 1F84	`ᾄ`	希腊小写字母alpha与psily和oxy和ipogemen	`ἄ` ， `ι`	U + 1F04，U + 03B9
U + 1F85	`ᾅ`	希腊小写字母alpha与dasia和oxy和ipogemen	`ἅ` ， `ι`	U + 1F05，U + 03B9
U + 1F86	`ᾆ`	希腊小写字母alpha，与psily，perospomenti和ipogemen	`ἆ` ， `ι`	U + 1F06，U + 03B9
U + 1F87	`ᾇ`	希腊小写字母alpha与dasia，perospomenti和hypogrammen	`ἇ` ， `ι`	U + 1F07，U + 03B9
U + 1F88	`ᾈ`	希腊大写字母alpha与psil和programmen	`ἀ` ， `ι`	U + 1F00，U + 03B9
U + 1F89	`ᾉ`	希腊大写字母Alpha与Dasia和Programmen	`ἁ` ， `ι`	U + 1F01，U + 03B9
U + 1F8A	`ᾊ`	希腊大写字母alpha与psilia和varia和程序	`ἂ` ， `ι`	U + 1F02，U + 03B9
U + 1F8B	`ᾋ`	希腊大写字母alpha与达西亚和瓦里亚和编	`ἃ` ， `ι`	U + 1F03，U + 03B9
U + 1F8C	`ᾌ`	希腊大写字母alpha与psily和oxy和prog	`ἄ` ， `ι`	U + 1F04，U + 03B9
U + 1F8D	`ᾍ`	希腊大写字母alpha与dasia和oxy和programmen	`ἅ` ， `ι`	U + 1F05，U + 03B9
U + 1F8E	`ᾎ`	希腊大写字母alpha，与psily和perspomenti和programmeny	`ἆ` ， `ι`	U + 1F06，U + 03B9
U + 1F8F	`ᾏ`	希腊大写字母Alpha与Dasia，Perospomenti和Progs	`ἇ` ， `ι`	U + 1F07，U + 03B9
U + 1F90	`ᾐ`	希腊小写字母，带psily和ipogemen	`ἠ` ， `ι`	U + 1F20，U + 03B9
U + 1F91	`ᾑ`	希腊小写字母A，带有Dasia和ipogemen	`ἡ` ， `ι`	U + 1F21，U + 03B9
U + 1F92	`ᾒ`	希腊小写字母，带有psilia，varia和ipogemen	`ἢ` ， `ι`	U + 1F22，U + 03B9
U + 1F93	`ᾓ`	希腊小写字母eta带有大洋和varia和ipogemen	`ἣ` ， `ι`	U + 1F23，U + 03B9
U + 1F94	`ᾔ`	希腊小写字母A，带有psilia和oksia和ipogemen	`ἤ` ， `ι`	U + 1F24，U + 03B9
U + 1F95	`ᾕ`	希腊小写字母eta与大洋洲，oksia和ipogemen	`ἥ` ， `ι`	U + 1F25，U + 03B9
U + 1F96	`ᾖ`	希腊文小写字母，包含psily，perospomenti和ipogemen	`ἦ` ， `ι`	U + 1F26，U + 03B9
U + 1F97	`ᾗ`	希腊小写字母eta与dasia和perisopmenti和hypogrammen	`ἧ` ， `ι`	U + 1F27，U + 03B9
U + 1F98	`ᾘ`	希腊大写字母，带psilah和programms	`ἠ` ， `ι`	U + 1F20，U + 03B9
U + 1F99	`ᾙ`	希腊大写字母与Dasia和程序员	`ἡ` ， `ι`	U + 1F21，U + 03B9
U + 1F9A	`ᾚ`	希腊大写字母，包括psilia，varia和prosgrammemeny	`ἢ` ， `ι`	U + 1F22，U + 03B9
U + 1F9B	`ᾛ`	希腊大写字母，带有dasia，varia和prosgrammemeny	`ἣ` ， `ι`	U + 1F23，U + 03B9
U + 1F9C	`ᾜ`	希腊大写字母与psilia和oxy	`ἤ` ， `ι`	U + 1F24，U + 03B9
U + 1F9D	`ᾝ`	希腊大写字母与dasia和oksia及程序员	`ἥ` ， `ι`	U + 1F25，U + 03B9
U + 1F9E	`ᾞ`	希腊大写字母，带有psily和骨刺性和程序性	`ἦ` ， `ι`	U + 1F26，U + 03B9
U + 1F9F	`ᾟ`	希腊大写字母，包括“ dasia”，“ peripospomenti”和“ programmen”	`ἧ` ， `ι`	U + 1F27，U + 03B9
U + 1FA0	`ᾠ`	希腊小写字母欧米茄与psili和ipogemen	`ὠ` ， `ι`	U + 1F60，U + 03B9
U + 1FA1	`ᾡ`	希腊小写字母欧米茄与dasia和ipogemen	`ὡ` ， `ι`	U + 1F61，U + 03B9
U + 1FA2	`ᾢ`	希腊小写字母欧米茄与psilia，varia和ipogemen	`ὢ` ， `ι`	U + 1F62，U + 03B9
U + 1FA3	`ᾣ`	希腊小写字母欧米茄，带有dasia和varia和ipogemen	`ὣ` ， `ι`	U + 1F63，U + 03B9
U + 1FA4	`ᾤ`	希腊小写字母Ω与psily和oxy和ipogemen	`ὤ` ， `ι`	U + 1F64，U + 03B9
U + 1FA5	`ᾥ`	希腊小写字母欧米茄，带有dasia和oxy和ipogemen	`ὥ` ， `ι`	U + 1F65，U + 03B9
U + 1FA6	`ᾦ`	希腊小写字母Ω与psily，骨膜和ipogemen	`ὦ` ， `ι`	U + 1F66，U + 03B9
U + 1FA7	`ᾧ`	希腊小写字母欧米茄，带有dasia和periposmenti和hypogrammemen	`ὧ` ， `ι`	U + 1F67，U + 03B9
U + 1FA8	`ᾨ`	希腊大写字母omega与psili和程序	`ὠ` ， `ι`	U + 1F60，U + 03B9
U + 1FA9	`ᾩ`	希腊大写字母Omega与Dasia和Programmen	`ὡ` ， `ι`	U + 1F61，U + 03B9
U + 1FAA	`ᾪ`	希腊大写字母omega带有psilia，varia和prosgrammemeny	`ὢ` ， `ι`	U + 1F62，U + 03B9
U + 1FAB	`ᾫ`	希腊大写字母Omega，带有dasia和varia和programmen	`ὣ` ， `ι`	U + 1F63，U + 03B9
U + 1FAC	`ᾬ`	希腊大写字母Ω与psilia和oxy和progamemen	`ὤ` ， `ι`	U + 1F64，U + 03B9
U + 1FAD	`ᾭ`	希腊大写字母omega，带有大洋洲和oksia和programmen	`ὥ` ， `ι`	U + 1F65，U + 03B9
U + 1FAE	`ᾮ`	希腊大写字母omega，带有psily，perospomenti和prosgrammemeny	`ὦ` ， `ι`	U + 1F66，U + 03B9
U + 1FAF	`ᾯ`	希腊大写字母omega，带有dasia，perospomenti和prosgrammemeny	`ὧ` ， `ι`	U + 1F67，U + 03B9
U + 1FB2	`ᾲ`	希腊小写字母alpha与varia和ipogemen	`ὰ` ， `ι`	U + 1F70，U + 03B9
U + 1FB3	`ᾳ`	带ogogerammeni的希腊小写字母alpha	，	U + 03B1，U + 03B9
U + 1FB4	`ᾴ`	希腊小写字母alpha与oxy和ipogemen	`ά` ， `ι`	U + 03AC，U + 03B9
U + 1FB6	`ᾶ`	希腊小写字母alpha与perospomenti	，	U + 03B1，U + 0342
U + 1FB7	`ᾷ`	希腊小写字母alpha与perospomenti和ipogemen	`α` ， `͂` `ι`	U + 03B1，U + 0342，U + 03B9
U + 1FBC	`ᾼ`	希腊大写字母alpha与编	，	U + 03B1，U + 03B9
U + 1FC2	`ῂ`	希腊小写字母et与varia和ipogemen	`ὴ` ， `ι`	U + 1F74，U + 03B9
U + 1FC3	`ῃ`	希腊小写字母a与ipogemen	`η`	U + 03B7，U + 03B9
U + 1FC4	`ῄ`	希腊文小写字母eta与oxy和ipogemen	，	U + 03AE，U + 03B9
U + 1FC6	`ῆ`	希腊文小写字母a与大括号	`η`	U + 03B7，U + 0342
U + 1FC7	`ῇ`	希腊小写字母a，与perospomenti和ipogemen	`η` ， `͂` `ι`	U + 03B7，U + 0342，U + 03B9
U + 1FCC	`ῌ`	希腊大写字母与编	`η`	U + 03B7，U + 03B9
U + 1FD2	`ῒ`	希腊小写字母iota带有透析和可变参数	`ι` ， `̈` ，	U + 03B9，U + 0308，U + 0300
U + 1FD3	`ΐ`	希腊小写的iota带有透析和氧气	`ι` ， `̈` ，	U + 03B9，U + 0308，U + 0301
U + 1FD6	`ῖ`	希腊小写的iota与骨膜	，	U + 03B9，U + 0342
U + 1FD7	`ῗ`	希腊小写字母iota具有透析和时期	`ι` ， `̈` ，	U + 03B9，U + 0308，U + 0342
U + 1FE2	`ῢ`	希腊小写字母ipsilon与透析和变异性。	`υ` ， `̈` ，	U + 03C5，U + 0308，U + 0300
U + 1FE3	`ΰ`	希腊小写字母ipsilon，带有透析和氧气。	`υ` ， `̈` ，	U + 03C5，U + 0308，U + 0301
U + 1FE4	`ῤ`	希腊小写rho与psili	，	U + 03C1，U + 0313
U + 1FE6	`ῦ`	希腊小写字母ipsilon与骨膜	`υ`	U + 03C5，U + 0342
U + 1FE7	`ῧ`	希腊小写字母ipsilon，带有透析和句号	`υ` ， `̈` ，	U + 03C5，U + 0308，U + 0342
U + 1FF2	`ῲ`	希腊小写字母omega与varia和ipogemen	`ὼ` ， `ι`	U + 1F7C，U + 03B9
U + 1FF3	`ῳ`	带有ogogerammeni的希腊小写字母omega	`ω`	U + 03C9，U + 03B9
U + 1FF4	`ῴ`	希腊小写字母欧米茄与oxia和ipogemen	`ώ` ， `ι`	U + 03CE，U + 03B9
U + 1FF6	`ῶ`	希腊小写字母欧米茄与perospomenti	，	U + 03C9，U + 0342
U + 1FF7	`ῷ`	希腊小写字母欧米茄，带有peripospomenti和ipogemen	`ω` ， `͂` `ι`	U + 03C9，U + 0342，U + 03B9
U + 1FFC	`ῼ`	希腊大写字母Omega计划	`ω`	U + 03C9，U + 03B9
U + FB00	`ﬀ`	拉丁小写连字Ff	`f`	U + 0066，U + 0066
U + FB01	`ﬁ`	拉丁小写连字Fi	`i`	U + 0066，U + 0069
U + FB02	`ﬂ`	拉丁小写连字Fl	`l`	U + 0066，U + 006C
U + FB03	`ﬃ`	拉丁小写连字Ffi	，	U + 0066，U + 0066，U + 0069
U + FB04	`ﬄ`	拉丁小写连字Ffl	`f`	U + 0066，U + 0066，U + 006C
U + FB05	`ﬅ`	拉丁小写连字长ST	`s`	U + 0073，U + 0074
U + FB06	`ﬆ`	拉丁小写连字St	`s`	U + 0073，U + 0074
U + FB13	`ﬓ`	亚美尼亚小写连字Men Now	`ն` ， `ն`	U + 0574，U + 0576
U + FB14	`ﬔ`	亚美尼亚小写连字Men Ech	`ե` ， `ե`	U + 0574，U + 0565
U + FB15	`ﬕ`	亚美尼亚小写连字Men Ini	`ի` ， `ի`	U + 0574，U + 056B
U + FB16	`ﬖ`	亚美尼亚小写连字Vew Now	`ն` ， `ն`	U + 057E，U + 0576
U + FB17	`ﬗ`	亚美尼亚小写连字Men Xeh	`խ` ， `խ`	U + 0574，U + 056D

很棒的软件包和库

PhantomScript- ：ghost ::手电筒：执行不可见的JavaScript和社会工程
ESReverser-基于Unicode的JavaScript字符串处理。
模拟 -滥用Unicode
python-ftfy-尝试创建以Unicode格式接收的文本的最大正确和完整表示形式。
vim-troll-stopper-保护您的代码免受unicode巨魔的侵害。

表情符号

Unicode (diversity), . .

, , . — . :


U+1F469 U+200D U+2764 U+FE0F U+200D U+1F469
U+1F468 U+200D U+1F468 U+200D U+1F467 U+200D U+1F466

, .

8.0 ( 2015 ) - . , ( , FitzpatrickSkinType.pdf). .

Unicode


U+1F3FB	-1-2
U+1F3FC	-3
U+1F3FD	-4
U+1F3FE	-5
U+1F3FF	-6

, \u{1F466}\u{1F3FE} .

+

→

JavaScript (ES6)

, ID_START , . , ID_CONTINUE , .

 // How convenient! var π = Math.PI; // Sometimes, you just have to use the Bad Parts of JavaScript: var ಠ_ಠ = eval; // Code, YU NO WORK?! var ლ_ಠ益ಠ_ლ = 42; // How about a JavaScript library for functional programming? var λ = function() {}; // Obfuscate boring variable names for great justice var \u006C\u006F\u006C\u0077\u0061\u0074 = 'heh'; // …or just make up random ones var Ꙭൽↈⴱ = 'huh'; // While perfectly valid, this doesn't work in most browsers: var foo\u200Cbar = 42; // This is *not* a bitwise left shift (`<<`): var 〱〱 = 2; // This is, though: 〱〱 << 〱〱; // 8 // Give yourself a discount: var price_9̶9̶_89 = 'cheap'; // Fun with Roman numerals var Ⅳ = 4; var Ⅴ = 5; Ⅳ + Ⅴ; // 9 // Cthulhu was here var Hͫ̆̒̐ͣ̊̄ͯ͗͏̵̗̻̰̠̬͝ͅE̴̷̬͎̱̘͇͍̾ͦ͊͒͊̓̓̐_̫̠̱̩̭̤͈̑̎̋ͮͩ̒͑̾͋͘Ç̳͕̯̭̱̲̣̠̜͋̍O̴̦̗̯̹̼ͭ̐ͨ̊̈͘͠M̶̝̠̭̭̤̻͓͑̓̊ͣͤ̎͟͠E̢̞̮̹͍̞̳̣ͣͪ͐̈T̡̯̳̭̜̠͕͌̈́̽̿ͤ̿̅̑Ḧ̱̱̺̰̳̹̘̰́̏ͪ̂̽͂̀͠ = 'Zalgo';

CSS .

 <!-- place this within the document head --> <meta charset="UTF-8" /> <!-- error message --> <div class="ಠ_ಠ">You do not have access to this page.</div> <!-- success message --> <div class="">Your changes have been saved successfully!</div>

 .ಠ_ಠ { border: 1px solid #f00; } . { background: lightgreen; }

HTML

HTML- , , .

, HTML .

 // U+1160 HANGUL JUNGSEONG FILLER transformAllTags('ᅠ'); // An actual HTML element node designed to look like a comment node, using the U+01C3 LATIN LETTER RETROFLEX CLICK // <ǃ-- name="viewport" content="width=device-width"></ǃ--> transformAllTags('ǃ--'); // or even <ᅠ⃝ transformAllTags('\u{1160}\u{20dd}'); // and for a bonus, all existing tag names will have each character ensquared. h⃞t⃞m⃞l⃞ transformAllTags(); function transformAllTags (newName){ // querySelectorAll doesn't actually return an array. Array.from(document.querySelectorAll('*')) .forEach(function(x){ transformTag(x, newName); }); } function wonky(str){ return str.split('').join('\u{20de}') + '\u{20de}'; } function transformTag(tagIdOrElem, tagType){ var elem = (tagIdOrElem instanceof HTMLElement) ? tagIdOrElem : document.getElementById(tagIdOrElem); if(!elem || !(elem instanceof HTMLElement))return; var children = elem.childNodes; var parent = elem.parentNode; var newNode = document.createElement(tagType||wonky(elem.tagName)); for(var a=0;a<elem.attributes.length;a++){ newNode.setAttribute(elem.attributes[a].nodeName, elem.attributes[a].value); } for(var i= 0,clen=children.length;i<clen;i++){ newNode.appendChild(children[0]); //0...always point to the first non-moved element } newNode.style.cssText = elem.style.cssText; parent.replaceChild(newNode,elem); }

 function testBegin(str){ try{ eval(`document.createElement( '${str}' );`) return true; } catch(e){ return false; } } function testContinue(str){ try{ eval(`document.createElement( 'a${str}' );`) return true; } catch(e){ return false; } }

 // Test if dashes can start an HTML Tag > testBegin('-') < false > testContinue('-') < true > testBegin('ᅠ-') // Prepend dash with U+1160 HANGUL JUNGSEONG FILLER < true

TrueType OpenType UTF-8, 65 535 . 1,1 UTF-8, .

256 .

, () (CJK). , , « ».

. 17- .

			#
	U+0000	U+007F	128
— 1	U+0080	U+00FF	128
— A	U+0100	U+017F	128
— B	U+0180	U+024F	208
	U+0250	U+02AF	96
	U+02B0	U+02FF	80
	U+0300	U+036F	112
	U+0370	U+03FF	135
	U+0400	U+04FF	256
	U+0500	U+052F	48
	U+0530	U+058F	89
	U+0590	U+05FF	87
	U+0600	U+06FF	255
	U+0700	U+074F	77
	U+0750	U+077F	48
	U+0780	U+07BF	50
	U+07C0	U+07FF	59
	U+0800	U+083F	61
	U+0840	U+085F	29
— A	U+08A0	U+08FF	50
	U+0900	U+097F	128
	U+0980	U+09FF	93
	U+0A00	U+0A7F	79
	U+0A80	U+0AFF	85
	U+0B00	U+0B7F	90
	U+0B80	U+0BFF	72
	U+0C00	U+0C7F	96
	U+0C80	U+0CFF	87
	U+0D00	U+0D7F	100
	U+0D80	U+0DFF	90
	U+0E00	U+0E7F	87
	U+0E80	U+0EFF	67
	U+0F00	U+0FFF	211
	U+1000	U+109F	160
	U+10A0	U+10FF	88
	U+1100	U+11FF	256
	U+1200	U+137F	358
	U+1380	U+139F	26
	U+13A0	U+13FF	92
	U+1400	U+167F	640
	U+1680	U+169F	29
	U+16A0	U+16FF	89
	U+1700	U+171F	20
	U+1720	U+173F	23
	U+1740	U+175F	20
	U+1760	U+177F	18岁
	U+1780	U+17FF	114
	U+1800	U+18AF	156
	U+18B0	U+18FF	70
	U+1900	U+194F	68
	U+1950	U+197F	35
	U+1980	U+19DF	83
	U+19E0	U+19FF	32
	U+1A00	U+1A1F	30
	U+1A20	U+1AAF	127
	U+1AB0	U+1AFF	15
	U+1B00	U+1B7F	121
	U+1B80	U+1BBF	64
	U+1BC0	U+1BFF	56
	U+1C00	U+1C4F	74
-	U+1C50	U+1C7F	48
	U+1CC0	U+1CCF	8
	U+1CD0	U+1CFF	41
	U+1D00	U+1D7F	128
	U+1D80	U+1DBF	64
U+1DFF	U+1DC0	U+1DFF	58
	U+1E00	U+1EFF	256
	U+1F00	U+1FFF	233
	U+2000	U+206F	111
	U+2070	U+209F	42
	U+20A0	U+20CF	31
	U+20D0	U+20FF	33
	U+2100	U+214F	80
	U+2150	U+218F	60
	U+2190	U+21FF	112
	U+2200	U+22FF	256
	U+2300	U+23FF	251
	U+2400	U+243F	39
	U+2440	U+245F	11
	U+2460	U+24FF	160
	U+2500	U+257F	128
	U+2580	U+259F	32
	U+25A0	U+25FF	96
	U+2600	U+26FF	256
Dingbats	U+2700	U+27BF	192
— A	U+27C0	U+27EF	48
— A	U+27F0	U+27FF	16
	U+2800	U+28FF	256
— B	U+2900	U+297F	128
— B	U+2980	U+29FF	128
	U+2A00	U+2AFF	256
	U+2B00	U+2BFF	206
	U+2C00	U+2C5F	94
— C	U+2C60	U+2C7F	32
	U+2C80	U+2CFF	123
	U+2D00	U+2D2F	40
	U+2D30	U+2D7F	59
	U+2D80	U+2DDF	79
— A	U+2DE0	U+2DFF	32
	U+2E00	U+2E7F	67
	U+2E80	U+2EFF	115
	U+2F00	U+2FDF	214
	U+2FF0	U+2FFF	12
	U+3000	U+303F	64
	U+3040	U+309F	93
	U+30A0	U+30FF	96
	U+3100	U+312F	41
	U+3130	U+318F	94
	U+3190	U+319F	16
	U+31A0	U+31BF	27
	U+31C0	U+31EF	36
	U+31F0	U+31FF	16
	U+3200	U+32FF	254
	U+3300	U+33FF	256
— A	U+3400	U+4DBF	6191
« »	U+4DC0	U+4DFF	64
	U+4E00	U+9FFF	20941
	U+A000	U+A48F	1165
	U+A490	U+A4CF	55
	U+A4D0	U+A4FF	48
	U+A500	U+A63F	300
— B	U+A640	U+A69F	96
	U+A6A0	U+A6FF	88
	U+A700	U+A71F	32
— D	U+A720	U+A7FF	159
	U+A800	U+A82F	44
	U+A830	U+A83F	10
	U+A840	U+A87F	56
	U+A880	U+A8DF	81
	U+A8E0	U+A8FF	30
-	U+A900	U+A92F	48
	U+A930	U+A95F	37
— A	U+A960	U+A97F	29
	U+A980	U+A9DF	91
— B	U+A9E0	U+A9FF	31
	U+AA00	U+AA5F	83
— A	U+AA60	U+AA7F	32
-	U+AA80	U+AADF	72
	U+AAE0	U+AAFF	23
— A	U+AB00	U+AB2F	32
— E	U+AB30	U+AB6F	54
	U+AB70	U+ABBF	80
	U+ABC0	U+ABFF	56
	U+AC00	U+D7AF	2
— B	U+D7B0	U+D7FF	72
	U+D800	U+DB7F	2
	U+DB80	U+DBFF	2
	U+DC00	U+DFFF	2
	U+E000	U+F8FF	2
	U+F900	U+FAFF	472
	U+FB00	U+FB4F	58
— A	U+FB50	U+FDFF	643
	U+FE00	U+FE0F	16
	U+FE10	U+FE1F	10
	U+FE20	U+FE2F	16
	U+FE30	U+FE4F	32
	U+FE50	U+FE6F	26
— B	U+FE70	U+FEFF	141
	U+FF00	U+FFEF	225
	U+FFF0	U+FFFF	7
	U+10000	U+1007F	88
	U+10080	U+100FF	123
	U+10100	U+1013F	57
	U+10140	U+1018F	77
	U+10190	U+101CF	13
	U+101D0	U+101FF	46
	U+10280	U+1029F	29
	U+102A0	U+102DF	49
	U+102E0	U+102FF	28
	U+10300	U+1032F	36
	U+10330	U+1034F	27
	U+10350	U+1037F	43
	U+10380	U+1039F	31
	U+103A0	U+103DF	50
	U+10400	U+1044F	80
	U+10450	U+1047F	48
	U+10480	U+104AF	40
	U+10500	U+1052F	40
	U+10530	U+1056F	53
	U+10600	U+1077F	341
	U+10800	U+1083F	55
	U+10840	U+1085F	31
	U+10860	U+1087F	32
	U+10880	U+108AF	40
	U+108E0	U+108FF	26
	U+10900	U+1091F	29
	U+10920	U+1093F	27
	U+10980	U+1099F	32
	U+109A0	U+109FF	90
	U+10A00	U+10A5F	65
	U+10A60	U+10A7F	32
	U+10A80	U+10A9F	32
	U+10AC0	U+10AFF	51
	U+10B00	U+10B3F	61
	U+10B40	U+10B5F	30
	U+10B60	U+10B7F	27
	U+10B80	U+10BAF	29
	U+10C00	U+10C4F	73
	U+10C80	U+10CFF	108
	U+10E60	U+10E7F	31
	U+11000	U+1107F	109
	U+11080	U+110CF	66
-	U+110D0	U+110FF	35
	U+11100	U+1114F	67
	U+11150	U+1117F	39
	U+11180	U+111DF	94
	U+111E0	U+111FF	20
	U+11200	U+1124F	61
	U+11280	U+112AF	38
	U+112B0	U+112FF	69
	U+11300	U+1137F	85
	U+11480	U+114DF	82
	U+11580	U+115FF	92
	U+11600	U+1165F	79
	U+11680	U+116CF	66
	U+11700	U+1173F	57
-	U+118A0	U+118FF	84
	U+11AC0	U+11AFF	57
	U+12000	U+123FF	922
	U+12400	U+1247F	116
	U+12480	U+1254F	196
	U+13000	U+1342F	1071
	U+14400	U+1467F	583
	U+16800	U+16A3F	569
	U+16A40	U+16A6F	43
	U+16AD0	U+16AFF	36
	U+16B00	U+16B8F	127
	U+16F00	U+16F9F	133
	U+1B000	U+1B0FF	2
	U+1BC00	U+1BC9F	143
	U+1BCA0	U+1BCAF	4
	U+1D000	U+1D0FF	246
	U+1D100	U+1D1FF	231
	U+1D200	U+1D24F	70
« »	U+1D300	U+1D35F	87
	U+1D360	U+1D37F	18岁
	U+1D400	U+1D7FF	996
SignWriting	U+1D800	U+1DAAF	672
	U+1E800	U+1E8DF	213
	U+1EE00	U+1EEFF	143
	U+1F000	U+1F02F	44
	U+1F030	U+1F09F	100
	U+1F0A0	U+1F0FF	82
	U+1F100	U+1F1FF	173
	U+1F200	U+1F2FF	57
	U+1F300	U+1F5FF	766
	U+1F600	U+1F64F	80
	U+1F650	U+1F67F	48
	U+1F680	U+1F6FF	98
	U+1F700	U+1F77F	116
	U+1F780	U+1F7FF	85
— C	U+1F800	U+1F8FF	148
	U+1F900	U+1F9FF	15
— B	U+20000	U+2A6DF	42676
— C	U+2A700	U+2B73F	60
— D	U+2B740	U+2B81F	27
— E	U+2B820	U+2CEAF	2
	U+2F800	U+2FA1F	542
Tags	U+E0000	U+E007F	97
	U+E0100	U+E01EF	240
— A	U+F0000	U+FFFFF	4
— B	U+100000	U+10FFFF	4

— - .
— , .
— .
— , . .
, — , . , .
— , . , [Ä] [A] [¨].
— .
— , , . .
— , .
— .

: c codepoints.net .

11.0 ()
10.0 ( , 20.06.2017 .)
9.0
8.0
7.0
6.3
6.2
6.1
6.0
5.2
5.1
5.0 ()
4.0.1
4.0

这个可爱的Unicode