PostgreSQL 17 文档: 23.1. 区域支持

23.1. 区域支持
上一页	上一级	第 23 章本地化	起始页	下一页

23.1. 区域支持 #

23.1.1. 概述
23.1.2. 行为
23.1.3. 选择区域
23.1.4. 区域设置提供者
23.1.5. ICU 区域设置
23.1.6. 问题

区域支持指的是应用遵守文化偏好的问题，包括字母表、排序、数字格式等。PostgreSQL使用服务器操作系统提供的标准 ISO C 和POSIX的区域机制。更多的信息请参考你的系统的文档。

23.1.1. 概述 #

区域支持是在使用initdb创建一个数据库集簇时自动被初始化的。默认情况下，initdb将会按照它的执行环境的区域设置初始化数据库集簇；因此如果你的系统已经设置为你的数据库集簇想要使用的区域，那么你就没有什么可干的。如果你想使用其他的区域（或者你还不知道你的系统设置的区域是什么），那么你可以用--locale选项准确地告诉initdb你要用哪一个区域。比如：

initdb --locale=sv_SE

这个Unix系统上的例子把区域设置为瑞典语（sv），在瑞典（SE）使用。其他的可能性包括en_US（美国英语）和fr_CA（加拿大法语）。如果有多于一种字符集可以用于区域，那么声明可以采用如下的形式：language_territory.codeset。例如fr_BE.UTF-8表示在比利时（BE）讲的法语（fr），使用一个UTF-8字符集编码。

在你的系统上有哪些区域可用取决于操作系统提供商提供了什么以及安装了什么。在大部分Unix系统上，命令locale -a将会提供一个所有可用区域的列表。Windows使用一些更繁琐的区域名，例如German_Germany或者Swedish_Sweden.1252，但是其原则是相同的。

有时候，把几种区域规则混合起来也很有用，比如，使用英语排序规则而用西班牙语消息。为了支持这些，我们有一套区域子类用于控制本地化规则的某些方面：

`LC_COLLATE`	字符串排序顺序
`LC_CTYPE`	字符分类（什么是一个字母？它的大写形式是否等效？）
`LC_MESSAGES`	消息使用的语言
`LC_MONETARY`	货币数量的格式
`LC_NUMERIC`	数字的格式
`LC_TIME`	日期和时间的格式

这些类名转换成initdb的选项名来覆盖某个特定分类的区域选择。比如，要把区域设置为加拿大法语，但使用美国规则格式化货币，可以使用initdb --locale=fr_CA --lc-monetary=en_US。

如果你想让系统表现得像没有区域支持，那么使用特殊的区域名C或者等效的POSIX。

一些区域分类的值必须在数据库被创建时就被固定。你可以为不同的数据库使用不同的设置，但是一旦一个数据库被创建，你就不能在该数据库上修改这些区域分类的值。LC_COLLATE和LC_CTYPE就是这样的分类。它们影响索引的排序顺序，因此它们必须保持固定，否则在文本列上的索引将会崩溃（但是你可以使用排序规则放松这种限制，讨论见第 23.2 节）。这些分类的默认值在initdb运行时被确定，并且这些值在新数据库被创建时使用，除非在CREATE DATABASE命令中特别指定。

其他区域分类可以在任何时候被更改，更改的方式是设置与区域分类同名的服务器配置参数（详见第 19.11.2 节）。被initdb选中的值实际上只是被写入到配置文件postgresql.conf中作为服务器启动时的默认值。如果你将这些赋值从postgresql.conf中除去，那么服务器将会从其执行环境中继承该设置。

请注意服务器的区域行为是由它看到的环境变量决定的，而不是由任何客户端的环境变量影响的。因此，我们要在启动服务器之前认真地设置好这些变量。这样带来的一种后果是如果客户端和服务器设置成不同的区域，那么消息可能以不同的语言呈现，实际情况取决于它们的起源地。

注意

在我们谈到从执行环境继承区域的时候，我们的意思是在大多数操作系统上的下列动作：对于一个给定的区域分类，比如排序规则，按照下面的顺序评估这些环境变量，直到找到一个被设置了的：LC_ALL、LC_COLLATE（或者对应于相应分类的变量）、LANG。如果这些环境变量一个都没有被设置，那么将区域缺省设置为C。

一些消息本地化库也查看环境变量LANGUAGE，它覆盖所有其他用于设置消息语言的区域设置。如果有疑问，请参考你的操作系统的文档，特别是有关gettext的文档。

要允许消息被翻译成用户喜欢的语言，编译时必须打开NLS（configure --enable-nls）。所有其他区域支持都会被自动编译。

23.1.2. 行为 #

区域设置特别影响下面的 SQL 特性：

在文本数据上使用ORDER BY或标准比较操作符的查询中的排序顺序
函数upper、lower和initcap
模式匹配操作符（LIKE、SIMILAR TO和POSIX风格的正则表达式）；区域影响大小写不敏感匹配和通过字符类正则表达式的字符分类
to_char函数家族
为LIKE子句使用索引的能力

PostgreSQL中使用非C或非POSIX区域的缺点是性能影响。它降低了字符处理的速度并且阻止了在LIKE中对普通索引的使用。因此，只能在真正需要的时候才使用它。

作为允许PostgreSQL在非 C 区域下为LIKE子句使用索引，有几种自定义操作符类可用。这些操作符类允许创建一个执行严格按字符比较的索引，忽略区域比较规则。详见第 11.10 节。另一种方法是创建使用C排序规则的索引，如第 23.2 节所讨论的。

23.1.3. 选择区域 #

区域设置可以根据需求在不同范围内进行选择。上述概述展示了如何使用initdb指定区域设置，以设置整个集群的默认值。以下列表显示了可以选择区域设置的位置。每个项目提供了后续项目的默认值，每个较低项目允许在更细粒度上覆盖默认值。

如上所述，操作系统的环境为新初始化的数据库集群提供了区域设置的默认值。在许多情况下，这已经足够：如果操作系统配置为所需的语言/地区，默认情况下，PostgreSQL也将根据该区域设置进行操作。
如上所示，initdb的命令行选项指定了新初始化的数据库集簇的区域设置。如果操作系统没有您想要的数据库系统的区域设置配置，请使用此选项。
每个数据库可以单独选择一个区域设置。SQL命令CREATE DATABASE及其命令行等效命令createdb都有相应的选项。例如，如果数据库集簇中包含多个租户的数据库，且这些租户有不同的需求，则可以使用此功能。
可以为单独的表列设置区域设置。这使用了一个名为collation的SQL对象，并在第 23.2 节中进行了解释。例如，可以使用此功能对不同语言的数据进行排序，或自定义特定表的排序顺序。
最后，可以为单个查询选择区域设置。同样，这使用SQL排序对象。这可以用于根据运行时选择更改排序顺序或进行临时实验。

23.1.4. 区域设置提供者 #

区域设置提供者指定了哪个库定义了排序规则和字符分类的区域设置行为。

上述选择区域设置的命令和工具，每个都有一个选项用于选择区域设置提供者。下面是一个使用 ICU 提供者初始化数据库集簇的示例：

initdb --locale-provider=icu --icu-locale=en

详情请参阅各个命令和程序的说明。注意，您可以在不同粒度上混合使用区域设置提供者，例如默认对集簇使用libc，但有一个数据库使用icu 提供者，然后在这些数据库中使用任一提供者的排序对象。

无论使用哪个区域设置提供者，操作系统仍然用于提供一些区域设置感知的行为，例如消息（参见 lc_messages）。

可用的区域设置提供程序如下所示：

builtin

built-in提供程序使用内置操作。仅支持此提供程序的 C和C.UTF-8区域设置。

C 语言环境的行为与 C 语言环境在 libc 提供程序中的行为相同。使用此语言环境时，行为可能取决于数据库编码。

当数据库编码为 UTF-8 时，C.UTF-8 区域设置才可用，并且其行为基于 Unicode。排序仅使用码点值。正则表达式字符类基于“POSIX 兼容”语义，大小写映射为“简单”变体。

icu

icu 提供程序使用外部 ICU 库。PostgreSQL 必须已配置支持。

ICU 提供了与操作系统和数据库编码无关的排序和字符分类行为，如果您期望在不改变结果的情况下迁移到其他平台，这是更可取的。 LC_COLLATE 和 LC_CTYPE 可以独立于 ICU 语言环境进行设置。

注意

对于 ICU 提供程序，结果可能取决于所使用的 ICU 库版本，因为它会随着时间的推移更新以反映自然语言的变化。

libc

libc提供者使用操作系统的C库。排序规则和字符分类行为由LC_COLLATE和LC_CTYPE设置控制，因此它们不能独立设置。

注意

相同的区域设置名称在使用 libc 提供者时，在不同平台上的行为可能不同。

23.1.5. ICU 区域设置 #

23.1.5.1. ICU 区域名称 #

ICU 格式的区域名称是一个语言标签。

CREATE COLLATION mycollation1 (provider = icu, locale = 'ja-JP');
CREATE COLLATION mycollation2 (provider = icu, locale = 'fr');

23.1.5.2. 区域设置规范化和验证 #

在定义一个新的ICU排序对象或使用ICU作为提供者的数据库时，如果给定的区域设置名称尚未采用语言标签的形式，它将被转换（“规范化”）为语言标签。例如，

CREATE COLLATION mycollation3 (provider = icu, locale = 'en-US-u-kn-true');
NOTICE:  using standard form "en-US-u-kn" for locale "en-US-u-kn-true"
CREATE COLLATION mycollation4 (provider = icu, locale = 'de_DE.utf8');
NOTICE:  using standard form "de-DE" for locale "de_DE.utf8"

如果您看到此通知，请确保provider和locale 是预期的结果。为了在使用ICU提供者时获得一致的结果，请指定规范的语言标签，而不是依赖于转换。

一个没有语言名称的区域设置，或者特殊的语言名称 root，会被转换为具有语言 und（“未定义”）的形式。

ICU 可以将大多数 libc 区域设置名称以及某些其他格式转换为语言标签，以便更轻松地过渡到 ICU。如果在 ICU 中使用 libc 区域设置名称，它的行为可能与 libc 中的行为不完全相同。

如果在解释区域设置名称时出现问题，或者如果区域设置名称表示 ICU 无法识别的语言或地区，您将看到以下警告：

CREATE COLLATION nonsense (provider = icu, locale = 'nonsense');
WARNING:  ICU locale "nonsense" has unknown language "nonsense"
HINT:  To disable ICU locale validation, set parameter icu_validation_level to DISABLED.
CREATE COLLATION

icu_validation_level 控制消息的报告方式。除非设置为 ERROR，否则排序规则仍将被创建，但其行为可能不是用户所期望的。

23.1.5.3. 语言标签 #

BCP 47 中定义的语言标签是一种标准化的标识符，用于标识语言、地区以及有关区域的其他信息。

基本语言标签只是 language-region; 或者甚至只是 language。其中 language 是一个语言代码（例如 fr 表示法语），而 region 是一个地区代码（例如 CA 表示加拿大）。示例： ja-JP、de 或 fr-CA。

排序设置可以包含在语言标签中，以自定义排序行为。ICU 允许广泛的自定义，例如对重音符号、大小写和标点符号的敏感性（或不敏感性）；文本中数字的处理；以及许多其他选项，以满足各种用途的需求。

要在语言标签中包含此附加的排序信息，请附加 -u，表示存在额外的排序设置，然后后接一个或多个 -key-value 对。key 是一个排序设置的键，而 value 是该设置的有效值。对于布尔设置， -key 可以在没有对应的 -value 的情况下指定，这意味着值为 true。

例如，语言标签 en-US-u-kn-ks-level2 表示使用英语语言的美国地区的区域设置，其中排序设置 kn 被设置为 true，而 ks 被设置为 level2。这些设置意味着排序将对大小写不敏感，并将一系列数字视为一个单一的数字：

CREATE COLLATION mycollation5 (provider = icu, deterministic = false, locale = 'en-US-u-kn-ks-level2');
SELECT 'aB' = 'Ab' COLLATE mycollation5 as result;
 result
--------
 t
(1 row)

SELECT 'N-45' < 'N-123' COLLATE mycollation5 as result;
 result
--------
 t
(1 row)

请参阅第 23.2.3 节以获取有关使用带有自定义排序信息的语言标签的详细信息和其他示例。

23.1.6. 问题 #

如果根据上面的解释区域支持仍然不能正常工作，请检查操作系统的区域支持是否被正确配置。要检查系统中安装了哪些区域，你可以使用命令locale -a（如果你的操作系统提供了该命令）。

请检查PostgreSQL确实正在使用你认为它该用的区域设置。LC_COLLATE和LC_CTYPE设置都是在数据库创建时决定的，并且在除了创建数据库之外的操作中都不能被更改。其他的区域设置包括LC_MESSAGES和LC_MONETARY都是由服务器启动的环境决定的，但是可以在运行时修改。你可以用SHOW命令检查活跃的区域设置。

源代码目录的src/test/locale中包含PostgreSQL的区域支持测试套件。

那些通过分析错误消息来处理服务器端错误的客户端应用显然会有问题，因为服务器的消息可能会以不同语言表示。我们建议这类应用的开发人员改用错误代码机制。

维护消息翻译目录需要许多志愿者的持续努力，他们希望PostgreSQL能够流利地使用他们的语言。如果以你的语言表示的消息目前还不可用或者没有完全翻译完成，我们将非常感谢你的协助。如果你想帮忙，请参考第 55 章或者向开发者邮件列表发邮件。