Redrock Postgres 搜索 英文
版本: 9.3 / 9.4 / 9.5 / 9.6 / 10 / 11 / 12 / 13 / 14 / 15 / 16 / 17

64.2. GiST 索引 #

64.2.1. 简介
64.2.2. 内置操作符类
64.2.3. 可扩展性
64.2.4. 实现
64.2.5. 示例

64.2.1. 简介#

GiST指的是广义搜索树。这是一种平衡的树形访问方法,用作模板基础,用于实现任意索引方案。B 树、R 树以及许多其他索引方案都能在GiST.

的一个优点是GiST,它允许数据类型专家而不是数据库专家开发带有适当访问方法的自定义数据类型。

此处的一些信息源于加州大学伯克利分校的 GiST 索引项目 网站 和 Marcel Kornacker 的论文,面向下一代数据库系统的访问方法GiST中实现由 Teodor Sigaev 和 Oleg Bartunov 主要维护,并在其 网站 上提供更多信息。

64.2.2. 内置操作符类 #

核心 PostgreSQL 发行版包括GiST操作符类,如 表 64.1 所示。(附录 F 中描述的一些可选模块提供其他GiST操作符类。)

表 64.1. 内置GiST操作符类

名称 可索引操作符 排序操作符
box_ops << (box, box) <-> (box, point)
&< (box, box)
&& (box, box)
&> (box, box)
>> (box, box)
~= (box, box)
@> (box, box)
<@ (box, box)
&<| (box, box)
<<| (box, box)
|>> (box, box)
|&> (box, box)
circle_ops << (circle, circle) <-> (circle, point)
&< (circle, circle)
&> (circle, circle)
>> (circle, circle)
<@ (circle, circle)
@> (circle, circle)
~= (circle, circle)
&& (circle, circle)
|>> (circle, circle)
<<| (circle, circle)
&<| (circle, circle)
|&> (circle, circle)
inet_ops << (inet, inet)  
<<= (inet, inet)
>> (inet, inet)
>>= (inet, inet)
= (inet, inet)
<> (inet, inet)
< (inet, inet)
<= (inet, inet)
> (inet, inet)
>= (inet, inet)
&& (inet, inet)
multirange_ops = (anymultirange, anymultirange)  
&& (anymultirange, anymultirange)
&& (anymultirange, anyrange)
@> (anymultirange, anyelement)
@> (任何多范围,任何多范围)
@> (任何多范围,任何范围)
<@ (任何多范围,任何多范围)
<@ (任何多范围,任何范围)
<< (任何多范围,任何多范围)
<< (任何多范围,任何范围)
>> (任何多范围,任何多范围)
>> (任何多范围,任何范围)
&< (任何多范围,任何多范围)
&< (任何多范围,任何范围)
&> (任何多范围,任何多范围)
&> (任何多范围,任何范围)
-|- (任何多范围,任何多范围)
-|- (任何多范围,任何范围)
point_ops |>> (点,点) <-> (点,点)
<< (点,点)
>> (点,点)
<<| (点,点)
~= (点,点)
<@ (点,框)
<@ (点,多边形)
<@ (点,圆)
poly_ops << (多边形,多边形) <-> (多边形,点)
&< (多边形,多边形)
&> (多边形,多边形)
>> (多边形,多边形)
<@ (多边形,多边形)
@> (多边形,多边形)
~= (多边形,多边形)
&& (多边形,多边形)
<<| (多边形,多边形)
&<| (多边形,多边形)
|&> (多边形,多边形)
|>> (多边形,多边形)
range_ops = (任何范围,任何范围)  
&& (任何范围,任何范围)
&& (任何范围,任何多范围)
@> (任何范围,任何元素)
@> (任何范围,任何范围)
@> (任何范围,任何多范围)
<@ (任何范围,任何范围)
<@ (任何范围,任何多范围)
<< (任何范围,任何范围)
<< (任何范围,任何多范围)
>> (任何范围,任何范围)
>> (任何范围,任何多范围)
&< (任何范围,任何范围)
&< (任何范围,任何多范围)
&> (任何范围,任何范围)
&> (任何范围,任何多范围)
-|- (任何范围,任何范围)
-|- (任何范围,任何多范围)
tsquery_ops <@ (tsquery,tsquery)  
@> (tsquery,tsquery)
tsvector_ops @@ (tsvector,tsquery)  

出于历史原因,inet_ops 运算符类不是 inetcidr 类型的默认类。要使用它,请在 CREATE INDEX 中提及类名,例如

CREATE INDEX ON my_table USING GIST (my_inet_column inet_ops);

64.2.3. 可扩展性 #

传统上,实现新的索引访问方法意味着大量艰苦的工作。有必要了解数据库的内部工作原理,例如锁管理器和预写式日志。GiST接口具有较高的抽象级别,要求访问方法实现者仅实现正在访问的数据类型的语义。该GiST层本身负责并发、日志记录和搜索树结构。

此可扩展性不应与其他标准搜索树在它们可以处理的数据方面的可扩展性相混淆。例如,PostgreSQL 支持可扩展 B 树和哈希索引。这意味着你可以使用 PostgreSQL 根据任何所需的数据类型创建 B 树或哈希。但 B 树仅支持范围谓词 (<=>),哈希索引仅支持相等查询。

因此,如果你对图像集合建立索引(例如,使用 PostgreSQL B 树),你仅能执行诸如 imagex 等于 imageyimagex 小于 imageyimagex 大于 imagey 一类的查询。根据你在此语境中如何定义 等于小于大于,这可能是有用的。然而,通过使用GiST基于索引,你可以创建方法提出特定于域的问题,例如 查找所有马图片查找所有曝光过度的图片

所有需要的就是 启动并运行GiST访问方法是实现几个用户定义的方法,该方法定义树中键的行为。当然,这些方法必须相当新奇才能支持新奇查询,但是对于所有标准查询(B 树、R 树等)而言,它们是比较直接的。简而言之,GiST结合了可扩展性以及通用性、代码重用和简洁的界面。

索引操作符类有 5 种方法GiST必须提供,并且六个是可选的。通过正确实现 sameconsistentunion 方法来确保索引的正确性,而索引的效率(大小和速度)取决于 penaltypicksplit 方法。两个可选方法是 compressdecompress,这允许索引拥有不同于其索引数据的内部树数据类型。叶子应该是索引数据类型,而其他树节点可以是任何 C 结构(但你仍然必须遵循 PostgreSQL 数据类型规则,请参阅约 varlena 可变大小数据)。如果树的内部数据类型在 SQL 级别存在,则可以使用 CREATE OPERATOR CLASS 命令的 STORAGE 选项。可选的第八个方法是 distance,如果操作符类希望支持按序扫描(最近邻搜索),则需要此方法。如果操作符类希望支持仅限索引扫描,则需要可选的第九个方法 fetch,但省略 compress 方法除外。如果操作符类具有用户指定的参数,则需要可选的第十个方法 options。可选的第十一个方法 sortsupport 用于加速建立GiST索引。

consistent

给定索引项 p 和查询值 q,此函数确定索引项是否与查询“consistent”,即谓语“indexed_column indexable_operator q”对索引项表示的任何行都是正确的。对于叶子索引项,这等效于测试索引条件,而对于内部树节点,这确定了是否需要扫描树节点表示的索引子树。当结果为 true 时,还必须返回 recheck 标志。这指示谓语肯定是真实的还是仅可能为真。如果 recheck = false,则索引已精确测试谓语条件,而如果 recheck = true,则该行仅为候选匹配项。在这种情况下,系统将自动对实际行值求值 indexable_operator,以查看它是否真正匹配。此约定允许GiST支持无损和有损索引结构。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_consistent(internal, data_type, smallint, oid, internal)
RETURNS bool
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_consistent);

Datum
my_consistent(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type  *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber strategy = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid subtype = PG_GETARG_OID(3); */
    bool       *recheck = (bool *) PG_GETARG_POINTER(4);
    data_type  *key = DatumGetDataType(entry->key);
    bool        retval;

    /*
     * determine return value as a function of strategy, key and query.
     *
     * Use GIST_LEAF(entry) to know where you're called in the index tree,
     * which comes handy when supporting the = operator for example (you could
     * check for non empty union() in non-leaf nodes and equality in leaf
     * nodes).
     */

    *recheck = true;        /* or false if check is exact */

    PG_RETURN_BOOL(retval);
}

此处,key 是索引中的元素,query 是在索引中查找的值。StrategyNumber 参数指示正在应用的算子类的哪个算子,它与 CREATE OPERATOR CLASS 命令中的一个算子编号匹配。

根据包含在该类中的算子,query 的数据类型可能随着算子而变化,因为它将是算子右侧的类型,这可能与左侧显示的索引数据类型不同。(上述代码结构假定只有一种类型;如果没有,则获取 query 参数值必须取决于算子。)建议 consistent 函数的 SQL 声明针对 query 参数使用 opclass 的索引数据类型,即使实际类型可能根据算子而有所不同。

union

此方法合并树中的信息。给定一组条目后,此函数会生成一个新索引条目来表示所有给定的条目。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_union(internal, internal)
RETURNS storage_type
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_union);

Datum
my_union(PG_FUNCTION_ARGS)
{
    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GISTENTRY  *ent = entryvec->vector;
    data_type  *out,
               *tmp,
               *old;
    int         numranges,
                i = 0;

    numranges = entryvec->n;
    tmp = DatumGetDataType(ent[0].key);
    out = tmp;

    if (numranges == 1)
    {
        out = data_type_deep_copy(tmp);

        PG_RETURN_DATA_TYPE_P(out);
    }

    for (i = 1; i < numranges; i++)
    {
        old = out;
        tmp = DatumGetDataType(ent[i].key);
        out = my_union_implementation(out, tmp);
    }

    PG_RETURN_DATA_TYPE_P(out);
}

如您所见,在此结构中,我们处理的数据类型是 union(X, Y, Z) = union(union(X, Y), Z) 的。通过在此支持方法中实现适当的 union 算法,可以轻松支持并非如此的数据类型。GiSTsupport 方法。

union 函数的结果必须是索引存储类型的某个值(无论它是怎样的,都可能与索引列的类型不同或相同)。union 函数应返回一个指向新的 palloc() 分配的内存的指针。即使类型没有更改,您也不能原样返回输入值。

如上所示,union 函数的第一个 internal 参数实际上是一个 GistEntryVector 指针。第二个参数是一个指向整数变量的指针,可以忽略不计。(以前,union 函数要求将结果值的大小存储到该变量中,但现在不再需要了。)

compress

将数据项转换为适用于物理存储到一个索引页中的格式。如果省略 compress 方法,则数据项将未经修改地存储在该索引中。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_compress(internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_compress);

Datum
my_compress(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY  *retval;

    if (entry->leafkey)
    {
        /* replace entry->key with a compressed version */
        compressed_data_type *compressed_data = palloc(sizeof(compressed_data_type));

        /* fill *compressed_data from entry->key ... */

        retval = palloc(sizeof(GISTENTRY));
        gistentryinit(*retval, PointerGetDatum(compressed_data),
                      entry->rel, entry->page, entry->offset, FALSE);
    }
    else
    {
        /* typically we needn't do anything with non-leaf entries */
        retval = entry;
    }

    PG_RETURN_POINTER(retval);
}

当然,您必须根据您要转换到的特定类型来适配 compressed_data_type 以压缩叶节点。

decompress

将数据项的存储表示转换为可由操作员类中的其他 GiST 方法操作的格式。如果省略 decompress 方法,则假定其他 GiST 方法可以直接在存储数据格式上运行。(decompress 不一定是 compress 方法的逆方法;特别是,如果 compress 是有损的,则 decompress 无法完全重建原始数据。 decompress 也不一定等于 fetch,因为其他 GiST 方法可能不需要完全重建数据。)

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_decompress(internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_decompress);

Datum
my_decompress(PG_FUNCTION_ARGS)
{
    PG_RETURN_POINTER(PG_GETARG_POINTER(0));
}

上述框架适用于不需要解压的情况。(但当然,完全省略该方法更容易,这种情况下建议这样做。)

penalty

返回一个值,表示将新条目插入到树的特定分支中的成本。项目会插入到树中penalty 最小的路径中。penalty 返回的值应为非负值。如果返回负值,则会将其视为零。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_penalty(internal, internal, internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;  -- in some cases penalty functions need not be strict

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_penalty);

Datum
my_penalty(PG_FUNCTION_ARGS)
{
    GISTENTRY  *origentry = (GISTENTRY *) PG_GETARG_POINTER(0);
    GISTENTRY  *newentry = (GISTENTRY *) PG_GETARG_POINTER(1);
    float      *penalty = (float *) PG_GETARG_POINTER(2);
    data_type  *orig = DatumGetDataType(origentry->key);
    data_type  *new = DatumGetDataType(newentry->key);

    *penalty = my_penalty_implementation(orig, new);
    PG_RETURN_POINTER(penalty);
}

出于历史原因,penalty 函数不会仅返回 float 结果;而是必须将值存储在第三个参数指示的位置处。返回值得本身会被忽略,虽然按惯例传回该参数的地址。

penalty 函数对于索引的良好性能至关重要。它将在插入时使用,以确定在树中选择添加新条目的位置时要遵循哪个分支。在查询时,索引越平衡,查找速度就越快。

picksplit

当需要分隔索引页时,此函数决定该页上的哪些条目保留在旧页上,哪些条目移动到新页上。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_picksplit(internal, internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_picksplit);

Datum
my_picksplit(PG_FUNCTION_ARGS)
{
    GistEntryVector *entryvec = (GistEntryVector *) PG_GETARG_POINTER(0);
    GIST_SPLITVEC *v = (GIST_SPLITVEC *) PG_GETARG_POINTER(1);
    OffsetNumber maxoff = entryvec->n - 1;
    GISTENTRY  *ent = entryvec->vector;
    int         i,
                nbytes;
    OffsetNumber *left,
               *right;
    data_type  *tmp_union;
    data_type  *unionL;
    data_type  *unionR;
    GISTENTRY **raw_entryvec;

    maxoff = entryvec->n - 1;
    nbytes = (maxoff + 1) * sizeof(OffsetNumber);

    v->spl_left = (OffsetNumber *) palloc(nbytes);
    left = v->spl_left;
    v->spl_nleft = 0;

    v->spl_right = (OffsetNumber *) palloc(nbytes);
    right = v->spl_right;
    v->spl_nright = 0;

    unionL = NULL;
    unionR = NULL;

    /* Initialize the raw entry vector. */
    raw_entryvec = (GISTENTRY **) malloc(entryvec->n * sizeof(void *));
    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))
        raw_entryvec[i] = &(entryvec->vector[i]);

    for (i = FirstOffsetNumber; i <= maxoff; i = OffsetNumberNext(i))
    {
        int         real_index = raw_entryvec[i] - entryvec->vector;

        tmp_union = DatumGetDataType(entryvec->vector[real_index].key);
        Assert(tmp_union != NULL);

        /*
         * Choose where to put the index entries and update unionL and unionR
         * accordingly. Append the entries to either v->spl_left or
         * v->spl_right, and care about the counters.
         */

        if (my_choice_is_left(unionL, curl, unionR, curr))
        {
            if (unionL == NULL)
                unionL = tmp_union;
            else
                unionL = my_union_implementation(unionL, tmp_union);

            *left = real_index;
            ++left;
            ++(v->spl_nleft);
        }
        else
        {
            /*
             * Same on the right
             */
        }
    }

    v->spl_ldatum = DataTypeGetDatum(unionL);
    v->spl_rdatum = DataTypeGetDatum(unionR);
    PG_RETURN_POINTER(v);
}

请注意,picksplit 函数的结果是通过修改传入的 v 结构传递的。返回值得本身会被忽略,虽然按惯例传回 v 的地址。

penalty 一样, picksplit 函数对于索引的良好性能至关重要。设计合适的 penaltypicksplit 实现是实现高性能GiST索引面临的挑战。

same

如果两个索引条目相同,则返回 true,否则则返回 false。(索引条目是索引存储类型的某个值,不一定就是原始索引列的类型。)

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_same(storage_type, storage_type, internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_same);

Datum
my_same(PG_FUNCTION_ARGS)
{
    prefix_range *v1 = PG_GETARG_PREFIX_RANGE_P(0);
    prefix_range *v2 = PG_GETARG_PREFIX_RANGE_P(1);
    bool       *result = (bool *) PG_GETARG_POINTER(2);

    *result = my_eq(v1, v2);
    PG_RETURN_POINTER(result);
}

由于历史原因,same 函数不只是返回一个布尔结果;相反,它必须将标记存储在第三个参数指示的位置。返回的值本身会被忽略,不过按照惯例可以把那个参数的地址传回去。

距离

基于给定的索引条目 p 和查询值 q,此函数决定索引条目与查询值之间的距离。如果操作符类包含任何排序操作符,则必须提供此函数。使用排序操作符的查询将返回具有最短距离值的索引条目,所以结果必须与操作符语义一致。对于叶索引条目,结果只表示到该索引条目的距离;对于内部树节点,结果必须是任何子节点可能具有的最短距离。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_distance(internal, data_type, smallint, oid, internal)
RETURNS float8
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

C 模块中的匹配代码则可以遵循以下结构

PG_FUNCTION_INFO_V1(my_distance);

Datum
my_distance(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    data_type  *query = PG_GETARG_DATA_TYPE_P(1);
    StrategyNumber strategy = (StrategyNumber) PG_GETARG_UINT16(2);
    /* Oid subtype = PG_GETARG_OID(3); */
    /* bool *recheck = (bool *) PG_GETARG_POINTER(4); */
    data_type  *key = DatumGetDataType(entry->key);
    double      retval;

    /*
     * determine return value as a function of strategy, key and query.
     */

    PG_RETURN_FLOAT8(retval);
}

distance 函数的参数与 consistent 函数的参数相同。

在确定距离时允许进行一些近似,只要结果永远不大于条目的实际距离即可。因此,例如,距离一个包围框通常足以用于几何应用程序。对于内部树节点,返回的距离不能大于到任何子节点的距离。如果返回的距离不准确,则该函数必须将 *recheck 设置为 true。(对于内部树节点,这没有必要;因为对于内部树节点,计算总是被假定为不准确的。)在这种情况下,执行程序会在从堆中获取元组后计算出准确的距离,并在必要时重新对元组进行排序。

如果距离函数返回任何叶子节点的 *recheck = true,则原始排序运算符的返回类型必须为 float8float4,并且距离函数的结果值必须与原始排序运算符的可比较,因为执行器将使用距离函数结果和重新计算的排序运算符结果进行排序。否则,距离函数的结果值可以是任何有限的 float8 值,只要结果值的相对顺序与排序运算符返回的顺序匹配即可。(无穷大(Infinity)和负无穷大(minus infinity)在内部用于处理空值等情况,因此不建议 distance 函数返回这些值。)

提取

对于仅索引扫描,将数据的压缩索引表示转换为原始数据类型。所返回的数据必须是最初索引值的精确无损拷贝。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_fetch(internal)
RETURNS internal
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

参数是指向 GISTENTRY 结构的指针。在进入时,它的 key 字段以压缩形式包含一个非 NULL 叶子数据。返回值是另一个 GISTENTRY 结构,其 key 字段以其原始的未压缩形式包含相同的数据。如果 opclass 的压缩函数不对叶子项执行任何操作,则 fetch 方法可以按原样返回参数。或者,如果 opclass 没有压缩函数,也可以省略 fetch 方法,因为它必然是无操作(no-op)。

C 模块中的匹配代码可以按照此概要执行操作

PG_FUNCTION_INFO_V1(my_fetch);

Datum
my_fetch(PG_FUNCTION_ARGS)
{
    GISTENTRY  *entry = (GISTENTRY *) PG_GETARG_POINTER(0);
    input_data_type *in = DatumGetPointer(entry->key);
    fetched_data_type *fetched_data;
    GISTENTRY  *retval;

    retval = palloc(sizeof(GISTENTRY));
    fetched_data = palloc(sizeof(fetched_data_type));

    /*
     * Convert 'fetched_data' into the a Datum of the original datatype.
     */

    /* fill *retval from fetched_data. */
    gistentryinit(*retval, PointerGetDatum(converted_datum),
                  entry->rel, entry->page, entry->offset, FALSE);

    PG_RETURN_POINTER(retval);
}

如果压缩方法对叶子项有损,则操作符类不支持仅索引扫描,并且不得定义 fetch 函数。

选项

允许定义控制操作符类行为的用户可见参数。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_options(internal)
RETURNS void
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

函数传递给 local_relopts 结构的指针,该指针需要填充一组操作符类特定选项。可以使用 PG_HAS_OPCLASS_OPTIONS()PG_GET_OPCLASS_OPTIONS() 宏从其他支持函数中访问这些选项。

下面给出了 my_options() 的示例实现以及从其他支持函数中获取参数

typedef enum MyEnumType
{
    MY_ENUM_ON,
    MY_ENUM_OFF,
    MY_ENUM_AUTO
} MyEnumType;

typedef struct
{
    int32   vl_len_;    /* varlena header (do not touch directly!) */
    int     int_param;  /* integer parameter */
    double  real_param; /* real parameter */
    MyEnumType enum_param; /* enum parameter */
    int     str_param;  /* string parameter */
} MyOptionsStruct;

/* String representation of enum values */
static relopt_enum_elt_def myEnumValues[] =
{
    {"on", MY_ENUM_ON},
    {"off", MY_ENUM_OFF},
    {"auto", MY_ENUM_AUTO},
    {(const char *) NULL}   /* list terminator */
};

static char *str_param_default = "default";

/*
 * Sample validator: checks that string is not longer than 8 bytes.
 */
static void
validate_my_string_relopt(const char *value)
{
    if (strlen(value) > 8)
        ereport(ERROR,
                (errcode(ERRCODE_INVALID_PARAMETER_VALUE),
                 errmsg("str_param must be at most 8 bytes")));
}

/*
 * Sample filler: switches characters to lower case.
 */
static Size
fill_my_string_relopt(const char *value, void *ptr)
{
    char   *tmp = str_tolower(value, strlen(value), DEFAULT_COLLATION_OID);
    int     len = strlen(tmp);

    if (ptr)
        strcpy((char *) ptr, tmp);

    pfree(tmp);
    return len + 1;
}

PG_FUNCTION_INFO_V1(my_options);

Datum
my_options(PG_FUNCTION_ARGS)
{
    local_relopts *relopts = (local_relopts *) PG_GETARG_POINTER(0);

    init_local_reloptions(relopts, sizeof(MyOptionsStruct));
    add_local_int_reloption(relopts, "int_param", "integer parameter",
                            100, 0, 1000000,
                            offsetof(MyOptionsStruct, int_param));
    add_local_real_reloption(relopts, "real_param", "real parameter",
                             1.0, 0.0, 1000000.0,
                             offsetof(MyOptionsStruct, real_param));
    add_local_enum_reloption(relopts, "enum_param", "enum parameter",
                             myEnumValues, MY_ENUM_ON,
                             "Valid values are: \"on\", \"off\" and \"auto\".",
                             offsetof(MyOptionsStruct, enum_param));
    add_local_string_reloption(relopts, "str_param", "string parameter",
                               str_param_default,
                               &validate_my_string_relopt,
                               &fill_my_string_relopt,
                               offsetof(MyOptionsStruct, str_param));

    PG_RETURN_VOID();
}

PG_FUNCTION_INFO_V1(my_compress);

Datum
my_compress(PG_FUNCTION_ARGS)
{
    int     int_param = 100;
    double  real_param = 1.0;
    MyEnumType enum_param = MY_ENUM_ON;
    char   *str_param = str_param_default;

    /*
     * Normally, when opclass contains 'options' method, then options are always
     * passed to support functions.  However, if you add 'options' method to
     * existing opclass, previously defined indexes have no options, so the
     * check is required.
     */
    if (PG_HAS_OPCLASS_OPTIONS())
    {
        MyOptionsStruct *options = (MyOptionsStruct *) PG_GET_OPCLASS_OPTIONS();

        int_param = options->int_param;
        real_param = options->real_param;
        enum_param = options->enum_param;
        str_param = GET_STRING_RELOPTION(options, str_param);
    }

    /* the rest implementation of support function */
}

由于密钥的表示GiST具有灵活性,因此可能取决于用户指定的参数。例如,可以指定密钥签名的长度。例如,请参见 gtsvector_options()

sortsupport

返回一个比较函数,以保留局部性的方式对数据进行排序。它由 CREATE INDEXREINDEX 命令使用。所创建索引的质量取决于比较函数所确定的排序顺序如何保留输入的局部性。

sortsupport 方法是可选的。如果没有提供,CREATE INDEX 通过使用 penaltypicksplit 函数将每个元组插入树中来生成索引,而这要慢得多。

TheSQL该函数的声明看上去类似以下内容

CREATE OR REPLACE FUNCTION my_sortsupport(internal)
RETURNS void
AS 'MODULE_PATHNAME'
LANGUAGE C STRICT;

参数是指向 SortSupport 结构的指针。至少,该函数必须填写其比较器字段。比较器采用三个参数:要比较的两个 Datum 以及指向 SortSupport 结构的指针。Datum 是索引中以存储格式存储的两个索引值;也就是说,以 compress 方法返回的格式存储。完整 API 在 src/include/utils/sortsupport.h 中定义。

C 模块中的匹配代码可以按照此概要执行操作

PG_FUNCTION_INFO_V1(my_sortsupport);

static int
my_fastcmp(Datum x, Datum y, SortSupport ssup)
{
  /* establish order between x and y by computing some sorting value z */

  int z1 = ComputeSpatialCode(x);
  int z2 = ComputeSpatialCode(y);

  return z1 == z2 ? 0 : z1 > z2 ? 1 : -1;
}

Datum
my_sortsupport(PG_FUNCTION_ARGS)
{
  SortSupport ssup = (SortSupport) PG_GETARG_POINTER(0);

  ssup->comparator = my_fastcmp;
  PG_RETURN_VOID();
}

通常在短生命期内存上下文中调用所有 GiST 支持方法;也就是说,在处理每个元组后将重置 CurrentMemoryContext。因此担心 pfree 所分配的所有内容并不重要。但是,在某些情况下,对于支持方法来说跨重复调用缓存数据很有用。为此,在 fcinfo->flinfo->fn_mcxt 中分配较长的生命期数据,并在 fcinfo->flinfo->fn_extra 中保留指向该数据的指针。此类数据将在索引操作(例如,单个 GiST 索引扫描、索引生成或索引元组插入)的生命期内保留。替换 fn_extra 值时要小心 pfree 先前值,否则泄漏将在操作期间累积。

64.2.4. 实现 #

64.2.4.1. GiST 索引生成方法 #

生成 GiST 索引的最简单方法就是逐个插入所有条目。对于大型索引,这样做往往很慢,因为如果索引元组分散在索引中,并且索引大到溢出缓存,则需要大量的随机 I/O。PostgreSQL 支持 GiST 索引的初始生成中两种备用方法:“已排序”和“已缓存”模式。

仅当索引所用的每个操作类提供如 第 64.2.3 节 中所述的 sortsupport 函数时,才可以使用排序方法。如果提供,该方法通常是最佳的,因此默认使用该方法。

缓存方法的作用不是立即直接将元组插入索引。它可以极大地减少非有序数据集所需的随机 I/O 量。对于有序数据集,优点较小或不存在,因为一次仅少数页面收到新元组,并且即使整个索引不在缓存中,这些页面也可放入缓存。

缓冲方法比简单方法需更频繁地调用penalty函数,这会消耗部分额外的 CPU 资源。同时,缓冲区需要临时磁盘空间,其大小取决于生成的索引大小。缓冲也会影响所得索引的质量,既有正面影响,也有负面影响。此类影响取决于各种因素(如输入数据的分布和操作符类实现)。

如果无法排序,则默认情况下,当索引大小达到effective_cache_size时,GiST 索引的构建操作就会切换到缓冲方法。可以通过 CREATE INDEX 命令的buffering参数手动强制执行或禁止缓冲。默认行为适合大多数情况,但如果输入数据有序,关闭缓冲可能会略微加快构建速度。

64.2.5. 示例 #

PostgreSQL源代码包包含多个索引方法示例,这些示例使用GiST实现。核心系统目前提供文本搜索支持(针对tsvectortsquery的索引)以及某些内置几何数据类型的 R 树等效功能(请参见src/backend/access/gist/gistproc.c)。以下contrib模块还包含GiST操作符类

btree_gist

多个数据类型的 B 树等效功能

cube

多维立方体的索引

hstore

存储(键、值)对的模块

intarray

一维 int4 值阵列的 RD 树

ltree

树状结构的索引

pg_trgm

使用三元组匹配的文本相似性

seg

float 范围的索引