序号

文献背景:VLDB2022

研究方法:A cache-aware learned index

存在问题:在最近的研究中,learned index的实验效果相对于传统的index比较好,但是现有的learned indexes在synthetic和real-world的数据集上的表现出现了差距。

解决方案:这篇论文首先指出了忽视data partitioning的重要性是出现上述问题的主要原因。于是,直接使用data partitioning技术来构建索引,并且提出了一种效率高且可更新的cache-aware RMI框架,CARMI。

创新点

——首先提出了entropy作为衡量在learned index中tree node的data partitioning的有效性标准,并且提出了一个新颖的cost model。

——然后基于提出的cost model,CARMI可以在各种各样的数据集和工作负载下通过hybrid construction algorithm自动选择tree structures和model types,不需要人工干预。

——最后,由于内存访问会限制RMI的performance,因此CARMI使用了cache-aware设计,利用CPU cache有效降低对内存的访问。

下一步/不足之处

——在目前的CARMI中,inner node和leaf node都是存放在内存中的,下一步工作考虑放在Disk或者NVM上

——目前CARMI只支持数值类型的数据,暂时不能支持其余类型,例如string,因为目前很难找到适合string类型的数据分布模型。

数据集

Four synthetic datasets

YCSB dataset

OSMC dataset

Facebook dataset