硬道理:



简单的LLM搜索方法被传统的词汇搜索方法碾压。

LLMs在超领域数据上崩溃,这就是为什么目前的技术水准是混合方法。

词汇搜索的基础仍然至关重要。

以下是开始的地方:

BEIR基准是评估搜索方法的黄金标准。

最常用的词汇搜索方法之一(BM25)在他们评估的每个其他转换器中都能击败,除了ColBERT。

但是,最好的方法是BM25加上交叉编码器LM。

它是这样工作的:

该方法分为两个阶段。

首先,词汇搜索获取100个潜在候选人。

然后,交叉编码器“重新排名”那些候选人。换句话说,它精选了词汇搜索方法选择的最佳选项。

但是,词汇搜索如何工作?

@brilliantorg的人们开设了一门关于搜索基础知识的精彩课程。

它是数据结构和算法的绝妙组合。

它实际上是从教授搜索历史开始的,这为许多现代方法提供了上下文。

你需要掌握的第一个重要概念是:

图表。

图表是搜索的基础。

当Google爬网页时,他们创建了一个非常巨大的网页图表表示。

每个站点都是一个节点,链接之间是边缘。

在着名的PageRank算法下就是这样的。

当然,搜索不仅仅是关键词匹配。

搜索的重要部分是灵活性,这就是为什么搜索引擎实现搜索逻辑的原因。

搜索逻辑非常强大,LLMs不会轻易为您提供这个的!https://twitter.com/marktenenholtz/status/1651194532254605314/photo/1

但搜索引擎如何在数十亿个文档上完成所有这些工作?

答案:索引!

索引已经在现代向量数据库中复活了,但事实上,搜索引擎使用索引已经有很长一段时间了。

ElasticSearch是一个流行的例子。

这门课程的最后一部分将简单的词汇搜索推向了极限。

一旦你完成了它,你就可以开始了解BM25和它构建的数据结构。

之后,您可以查看TF-IDF和BM25的特定实现。

感谢@brilliantorg与我合作。

他们的课程真正独一无二,清晰的视觉解释与令人难以置信的全面性相结合。

如果您喜欢这个主题,可以在这里获得30天免费+年度订阅8折优惠: https://brilliant.org/?utm_medium=sponsor&utm_source=twitter&utm_campaign=marktenenholtz_170323