倒排索引是一种用于快速检索的数据结构,通常用于搜索引擎和数据库。与传统的正排索引不同,倒排索引是根据关键字而不是文档ID建立的。
倒置索引的建立过程如下:首先将每个文档分成一系列关键字或项目,然后将一个项目建立到文档的映射中。记录每个关键字中包含关键字的文档列表。倒置索引的结构类似于一个项目-文档倒置表,可以快速定位包含特定关键字的文档。
倒排索引的优点如下
为什么搜索引擎查询速度比MySQL快?
Elasticsearch(ES)它是一种基于Lucene的开源搜索引擎,具有很强的全文搜索和分析能力。以下是一些ES的核心概念:
一般来说,ES集群架构通常采用多机房、多节点的方式。每个节点都是一个单独的ES实例,可以分布在不同的物理服务器或虚拟机上。一个集群可以包含多个节点,每个节点都有自己唯一的标识符和角色。
在一个ES集群中,索引分为多个部分,每个部分是一个独立的数据单元,可以分配到不同的节点。每个部分都有自己的副本,以提高数据的可靠性和可用性。可根据需要设置分片和副本的数量,通常分配到不同的机房,以确保一旦机房停机,数据不会丢失。
ES集群还有一个主节点,负责协调集群中的每个节点,处理与集群管理和状态相关的任务。
在应用程序中,ES通常与Logstash和Kibana组成ELK堆栈,用于实时日志收集、存储和可视化。Logstash用于收集和处理日志数据(但通常使用filebeat),并将其发送到ES集群进行索引和存储。Kibana为查询和可视化ES中的数据提供了直观的用户界面。
因为中文默认分词支持不好,每个汉字都会分开,所以分词的意义就没有了。不仅有之前的语句歧义,而且每天都会产生各种网络语言。如果支持不好,很容易导致搜索结果的混乱,但我们不必做得太仔细,基本上可以满足我们的业务需求,毕竟百度在搜索引擎方面“统一”中国,谷歌“统一”世界
因为没有明显的分隔符,中文很难准确分词。在中文分词方面,常用的分词器有以下几种:
每个人都熟悉IK分词器
Hanlp是一种基于自然语言处理的中文分词器,具有较高的准确性和性能。它支持细粒度和智能分词模式,并具有单词标记和命名实体识别功能。
Jieba:Jieba是Python中文分词器,分词速度快,准确性好。它采用基于前缀词典的分词算法,可以处理大规模文本的分词需求。
在了解ES写入数据的原理之前,您必须知道ES节点的身份。ES节点的身份包括:主节点、数据节点和协调节点;
当写入请求到达任何节点时,节点将扮演协调节点的角色。协调节点负责接收请求,并进行一系列计算,以确定数据应该存储在哪个数据节点上。如果集群中配置了Ingest节点,则协调节点将写入请求并转发给Ingest节点进行数据预处理。Ingest节点将执行管道中定义的操作,如数据转换、过滤、标准化等,然后将处理后的数据发送到相应的数据节点进行存储。
一旦数据节点接收到处理后的数据,它们将负责将数据存储在正确的分片和副本分片中。每个分片都存储部分索引数据。当所有分片和副本分片成功存储数据时,协调节点将返回成功响应给客户端。
当查询请求到达协调节点时,协调节点将请求发送到所有数据节点并行查询。每个数据节点只负责查询存储的分片数据,并将查询结果返回到协调节点。协调节点将收集并合并所有数据节点的查询结果,然后进行总结和排序,最终将结果返回给客户端。
这种并行查询可以提高查询的速度和性能,特别是在处理大量数据和复杂查询时。同时,由于数据节点负责存储分片数据,因此可以向不同的数据节点分配查询任务,从而实现负载平衡和分布式处理。这种设计使Elasticsearch能够快速响应查询请求并处理大规模数据。
在JVM层面,确保将最大堆和最小堆内存设置为适当的大小,以充分利用系统的资源和处理能力。
在分片方面,确保分片的合理布局和数量。为了减少网络延迟,主分片和副本分片应在同一个机房内。增加主分片的数量可以提高查询的并发性能。此外,使用SSD硬盘可以提高数据的读写速度。
在架构设计方面,确保在部署ES集群时提前设计节点的身份,并可专门配置不同的节点。主节点可使用配置较低的硬件,主要负责集群状态的管理。数据节点需要提供更好的存储硬盘和内存来存储和处理数据。协调节点需要提供大内存来处理查询请求和汇总结果。如需处理写入要求的预处理,可配置Ingest节点,实现读写分离,提高系统性能和可扩展性。
在这篇面试文章中,我们讨论了以下问题:
倒排索引:倒排索引是一种用于快速检索的数据结构,它根据关键字建立索引,可以快速定位到包含特定关键字的文档。ES集群架构:ES集群基本由主节点、数据节点和协调节点组成。主节点负责管理集群状态,数据节点存储分片数据,协调节点发送和总结查询结果。中文分词:中文分词器包括IK、HanLP和Jieba用于将中文文本分成单个单词,以便更好地进行索引和搜索。ES写入数据的工作原理:通过协调节点和ingest节点预处理,然后将数据节点存储到相应的分片中。ES查询数据的工作原理:查询请求并行发送到所有数据节点进行查询,然后协调节点总结处理结果。ES部署优化:可调节JVM内存、分片布局和数量、节点身份设计、Ingest节点配置等,以提高性能和可扩展性。
希望这些总结能帮助你顺利面试!