Elasticsearch 介绍
介绍
- 基于Lucene编写的搜索引擎框架(Lucene:搜索引擎的底层)
- 分布式: 横向扩展能力
- 全文检索: 将词语分词,将分出的词放入分词库中,搜索关键词去分词库中查找(倒排索引)
- restful 风格的web接口
倒排索引
- 将存放的数据,以一定的方式进行分词,并且将分词的内容放到一个单独的分词库中
- 当用户去查询数据时,会将用户查询的关键字进行分词
- 然后去分词库中匹配内容,最终得到id标识
- 根据id标识取到指定的数据
安装 ES & Kibana
安装ik分词器(中文分词器)
注: 需要与es数据库版本一致
ES 结构
cd /usr/share/elasticsearch/bin
3.1.1 索引index
- es的服务中可以创建多个索引
- 每个索引默认分成5片存储
- 每一个分片都会存在至少一个备份分片。
- 备份分片默认不会帮助检索数据,当es检索压力大的时候才会帮助检索数据。
- 备份的分片必须放在不不同的服务器中
3.1.2 类型Type
一个索引下,可以创建多个类型
(根据版本的不同类型也不同)
ps:
- es5.x版本中,一个Index下可以创建多个Type。
- es6.x版本中,一个Index下可以创建一个Type。
- es7.x版本中,一个Index下没有Type。
3.1.3 文档Doc
一个类型下可以有多个文档,类似mysql中的多行数据
3.1.4 Field 列
一个文档中可以有多个属性(一行属性多个列)
3.2 操作语法
get
请求:
http://ip:port/index 查询索引信息
http://ip:port/index/type/doc_id 查询指定的文档信息
post
请求
http://ip:port/index/type/_search 查询文档,可以在请求提中添加json字符串来代表查询条件
http://ip:port/index/type/doc_id/_update 修改文档,在请求体json中指定修改具体地址
PUT
请求
http://ip:port/index 创建一个索引,需要在请求体中指定索引信息
http://ip:port/index/type/_mappings 创建索引时,指定索引文档存储的属性信息
3.3.1 创建一个索引
# 创建一个索引
PUT /person
{
"settings": {
# 每个索引的主分片数,默认值是 5 。这个配置在索引创建后不能修改。
"number_of_shards": 5,
# 每个主分片的副本数,默认值是 1 。对于活动的索引库,这个配置可以随时修改。
"number_of_replicas": 1
}
}
3.3.2 查找索引信息
# 查找一个索引
GET /person
3.3.3 删除索引
# 删除索引
DELETE /person
3.4 es felid 可以指定的类型
字符串类型:
text
: 一般被用于全文检索,将当前Field
进行分词keyword
: 当前Field
不会被分词
数值类型:
long
: 占用 8 个字节 ( -2^63 ~ 2^63-1 )integer
: 占用 4 个字节 ( -2^31 ~ 2^31-1 )short
: 占用 2 个字节 ( -2^15 ~ 2^15-1 )byte
: 占用 1 个字节 ( -128 ~ 127 )double
: 占用 8 个字节 ( 4.9000000e^-324 ~ 1.797693e^308 )float
: 占用 4 个字节 ( 1.401298e^-45 ~ 3.402823e^38 )half_float
: 精度比 float 小一半scaled_float
: 根据一个 long 和 scaled 来表达一个浮点型
时间类型:
布尔类型:
二进制类型:
范围类型:
long_range
: 赋值时, 无需指定具体内容, 只需要存储一个范围即可, 指定gt , lt , gte , lteinteger_range
: 同上double_range
: 同上float_range
: 同上date_range
: 同上ip_range
: 同上
经纬度类型:
geo_point
: 用来储存经纬度ip类型:
可以存储 IPV4 or IPV6
3.5 创建索引并指定数据结构
跟笔记修改
# 创建索引,指定数据结构(7.x 关闭映射类型)
PUT /book
{
"settings": {
# 分片数
"number_of_shards": 5,
# 备份数
"number_of_replicas": 1
},
"mappings": {
# 文档储存的 Field
"properties": {
# 属性名
"name": {
# 类型
"type": "text",
# 指定当前 Feild 可以被当作为查询条件
"index": true,
# 是否需要额外存储
"store": false,
# ik分词器
"analyzer": "ik_max_word"
},
"author": {
"type": "keyword"
},
"count":{
"type": "long"
},
"on-sale":{
"type": "date",
"format": "yyyy-MM-dd HH:mm:ss"
},
"descr":{
"type": "text"
}
}
}
}
3.6 文档的操作
文档在ES服务中的唯一标识, _index, _type , _id 三个内容为符合,锁定一个文档
ps: 7.x已经取消了类型的表示,下面的例子都是7.x的
3.6.1 新建文档
- 自动生成_id
# 1.自动生成 _id
POST /book/_doc
{
"name": "firstBook",
"author": "bajiu",
"count" : 89,
"descr": "关关难过关关过,试试难成事事成"
}
- 手动生成 _id
# 2.手动生成 _id
POST /book/_doc/89
{
"name": "secondBook",
"author": "bajiu",
"count" : 89,
"descr": "关关难过关关过,试试难成事事成"
}
3.6.2 修改文档
# 修改文档
POST /book/_doc/89
{
"descr": "89已经被修改了"
}
3.6.3 删除文档
# 删除文档
DELETE /book/_doc/_id
4.0 各种查询
4.1.1 team
查询
team的查询代表完全匹配 搜索之前不会进行分词,对你的关键字去文档分词库中去匹配内容。
POST /book/_search
{
"from": 0,
"size": 20,
"query": {
"term" : {
"author" : "bajiu1"
}
}
}
4.1.2 teams
查询
terms 和 term 的查询机制一样, 都不会将指定的查询关键字进行分词, 直接去分词库中匹配, 找到相应的文档内容
terms 是在针对一个字段包含多个值的时候使用
POST /book/_search
{
"from": 0,
"size": 20,
"query": {
"terms" : {
"author" : [
"bajiu1",
"bajiu"
]
}
}
}
4.2 match
查询 ( 重点 )
match
查询属于高层查询, 会根据查询的字段类型不同, 采用不同的查询方式。
- 查询方式是日期或者数值的化,会将你字符串内容转换为日期或者数值
- 查询的内容是不能被分词的内容时
(keyword)
,match
查询不会对你指定的查询关键词进行分词. - 如果查询的内容可以被分词
(text)
,match
会将你指定的查询内容根据一定的方式去分词, 去分词库中匹配指定的内容.
4.2.1 match_all
查询
全部查询没什么好说的
POST /book/_search
{
"query": {
"match_all": {}
}
}
4.2.2 match
查询
指定一个
Field
作为筛选条件
POST /book/_search
{
"query": {
"match": {
"descr": "关关"
}
}
}
4.2.3 布尔 match
查询
基于一个
Field
匹配内容, 采用and
或者or
的方式连接
POST /book/_search
{
"query": {
"match": {
"descr":{
"query": "关关 成",
# 内容包含 `关关` 和 `成`
"operator": "and"
}
}
}
}
4.2.4 multi_match 查询
match
针对一个Field
做检索,multi_match
针对多个Field
进行检索, 多个Field
对应一个text
POST /book/_search
{
"query": {
"multi_match": {
# 指定text
"query": "关",
# 指定 Fields
"fields": ["descr"]
}
}
}
4.3 其他查询
4.3.1 id 查询
GET /book/_doc/89
4.3.2 ids 查询
# ids
POST book/_search
{
"query": {
"ids": {
"values": [89,90,91]
}
}
}
4.3.3 prefix 查询
前缀查询, 可以通过关键字去指定一个 Field 的前缀, 从而查询到指定的文档。
# prefix
POST /book/_search
{
"query": {
"prefix": {
"descr": {
# 不用 ik 分词器分不出 关关
"value": "关"
}
}
}
}
4.3.4 fuzzy 查询
模糊查询, 我们输入字符的大概,ES就可以根据输入的内容大概去匹配一下结果
POST /book/_search
{
"query": {
"fuzzy": {
"descr": {
"value": "试试",
# 指定前面几个字是不允许出现错误的
"prefix_length": 2
}
}
}
}
4.3.5 wildcard 查询
通配查询, 和 MySQL 中的 like 一个套路, 可以在查询时, 在字符串中指定通配符&占位符
POST /book/_search
{
"query": {
"wildcard": {
"descr": {
# 可以用 * 和 ? 指定通配符和占位符
"value": "*事"
}
}
}
}
4.3.6 range 查询
查询范围, 只针对数值类型, 对某一个
Field
进行大于或者小于的范围指定
gt
大于 ( greater than )gte
大于等于 ( greater than equal )lt
小于 ( less than )lte
小于等于 ( less than equal )
POST /book/_search
{
"query": {
"range": {
"count": {
"gt": 10,
"lte": 100000
}
}
}
}
4.3.7 regexp 查询
编写正则匹配内容
prefix , fuzzy , wildcard 和 regexp 查询效率相对比较低, 要求效率比较高的时候,避免使用
POST /book/_search
{
"query": {
"regexp": {
"mobile": "180[0-9]{8}"
}
}
}
4.4 深分页 Scroll
ES 对 from + size
是有限制的 , from 和 size 两者之和不能超过 1w.
原理:
from + size
在ES
查询数据的方式:- 第一步先将用户指定的关键词进行分词
- 第二步将词汇去分词库汇总进行检索, 得到多个文档
id
- 第三步去各个分片中拉取指定的数据, 耗时较长
- 第四步将数据根据
score
进行排序, 耗时较长 - 第五步根据
from
的值, 将查询到的数据舍弃一部分 - 第六步返回结果
scroll + size
在ES
中的查询方式:- 第一步先将用户指定的关键词进行分词
- 第二步将词汇去分词库中检索, 得到多个文档的id
- 第三部将文档的
id
存放在一个ES
的上下文中 - 第四步根据指定的
size
的个数去ES
中检索指定个数的数据, 拿完数据的文档id
, 会从上下文中移除 - 第五步如果需要下一页数据, 直接去
ES
的上下文中, 找后续内容 - 第六步寻欢第四步和第五步
** Scroll
查询方式, 不适合做实时的查询 **
# 执行scroll查询, 返回第一页数据, 并且将文档 id 信息存放在 ES 上下文中, 指定生存时间 5m
POST /book/_search?scroll=5m
{
"query": {
"match_all": {}
},
"size": 1,
"sort": [
{
"count": {
"order": "desc"
}
}
]
}
# 根据scroll 查询下一页信息
POST /_search/scroll
{
"scroll_id": "",
"scroll": "5m"
}
# 删除上下文
DELETE /_search/scroll/${scroll_id}
4.5 delete-by-query
根据
term
,match
等查询方式去删除大量文档
注意: 如果你需要删除的内容, 是 index 下的大部分数据, 推荐创建一个全新的 index , 将保留的文档内容, 添加到全新的索引
# delete-by-query
POST /book/_delete_by_query
{
"query":{
"range": {
"count":{
"lt": 1
}
}
}
}
4.6 复合查询
4.6.1 bool
查询
复合过滤器, 将你的多个查询条件, 以一定的逻辑组合在一起
must
: 所有的条件,用must
组合在一起, 表示AND
的意思must_not
: 将must_not
中的条件, 全部都不能匹配, 表示NOT
的意思should
: 所有的条件, 用should
组合在一起, 表示OR
的意思
# bool
POST book/_search
{
"query": {
"bool": {
"should": [
{
"term": {
"author": {
"value": "bajiu"
}
}
}
],
"must": [
{
"match": {
"author": "bajiu"
}
}
],
"must_not": [
{"range": {
"count": {
"gte": 10,
"lte": 11
}
}}
]
}
}
}
4.6.2 boosting
查询
boosting
查询可以帮助我们去影响查询后的 score
positive
: 只有匹配上positive
的查询的内容, 才会被放到返回的结果集中negative
: 如果匹配上positive
并且也匹配上了negative
, 既可以降低文档scorenegative_boost
: 指定系数, 必须小于1.0
查询时的分数如何计算的:
- 搜索的关键字在文档中出现的频次越高, 分数就越高
- 指定的文档哪哦那个越短, 分数就越高
- 我们在搜索时, 指定的关键字也会被分词, 这个被分词的内容, 被分词库匹配的个数越多, 分数越高
#boosting 查询
POST /book/_search
{
"query": {
"boosting": {
"positive": {
"match": {
"author": "bajiu1"
}
}
, "negative": {
"match": {
"count": "89"
}
},
"negative_boost": 0.2
}
}
}
4.7 filter
查询
query
, 根据你的查询条件, 去急死案文档的匹配度得到一个分数, 并且根据分数进行排序, 不会做缓存filter
, 根据你的查询条件去查询文档, 不去计算分数, 而且filter 会对经常被过滤的数据进行缓存
# filter
POST /book/_search
{
"query": {
"bool": {
"filter": [
{"term": {
"author": "bajiu"
}}
]
}
}
}
4.8 高亮查询 ~(重点)~
高亮查询就是用户输入关键字, 以一定的特殊样式展示给用户, 让用户知道为什么这个结果被展示出来
高亮数据的展示, 本身就是文档重的一个
Field
, 单独将Field
以hightlight
的形式返回
ES提供了一个hightlight
属性, 和query
同级别的
fragment_size
: 指定高亮数据展示多少回来pre_tags
: 指定前缀标签,<font color="red">
post_tags
: 指定后缀标签,</font>
fields
: 指定哪几个 Field 以高亮形式返回
没用ik分词器的话只能匹配到一个字
# highlight
POST book/_search
{
"query": {
"match": {
"descr": "关关"
}
},
"highlight": {
"fields": {
"descr": {}
},
"pre_tags": "<div style='red'>",
"post_tags": "</div>",
"fragment_size": 10
}
}
4.9 聚合查询 (也是重点)
ES 的聚合查询和 MySQL 的聚合查询类似, ES 的聚合查询相比 MySQL 强大, ES 提供的统计数据的方式多种多样
4.9.1 去重计数查询
POST /book/_search
{
"aggs": {
"agg": {
"cardinality": {
"field": "count"
}
}
}
}
4.9.2 范围统计
统计一定范围出现的文档个数
数值统计
# 数值统计
POST book/_search
{
"aggs": {
"agg": {
"range": {
"field": "",
"ranges": [
{
"from": 50,
"to": 100
}
]
}
}
}
}
时间范围统计
# 时间范围统计
POST /book/_search
{
"aggs": {
"agg": {
"date_range": {
"field": "",
"ranges": [
{
"from": "now-10d/d",
"to": "now"
}
]
}
}
}
}
ip 统计
4.9.3 统计聚合查询 (extended_stats)
可以帮指定查询 field 的最大值、最小值、平均值、平方和等
# 统计聚合查询
POST /book/_search
{
"aggs": {
"agg": {
"extended_stats": {
"field": ""
}
}
}
}
4.10 地图经纬度搜索
ES 中提供了一个数据类型 geo_point, 这个类型就是用来储存经纬度的,
创建一个带 geo_point 类型的索引, 并添加测试数据
# 创建地址索引, 指定name, location
PUT /map
{
"settings": {
"number_of_shards": 5,
"number_of_replicas": 1
},
"mappings": {
"properties": {
"name": {
"type":"text"
},
"location": {
"type":"geo_point"
}
}
}
}
创建地址
PUT /map/_doc/1
{
"name": "天安门",
"loaction": {
"lon": 116.403981,
"lat": 39.014492
}
}
PUT /map/_doc/2
{
"name": "海淀公园",
"loaction": {
"lon": 116.302509,
"lat": 39.991152
}
}
PUT /map/_doc/3
{
"name": "北京动物园",
"loaction": {
"lon": 116.343184,
"lat": 39.947468
}
}
# geo_polygon
POST /map/_search
{
"query": {
"geo_polygon" :{
"location": {
"points": [
{
"lon": 116.298916,
"lat":39.99878
}
]
}
}
}
}