Elasticsearch 介绍

介绍

基于Lucene编写的搜索引擎框架(Lucene:搜索引擎的底层)
分布式: 横向扩展能力
全文检索: 将词语分词,将分出的词放入分词库中,搜索关键词去分词库中查找(倒排索引)
restful 风格的web接口

倒排索引

将存放的数据，以一定的方式进行分词，并且将分词的内容放到一个单独的分词库中
当用户去查询数据时，会将用户查询的关键字进行分词
然后去分词库中匹配内容，最终得到id标识
根据id标识取到指定的数据

安装 ES & Kibana

安装ik分词器(中文分词器)

注: 需要与es数据库版本一致

ES 结构

cd /usr/share/elasticsearch/bin

3.1.1 索引index

es的服务中可以创建多个索引

每个索引默认分成5片存储

每一个分片都会存在至少一个备份分片。

备份分片默认不会帮助检索数据，当es检索压力大的时候才会帮助检索数据。

备份的分片必须放在不不同的服务器中

3.1.2 类型Type

一个索引下，可以创建多个类型
（根据版本的不同类型也不同）

ps:

es5.x版本中，一个Index下可以创建多个Type。

es6.x版本中，一个Index下可以创建一个Type。

es7.x版本中，一个Index下没有Type。

3.1.3 文档Doc

一个类型下可以有多个文档，类似mysql中的多行数据

3.1.4 Field 列

一个文档中可以有多个属性(一行属性多个列)

3.2 操作语法

get 请求:

http://ip:port/index  查询索引信息

http://ip:port/index/type/doc_id 查询指定的文档信息

post 请求

http://ip:port/index/type/_search 查询文档，可以在请求提中添加json字符串来代表查询条件

http://ip:port/index/type/doc_id/_update 修改文档，在请求体json中指定修改具体地址

PUT 请求

http://ip:port/index 创建一个索引，需要在请求体中指定索引信息
http://ip:port/index/type/_mappings 创建索引时，指定索引文档存储的属性信息

3.3.1 创建一个索引

# 创建一个索引
PUT /person
{
  "settings": {
    # 每个索引的主分片数，默认值是 5 。这个配置在索引创建后不能修改。
    "number_of_shards": 5,
    # 每个主分片的副本数，默认值是 1 。对于活动的索引库，这个配置可以随时修改。
    "number_of_replicas": 1
  }
}

3.3.2 查找索引信息

# 查找一个索引
GET /person

3.3.3 删除索引

# 删除索引
DELETE /person

3.4 es felid 可以指定的类型

字符串类型:
1. text : 一般被用于全文检索,将当前 Field 进行分词
2. keyword : 当前 Field 不会被分词
数值类型:
1. long : 占用 8 个字节 ( -2^63 ~ 2^63-1 )
2. integer : 占用 4 个字节 ( -2^31 ~ 2^31-1 )
3. short : 占用 2 个字节 ( -2^15 ~ 2^15-1 )
4. byte : 占用 1 个字节 ( -128 ~ 127 )
5. double : 占用 8 个字节 ( 4.9000000e^-324 ~ 1.797693e^308 )
6. float : 占用 4 个字节 ( 1.401298e^-45 ~ 3.402823e^38 )
7. half_float : 精度比 float 小一半
8. scaled_float : 根据一个 long 和 scaled 来表达一个浮点型
时间类型:
布尔类型:
二进制类型:
范围类型:
1. long_range : 赋值时, 无需指定具体内容, 只需要存储一个范围即可, 指定gt , lt , gte , lte
2. integer_range : 同上
3. double_range : 同上
4. float_range : 同上
5. date_range : 同上
6. ip_range : 同上
经纬度类型:
geo_point : 用来储存经纬度
ip类型:
可以存储 IPV4 or IPV6

3.5 创建索引并指定数据结构

跟笔记修改

# 创建索引,指定数据结构(7.x 关闭映射类型)
PUT /book
{
  "settings": {
    # 分片数
    "number_of_shards": 5,
    # 备份数
    "number_of_replicas": 1
  },
  "mappings": {
    # 文档储存的 Field
    "properties": {
        # 属性名
        "name": {
            # 类型
            "type": "text",
            # 指定当前 Feild 可以被当作为查询条件
            "index": true,
            # 是否需要额外存储
            "store": false,
            # ik分词器
            "analyzer": "ik_max_word"
        },
        "author": {
            "type": "keyword"
        },
        "count":{
            "type": "long"
        },
        "on-sale":{
            "type": "date",
            "format": "yyyy-MM-dd HH:mm:ss"
        },
        "descr":{
            "type": "text"
        }
    }
  }
}

3.6 文档的操作

文档在ES服务中的唯一标识, _index, _type , _id 三个内容为符合,锁定一个文档

ps: 7.x已经取消了类型的表示，下面的例子都是7.x的

3.6.1 新建文档

自动生成_id

# 1.自动生成 _id
POST /book/_doc
{
  "name": "firstBook",
  "author": "bajiu",
  "count" : 89,
  "descr": "关关难过关关过，试试难成事事成"
}

手动生成 _id

# 2.手动生成 _id
POST /book/_doc/89
{
  "name": "secondBook",
  "author": "bajiu",
  "count" : 89,
  "descr": "关关难过关关过，试试难成事事成"
}

3.6.2 修改文档

# 修改文档
POST /book/_doc/89
{
  "descr": "89已经被修改了"
}

3.6.3 删除文档

# 删除文档
DELETE /book/_doc/_id

4.0 各种查询

4.1.1 `team` 查询

team的查询代表完全匹配搜索之前不会进行分词，对你的关键字去文档分词库中去匹配内容。

POST /book/_search
{
  "from": 0,
  "size": 20,
  "query": {
      "term" : {
        "author" : "bajiu1"
    }
  }
}

4.1.2 `teams` 查询

terms 和 term 的查询机制一样, 都不会将指定的查询关键字进行分词, 直接去分词库中匹配, 找到相应的文档内容

terms 是在针对一个字段包含多个值的时候使用

POST /book/_search
{
  "from": 0,
  "size": 20,
  "query": {
      "terms" : {
        "author" : [
            "bajiu1",
            "bajiu"
        ]
    }
  }
}

4.2 `match` 查询 ( 重点 )

match 查询属于高层查询, 会根据查询的字段类型不同, 采用不同的查询方式。

查询方式是日期或者数值的化，会将你字符串内容转换为日期或者数值
查询的内容是不能被分词的内容时(keyword) , match 查询不会对你指定的查询关键词进行分词.
如果查询的内容可以被分词(text)， match 会将你指定的查询内容根据一定的方式去分词, 去分词库中匹配指定的内容.

4.2.1 `match_all` 查询

全部查询没什么好说的

POST /book/_search
{
  "query": {
    "match_all": {}
  }
}

4.2.2 `match` 查询

指定一个 Field 作为筛选条件

POST /book/_search
{
  "query": {
    "match": {
      "descr": "关关"
    }
  }
}

4.2.3 布尔 `match` 查询

基于一个 Field 匹配内容, 采用 and 或者 or 的方式连接

POST /book/_search
{
  "query": {
    "match": {
      "descr":{
        "query": "关关 成",
        # 内容包含 `关关` 和 `成`
        "operator": "and"
      }
    }
  }
}

4.2.4 multi_match 查询

match 针对一个 Field 做检索, multi_match 针对多个 Field 进行检索, 多个 Field 对应一个 text

POST /book/_search
{
  "query": {
    "multi_match": {
        # 指定text 
        "query": "关",
        # 指定 Fields
        "fields": ["descr"]
    }
  }
}

4.3 其他查询

4.3.1 id 查询

GET /book/_doc/89

4.3.2 ids 查询

# ids
POST book/_search
{
  "query": {
    "ids": {
      "values": [89,90,91]
    }
  }
}

4.3.3 prefix 查询

前缀查询, 可以通过关键字去指定一个 Field 的前缀, 从而查询到指定的文档。

# prefix
POST /book/_search
{
  "query": {
    "prefix": {
      "descr": {
        # 不用 ik 分词器分不出 关关
        "value": "关"
      }
    }
  }
}

4.3.4 fuzzy 查询

模糊查询, 我们输入字符的大概，ES就可以根据输入的内容大概去匹配一下结果

POST /book/_search
{
  "query": {
    "fuzzy": {
      "descr": {
        "value": "试试",
        # 指定前面几个字是不允许出现错误的
        "prefix_length": 2
      }
    }
  }
}

4.3.5 wildcard 查询

通配查询, 和 MySQL 中的 like 一个套路, 可以在查询时, 在字符串中指定通配符&占位符

POST /book/_search
{
  "query": {
    "wildcard": {
      "descr": {
        # 可以用 * 和 ? 指定通配符和占位符 
        "value": "*事"
      }
    }
  }
}

4.3.6 range 查询

查询范围, 只针对数值类型, 对某一个 Field 进行大于或者小于的范围指定

gt 大于 ( greater than )
gte 大于等于 ( greater than equal )
lt 小于 ( less than )
lte 小于等于 ( less than equal )

POST /book/_search
{
  "query": {
    "range": {
      "count": {
        "gt": 10,
        "lte": 100000
      }
    }
  }
}

4.3.7 regexp 查询

编写正则匹配内容

prefix , fuzzy , wildcard 和 regexp 查询效率相对比较低, 要求效率比较高的时候，避免使用

POST /book/_search
{
  "query": {
    "regexp": {
      "mobile": "180[0-9]{8}"
    }
  }
}

4.4 深分页 Scroll

ES 对 from + size 是有限制的 , from 和 size 两者之和不能超过 1w.

原理:

from + size 在 ES 查询数据的方式:
1. 第一步先将用户指定的关键词进行分词
2. 第二步将词汇去分词库汇总进行检索, 得到多个文档 id
3. 第三步去各个分片中拉取指定的数据, 耗时较长
4. 第四步将数据根据 score 进行排序, 耗时较长
5. 第五步根据 from 的值, 将查询到的数据舍弃一部分
6. 第六步返回结果
scroll + size 在 ES 中的查询方式:
1. 第一步先将用户指定的关键词进行分词
2. 第二步将词汇去分词库中检索, 得到多个文档的id
3. 第三部将文档的 id 存放在一个 ES 的上下文中
4. 第四步根据指定的 size 的个数去 ES 中检索指定个数的数据, 拿完数据的文档 id , 会从上下文中移除
5. 第五步如果需要下一页数据, 直接去 ES 的上下文中, 找后续内容
6. 第六步寻欢第四步和第五步

** Scroll 查询方式, 不适合做实时的查询 **

# 执行scroll查询, 返回第一页数据, 并且将文档 id 信息存放在 ES 上下文中, 指定生存时间 5m

POST /book/_search?scroll=5m
{
  "query": {
    "match_all": {}
  },
  "size": 1,
  "sort": [
    {
      "count": {
        "order": "desc"
      }
    }
  ]
}

# 根据scroll 查询下一页信息
POST /_search/scroll
{
  "scroll_id": "",
  "scroll": "5m"
}

# 删除上下文
DELETE /_search/scroll/${scroll_id}

4.5 delete-by-query

根据 term, match 等查询方式去删除大量文档

注意: 如果你需要删除的内容, 是 index 下的大部分数据, 推荐创建一个全新的 index , 将保留的文档内容, 添加到全新的索引

# delete-by-query
POST /book/_delete_by_query
{
  "query":{
    "range": {
        "count":{
          "lt": 1
        }
    }
  }
}

4.6 复合查询

4.6.1 `bool` 查询

复合过滤器, 将你的多个查询条件, 以一定的逻辑组合在一起

must: 所有的条件, 用must 组合在一起, 表示 AND 的意思

must_not: 将 must_not 中的条件, 全部都不能匹配, 表示 NOT 的意思

should: 所有的条件, 用 should 组合在一起, 表示 OR 的意思

# bool
POST book/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "term": {
            "author": {
              "value": "bajiu"
            }
          }
        }
      ],
      "must": [
        {
          "match": {
            "author": "bajiu"
          }
        }
      ],
      "must_not": [
        {"range": {
          "count": {
            "gte": 10,
            "lte": 11
          }
        }}
      ]
    }
  }
}

4.6.2 `boosting` 查询

boosting 查询可以帮助我们去影响查询后的 score

positive: 只有匹配上 positive 的查询的内容, 才会被放到返回的结果集中
negative: 如果匹配上 positive 并且也匹配上了 negative , 既可以降低文档score
negative_boost: 指定系数, 必须小于1.0

查询时的分数如何计算的:

搜索的关键字在文档中出现的频次越高, 分数就越高
指定的文档哪哦那个越短, 分数就越高
我们在搜索时, 指定的关键字也会被分词, 这个被分词的内容, 被分词库匹配的个数越多, 分数越高

#boosting 查询
POST /book/_search
{
  "query": {
    "boosting": {
      "positive": {
        "match": {
          "author": "bajiu1"
        }
      }
      , "negative": {
        "match": {
          "count": "89"
        }
      }, 
      "negative_boost": 0.2
    }
  }
}

4.7 `filter` 查询

query, 根据你的查询条件, 去急死案文档的匹配度得到一个分数, 并且根据分数进行排序, 不会做缓存
filter, 根据你的查询条件去查询文档, 不去计算分数, 而且filter 会对经常被过滤的数据进行缓存

# filter
POST /book/_search
{
  "query": {
    "bool": {
      "filter": [
        {"term": {
          "author": "bajiu"
        }}
      ]
    }
  }
}

4.8 高亮查询～(重点)～

高亮查询就是用户输入关键字, 以一定的特殊样式展示给用户, 让用户知道为什么这个结果被展示出来

高亮数据的展示, 本身就是文档重的一个 Field , 单独将 Field 以 hightlight 的形式返回

ES提供了一个hightlight属性, 和query 同级别的

fragment_size : 指定高亮数据展示多少回来
pre_tags : 指定前缀标签, <font color="red">
post_tags : 指定后缀标签, </font>
fields : 指定哪几个 Field 以高亮形式返回

没用ik分词器的话只能匹配到一个字

# highlight
POST book/_search
{
  "query": {
    "match": {
      "descr": "关关"
    }
  },
  "highlight": {
    "fields": {
      "descr": {}
    }, 
    "pre_tags": "<div style='red'>",
    "post_tags": "</div>",
    "fragment_size": 10
  }
}

4.9 聚合查询 (也是重点)

ES 的聚合查询和 MySQL 的聚合查询类似, ES 的聚合查询相比 MySQL 强大, ES 提供的统计数据的方式多种多样

4.9.1 去重计数查询

POST /book/_search
{
  "aggs": {
    "agg": {
      "cardinality": {
        "field": "count"
      }
    }
  }
}

4.9.2 范围统计

统计一定范围出现的文档个数

数值统计

# 数值统计
POST book/_search
{
  "aggs": {
    "agg": {
      "range": {
        "field": "",
        "ranges": [
          {
            "from": 50,
            "to": 100
          }
        ]
      }
    }
  }
}

时间范围统计

# 时间范围统计
POST /book/_search
{
  "aggs": {
    "agg": {
      "date_range": {
        "field": "",
        "ranges": [
          {
            "from": "now-10d/d",
            "to": "now"
          }
        ]
      }
    }
  }
}

ip 统计

4.9.3 统计聚合查询 (extended_stats)

可以帮指定查询 field 的最大值、最小值、平均值、平方和等

# 统计聚合查询
POST /book/_search
{
  "aggs": {
    "agg": {
      "extended_stats": {
        "field": ""
      }
    }
  }
}

没有中文版…
https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

4.10 地图经纬度搜索

ES 中提供了一个数据类型 geo_point, 这个类型就是用来储存经纬度的,

创建一个带 geo_point 类型的索引, 并添加测试数据

# 创建地址索引, 指定name, location
PUT /map
{
  "settings": {
    "number_of_shards": 5,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "name": {
        "type":"text"
      },
      "location": {
        "type":"geo_point"
      }
    }
  }
}

创建地址

PUT /map/_doc/1
{
 "name": "天安门",
 "loaction": {
   "lon": 116.403981,
   "lat": 39.014492
 }
}
  
PUT /map/_doc/2
{
 "name": "海淀公园",
 "loaction": {
   "lon": 116.302509,
   "lat": 39.991152
 }
}

PUT /map/_doc/3
{
 "name": "北京动物园",
 "loaction": {
   "lon": 116.343184,
   "lat": 39.947468
 }
}

# geo_polygon
POST /map/_search
{
  "query": {
    "geo_polygon" :{
      "location": {
        "points": [
            {
              "lon": 116.298916,
              "lat":39.99878
            }
          ]
      }
    }
  }
}

bajiu