Elasticsearch按照日期聚合

薄洪涛5年前PHP1363

我们现在做的是医疗的业务,有个需求是这样的,查询出某位医生前七天的坐诊记录,并且,医生的坐诊记录是不连续的,这样就需要写一个dsl语句来实现es库的搜索

首先我使用了es库中的聚合功能,按照日期去聚合,相当于mysql中的group by,查询语句和结果是这样的

{
	"query": {
		"match": {
			"ysdm": "000485"
		}
	},
	"aggs": {
		"jzrq": {
			"date_histogram": {
				"field": "jzrq",
				"format": "yyyy-MM-dd",
				"interval": "day",
				"min_doc_count": 1,
				"order": {
					"_key": "desc"
				}
			}
		}
	}
}

我们这里指定的医生代码,然后按照就诊日期去分组,这里的出的聚合数据我们是没办法指定size的,所以只能通过日期去限制了,从结果中拿到7天的数据,他这里的聚合实际上是根据query中的条件拿到数据,再执行的聚合

返回结果如下,敏感信息我已经用xx代替:

{
    "took": 2,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": xx,
        "max_score": xx,
        "hits": [
            {
                "_index": "xx",
                "_type": "xx",
                "_id": "xx",
                "_score": 6.271472,
                "_source": {
                    "jzid": "xx",
                    "jzrq": "2019-05-14T09:07:29+08:00",
                    "ksdm": "xx",
                    "ksmc": "xx",
                    "ysdm": "xx",
                    "ysxm": "xx",
                    "blh": "xx",
                    "kh": "xx",
                    "brxm": "xx",
                    "diaginfo": "屈光不正;",
                    "zydm": "xx",
                    "zymc": "xx",
                    "vapphisid": "45287777",
                    "vappregid": "xx",
                    "csrq": "xx0",
                    "age": "",
                    "xb": "0",
                    "xb1": "男",
                    "ybh": "",
                    "sfzh": "xx",
                    "contactname": "xx",
                    "contactphone": "x",
                    "contactidcard": "x",
                    "vprovince": "x",
                    "vcity": "朝阳市",
                    "dz": "朝阳县",
                    "vbjhlcode": ""
                }
            }
        ]
    },
    "aggregations": {
        "jzrq": {
            "buckets": [
                {
                    "key_as_string": "2019-12-26",
                    "key": 1577318400000,
                    "doc_count": 2
                },
                {
                    "key_as_string": "2019-12-17",
                    "key": 1576540800000,
                    "doc_count": 43
                },
                {
                    "key_as_string": "2019-12-12",
                    "key": 1576108800000,
                    "doc_count": 1
                }
            ]
        }
    }
}

可以看到,我们会得到es库中的搜索结果和聚合信息,但是我们只想要聚合信息,不想要搜索结果,这里我们加一个size:0来去掉搜索结果,语句如下

{
	"query": {
		"match": {
			"ysdm": "000485"
		}
	},
	"aggs": {
		"jzrq": {
			"date_histogram": {
				"field": "jzrq",
				"format": "yyyy-MM-dd",
				"interval": "day",
				"min_doc_count": 1,
				"order": {
					"_key": "desc"
				}
			}
		}
	},
	"size": 0
}

说一下几个参数的作用

aggs:指定这是一个聚合功能

jzrq:这个是聚合函数的名字

date_histogram:按照时间去聚合

field:指定字段,按照哪个字段聚合

format:指定返回的buckets的key_as_string的格式

interval:按照天/月/年去分组

min_doc_count:所允许的buckets中最小的doc_count条数

order:_key 排序方式

这里是文档,点我

这里要强调一点

GET /cars/transactions/_search{
   "size" : 0,
   "aggs": {
      "sales": {
         "date_histogram": {
            "field": "sold",
            "interval": "month",
            "format": "yyyy-MM-dd",
            "min_doc_count" : 0, 
            "extended_bounds" : { 
                "min" : "2014-01-01",
                "max" : "2014-12-31"
            }
         }
      }
   }}

文档中说道有一个extened_bounds参数,我试了一下,并没有对日期做限制,比如我限定2019-12-01至2019-12-31,仍然会在聚合结果中显示出其他时间段的数据,其实这里的extened_bounds仅仅是个扩展时间的范围,一切以实际数据为准,官方解释如下

extended_bounds 参数需要一点解释。 min_doc_count 参数强制返回空 buckets,但是 Elasticsearch 默认只返回你的数据中最小值和最大值之间的 buckets。

因此如果你的数据只落在了 4 月和 7 月之间,那么你只能得到这些月份的 buckets(可能为空也可能不为空)。因此为了得到全年数据,我们需要告诉 Elasticsearch 我们想要全部 buckets, 即便那些 buckets 可能落在最小日期 之前 或 最大日期 之后 。

image.png

我的时间字段的类型是date,即

image.png


于是我在query中对日期做了限制,就可以

{
    "query": {
        "bool": {
            "must": {
                "term": {
                    "ysdm": "000485"
                }
            },
            "filter": {
                "range": {
                    "jzrq": {
                        "from": "2019-12-01",
                        "to": "2019-12-05"
                    }
                }
            }
        }
    },
    "size": 0,
    "aggs": {
        "jzrq": {
            "date_histogram": {
                "field": "jzrq",
                "format": "yyyy-MM-dd",
                "interval": "day",
                "min_doc_count": 1,
                "order": {
                    "_key": "desc"
                }
            }
        }
    }
}

好了踩坑到此结束,希望对大家有所帮助

标签: Elasticsearch

相关文章

Elasticsearch集群第一篇之安装

Elasticsearch集群第一篇之安装

    全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。它可以快速地储存...

php使用curl获取elasticsearch中数据

我最近在做一个电动车的项目,其中,有一个功能是这样的,我需要获取指定车辆的最新的五条位置信息,位置信息是保存到es库中的,我使用的是Yii2.0框架,本来想使用Yii封装的组件去获取数据的,然后觉得麻...

Elasticsearch第三篇之全文搜索及在Yii2.0中的使用

Elasticsearch第三篇之全文搜索及在Yii2.0中的使用

前几天做了一个模块,大数据的搜索,其实也不是特别大,组合起来差不多800万左右,用的是mysql数据库,需求有这么变态的两点;需要按照地址去搜索按照起止时间去搜索别的不说,就这两条,mysql也就只能...

Elasticsearch为什么搜索那么快?

Elasticsearch为什么搜索那么快?

介绍Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lu...

Elasticsearch第二篇之数据操作

    上一篇向大家讲解了Elasticsearch的部署安装和基本设置,这篇文章就和大家一起熟悉下Elastic的数据库操作,和普通数据库不同,es库需要公告...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。