ElasticSearch简介:
ElasticSearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸缩性,能使数据在生产环境变得更有价值。ElasticSearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elastic Search 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。
ElasticSearch可以做什么:
Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。”Elasticsearch是分布式的,这意味着索引可以被分成分片,每个分片可以有0个或多个副本。每个节点托管一个或多个分片,并充当协调器将操作委托给正确的分片。再平衡和路由是自动完成的。“相关数据通常存储在同一个索引中,该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引,就不能更改主分片的数量。
ElasticSearch成功案例:
1) 2013年初,GitHub抛弃了Solr,采取ElasticSearch 来做PB级的搜索。 “GitHub使用ElasticSearch搜索20TB的数据,包括13亿文件和1300亿行代码”。
2)维基百科:启动以elasticsearch为基础的核心搜索架构。
3)SoundCloud:“SoundCloud使用ElasticSearch为1.8亿用户提供即时而精准的音乐搜索服务”。
4)百度:百度目前广泛使用ElasticSearch作为文本数据分析,采集百度所有服务器上的各类指标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析实例异常或业务层面异常。目前覆盖百度内部20多个业务线(包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等),单集群最大100台机器,200个ES节点,每天导入30TB+数据。
Elasticsearch的特点:
1)可以作为一个大型分布式集群(数百台服务器)技术,处理PB级数据,服务大公司;也可以运行在单机上,服务小公司
2)Elasticsearch不是什么新技术,主要是将全文检索、数据分析以及分布式技术,合并在了一起,才形成了独一无二的ES;lucene(全文检索),富贵论坛商用的数据分析软件(也是有的),分布式数据库(mycat)
3)对用户而言,是开箱即用的,非常简单,作为中小型的应用,直接3分钟部署一下ES,就可以作为生产环境的系统来使用了,数据量不大,操作不是太复杂
4)数据库的功能面对很多领域是不够用的(事务,还有各种联机事务型的操作);特殊的功能,比如全文检索,同义词处理,相关度排名,复杂数据分析,海量数据的近实时处理;
好了,介绍了这么多进入正题,首先是环境准备:
1)>=jdk1.7(ES版本不同,对jdk的版本要求也不一样)
2)下载Elasticsearch包,直接在ES官网下载,ES最近几年特别活跃,版本更新频次也比较高
3)准备三台服务器
服务器名称 IP地址
node-1 192.168.86.130
node-2 192.168.86.131
node-3 192.168.86.132
4)编辑elasticsearch.yml文件,文件在安装包/config/目录下
http.cors.enabled: true
http.cors.allow-origin: "*"
node.master: true
node.data: true
cluster.name: ESTest ###保证三台服务器节点集群名称相同 n
ode.name: node-1 ###每个节点名称不一样,其他两台为node-2,node-3
network.host: 192.168.86.130 ###实际服务器的ip地址
discovery.zen.ping.unicast.hosts: [“192.168.86.130”, “192.168.86.131”,“192.168.86.132”] ###多个服务集群ip
discovery.zen.minimum_master_nodes:1
5)其他几台服务器只需修改node.name和network.host属性
6)分别启动每台服务器上的ES
7)在地址栏输入192.168.86.130/_cat/nodes?pretty验证群集是否启动,带“*”证明是master节点,否则是slave节点
是不是ES的群集搭建非常简单,那是因为ES在背后为我们做了很多事情,有人可能会问,其中某台服务挂掉了怎么办:
(1)ES会自动选举新的master;
(2)ES在群集中会有多副本,异地备份能力;
(3)故障恢复,数据恢复能力