Elasticsearch中的Mapping映射
Elasticsearch中的Mapping映射Mapping为index中的文档创建的数据结构和相关配置,称为Mapping映射。
精确匹配与全文搜索ES对不同的类型有不同的存储和检索方式
exact value: 精确匹配(如date),在索引的分词阶段, 会将整个value作为一个关键词建立到倒排索引中。
full text 全文检索(如text),对值进行拆分词语后(分词)进行匹配,也可以通过缩写、时态、大小写、同义词等进行匹配
ES自动创建映射我们在插入数据的时候,如果不指定映射,ES会自动帮我们创建映射。
插入数据
1234567891011121314151617181920212223PUT /website/_doc/1{ "post_date": "2019-01-01", "title": "my first article", "content": "this is my first article in this website&q ...
ElasticSearch学习02
ElasticSearch学习02操作ElasticSearch入口是直接用Kibana的Dev进行操作
安装kibana直接下载安装kibana Kibana 7.10.0 | Elastic
编辑/config/kibana.yml
123456789server.host: node1server.port: 5601elasticsearch.hosts: ["http://node1:9200"]kibana.index: ".kibana"elasticsearch.username: "elastic"elasticsearch.password: "123456"
这里有个问题
通过keystore配置加密的用户名密码信息时候发现报错 FATAL Error: [config validation of [elasticsearch].password]: expected value of type [string] but got [number]
查证得知kibana官方不允许在 ...
ElasticSearch学习01
ElasticSearch学习Elasticsearch简介
Elasticsearch(简称ES)是一个基于Apache Lucene?的开源搜索引擎,无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。注意,Lucene 只是一个库。想要发挥其强大的作用,你需使用 Java 并要将其集成到你的应用中。
Lucene 非常复杂,你需要深入的了解检索相关知识来理解它是如何工作的,就跟学习 springmvc 之前先从 servlet 开始,繁琐复杂的工作,Solor、Elasticsearch 应由而生, 其使用 Java 编写并使用 Lucene 来建立索引并实现搜索功能,但是它的目的是通过简单连贯的 RESTful API 让全文搜索变得简单并隐藏 Lucene 的复杂性。
Elasticsearch安装部署安装虚拟机
官网的VMwareWorkstation安装包(附激活码)收集地址
https://github.com/201853910/VMwareWorkstation
安装过程省略
安装镜像
本次使用的系统为 Cent ...
Logstash学习_基础
Logstash学习_基础任务
1.理解logstash在ELK中的“位置”:数据清洗与格式化,也可以作为收集器,使用java编写,较为重量级,丰富的插件,具有较强的处理能力(https://www.elastic.co/guide/en/logstash/6.8/introduction.html)
2.logstash安装(使用tar压缩包安装,不需要安装java环境)https://www.elastic.co/guide/en/logstash/7.10/installing-logstash.html#installing-binary
3.认识config目录下的jvm.options的内容:修改Xmx和Xms值适合自己的虚拟机或服务器;了解logstash.yml和pipeline.yml,两个文件分别是logstash的主配置文件和加载配置文件的配置(类似filebeat,但logstash正式的启动方式原本就具备配置文件的加载文件,但启动动态加载需要在logstash.yml里面配置);pipeline.yml里面写的是每一个外部的配置文件和指定多少个线程,当这两个 ...
Filebeat学习
Filebeat学习Filebeat简介Filebeat 是使用 Golang 实现的轻量型日志采集器,也是 Elasticsearch stack 里面的一员。本质上是一个 agent ,可以安装在各个节点上,根据配置读取对应位置的日志,并上报到相应的地方去。
Filebeat 并不依赖于 ElasticSearch,可以单独存在。我们可以单独使用Filebeat进行日志的上报和搜集。filebeat 内置了常用的 Output 组件, 例如 kafka、ElasticSearch、redis 等,出于调试考虑,也可以输出到 console 和 file 。我们可以利用现有的 Output 组件,将日志进行上报。
Filebeat带有内部模块(auditd,Apache,Nginx,System和MySQL),可通过一个指定命令来简化通用日志格式的收集,解析和可视化。
当启动 Filebeat 时,它会启动一个或多个输入,这些输入会在您为日志数据指定的位置中查找。对于 Filebeat 定位的每个日志,Filebeat 都会启动一个收割机。每个harvester 读取单个日志以获取新 ...
Jetbrains全家桶 最新版本激活方式
Jetbrains全家桶 最新版本激活方式(2022)一、下载
去官网直接下载IntelliJ IDEA、PHPStorm、PyCharm等你要你使用的软件最新版然后直接安装:
https://www.jetbrains.com/
安装完先不要打开
二、准备使用的工具
打开网址https://jetbra.in/s 下载网页上方的ja-netfilter-all.zip
在上面的网站上复制你所需要的临时激活码
三、开始激活
将刚刚的ja-netfilter-all.zip文件解压到JB软件的安装目录(其实可以是任意位置, 最好还是解压的安装目录吧)
打开/scripts文件夹
完事了 进去就可以直接用了
四、后话
如果你只是进行简单的编程玩玩而已的话 其实JB系列的免费社区版完全够用
旧版的其实不用怎么麻烦(2021.1.3左右之前),还是直接用30天重置插件就行了
浅谈OLTP和OLAP的区别
浅谈OLTP和OLAP的区别二者概念OLTP(on-line transaction processing)为联机事务处理。
OLAP(On-Line Analytical Processing)为联机分析处理。
简单来说,OLTP是做事务处理,OLAP是做分析处理。
在数据库的操作层面来看,OLTP主要是对数据的增删改,侧重实时性,OLAP是对数据的查询,侧重大数据量查询。
场景和应用的区别
实时性要求不同:OLTP实时性要求高,OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。OLAP的实时性要求不是很高,很多应用顶多是每天更新一下数据。
数据量不同:OLTP数据量不是很大,一般只读/写数十条记录,处理简单的事务。OLAP数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大。
用户和系统的面向性不同:OLTP是面向顾客的,用于事务和查询处理。OLAP是面向市场的,用于数据分析。
数据库设计不同:OLTP采用实体-联系ER模型和面向应用的数据库设计。OLAP采用星型或雪花 ...
为什么集群节点都是奇数个
为什么集群节点都是奇数个我们平时可以看到的zk集群基本上都是奇数个, 这里主要是有两个原因.
节约资源在容错能力相同的情况下,奇数台更节省资源。
leader选举,要求 可用节点数量 > 总节点数量/2 。注意 是 > , 不是 ≥。
例 :
假如zookeeper集群1 ,有3个节点,3/2=1.5 , 即zookeeper想要正常对外提供服务(即leader选举成功),至少需要2个节点是正常的。换句话说,3个节点的zookeeper集群,允许有一个节点宕机。
假如zookeeper集群2,有4个节点,4/2=2 , 即zookeeper想要正常对外提供服务(即leader选举成功),至少需要3个节点是正常的。换句话说,4个节点的zookeeper集群,也允许有一个节点宕机。
那么问题就来了, 集群1与集群2都允许1个节点宕机的容错能力,但是集群2比集群1多了1个节点。在相同容错能力的情况下,本着节约资源的原则,zookeeper集群的节点数维持奇数个更好一些。
防止脑裂集群的脑裂通常是发生在节点之间通信不可达的情况下,集群会分裂成不同的小集群,小集群各自选出自己 ...
大数据调度平台oozie、azkaban、dolphinscheduler对比
大数据调度平台oozie、azkaban、dolphinscheduler对比
DolphinScheduler
Azkaban
Oozie
定位
解决数据处理流程中错综复杂的依赖关系
为了解决Hadoop的任务依赖关系问题
管理Hdoop作业(job)的工作流程调度管理系统
任务类型支持
支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process
command、HadoopShell、Java、HadoopJava、Pig、Hive等,支持插件式扩展
统一调度hadoop系统中常见的mr任务启动、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等
可视化流程定义
所有流、定时操作都是可视化的,通过拖拽来绘制DAG,配置数据源及资源,同时对于第三方系统,提供api方式的操作。
通过自定义DSL绘制DAG并打包上传
配置相关的调度任务复杂,依赖关系、时间触发、事件触发使用xml语言 ...
Datax与Sqoop的优缺点
Datax与Sqoop的优缺点sqoop主要特点1、可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中,也可将hadoop组件中的数据导入到关系型数据库中;
2、sqoop在导入导出数据时,充分采用了map-reduce计算框架,根据输入条件生成一个map-reduce作业,在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作,速度比单节点运行多个并行导入导出效率高,同时提供了良好的并发性和容错性;
3、支持insert、update模式,可以选择参数,若内容存在就更新,若不存在就插入;
4、对国外的主流关系型数据库支持性更好。
datax主要特点:1、异构数据库和文件系统之间的数据交换;
2、采用Framework + plugin架构构建,Framework处理了缓冲,流控,并发,上下文加载等高速数据交换的大部分技术问题,提供了简单的接口与插件交互,插件仅需实现对数据处理系统的访问;
3、数据传输过程在单进程内完成,全内存操作,不读写磁盘,也没有IPC;
4、开放式的框架,开发者可以在极短的时间开发 ...