ElasticSearch学习01
ElasticSearch学习Elasticsearch简介
Elasticsearch(简称ES)是一个基于Apache Lucene?的开源搜索引擎,无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。注意,Lucene 只是一个库。想要发挥其强大的作用,你需使用 Java 并要将其集成到你的应用中。
Lucene 非常复杂,你需要深入的了解检索相关知识来理解它是如何工作的,就跟学习 springmvc 之前先从 servlet 开始,繁琐复杂的工作,Solor、Elasticsearch 应由而生, 其使用 Java 编写并使用 Lucene 来建立索引并实现搜索功能,但是它的目的是通过简单连贯的 RESTful API 让全文搜索变得简单并隐藏 Lucene 的复杂性。
Elasticsearch安装部署安装虚拟机
官网的VMwareWorkstation安装包(附激活码)收集地址
https://github.com/201853910/VMwareWorkstation
安装过程省略
安装镜像
本次使用的系统为 Cent ...
Logstash学习_基础
Logstash学习_基础任务
1.理解logstash在ELK中的“位置”:数据清洗与格式化,也可以作为收集器,使用java编写,较为重量级,丰富的插件,具有较强的处理能力(https://www.elastic.co/guide/en/logstash/6.8/introduction.html)
2.logstash安装(使用tar压缩包安装,不需要安装java环境)https://www.elastic.co/guide/en/logstash/7.10/installing-logstash.html#installing-binary
3.认识config目录下的jvm.options的内容:修改Xmx和Xms值适合自己的虚拟机或服务器;了解logstash.yml和pipeline.yml,两个文件分别是logstash的主配置文件和加载配置文件的配置(类似filebeat,但logstash正式的启动方式原本就具备配置文件的加载文件,但启动动态加载需要在logstash.yml里面配置);pipeline.yml里面写的是每一个外部的配置文件和指定多少个线程,当这两个 ...
Filebeat学习
Filebeat学习Filebeat简介Filebeat 是使用 Golang 实现的轻量型日志采集器,也是 Elasticsearch stack 里面的一员。本质上是一个 agent ,可以安装在各个节点上,根据配置读取对应位置的日志,并上报到相应的地方去。
Filebeat 并不依赖于 ElasticSearch,可以单独存在。我们可以单独使用Filebeat进行日志的上报和搜集。filebeat 内置了常用的 Output 组件, 例如 kafka、ElasticSearch、redis 等,出于调试考虑,也可以输出到 console 和 file 。我们可以利用现有的 Output 组件,将日志进行上报。
Filebeat带有内部模块(auditd,Apache,Nginx,System和MySQL),可通过一个指定命令来简化通用日志格式的收集,解析和可视化。
当启动 Filebeat 时,它会启动一个或多个输入,这些输入会在您为日志数据指定的位置中查找。对于 Filebeat 定位的每个日志,Filebeat 都会启动一个收割机。每个harvester 读取单个日志以获取新 ...
Jetbrains全家桶 最新版本激活方式
Jetbrains全家桶 最新版本激活方式(2022)一、下载
去官网直接下载IntelliJ IDEA、PHPStorm、PyCharm等你要你使用的软件最新版然后直接安装:
https://www.jetbrains.com/
安装完先不要打开
二、准备使用的工具
打开网址https://jetbra.in/s 下载网页上方的ja-netfilter-all.zip
在上面的网站上复制你所需要的临时激活码
三、开始激活
将刚刚的ja-netfilter-all.zip文件解压到JB软件的安装目录(其实可以是任意位置, 最好还是解压的安装目录吧)
打开/scripts文件夹
完事了 进去就可以直接用了
四、后话
如果你只是进行简单的编程玩玩而已的话 其实JB系列的免费社区版完全够用
旧版的其实不用怎么麻烦(2021.1.3左右之前),还是直接用30天重置插件就行了
浅谈OLTP和OLAP的区别
浅谈OLTP和OLAP的区别二者概念OLTP(on-line transaction processing)为联机事务处理。
OLAP(On-Line Analytical Processing)为联机分析处理。
简单来说,OLTP是做事务处理,OLAP是做分析处理。
在数据库的操作层面来看,OLTP主要是对数据的增删改,侧重实时性,OLAP是对数据的查询,侧重大数据量查询。
场景和应用的区别
实时性要求不同:OLTP实时性要求高,OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。OLAP的实时性要求不是很高,很多应用顶多是每天更新一下数据。
数据量不同:OLTP数据量不是很大,一般只读/写数十条记录,处理简单的事务。OLAP数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大。
用户和系统的面向性不同:OLTP是面向顾客的,用于事务和查询处理。OLAP是面向市场的,用于数据分析。
数据库设计不同:OLTP采用实体-联系ER模型和面向应用的数据库设计。OLAP采用星型或雪花 ...
为什么集群节点都是奇数个
为什么集群节点都是奇数个我们平时可以看到的zk集群基本上都是奇数个, 这里主要是有两个原因.
节约资源在容错能力相同的情况下,奇数台更节省资源。
leader选举,要求 可用节点数量 > 总节点数量/2 。注意 是 > , 不是 ≥。
例 :
假如zookeeper集群1 ,有3个节点,3/2=1.5 , 即zookeeper想要正常对外提供服务(即leader选举成功),至少需要2个节点是正常的。换句话说,3个节点的zookeeper集群,允许有一个节点宕机。
假如zookeeper集群2,有4个节点,4/2=2 , 即zookeeper想要正常对外提供服务(即leader选举成功),至少需要3个节点是正常的。换句话说,4个节点的zookeeper集群,也允许有一个节点宕机。
那么问题就来了, 集群1与集群2都允许1个节点宕机的容错能力,但是集群2比集群1多了1个节点。在相同容错能力的情况下,本着节约资源的原则,zookeeper集群的节点数维持奇数个更好一些。
防止脑裂集群的脑裂通常是发生在节点之间通信不可达的情况下,集群会分裂成不同的小集群,小集群各自选出自己 ...
大数据调度平台oozie、azkaban、dolphinscheduler对比
大数据调度平台oozie、azkaban、dolphinscheduler对比
DolphinScheduler
Azkaban
Oozie
定位
解决数据处理流程中错综复杂的依赖关系
为了解决Hadoop的任务依赖关系问题
管理Hdoop作业(job)的工作流程调度管理系统
任务类型支持
支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process
command、HadoopShell、Java、HadoopJava、Pig、Hive等,支持插件式扩展
统一调度hadoop系统中常见的mr任务启动、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等
可视化流程定义
所有流、定时操作都是可视化的,通过拖拽来绘制DAG,配置数据源及资源,同时对于第三方系统,提供api方式的操作。
通过自定义DSL绘制DAG并打包上传
配置相关的调度任务复杂,依赖关系、时间触发、事件触发使用xml语言 ...
Datax与Sqoop的优缺点
Datax与Sqoop的优缺点sqoop主要特点1、可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中,也可将hadoop组件中的数据导入到关系型数据库中;
2、sqoop在导入导出数据时,充分采用了map-reduce计算框架,根据输入条件生成一个map-reduce作业,在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作,速度比单节点运行多个并行导入导出效率高,同时提供了良好的并发性和容错性;
3、支持insert、update模式,可以选择参数,若内容存在就更新,若不存在就插入;
4、对国外的主流关系型数据库支持性更好。
datax主要特点:1、异构数据库和文件系统之间的数据交换;
2、采用Framework + plugin架构构建,Framework处理了缓冲,流控,并发,上下文加载等高速数据交换的大部分技术问题,提供了简单的接口与插件交互,插件仅需实现对数据处理系统的访问;
3、数据传输过程在单进程内完成,全内存操作,不读写磁盘,也没有IPC;
4、开放式的框架,开发者可以在极短的时间开发 ...
大数据_Spark入门基础
大数据_Spark入门基础Spark是什么Spark的概述
Apache Spark是用于大规模数据(large-scale data)处理的统一(unified)分析引擎。
2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
Spark的特点Spark 使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。
速度快
Spark VS Hadoop
Hadoop
Spark
类型
基础平台, 包含计算, 存储, 调度
分布 ...
大数据_ZooKeeper
Apache ZookeeperZookeeper 基础概念
是一个分布式的协调服务软件(distributed coordination)。
1234567分布式:多台机器的环境。协调服务:在分布式环境下,如何控制大家有序的去做某件事。 顺序 一致 共同 共享
zookeeper的本质:分布式的小文件存储系统
存储系统:存储数据、存储文件 目录树结构
小文件:上面存储的数据有大小限制 1M
分布式:可以部署在多台机器上运行,对比单机来理解。
问题:zk这个存储系统和我们常见的存储系统不一样。基于这些不一样产生了很多应用。
zookeeper是一个标准的主从架构集群。 1234主角色从角色主从各司其职 共同配合 对外提供服务。
zookeeper最重要的特性:全局数据一致性。
事务(transaction):通俗理解 多个操作组成一个事务,要么一起成功,要么一起失败,不会存在中间的状态。如果中间失败了要进行回滚操作。 主从一致性: Master 主节点、 Follower 从节点,主节点负责管理集群,事务操作(增删改),从节 ...