- 大数据搜索与挖掘及可视化管理方案 :Elastic Stack 5:Elasticsearch、Logstash、Kibana、X-Pack、Beats (第3版)
- 高莘
- 504字
- 2020-11-28 15:51:59
3.1 实验数据集描述
首先介绍示例可能用到的3个主要数据文件的结构。
(1)索引文件baidu下类型文件baike(利用爬虫采集到的百度百科词条信息,采集方法见本书第10章)的结构(数据略):
_index: baidu //针对百度百科词条数据的索引文件名称 _type: baike //针对百度百科词条数据的类型文件名称 _id: xxx //id号 _version: x //版本号 _score: x //排序分值 _source: { //数据字段描述(内容略) title: (略) //词条标题 url: (略)) //URL,如http://baike.baidu.com/view/6505879.htm content: (略) //词条内容 lastModifyTime: (略) //最近更新时间 taglist: (略) //内容分类,如"历史人物"等 }
(2)索引文件it-home下类型文件posts(利用爬虫采集到的程序员论坛主题帖信息)的结构:
_index: it-home //针对程序员论坛主题帖数据的索引文件名称 _type: posts //针对程序员论坛主题帖数据的类型文件名称 _id: xxx //id号 _version: x //版本号 _score: x //排序分值 _source: { //数据字段描述(内容略) publishTime: xxx //帖子发表时间 category: xxx //主题类别 title: xxx //帖子主题 user: xxx //帖子发布者昵称 url: xxx //URL,如http://bbs.it-home.org/thread-76807-1-1.html content: xxx //帖子内容 }
(3)索引文件whale下类型文件为log(日志信息)的结构。
_index: whale //索引文件名称 _type: log //type名称 _id: xxx //某document的id号 _version: x //版本 _score: x //评分 _source: { //数据字段描述 custom_ip: xxx //客户端IP地址 timestamp: xxx //时间戳 http_method: xxx //HTTP方法,如GET、POST等 uri:xxx //请求URI标识 status_code:xxx //网络状态码 os: xxx //客户端使用的操作系统,如Windows 10 log_size: xxx //当次日志长度 }