3.1 实验数据集描述

首先介绍示例可能用到的3个主要数据文件的结构。

(1)索引文件baidu下类型文件baike(利用爬虫采集到的百度百科词条信息,采集方法见本书第10章)的结构(数据略):

    _index: baidu             //针对百度百科词条数据的索引文件名称
    _type: baike              //针对百度百科词条数据的类型文件名称
    _id: xxx                  //id号
    _version: x               //版本号
    _score: x                 //排序分值
    _source: {                //数据字段描述(内容略)
        title: (略)           //词条标题
        url: (略))           //URL,如http://baike.baidu.com/view/6505879.htm
        content: (略)         //词条内容
        lastModifyTime: (略)  //最近更新时间
        taglist: (略)         //内容分类,如"历史人物"等
    }

(2)索引文件it-home下类型文件posts(利用爬虫采集到的程序员论坛主题帖信息)的结构:

    _index: it-home       //针对程序员论坛主题帖数据的索引文件名称
    _type: posts          //针对程序员论坛主题帖数据的类型文件名称
    _id: xxx              //id号
    _version: x           //版本号
    _score: x             //排序分值
    _source: {            //数据字段描述(内容略)
        publishTime: xxx  //帖子发表时间
        category: xxx     //主题类别
        title: xxx        //帖子主题
        user: xxx         //帖子发布者昵称
        url: xxx          //URL,如http://bbs.it-home.org/thread-76807-1-1.html
        content: xxx      //帖子内容
    }

(3)索引文件whale下类型文件为log(日志信息)的结构。

    _index: whale             //索引文件名称
    _type: log                //type名称
    _id: xxx                  //某document的id号
    _version: x               //版本
    _score: x                 //评分
    _source: {                //数据字段描述
        custom_ip: xxx        //客户端IP地址
        timestamp: xxx        //时间戳
        http_method: xxx      //HTTP方法,如GET、POST等
        uri:xxx               //请求URI标识
        status_code:xxx       //网络状态码
        os: xxx               //客户端使用的操作系统,如Windows 10
        log_size: xxx         //当次日志长度
    }