admin 管理员组

文章数量: 887021


2024年2月20日发(作者:postgresqlwindows下载)

第35卷第4期

2019年4月

福 建 电 脑

Journal of Fujian Computer

Vol. 35 No.4

Apr. 2019

基于爬虫技术的EPG自动拨测系统

李正茂

(中邮科通信技术股份有限公司 福州 350005)

摘 要 随着电信IPTV业务的持续增长,平台内容存量不断累积,每日更新内容越来越多,单纯依靠人工拨测方式已无法满足日益增长的IPTV内容质量检测需求;本文提出一种基于爬虫技术的自动拨测方案,实现自动化的内容质量检测。

关键词 IPTV;EPG;网络爬虫;自动拨测

中图法分类号TP393 DOI:10.16707/.2019.04.044

EPG Automatic Dialing System Based on Crawler Technology

LI Zhengmao

(China Youke Communication Technology Co.,Ltd, Fuzhou, China, 350005)

1引言

随着电信IPTV业务的持续增长,平台内容存量不断累积,每天更新内容也越来越多。目前采取人工方式对现网内容进行测试,测试范围主要针对各业务平台内容属性配置比对、层级EPG拨测。

但依靠人工方式进行测试只能覆盖部分节点、部分业务内容的测试,导致有不少问题没法及时发现,影响了用户的体验。

为了保障IPTV业务的良好运行,有必要采用技术手段来实现自动化的业务测试,提高业务测试覆盖范围,提高用户的体验。

现用户操作请求的解析和交互并将结果返回给用户的关键任务,通过指引用户操作,使用户最终享受到高质量的IPTV服务[2]。

2.2 IPTV业务问题及分析

电信IPTV平台网络架构复杂,由多个厂家的系统组成,采用多平台、多节点的组网方式,各地市均有不同的节点保存IPTV节目内容并负责本地用户的服务;同时各种内容资源、各种增值业务等也由不同的厂家提供,增加了业务出现问题的几率。

目前在EPG内容测试中发现的部分问题如下:

1) 超级体育-搏击-昆仑决-第48期返回错误代码93002。

2) 娱乐中部分节目黑屏。

3) 越狱第三部标清提示参数错误。

4) 热播剧场部分影片提示节目已下线。

5) 娱乐首页,中间下半部图文列表第一个缺失。

6) 最动漫看吧》小豆豆天地》神奇的动物在哪里》佩格与小猫无法播放。

7) 最纪实看吧》惊吓排行榜(怪物传说节目列表为空)。

8) 电视剧缺集,如热剧-内地-乱世丽人行。

根据对这些问题的产生原因及处理结果分析汇总,主要存在以下几个问题:

1)页面元素缺失、链接不正常、图片显示不正2 IPTV业务现状

2.1 IPTV业务概述

电信IPTV是一种基于电信宽带网络,通过机顶盒接入电信网络实现数字电视、互动娱乐等服务的网络电视[1]。

EPG(Electronic Program Guide)系统是IPTV的门户系统,电信IPTV所提供的各种业务都是通过

EPG系统来完成的;EPG界面与 Web页面类似,包含各类菜单、按钮、链接等供用户选择节目时点击用,同时也包含各类供用户浏览的动态或静态的多媒体内容;EPG作为人机交互的界面,承担起实———————————————

李正茂,男, 1976年生,主要研究领域为计算机通信、软件开发。 E-mail:610055080@。

2019年 福 建 电 脑 121

常;内容黑/白屏、重复、缺集漏集、无法播放等问题在拨测过程中较常发现。

2)同时,由于看吧页面规划及栏目设计的特殊性,看吧的错误比点播、直播更为突出。

3)百视通、中兴、华为平台的内容属性配置信息不一致。

经统计,其中70-80%的问题为页面报错、视频播放问题。

2.3 IPTV业务问题解决方案

根据以上对IPTV业务问题的分析,计划设计一套EPG自动拨测系统,从两方面对IPTV业务进行自动检测,以及早发现并解决IPTV业务的问题:

1)针对问题1和2,通过使用爬虫技术来模拟机顶盒操作,实现对EPG系统的遍历测试;同时通过不同账号与不同节点的关联绑定,实现对全部节点的覆盖测试。通过检测任务模式,可定时定量灵活实现对EPG页面/点播/直播/增值业务等的在线监测、实时报警,从而加大拨测范围;自动拨测操作流程如图1所示。

图1 自动拨测操作流程图

2)针对问题3,通过平台数据核对方式,实现将百视通与中兴、华为平台上的内容属性配置清单按时采集进行比对,从而在内容发布之前即可纠错。

3 EPG自动拨测系统方案设计

在EPG自动拨测系统中,网络爬虫技术扮演着重要的角色。

3.1爬虫技术概述

网络爬虫是一种按照一定的规则,自动地抓取web信息的程序或者脚本[3]。

网络爬虫分为以下四种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫[4]。

根据电信IPTV系统网络架构特点及对EPG页面及内容结构的分析,在EPG自动拨测系统中,主要采用聚焦网络爬虫与深层网络爬虫相结合的方式。

3.1.1聚焦爬虫

聚焦爬虫的目标是抓取与某一特定主题内容相关的网页,它根据一定的分析算法抓取与主题有关的链接,然后对这些链接的页面内容进行分析[4]。

3.1.2深层网络爬虫

Web 页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web)。表层网页是指传统搜索引擎可以索引的页面,如静态网页。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web[4]。

3.2 EPG自动拨测系统方案

本系统采用爬虫技术模拟机顶盒浏览器实现对所有EPG页面层级的每个节目的播放、展现元素等的自动拨测,从而实现全流程自动监测。同时考虑现网IPTV平台每个业务账号与EPG节点是一对一的关系,每个EPG节点并发处理能力,本系统将采用单线程测试单个EPG节点,根据任务处理时间要求限制并发测试多个EPG节点个数,避免对正常用户使用造成影响。

3.2.1软件架构图

图2 软件架构图

如图2所示,平台软件架构采用分层设计方式:

数据层:主要为数据库,用于保存系统账户数据、节点数据、拨测数据等;

122 李正茂:基于爬虫技术的EPG自动拨测系统 第4期

处理层:实现各种业务逻辑,如:拨测方案管理、拨测任务管理、业务属性配置、接口子系统等;

应用层:提供拨测报告、统计分析报告等;

展示层:管理员通过各种终端与epg自动拨测系统交互。

3.2.2拨测流程设计

图3 拨测流程图

如图3所示,拨测流程如下[5]:

(1)系统定时任务管理模块扫描待拨测的任务,根据任务优先级获取要拨测任务信息(如:EPG节点、业务类型及地市等)。

(2)根据EPG节点获取关联的IPTV测试账号信息,按照接口协议规范模拟其机顶盒登陆过程并获取会话相关信息。

(3)判断要拨测的业务类型;如果是直播类或视频点播类则执行步骤(4);如果是增值类业务执行步骤(5);如果看吧类则执行步骤(6);其它返回异常。

(4)根据拨测任务配置的BesttvCode,获取对应视频播放地址,并检测其是否可播放;然后记录测试结果。

(5)测试增值类业务首页是否正常;然后记录测试结果。

(6)看吧类业务流程:

①分析看吧页面入口URL,判断是否有拨测记录,如果有则结束;否则执行下步。

②爬虫发起访问该url,根据返回结果判断该页面是否可正常访问,如否则记录错误原因。

③从返回页面内容中过滤出所有图片url,分别进行可访问性检测,出错则记录原因。

④通过正则表达式抓取页面中的具体节目URL,先重复②-③步骤,然后分析获取其播放地址并检测其是否可播放,是否缺集等:

a)根据URL获取页面HTML内容;

b)根据模板从HTML内容获取页面中视频节目标题;

c)根据模板获取视频内容及对应的视频节目播放URL;分析节目内容是否完整,如有遗漏则记录错误信息;

d)访问视频节目播放URL,获取节目的BesttvCode;

e)根据节目的BesttvCode获取其视频流播放地址;

f)根据获取的视频流播放地址,利用视频播放控件播放视频检测视频流是否正常,若不能播放则记录原因。

⑤通过正则表达式抓取页面中的分类节目URL,重复①-④步骤。

4 结束语

基于爬虫技术的EPG自动拨测系统,可以提高IPTV业务内容质量的监测范围,同时实现对全省各地市问题内容的集约化管理,从而加大拨测规模,在基于人工测试的基础,提高了平台拨测范围及成效,实现日常维护的集中化管理。

通过试验表明,通过爬虫技术能够准确和高效地检测出IPTV业务平台的错误内容,发现并解决大部分问题。

参 考 文 献

[1] 苟亚男. 浅析iptv的特点及发展. 科技传播, 2011(6): 201-202

[2] 祖燕,王先农. 浅谈iptv业务监管中epg的采集技术与应用. 电视工程,

2012(3): 46-47

[3] 李琳. 基于Python的网络爬虫系统的设计与实现.信息通信, 2017 (9):

26-27

[4] 孙立伟, 何国辉, 吴礼发. 网络爬虫技术的研究. 电脑知识与技术,

2010, 06(15): 4112-4115

[5] 李正茂, 李毅明,陈福春,黎建贵. 一种基于爬虫技术的IPTV业务质量拨测方法, 中国, 2017,09,29


本文标签: 内容 业务 爬虫 拨测 页面