舆情监控,特别是互联网舆情监控,作为一个新的技术领域,已经有很多企业准备进入,但是真正的能够有成熟的方案的还是很少。本文通过以我国少有的舆情监测系统之一,迅奥互联网舆情监控系统来做具体的分析! 迅奥互联网舆情监控系统简介 产品的需求总是来自现实工作中的问题。迅奥互联网舆情监控系统的目标也正是为互联网监管带来实际的帮助,可极大地提高监管效率,提高监控质量;还为政府决策提供了对舆论趋势及热点的分析。是尖端信息处理系统,为用户带来前所未有的工作效率。 系统集新闻热点、BBS热点、违规监查、突发事件监控为一体。把日常监管和突出监控有机地结合。 迅奥互联网舆情监控系统特点 支持新闻热点发现、新闻评论监控。 支持监控专题管理,监控人可方便定制、管理自己的监控专题。 支持监控报警,即使无人值守,也不会错过重要事件。 全面支持BBS违规监控,自动统计跟帖量及浏览量,实时了解BBS热点。 支持关键词模糊匹配,无论是同音词、相关词,甚至出现了不完整或是不完全匹的情况,都可被有效监控,避免遗漏违规情况。 支持灵活的优化机制,对处理器和带宽的占用率更低,使单机支持更大的监控范围。 先进的监控下载技术,通过自动分析技术、模板技术、JS解析技术支持更广泛的监控需求。 支持报表生成,并可安用户要求定制报表格式。 经过严格测试,系统有较高稳定性,系统日志可详细的显示系统状态,易于管理和维护。 系统优势 监控采集是互联网应用技术的一个分支,用于对互联网网页信息的抓取。面向监控的采集模块有一定特殊性,需要具备:“快速、全面、准确、大范围”的特点;需要支持高强度的下载压力。因此模块需要支持良好的下载控制和优化机制。 为了实现达到良好的性能,我们设计了抢先式多线程技术。这是下载Spider比较理想的技术。它是同蜘蛛一样行动的程序,该程序通过页面中的URL链接检查更新页面。链接验证不仅处理HREF对象,还会包括JavaScript、INPUT等对象中的连接。通过不断更新的URL队列,合理分配下载线程。 ??? 因为历史信息不是监控的重点,所以监控的即时性指标就十分重要。即时性是指对信息监控的时效性,是内容出现到被监控到的最短周期,也是监控质量的重要指标。 互联网上每时每刻都会产生大量的信息。根据权威分析数据,通常一条新闻发布10分钟后在互联网上的转载次数可达5~20次,同时可被约200位网民阅读,随着信息存在时间的延长,信息被阅读的次数将呈几何积数增长。因此尽可能早地发现并阻止违规信息传播显得尤为重要。为此我们设计了一系列优化机制,以达到最理想的监控效率。 索引页识别技术――索引页通常指包括很多信息链接的导航页,如新浪的NEWS.SINA.COM.CN[http://news.sina.com.cn/]新闻中心。此页面中包含大量的新闻列表及子栏目的链接地址,大量最新新闻链接会在此页中反应出来,以此类推,网站的子栏目也会有下级索引页。因此只要有效地判断并发现此类索引页面,并有针对性的更新链接,就可有效降低监控周期。 更新侦探技术――更新是通过对索引识别页的分析产生更新列表,因此需要在较短的周期不断更新页面,通过链接排重判断页面的更新情况。本系统中采用了矢量标记技术,可将页面更新判断的效率及资源占用率压缩到最低,甚至不需要完全下载页面就可完成更新判断。
..
|