您当前的位置:首页 >  教学资源 >  教育教学论文 > 内容

基于CNN与规则匹配的广告类中文短小文本信息识别

材料写作网    时间: 2020-02-22 06:53:34     阅读:

http://img1.qikan.com.cn/qkimages/kjzi/kjzi201902/kjzi20190217-1-l.jpg
  摘 要:随着互联网越来越深入生活的方方面面,越来越多的人开始积极参与互联网上的各种互动行为。互联网上也有越来越多的地方允许人与人之间通过文本的形式进行互动。但伴随着文本互动行为的规模不断扩大,也对网站的管理人员造成了逐渐增长的压力。广告类行为相比其他垃圾行为而言,背后有着利益进行驱动。大量的广告信息对管理者的管理方式造成了挑战。为了缓解这些问题,该文构造了一种规则匹配与卷积神经网络(CNN)结合的广告类短小文本信息识别方法,取得了较好的识别效果。
  关键词:CNN NLP 广告 分类 自然语言处理
  中图分类号:TP393 文献标识码:A 文章编号:1672-3791(2019)01(b)-00-04
  1 背景介绍
  目前对此类识别短小文本信息进行识别,方法大致有3种:(1)基于语义理解的方法;(2)使用基于标签的方法;(3)使用机器学习方法进行分类。该文主要探寻使用主流的机器学习分类技术与规则过滤方法通过自动识别广告类文本信息解决传统手段对于文本互动的管理问题。关于分类问题,有一些常见算法可供选择:Naive Bayes、AdaBoost、Gradient boosting、卷积神经网络(CNN)等。尽管文本分类是自然语言处理(NLP)领域的经典问题[1],但在实际应用中,大多数运营者仍然采用传统的人工方式或人工方式加简单关键词进行过滤。但这种管理手段效率低下,无法及时过滤迅速产生的海量短小文本互动信息,影响互动功能的正常使用。很多论坛可能一夜之间,就被机器人发送的大量广告信息充斥着版面。增大了用户浏览和查找正常内容的困难。尽管招聘专人对论坛版面管理是个不错的选择,但专人成本高,负荷量大,管理困难,而且未必能在第一时间处理问题。如今,用户生成内容成为互联网上的重要信息来源。因此采用一些技术手段自动对用户发出的文本内容做初步的筛选和过滤,提高网站对于文本互动中的广告类短小文本信息的管理效率,保障互动功能的正常使用成为了迫切的需求,如图1所示。
  2 研究现状分析
  广告类短小文本信息是指广告类的评论、留言、或者公共板块的即时通信信息。针对广告类短小文本信息的自动识别现在主要有以下几种方法:(1)采用验证码等方式;(2...

== 试读已结束,如需继续阅读敬请充值会员 ==
本站文章均为原创投稿,仅供下载参考,付费用户可查看完整且有格式内容!
(费用标准:38元/2月,98元/2年,微信支付秒开通!)
升级为会员即可查阅全文 。如需要查阅全文,请 免费注册登录会员
《基于CNN与规则匹配的广告类中文短小文本信息识别.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:

文档为doc格式

相关热搜

《基于CNN与规则匹配的广告类中文短小文本信息识别.doc》

VIP请直接点击按钮下载本文的Word文档下载到电脑,请使用最新版的WORD和WPS软件打开,如发现文档不全可以联系客服申请处理。

文档下载
VIP免费下载文档

浏览记录