文本内容分析和智能反馈(1)-分析设计
时间:2015-05-28 07:04:23
收藏:0
阅读:176
1、业务背景
某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。
提交后,专家进行审核,某几个专家针对某个行政区划。
对审核不通过的内容,专家会给出修改建议。
业务量较大,单次审核周期一般在1~3个工作日。
如果能够提高一次通过率,将直接提高系统效率。
对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。
2、业务分析
有几件事情可以做:
- 分析历史审批意见,对审批意见分词,做词频统计。
- 分析历史审批意见,特别是审批不通过的审批意见,结合当前应用场景,提取关键属性,得出最高频的审批意见,以恰当形式呈现给用户。
- 结合应用场景,依据属性做关联分析或聚类分析,将分析结果呈现给填报用户。
3、功能设计
3.1、数据预处理模块
对审批意见分词,按如下关键属性保存分词结果。
关键属性包括:业务板块、行政区划、时间段(以半年为单位做离散化处理)、文档编号、专家、 词、 词频。
增量分析。
3.2、各纬度汇总
实现如下函数:
List<Map<String,Long>> getTopSuggest(Map<String,Object> dimensions)
依托预处理模块得到的数据,传入不同纬度的组合,返回词频最高的审批意见。
需注意无效词的过滤。
3.3、关联分析
获得高频出现的五元组、四元组、三元组、二元组,具体视结果质量而定。
找到恰当的阀值。
3.4、聚类分析
定义词的距离,进行聚类分析。
原文:http://blog.csdn.net/stationxp/article/details/46106093
评论(0)