AG真人平台

宜昌信息发布平台推广公司【易商网络】

2019-04-14 23:57 AG真人平台

  所述分类(classi fica tion)算法主要是通过对已知类别的文本进行训练,得 出训练模型,从而根据模型对待处理的数据进行分类。分类算法适用于在已经规定了类别 的前提下,对数据进行分类。常见的分类算法有svm算法、贝叶斯(bayes)算法、随机森立 (ramdom forest)算法等。

  所述聚类(clustering)算法又称为无监督学习算法,主要通过tf-idf (term frequency - inverse document frequency、词步页-反文档步页率)、idf (inverse document frequency、反文档频率)等算法将文本中的分词转换为向量,通过比较文本中对应向量的 距离与设定阈值的大小,从而对这些文本进行分类。聚类算法适用于在类别未知的前提下, 对数据进行分类。常见的聚类算法有k-means算法等。

  所述关联规则(Association Rules)算法主要是从大量数据中获取数据之间的关 联关系。关联规则算法适用于从海量数据中寻求各数据之间的关联性。例如,美国沃尔玛 超市发现尿布与啤酒被同时采购的概率很高,经分析发现年轻爸爸在采购尿布 的同时往往为自己采购啤酒。

  所述特殊规则匹配(rules matching)算法主要是通过大量经验的积累,总结出在 出现某种规则的前提下,该文本一定属于某个类别的一种特殊的算法。特殊规则匹配算法 可与上述三类算法相结合使用。

  第1步,对采集下来的大量互联网的网页数据中进行文本预处理,即过滤掉无用 信息,获取网页主要内容,并将获取到的内容保存为文本。然后,选用分词器对文本进行分 词,得到包含文本和此时分词的中间文本集。如果是针对中文分词,所述分词器例如采用 ansj分词器、_seg j分词器、lucene分词器中的一种或多种。最后,选用特征值降维算法 从中间文本集中过滤掉无用的分词,仅保留权重较高、可以比较明显表示出该文本类别特 征的分词,得到包含文本和此时分词的最终文本集。所述特征值降维例如采用tf-idf算 法、权重计算等方法。

  第2步,由于类别已定为至少两种,因而适于采用分类算法和/或特殊规则匹配算 法。对于分类算法而言构建模型,对于特殊规则匹配算法而言归纳规则。

  因此,这样的存储介质也构成了本申请。存储介质可以使用任何类别的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。因此,本申请还公开了一种存储介质,其中存储有数据处理程序,该数据处理程序用于执行本申请上述方法的任何一种实施例。以上仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。一种媒体信息的推广方法,其特征在于,接收用户更新社交圈消息的指令;接收发送的指示有媒体信息可推广的通知消息,所述通知消息携带有可推广的媒体信息的简介。

  以使社交应用客户端在接收到通知消息后输出是否展示媒体信息的选项和简介。步骤、接收社交应用客户端发送的展示媒体信息请求。步骤、向社交应用客户端返回待展示的媒体信息,以使社交应用客户端输出该媒体信息。图为依据本申请另一实施例的媒体信息的推广方法的流程示意图。该方法应用于。参见图,步骤、接收社交应用客户端发送的检测媒体信息请求。步骤、响应于该请求,检测当前是否有媒体信息可推广。当检测出当前有媒体信息可推广时,执行步骤-;否则,执行步骤。步骤、生成可推广的媒体信息的简介,将简介携带于通知消息中,并向社交应用客户端发送指示有媒体信息可推广的通知消息,以使社交应用客户端在接收到通知消息后输出是否展示媒体信息的选项和该媒体信息的简介。

  社交圈消息包括至少一个表情图标和非表情的消息内容。其中,非表情的消息内容包括文本、图片、音频文件、视频文件中的任意一项或任意几项。这些非表情的消息内容和表情图标结合起来能够揭示用户当前的情绪状态。然后,根据非表情的消息内容和预先存储的该用户的属,分析得到表情图标所对应的心情标签。其中,用户的属包括用户在社交应用客户端中注册时输入的个人信息,如性别、年龄、地域、喜好等。心情标签用于标识喜(如开心)、怒(如生气)、忧(如忧伤)、思(如思虑)、悲(如悲伤)、恐(如恐惧)、惊(如吃惊)中的任一项或任意几项,该心情标签可以具体表现为该用户的心情在上述七种情绪中所占的百分比。对于一个表情图标而言,所对应的这些百分比之和为。



相关阅读:AG真人平台