广告点击率预测

 2022-02-06 07:02

论文总字数:23030字

摘 要

如今不管对于广告商或是广告平台来说,竞价广告已经成为了一种新型的潮流的广告交易方式,而直接影响广告交易价格的,就是广告的点击率。所以点击率的预测可以说是竞价广告中最为重要的一个环节。

本文针对预测点击率问题,进行算法的实现和比较。通过使用KDD CUP 2012年Track2提供的基于腾讯搜搜的搜索广告日志数据,比较各个数据特征对于广告点击率影响程度的大小,提取数据特征,并分成5份等量的数据集,排列组合形成模型训练数据和测试数据,用于交叉验证。论文中使用了逻辑回归(Logistic Regression)、朴素贝叶斯模型(Naive Bayesian Model)、以及随机森林(Random Forest)模型来进行数据训练,训练模型时输入端为已经提取好特征的训练数据矩阵和标签矩阵;并用测试数据对各个模型进行测试,测试模型时输入端为测试数据的特征矩阵,输出为预测的标签(即广告是否被点击,若被点击则标签为1,不被点击则标签为0)。将测试结果与原有测试数据标签结果进行比较,并使用ROC曲线下面积AUC对模型预测结果的正确性进行评估。

本文根据多次交叉验证后模型最终AUC平均值的高低,来比较模型预测点击率效果好坏。实验结果显示,随机森林模型在这份数据中取得了一个最好的预测效果。

关键词:点击率预测,特征提取,模型训练,交叉验证,AUC,逻辑回归,朴素贝叶斯,随机森林

CTR PREDICTION BASED ON SEARCH ADS LOG DATA

Abstract

Today, regardless of the advertiser or advertising platform, ad auction seems to have become a new trend of advertising transactions, and the CTR of ad directly affect the trading price of the ad. So predicted CTR can be thought the most important link in ad auction.
This article is mainly around the issue of predict CTR, implement and compare algorithms. By using search advertising log data,which is based on Tencent Soso and provided by KDD CUP 2012 Track2, comparing the Influence degree of each data characteristics for ad click rate, extract the characteristic from the original data, and divided the feature data into five equal parts, permutations and combinations formed model training and testing data for cross validation. And using logistic regression model (Logistic Regression), Naive Bayes model (Naive Bayesian Model) and Random Forest model for training data. The input of training model is the features training data matrix and a label matrix; And using the test data to test each model, the input of testing model is the feature matrix of test data, and the output is forecast label (if the ad is clicked, the label is 1.,and if not, the label is 0). The test results of the original test results will be compared with the forecast labels, and using the AUC(area under ROC curve) to assess the correctness of the model predictions.
AUC values is generally between 0.5 ~1.0. if the AUC values is farther away from 0.5, indicating that the better the predicted results. So after multiple cross-validation and according to the final average level of AUC, to compare the predict result of the model,and select a best one. Experimental results show that random forest model achieved a best prediction effect in this data.

KEY WORDS:CTR predict, feature extraction, model training, cross validation, AUC, Logistic regression, Naive Bayes, Random Forests

目录

摘 要 2

Abstract 3

第一章 绪 论 5

1.1 研究背景和意义 5

1.2 CTR预测国内外研究现状 5

1.3 本文主要研究内容和问题难点 6

1.4 本文的组织结构 8

第二章 点击率预测相关技术综述 9

2.1 在线广告点击率相关知识 9

2.2 点击率预测模型原理介绍 9

2.2.1 逻辑回归模型 9

2.2.2 朴素贝叶斯 12

2.2.3 随机森林 13

2.3 广告数据提取特征的一般原则和方法 14

2.4 模型预测结果评价指标 16

2.5 本章小结 17

第三章 方法设计与实现 18

3.1 方法设计 18

3.2 方法实现 18

3.2.1 数据集介绍 18

3.2.2 实验数据集统计与分析 19

3.2.3 特征选择与提取 20

3.2.3.1 历史点击率 20

3.2.3.2 特征的选择和处理 20

3.2.4 实验方法实现 21

3.2.4.1 构建训练数据集和测试数据集 21

3.2.4.2 训练模型调用实现 21

3.3 本章小结 23

第四章 实验及结果分析 24

4.1 实验环境 24

4.2 验证特征 24

4.3 验证训练数据量大小是否对预测结果有影响 24

4.4 通过交叉验证比较三个模型 25

4.5 结果分析 25

4.6 本章小结 26

第五章 总结与展望 27

5.1 总结 27

5.2 展望 27

致谢 29

参考文献: 30

  1. 绪 论

1.1 研究背景和意义

日常生活中,很多人都会说,我们生活在一个信息爆炸的时代。信息爆炸,其实就是意味着信息渗透了我们生活的各方各面,但也造成了冗余繁乱的数据、信息堆积在我们身边。身处互联网时代的我们,每天被各种各样的数据和信息狂轰滥炸,搜索引擎的出现,能够过滤掉一些我们并不需要的信息,一定程度改善了这种情况。随着用户的增加,各大搜索引擎基本也成为了营销的宝地。

剩余内容已隐藏,请支付后下载全文,论文总字数:23030字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;