广告的基本知识
广告的目的
什么是广告?
广告的定义
- 广告是由已确定的出资人通过各种媒介进行的有关产品的、通常有偿、有组织、综合的、劝服性的非人员信息传播活动。
广告的主体
- 出资人:广告主
- 媒介
- 受众
广告的本质功能
- 借助媒介的力量,完成较低成本的用户接触
广告的有效性模型
广告与营销的区别
在线广告的特点
在线广告市场
媒体三种变现方式:
- 直接给广告网络
- 通过ADX
- 通过SSP
- 需求方:广告主等等
- 供给方:媒体等等
计算广告核心问题和挑战
挑战:
- 大规模:用户量大,高并发在线投放系统
- 动态性:用户的兴趣随时变化
- 丰富的查询信息:需要把用户和上下文的多样信号一起综合
- 探索与发现:需要主动探索未知的数据,例如用户的其他未展示信息
广告、搜索和推荐的比较
投资回报(ROI)分析
参数解释:
$a_i$:广告
$u_i$:用户
- $c_i$:上下文
在线广告系统结构
合约广告系统
常用广告系统开源工具
- GFS
- Thrift
- Storm
- Scribe
- Flume
- Chubby
- Hadoop
- HDFS
- MapReduce
- Avro
- Chuhwa
- ZooKeeper
- HBase
- Oozie
- Pig
- Hive
- BigTable
- HYPERTABLE
- Cassandra
- mahout
- Elephant-bird
合约广告简介
直接媒体购买
- 供给方:广告排期系统,帮助媒体自动执行多个合同的排期,不提供受众定向
- 需求方:代理商,帮助广告商策划和执行排期,用经验和人工满足广告商的质量需求
- 代表:4A公司
担保式投送与广告投放
- 担保式投送(guaranteed delivery)(保证量):基于合约的广告机制,量优于质的销售方式,采用CPM的方式结算
- 广告投放机(Ad server)(希望帮广告商做一些优化,优化质):CPM必然要求广告投送由服务器完成决策,受众定向、CTR预测和流量预测是广告投放机的基础,担保式投送下,投放机满足各合约的量,并尽可能优化各广告主流量的质
在线分配问题
- 用拉格朗日方法求解
- $b_{ia}$:第i个impression(曝光)拿到广告a的收益
- $x_{ia}$:流量分配以及预算控制
- display ad problem:有量的需求,量的下限或预算(上限)的需求
- adwords problem:没有明确的量需求
- NGD:non-guaranteed delivery(上限的需求)
- 流量预测下的GD在线分配
Hadoop介绍
受众定向(audience targeting)-在线广告的核心
受众定向概念
概念
常见受众定向方式
- $f(a,u)$:
- 重定向,如果某个用户访问某个广告,则给该用户或该广告打上某一个标签
- lookalike,从海量数据中找到与已有种子用户相似的用户
- $f(u)$:行为定向
- $f(c)$:上下文定向
行为定向-对user打标签
九种重要的原始行为(按信息强度排序)
- transaction:交易信息
- pre-transaction:预交易信息
- paid search click:付款点击信息
- ad click:广告点击信息
- search click:搜索点击信息
- search: 搜索信息
- share:分享信息
- page view:网页浏览信息
- ad view:广告流量信息
行为定向计算:为用户的每个行为标签计算一个值(强度)
行为定向其他标签
- session log:以用户ID为key的形式,可以将targeting变成局部运算
- long-term:多日标签累计计算,采用时间衰减方式,仅需昨天的f和今天的t
上下文定向-即时标签
以url举例:
- 用在线cache系统存储url
- 不预先加载任何cache内容,对cache中不存在的url,立刻返回空特征,同时触发相应的页面爬虫和特征提取
- 设置cache系统合适的失效时间以完成特征自动更新
Topic Model-上下文(页面主题分析)
参数解释:
- $\pi$:先验分布
- $z$:隐含主题
- $w$:词word
数据加工和交易
精准广告业务是什么?
- 数据源——用户行为——定向系统——用户标签——投放机
有价值的数据
- 用户标识
- 用户行为
数据管理平台(DMP)
- 目的:
- 为网站提供数据加工和对外交易能力
- 加工跨媒体用户标签,在交易市场中售卖
- 是否应直接从事广告交易存在争议
- 关键特征:
- 定制化用户划分
- 统一的对外数据接口
data highway工具
- scribe:大规模分布式日志收集系统
- flume
- chukwa
竞价广告系统(supply端)
位置拍卖理论
竞价系统理论
定价机制
广告网络概念
广告网络
- connect advertisers to web sites that want to host advertisements
- 自行估计给定(a,u,c)组合的CTR
主要特征
- 竞价系统
- 淡化广告位概念
- 最合适的计价方式是CPC
- 不易支持定制化用户划分
广告检索
布尔表达式检索
- index算法
长query情况下的相关性检索
- weigth-and(wand)检索算法
流量预测
- 可以视query为a,对(u,c)进行检索的反向检索(retrieval)问题
- 由于(u,c)联合空间规模过大,需要进行预处理
预测过程
- 给定a,首先通过c的索引找出所有符合条件c的集合
- 对每个c估计eCPM(a,c),并根据eCPM得到a在c上胜出的百分比并累加则得到a的流量预测值
ZooKeeper介绍-分布式同步服务
- 在基于消息传递通信模型的分布式环境下解决一致性问题的基础服务
- 用层次式namespace维护同步需要的状态空间
- 保证实现特性:timeliness等
- 较复杂的同步模式需要利用API编程实现
- Paxos算法
点击率预测与逻辑回归
点击率预测
逻辑回归优化方法介绍
L-BFGS
ADMM方法
动态特征
多层次点击反馈
探索广告与广告网络(suppy端)
探索与利用
UCB
Contextual Bandit
搜索广告
特点
- 广告网络的特殊形式
- 用户定向标签
- session内的短时间用户搜索行为更重要
- 上下文定向标签
- 典型位置竞价模式
- 分南区、北区、东区等
查询词扩展
- 基于推荐的方法
- 挖掘矩阵找到相关query
- 基于语义的方法
- topic model
- 基于收益的方法
- 根据eCPM统计得到表现较好的相关query
用户相关的搜索广告决策
- 结果个性化对于搜索广告作用有限
- 广告展示条数是可以深度个性化的
- 可以根据统一session内的行为调整广告结果
短时用户行为反馈
- 短时用户行为
- 短时用户行为反馈
- 短时受众定向
- 短时点击反馈
- 短时用户行为计算
- 需要准实时对用户行为加工,不适合在Hadoop上进行
流式计算平台
Storm
- 大规模实时数据处理框架,自动完成数据分发和可靠性管理,开发者只需要关注处理逻辑
- 数据流基本在网络和内存进行
- 计算逻辑类似mapreduce,区别在于调度数据而非调度计算,hadoop却是调度计算
广告购买平台(demand端)-trading desk
关键特征
- 连接到不同媒体和广告网络,为广告商提供universal marketplace
- 非实时竞价campaign的ROI优化能力
- 经常由代理公司孵化出来
非RTB流量的ROI优化
广告交易市场(ADX)
广告交易市场(ad-exchange)
主要流程:
- 某个 User 访问某个网站,网站通知 Adx 目前有一次展示机会
- Adx 通过 RTBD 接口向各个 DSP 询价,从而获取 DSP提供的各个广告(相当于图中的 Ad retrieval)
- Adx 通过出价进行排序,并选择出价最高的广告展示给用户(相当于图中的 Ad ranking)
- Adx 在日志中记录该广告的展示记录
关键特征
- 用实时竞价方式连接广告和上下文、用户
- 按照展示上的竞价收取广告主费用
实时竞价-RTB
cookie mapping
supply side platform-供应方平台
媒体流量变现方式
- 合约广告,与广告主签订合约进行投放(CPM 结算)
- 竞价广告,将广告位托管给广告网络,广告网络根据人群售卖给广告主(CPC 结算)
- 实时竞价(按展示结算)
关键特征
- 提供媒体端的用户划分和售卖能力
- 可以灵活接入多种变现方式
- 收益管理:统一网络优化和RTB,优化媒体利益
demand side platform-需求方平台(交易市场demand端技术)
关键特征:
- 定制化用户划分
- 跨媒体流量采购
- 通过ROI估计来支持RTB
结构图
难点:要估计 eCPM = CTR * clickValue,ADX不是对全部DSP询价,而是会预估每个DSP会不会出价,从而减轻询价成本(带宽成本)。
DSP流量预测
问题
- DSP需要预测流量以决定采买策略
- DSP拿到流量就是bid的函数,称为bid landscape
思路
- 由于DSP无法拿到所有流量情况,因此无法像供给方ssp那样进行流量预测
- 如何利用历史投放数据仍然是关键
DSP点击价值估计
应用场景
- DSP的实时出价
- 广告网络中的出价工具
- 智能定价
挑战
- 非常稀疏的训练数据
- 与广告主类型强烈相关的行为模式
点击价值估计若干原则
- 模型估计时,用较大的bias换较小的variance,以达到稳健估计的目的
- 充分利用广告商类型的层级结构,以及转化流程上的特征
DSP重定向(retargeting)
重点:
- 当一个用户浏览过我们的产品或官网,但是他没有形成转化,但之后他去浏览其他媒体的时候,我们通过对他投放广告则可以加大其转化可能
分类
- 网站重定向
- 搜索重定向
- 个性化重定向
- 根据用户关注或购买,推送商品粒度的广告
- 已购买的,推荐相关产品
- 站外推荐
推荐算法
- 协同过滤算法
- 内存方法或非参数方法:近邻、Item-based/user-based
- 模型方法或参数方法:矩阵分解、贝叶斯
- 基于内容算法
- SVD++算法
新客推荐-lookalike
- 由广告商提供一部分种子用户,DSP通过网络行为的相似性来找到潜在用户
- 是一种广告商自定义标签,可以视为扩展的重定向
- 在同样reach水平下,效果好于通用标签
- 尽量利用非demand数据,注意避免在竞争对手之间倒卖用户
需求端推荐方法
广告流量交易方式
优先销售:
- CPT结算
- GD(担保式投放):CPM 结算 + 人群定向
程序交易:
- 竞价广告(Ad network)
实时竞价广告(Adx)
DSP:network optimization + RTBD
- SSP:portfolio selection + RTBS