Sources就是来源、官方文档有时候直接称为源。
Sources的作用就是从外部获取数据,可以从不同的来源、不同平台获取数据,加载到CDP里面。
它是整个CDP数据处理的起点。
从图中,我们可以知道有两种大类方式可以实现数据导入的,分别是File Ingestion和Source:
- File Ingestion还可以进一步分为流式和批量
- Source的方式叫做源
你可能会在有些地方看到说数据导入有三种方式,流式、批量和源就是这样划分。
我们这一节只讲Sources,源。
实现方式
Sources它提供两种实现方式:用户界面和RESTful API。
- 用户界面(UI方式):通过内置的数据源目录,只要简单的配置与验证就可以实现数据到数据
- RESTful API(API方式):通过API方式获取数据,给用户提供更强的自定义能力
数据源类型
Adobe的CDP支持非常多的数据源,如Adobe应用程序、基于云的存储、数据库和许多其他资源。
Adobe applications(Adobe应用程序)
Adobe CDP允许从其他Adobe应用程序中摄取数据,支持如下类型:
- Adobe Analytics:Adobe Analytics源连接器将Adobe Analytics收集的数据实时流式传输到CDP,并将SCDS格式的Adobe Analytics数据转换为Experience Data Model (XDM)字段供CDP使用。一般是两分钟内,如果用户的启用A4T,那么最长是15分钟。
- Adobe Audience Manager :允许Adobe Audience Manager中收集的第一方数据流化到Adobe Experience Platform,可以将实时数据和用户档案数据导入到CDP,实时数据是35分钟内,用户档案数据是两天内。
- Customer Attributes:可以将客户属性用户档案数据引入CDP。
- Experience Platform Launch:可以将点击流或应用数据直接发送到CDP。
- Marketo Engage:目前处于测试状态。
现阶段支持上述Adobe应用程序,随时可能会新增其他的Adobe 应用程序。
需要注意,从Adobe应用程序导入数据,需要先在Adobe Admin Console做授权管理,响应Adobe应用程序的数据才可以导入到Adobe CDP,有两个权限类型:
Advertising(广告)
Adobe CDP支持从第三方广告系统中摄取数据,目前只有Adwords的,处于测试状态。
- Google AdWords
Cloud Storage(云存储)
云存储源是用于存储数据,可以直接导出数据,有可以从平台导入数据。 收录的数据可以格式化为XDM JSON、XDM Perface或分隔。
- Azure Data Lake Storage Gen2
- Azure Blob
- Amazon Kinesis
- Amazon S3
- Apache HDFS
- Azure Event Hubs
- Azure File Storage
- FTP
- Google Cloud Storage
- Google PubSub
- Oracle Object Storage
- SFTP
Customer Relationship Management (CRM,客户关系管理)
Adobe CDP支持从Microsoft Dynamics 365和Salesforce获取CRM数据。
- Microsoft Dynamics :Microsoft Dynamics源连接器当前不支持与平台的同一区域连接。 这意味着,如果您的Azure实例使用与平台相同的网络区域,则无法建立到平台源的连接。
- Salesforce
Customer Success(客户成功)
Adobe CDP支持从第三方客户成功应用程序中获取数据。
- Salesforce Service Cloud
- ServiceNow
Database(数据库)
Adobe CDP支持从第三方数据库中获取数据,目前市面上主流的基本都支持:
- Amazon Redshift :处于测试状态
- Apache Hive on Azure HDInsights
- Apache Spark on Azure HDInsights
- Azure Data Explorer
- Azure Synapse Analytics
- Azure Table Storage
- Couchbase
- Google BigQuery
- GreenPlum
- HP Vertica
- IBM DB2
- MariaDB
- Microsoft SQL Server
- MySQL
- Oracle
- Phoenix
- PostgreSQL
eCommerce(电子商务)
Adobe CDP支持从第三方电子商务系统中获取数据。
- Shopify
Marketing Automation(营销自动化)
Adobe CDP支持从第三方营销自动化系统中获取数据。
- HubSpot 连接器
Payments(支付)
Adobe CDP支持从第三方支付系统中获取数据。
- PayPal
Protocols(协议)
Adobe CDP支持从第三方协议系统中获取数据。
- Generic OData :测试版
Streaming(流)
Adobe CDP支持从流源中获取数据。
- HTTP API
Sources里的功能
Sources主要有四大功能:
- Catalog:数据源目录,设置数据源
- Accounts:账号管理,如更新、删除都是在这个地方设置
- Dataflows:数据流,数据流是一个计划任务,它从源中检索数据并将其引入CDP里面,其实就是做XDM数据映射管理,可以配置、更新和删除数据流。
- Systemview:系统数据视图,看数据之前的关系情况,如下图:
可以知道数据的来源Sources和数据的用途Destination。
创建数据源的过程
创建数据源的过程,不同的来源会有所差异,如果是Adobe应用程序,由于都是Adobe的产品,内部映射或打通做的比较好,数据可以“直接”导入,如果是第三方来源,创建数据源的过程基本都是类似的:
- Authentication:登录或关联第三方数据源账号
- Select data :选择要导入的数据
- Mapping:数据映射,就是设置XDM,在这一步里面还需要选择将导入的数据存储到哪个数据集了,这一步涉及到Data Manager管理里面的Dataset和Schemas,非常重要的。
- Scheduling:设置定时任务,从源数据中检索数据并将其引入CDP里面
- DataFlow detail:数据流基本信息
- Review:确认
整个过程都是高度工具化,很方便集成不同来源的数据。