Vertica 集成 Dataiku DSS¶
连接指南¶
关于 Vertica 连接指南¶
Vertica 连接指南为将第三方合作伙伴产品连接到 Vertica 提供基本说明。连接指南基于我们对特定版本的 Vertica 和合作伙伴产品的测试。
Vertica 和 Dataiku DSS:测试版本¶
| 软件 | 版本 |
|---|---|
| 合作伙伴产品 | Dataiku Data Science Studio (DSS) 11.3.2 |
| 合作伙伴产品平台 | RHEL 8.8 |
| Vertica 客户端 | Vertica JDBC Driver 23.3.0 |
| Vertica 服务器 | Vertica Analytic Database 23.3.0 |
Dataiku DSS 概述¶
Dataiku Data Science Studio (DSS) 是一款机器学习工具,支持访问 notebook、工具和代码,使数据工程师和数据科学家能够分析数据。它提供用于数据准备的简单可视化配方以及一套 AutoML 功能。
安装 Dataiku DSS¶
在安装 Dataiku DSS 之前,请先查看 Linux 安装要求。为 Linux 发行版和架构下载最新版本的 Dataiku DSS。下载完成后,按照安装说明操作。
安装 Vertica 客户端驱动¶
Dataiku DSS 使用 Vertica JDBC 客户端驱动连接到 Vertica:
- 访问 Vertica Client Drivers 页面
- 下载与 Vertica 版本对应的 JDBC 驱动
- 停止 DSS:
$ DATA_DIR/bin/dss stop - 将下载的 JDBC jar 文件复制到
DATA_DIR/lib/jdbc文件夹 - 启动 DSS:
$ DATA_DIR/bin/dss start
注意: DATA_DIR 是 DSS 安装目录的默认路径。
连接 Dataiku DSS 到 Vertica¶
- 在 Web 浏览器中打开 Dataiku DSS:
http://<IPAddress>:<Port>(端口为安装时输入的端口号) - 点击 NEW PROJECT,选择 Blank project
- 输入项目名称,点击 CREATE
- 在右上角点击应用程序图标,选择 Administration
- 在 Admin 界面中点击 Connections
- 展开 NEW CONNECTION 下拉菜单,点击 Vertica
- 输入连接信息:
- New Connection Name:连接名称
- Host:Vertica 服务器 IP 地址
- Database:数据库名称
- User:Vertica 数据库用户名
- Port:默认端口号 5433
- Password:Vertica 数据库密码
- 点击 Test,然后点击 Create

创建数据集¶
连接到 Vertica 后,按以下步骤创建数据集:
- 从 DSS 菜单栏点击导航图标,选择 Datasets
- 点击 NEW DATASET,选择 SQL Databases > Vertica
- 在 Connection 选项卡中输入必要字段:
- Connection:您的 Vertica 连接
- Mode:选择 Read a database table 或 SQL query
- Table:表名
- Schema:模式名
- 点击 TEST TABLE 预览数据
- 在 New dataset name 字段中输入数据集名称,点击 CREATE
已知限制¶
连接 Dataiku DSS 和 Vertica 时的数据类型限制:
读取和写入模式共有: - NUMERIC 数据类型最多显示 15 位精度,超过后舍入 - DATE 数据类型最小显示值为 1583-01-01,低于此值显示不正确 - TIME 数据类型最多显示 3 位毫秒 - TIMETZ 数据类型不显示毫秒 - TIMESTAMPTZ 数据类型最小显示日期为 1583-01-01,低于此值显示不正确。毫秒最多显示 3 位 - Binary、VARBINARY 和 LONGVARBINARY 数据类型显示不正确
写入模式特有: - LONG VARCHAR 数据类型无法加载
原文来源:https://www.vertica.com/kb/Dataiku_DSS_CG/Content/Partner/Dataiku_DSS_CG.htm