跳转至

Vertica 集成 Dataiku DSS

连接指南

关于 Vertica 连接指南

Vertica 连接指南为将第三方合作伙伴产品连接到 Vertica 提供基本说明。连接指南基于我们对特定版本的 Vertica 和合作伙伴产品的测试。

Vertica 和 Dataiku DSS:测试版本

软件 版本
合作伙伴产品 Dataiku Data Science Studio (DSS) 11.3.2
合作伙伴产品平台 RHEL 8.8
Vertica 客户端 Vertica JDBC Driver 23.3.0
Vertica 服务器 Vertica Analytic Database 23.3.0

Dataiku DSS 概述

Dataiku Data Science Studio (DSS) 是一款机器学习工具,支持访问 notebook、工具和代码,使数据工程师和数据科学家能够分析数据。它提供用于数据准备的简单可视化配方以及一套 AutoML 功能。

安装 Dataiku DSS

在安装 Dataiku DSS 之前,请先查看 Linux 安装要求。为 Linux 发行版和架构下载最新版本的 Dataiku DSS。下载完成后,按照安装说明操作。

安装 Vertica 客户端驱动

Dataiku DSS 使用 Vertica JDBC 客户端驱动连接到 Vertica:

  1. 访问 Vertica Client Drivers 页面
  2. 下载与 Vertica 版本对应的 JDBC 驱动
  3. 停止 DSS:$ DATA_DIR/bin/dss stop
  4. 将下载的 JDBC jar 文件复制到 DATA_DIR/lib/jdbc 文件夹
  5. 启动 DSS:$ DATA_DIR/bin/dss start

注意: DATA_DIR 是 DSS 安装目录的默认路径。

连接 Dataiku DSS 到 Vertica

  1. 在 Web 浏览器中打开 Dataiku DSS:http://<IPAddress>:<Port>(端口为安装时输入的端口号)
  2. 点击 NEW PROJECT,选择 Blank project
  3. 输入项目名称,点击 CREATE
  4. 在右上角点击应用程序图标,选择 Administration
  5. 在 Admin 界面中点击 Connections
  6. 展开 NEW CONNECTION 下拉菜单,点击 Vertica
  7. 输入连接信息:
  8. New Connection Name:连接名称
  9. Host:Vertica 服务器 IP 地址
  10. Database:数据库名称
  11. User:Vertica 数据库用户名
  12. Port:默认端口号 5433
  13. Password:Vertica 数据库密码
  14. 点击 Test,然后点击 Create

截图

创建数据集

连接到 Vertica 后,按以下步骤创建数据集:

  1. 从 DSS 菜单栏点击导航图标,选择 Datasets
  2. 点击 NEW DATASET,选择 SQL Databases > Vertica
  3. 在 Connection 选项卡中输入必要字段:
  4. Connection:您的 Vertica 连接
  5. Mode:选择 Read a database tableSQL query
  6. Table:表名
  7. Schema:模式名
  8. 点击 TEST TABLE 预览数据
  9. 在 New dataset name 字段中输入数据集名称,点击 CREATE

已知限制

连接 Dataiku DSS 和 Vertica 时的数据类型限制:

读取和写入模式共有: - NUMERIC 数据类型最多显示 15 位精度,超过后舍入 - DATE 数据类型最小显示值为 1583-01-01,低于此值显示不正确 - TIME 数据类型最多显示 3 位毫秒 - TIMETZ 数据类型不显示毫秒 - TIMESTAMPTZ 数据类型最小显示日期为 1583-01-01,低于此值显示不正确。毫秒最多显示 3 位 - Binary、VARBINARY 和 LONGVARBINARY 数据类型显示不正确

写入模式特有: - LONG VARCHAR 数据类型无法加载


原文来源:https://www.vertica.com/kb/Dataiku_DSS_CG/Content/Partner/Dataiku_DSS_CG.htm