Vertica 集成 IBM SPSS Modeler¶
关于 Vertica 连接指南¶
Vertica 连接指南提供将第三方合作伙伴产品连接到 Vertica 的基本说明。连接指南基于我们在特定版本的 Vertica 和合作伙伴产品上的测试。
最新测试版本¶
| 组件 | 版本 |
|---|---|
| 合作伙伴产品 | IBM SPSS Modeler 18.3 |
| 桌面平台 | Windows Server 2019 Standard |
| Vertica 客户端 | Vertica ODBC 11.0.0-0 |
| Vertica 服务器 | Vertica Analytic Database 11.0.0-0 |
IBM SPSS Modeler 概述¶
IBM SPSS Modeler 是一个强大的预测分析平台,使您能够在无需编程的情况下利用统计和数据挖掘算法。其直观的图形界面允许您构建预测模型和执行机器学习任务。您可以轻松访问不同来源的数据,整合这些数据,并使用建模来获得更准确的预测并做出更好的业务决策。
安装 IBM SPSS Modeler¶
- 访问 IBM SPSS Modeler 下载页面。
- 向下滚动页面,登录 IBM Passport Advantage 网站。
- 下载 IBM SPSS Modeler 并按照安装说明进行操作。
- 要查看测试版本 IBM SPSS Modeler 18.3 的发行说明,请访问 IBM Support Knowledge Center。
安装 Vertica 客户端驱动程序¶
IBM SPSS Modeler 使用 Vertica ODBC 驱动程序连接到您的 Vertica 数据库。
- 访问 Vertica 客户端驱动程序页面。
- 下载与 Vertica 服务器版本兼容的 Vertica 客户端包。
注意: 关于客户端和服务器兼容性的详细信息,请参见 Vertica 文档中的 "Client Driver and Server Version Compatibility"。
- 双击安装程序并按照提示操作。当提示选择一个或多个驱动程序时,仅选择 ODBC。
- 按照 Vertica 文档 中的 "Installing the Client Drivers and Tools on Windows" 部分进行安装。
- 按照 Vertica 文档 中的 "Creating an ODBC Data Source Name (DSN)" 说明创建 ODBC 数据源名称(DSN)。
连接 IBM SPSS Modeler 到 Vertica 并创建工作流¶
打开 IBM SPSS Modeler¶
- 打开 IBM SPSS Modeler,将显示主屏幕。
- 选择 Create a new stream,点击 OK。
创建和配置源数据库节点¶
- 点击 Insert > Sources > Database,在画布上添加源数据库节点。或者,从 Module Palette 点击 Sources 选项卡,将 Database 节点拖放到画布上。
- 双击源数据库节点。
- 在 Data 选项卡中,选择 Table。
- 点击 Data source 下拉列表,点击 < Add new database connection.. >。
- 将出现 Database Connections 对话框。
- Connection Pane(连接面板):
- Mode:点击 Driver。
- Drivers:选择 Vertica。
- Attributes:输入 Vertica ODBC 连接字符串。例如:
- Display name:为 Vertica 连接输入一个名称。
- Authentication Pane(认证面板):
- Mode:选择 Username and password。
- User name:输入数据库用户名。
- Password:输入数据库密码。
- 点击 Connect。连接成功后,连接名称将显示在 Connections 窗格中。
- 选择 Save,然后点击 OK。Vertica 数据库连接将出现在 Data source 下拉列表中。
- 要选择 Vertica 数据库源表,点击 Select。将出现 Select Table/View 对话框。
- 选择所需的表,点击 OK 返回到 Database 窗口。
- 如果要预览 Vertica 源数据库中的数据,点击 Preview。
- 点击 OK 返回画布。
创建和配置目标数据库节点¶
- 点击 Insert > Export > Database,在画布上添加目标数据库节点。
- 双击目标数据库节点。
- 在 Export 选项卡中,点击 Data source 下拉列表,然后点击 < Add new database connection… >。
- 将出现 Database Connections 窗口。
- Connection Pane(连接面板):
- Mode:点击 Driver。
- Drivers:选择 Vertica。
- Attributes:输入 Vertica ODBC 连接字符串。例如:
- Display name:为 Vertica 连接输入一个名称。
- Authentication Pane(认证面板):
- Mode:选择 Username and password。
- User name:输入数据库用户名。
- Password:输入数据库密码。
- 点击 Connect。连接成功后,连接名称将显示在 Connections 窗口中。
- 选择 Save,然后点击 OK。Vertica 数据库连接将出现在 Data source 下拉列表中。
- 选择 Insert into table,然后点击 Select 选择 Vertica 数据库目标表。
- 将出现 Select Table/View 窗口。选择所需的目标表,点击 OK 返回到 Database 窗口。
- 再次点击 OK 返回到画布。
连接节点并运行¶
- 右键单击源数据库节点,选择 Connect。
- 点击目标数据库节点。
- 源数据库节点现在将连接到目标数据库节点。
- 点击 Run 执行流(Stream)。
故障排除¶
字符串数据截断¶
问题: 当数据大小超过 2048 个字符时,IBM SPSS Modeler 会在读写操作中截断字符串数据,且不显示任何错误消息。
解决方案: 要解决默认限制错误,打开位于以下路径的 options.cfg 文件:
max_sql_string_length 变量的值更改为所需的值。默认值为 2048。
数值数据截断(小数点后 3 位)¶
问题: IBM SPSS Modeler 将数值数据截断到小数点后 3 位。
解决方案: 点击 File > Stream Properties。将出现属性对话框。点击 Options 选项卡,然后点击 Number formats。将 Standard decimal places 的值更改为所需的值。默认值为 3。
已知限制¶
- DECIMAL 和 DOUBLE:最多支持 15 位数字,超过的值将被截断或四舍五入。
- TIME 和 TIMESTAMP:毫秒被截断。
- TIMETZ 和 TIMESTAMPTZ:毫秒和时区偏移量被截断。
- BINARY、VARBINARY 和 LONG VARBINARY:显示不正确,不支持。
- LONG VARBINARY:如果字节大小超过默认值(2048 字节),则显示 NULL。要写入超过 2048 字节的值,在
options.cfg文件中将max_sql_string_length变量的值更改为所需的值。 - UUID:不支持。
原文来源:https://www.vertica.com/kb/IBM_SPSS_Modeler_CG/Content/Partner/IBM_SPSS_Modeler_CG.htm