跳转至

Vertica 集成 IBM SPSS Modeler

关于 Vertica 连接指南

Vertica 连接指南提供将第三方合作伙伴产品连接到 Vertica 的基本说明。连接指南基于我们在特定版本的 Vertica 和合作伙伴产品上的测试。

最新测试版本

组件 版本
合作伙伴产品 IBM SPSS Modeler 18.3
桌面平台 Windows Server 2019 Standard
Vertica 客户端 Vertica ODBC 11.0.0-0
Vertica 服务器 Vertica Analytic Database 11.0.0-0

IBM SPSS Modeler 概述

IBM SPSS Modeler 是一个强大的预测分析平台,使您能够在无需编程的情况下利用统计和数据挖掘算法。其直观的图形界面允许您构建预测模型和执行机器学习任务。您可以轻松访问不同来源的数据,整合这些数据,并使用建模来获得更准确的预测并做出更好的业务决策。

安装 IBM SPSS Modeler

  1. 访问 IBM SPSS Modeler 下载页面
  2. 向下滚动页面,登录 IBM Passport Advantage 网站
  3. 下载 IBM SPSS Modeler 并按照安装说明进行操作。
  4. 要查看测试版本 IBM SPSS Modeler 18.3 的发行说明,请访问 IBM Support Knowledge Center

安装 Vertica 客户端驱动程序

IBM SPSS Modeler 使用 Vertica ODBC 驱动程序连接到您的 Vertica 数据库。

  1. 访问 Vertica 客户端驱动程序页面
  2. 下载与 Vertica 服务器版本兼容的 Vertica 客户端包。

注意: 关于客户端和服务器兼容性的详细信息,请参见 Vertica 文档中的 "Client Driver and Server Version Compatibility"。

  1. 双击安装程序并按照提示操作。当提示选择一个或多个驱动程序时,仅选择 ODBC
  2. 按照 Vertica 文档 中的 "Installing the Client Drivers and Tools on Windows" 部分进行安装。
  3. 按照 Vertica 文档 中的 "Creating an ODBC Data Source Name (DSN)" 说明创建 ODBC 数据源名称(DSN)。

连接 IBM SPSS Modeler 到 Vertica 并创建工作流

打开 IBM SPSS Modeler

  1. 打开 IBM SPSS Modeler,将显示主屏幕。
  2. 选择 Create a new stream,点击 OK

创建和配置源数据库节点

  1. 点击 Insert > Sources > Database,在画布上添加源数据库节点。或者,从 Module Palette 点击 Sources 选项卡,将 Database 节点拖放到画布上。
  2. 双击源数据库节点。
  3. Data 选项卡中,选择 Table
  4. 点击 Data source 下拉列表,点击 < Add new database connection.. >
  5. 将出现 Database Connections 对话框。
  6. Connection Pane(连接面板):
  7. Mode:点击 Driver
  8. Drivers:选择 Vertica
  9. Attributes:输入 Vertica ODBC 连接字符串。例如:
    Driver=Vertica;Server=XXX.XX.XX.XXX;Port=5433;Database=<Database_Name>
    
  10. Display name:为 Vertica 连接输入一个名称。
  11. Authentication Pane(认证面板):
  12. Mode:选择 Username and password
  13. User name:输入数据库用户名。
  14. Password:输入数据库密码。
  15. 点击 Connect。连接成功后,连接名称将显示在 Connections 窗格中。
  16. 选择 Save,然后点击 OK。Vertica 数据库连接将出现在 Data source 下拉列表中。
  17. 要选择 Vertica 数据库源表,点击 Select。将出现 Select Table/View 对话框。
  18. 选择所需的表,点击 OK 返回到 Database 窗口。
  19. 如果要预览 Vertica 源数据库中的数据,点击 Preview
  20. 点击 OK 返回画布。

创建和配置目标数据库节点

  1. 点击 Insert > Export > Database,在画布上添加目标数据库节点。
  2. 双击目标数据库节点。
  3. Export 选项卡中,点击 Data source 下拉列表,然后点击 < Add new database connection… >
  4. 将出现 Database Connections 窗口。
  5. Connection Pane(连接面板):
  6. Mode:点击 Driver
  7. Drivers:选择 Vertica
  8. Attributes:输入 Vertica ODBC 连接字符串。例如:
    Driver=Vertica;Server=XXX.XX.XX.XXX;Port=5433;Database=<Database_Name>
    
  9. Display name:为 Vertica 连接输入一个名称。
  10. Authentication Pane(认证面板):
  11. Mode:选择 Username and password
  12. User name:输入数据库用户名。
  13. Password:输入数据库密码。
  14. 点击 Connect。连接成功后,连接名称将显示在 Connections 窗口中。
  15. 选择 Save,然后点击 OK。Vertica 数据库连接将出现在 Data source 下拉列表中。
  16. 选择 Insert into table,然后点击 Select 选择 Vertica 数据库目标表。
  17. 将出现 Select Table/View 窗口。选择所需的目标表,点击 OK 返回到 Database 窗口。
  18. 再次点击 OK 返回到画布。

连接节点并运行

  1. 右键单击源数据库节点,选择 Connect
  2. 点击目标数据库节点。
  3. 源数据库节点现在将连接到目标数据库节点。
  4. 点击 Run 执行流(Stream)。

故障排除

字符串数据截断

问题: 当数据大小超过 2048 个字符时,IBM SPSS Modeler 会在读写操作中截断字符串数据,且不显示任何错误消息。

解决方案: 要解决默认限制错误,打开位于以下路径的 options.cfg 文件:

<SPSS_Installation_Directory>\ModelerServer\18.3\config
max_sql_string_length 变量的值更改为所需的值。默认值为 2048。

数值数据截断(小数点后 3 位)

问题: IBM SPSS Modeler 将数值数据截断到小数点后 3 位。

解决方案: 点击 File > Stream Properties。将出现属性对话框。点击 Options 选项卡,然后点击 Number formats。将 Standard decimal places 的值更改为所需的值。默认值为 3。

已知限制

  • DECIMAL 和 DOUBLE:最多支持 15 位数字,超过的值将被截断或四舍五入。
  • TIME 和 TIMESTAMP:毫秒被截断。
  • TIMETZ 和 TIMESTAMPTZ:毫秒和时区偏移量被截断。
  • BINARY、VARBINARY 和 LONG VARBINARY:显示不正确,不支持。
  • LONG VARBINARY:如果字节大小超过默认值(2048 字节),则显示 NULL。要写入超过 2048 字节的值,在 options.cfg 文件中将 max_sql_string_length 变量的值更改为所需的值。
  • UUID:不支持。

原文来源:https://www.vertica.com/kb/IBM_SPSS_Modeler_CG/Content/Partner/IBM_SPSS_Modeler_CG.htm