Pentaho数据集成(PDI),Python和深度学习

哈Ha! 我向您介绍“ Pentaho数据集成(PDI),Python和深度学习”一文的翻译

深度学习(DL)-为什么他周围有这么多噪音?


根据Zion Market Research的研究,深度学习市场(DL)将从2017年的23亿美元增长到2024年的236亿美元以上。 DL以每年近40%的平均年增长率增长,已成为分析专家创建模型的最热门领域之一。 。 在讨论Pentaho如何帮助您在产品环境中实现组织的DL模型的问题之前,让我们退后一步,看看DL为什么是一项突破性技术。 以下是有关此的一些常规信息:

图片

图片

  • 使用具有几个隐藏层的人工神经网络,它们可以执行准确的图像识别,计算机视觉/对象检测,视频流处理,自然语言处理等等。 提议的DL功能和计算能力(例如GPU,云存储)的改进大大加速了DL在过去几年中已经活跃的增长;
  • DL试图通过神经元层来模拟人类大脑的活动,从而学会识别声音,视频流,图像和其他数据的数字表示形式。
  • 通过使用几个隐藏层减少了在启动模型之前设计对象的需求,并在模型运行时动态提取对象;
  • 与传统的机器学习算法相比,由于更新了框架,大量数据数组(即大数据)的存在以及图形处理器等计算能力的显着增长,因此提高了生产率和准确性;
  • 提供开发环境,环境和库,例如Tensorflow,Keras,Caffe,PyTorch以及其他使DL更易于分析专家访问的环境。

为什么使用PDI使用Python开发和实现深度学习模型?


如今,数据科学家和数据工程师正在PDI创建的数百个数据科学项目上进行协作。 多亏了Pentaho,他们能够以比传统数据准备工具更低的成本将复杂的数据科学模型转移到生产环境中。 我们很高兴地宣布,Pentaho现在可以将这种易用性带入DL框架,进一步推动了Hitachi Vantara的目标,即使组织能够利用其所有数据进行创新。 借助PDI和新的Python Executor步骤,Pentaho可以执行以下操作:

  • 在转换阶段与流行的DL框架集成,从而扩展了Pentaho现有的数据科学功能;
  • 作为新的PDI Python执行器步骤的一部分,从数据专家处获得的DL Python脚本文件的简单实现;
  • 在任何CPU / GPU设备上启动DL模型,允许组织使用GPU加速来改善其DL模型的性能;
  • 将来自先前PDI步骤的数据通过Python Executor步骤中的Numpy数组中的Python Pandas数据帧作为数据流并用于DL处理;
  • 与Hitachi Content Platform(HDFS,Local,S3,Google Storage等)的集成,允许您将非结构化数据文件移动和放置到本地区域(例如“数据湖”等),从而降低存储和处理成本DL。

好处:

  • PDI支持使用最广泛的DL平台,即Tensorflow,Keras,PyTorch以及其他具有Python API的平台,从而使数据专家可以在自己喜欢的库中工作。
  • PDI允许数据工程师和数据专业人员就DL实施进行协作;
  • 通过PDI,您可以有效地分配数据专业人员(即创建,评估和运行DL模型)和数据工程师(在PDI中创建数据管道以进行DL处理)的技能和资源。

PDI如何实施深度学习?


使用的组件:

  • Pentaho 8.2,PDI Python执行器步骤,日立内容平台(HCP)VFS
  • Python.org 2.7.x或Python 3.5.x
  • Tensorflow 1.10
  • Keras 2.2.0。

请参阅Pentaho联机帮助中的Pentaho 8.2 Python执行程序步骤以获取依赖项列表。 Python执行器-Pentaho文档

主要过程:

1.在PDI步骤中选择HCP VFS文件。 使用PDI Python Executor Step复制并准备非结构化数据文件以用于DL框架。

图片

附加信息:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System


2.使用新的转换,该转换将实现用于处理DL框架和相关数据集以及更多内容的工作流。 输入超参数(用于配置和执行模型的值)以评估最有效的模型。 下面的示例通过Python执行器步骤实现了四个DL框架工作流,其中三个使用Tensorflow,一个使用Keras。

图片

图片

3.专注于Tensorflow DNN分类器工作流程 (实现超参数的实现),使用PDI 数据网格步骤 ,即名称Injected Hyperparameters ,其值对应于Python脚本执行程序步骤。

图片

4.在“ Python脚本执行器”步骤中,使用Pandas DF,并在“ 输入”选项卡上将输入的超参数和值实现为变量。

图片

5.运行与DL关联的Python脚本(使用“嵌入”或“文件链接”),并使用指向DL框架的链接和输入的超参数。 此外,您可以将Python虚拟环境的路径设置为与默认路径不同。

图片

6.验证TensorFlow是否已安装,配置并正确导入到Python Shell中。

图片

7.返回“ Python执行器步骤” ,单击“ 输出”选项卡,然后单击“获取字段”按钮。 PDI将预先检查脚本文件以检查错误,输出和其他参数。

图片

8.这样就完成了开始转换的设置。

日立Vantara提供专有的GPU解决方案以加速深度学习


使用GPU而不是中央处理器时,DL框架可以显着提高性能;因此,大多数DL框架都支持某些类型的GPU。 2018年,Hitachi Vantara开发并交付了具有NVIDIA Tesla V100 GPU的高级DS225服务器。 这是第一款专为DL实现而设计的Hitachi Vantara图形服务器。

图片

有关此优惠的更多信息, 请访问Hitachi Vantara网站

组织为什么应该使用PDI和Python进行深度学习?


  • 直观的拖放工具:PDI使用用于管道和DL相关工作流的图形化开发环境,简化了DL框架的实现和执行;
  • 高效的协作:数据处理工程师和数据专家可以共同处理工作流程,并有效地利用他们的技能和时间;
  • 有效分配宝贵的资源:数据工程师可以使用PDI创建工作流,从/到HCP移动和创建非结构化数据文件,并配置输入的超参数,以准备从分析数据专家处接收到的Python脚本;
  • 一流的GPU处理:Hitachi Vantara为DS225 Advanced服务器提供了NVIDIA Tesla V100 GPU,使DL框架可以利用GPU的性能。

Source: https://habr.com/ru/post/zh-CN439418/


All Articles