【沈浩老师】数据科学 | 一大堆数据科学的名词解释（大数据部分） - 理论文库 - 研究智库

研究智库

研究文章

理论文库

行业数据

观点文章

优秀论文奖

当前位置：网站首页 > 研究智库 > 理论文库 > 【沈浩老师】数据科学 | 一大堆数据科学的名词解释（大数据部分）

【沈浩老师】数据科学 | 一大堆数据科学的名词解释（大数据部分）

发布时间：2017-09-07　　访问量：10742

又开学了，有段时间没有写文章了，主要是最近几个月一直在学习人工智能和深度学习相关的技术和应用，当然最主要的是四处走走看看，玩多了。

今天给大家连续介绍一些与数据科学相关的概念，恰巧看到一篇博客文章，描述了277个数据科学相关的名词的简约定义，俺稍微翻译和修订陆续分享给大家。

主要包括：大数据，机器学习，自然语言处理，描述统计等相关的术语。20个大数据相关术语及其简明的定义。

第一部分：大数据相关术语定义

1. 大数据：

有各种各样的流行于商业领域或学术文章的大数据定义，尽管定义有很大的不同。为了捕捉术语的本质，我们喜欢这个定义：“ 当数据大小成为问题的一部分时，说是大数据 ”。大数据的定义是一个不断变换的目标，这个定义提供了捕获其中心特征所需的灵活性。

有一种说法：“大数据是我们处理不了的数据，特指在通用软件工具处理、加工和分析数据过程中，在可容忍的时间内处理不了的数据”。

有一种说法：“大数据是复杂的数据，是人类行为数据的总和”。

大数据通常以3 Vs为特征，当前已经增长到4,5,6或更多。以下7个Vs足以解释大数据在很高的水平。

Volume、Velocity、Veriety、Veracity、Variability、Value、Visualization

尝试新鲜定义大数据的Vs似乎是徒劳无益的，我们采用维权百科的定义：

2. 大数据量：

量是指生成和存储的数据量。数据的大小决定了价值和潜在的洞察力，以及它是否真的被认为是大数据。通常的大数据量在M、G、T、P级。

3. 大数据速度：

速度是数据生成和处理的速度，以满足增长和发展之路中的需求和挑战。大数据具有边生产边应用，实时在线应用的特征。

4. 大数据类型

是指数据的类型和性质。这有助于分析它的人有效地利用所产生的洞察力。一般大数据都涉及非结构化数据，半结构化数据。

5. 大数据Veracity
Veracity是捕获数据的质量，可能会有很大差异，影响精确的分析。

6. 大数据变异
可变性是数据集的不一致性，可能会阻碍进程的处理和管理。

7. 大数据价值
价值被不时地作为重要的大数据V被抛出，我同意其考虑，特别是从商业角度来看。价值是指可以从有关数据的模式，处理和其他与大数据相关的任务中获得的洞察力。

8. 云计算

云计算或简称为云，可以被定义为一种基于互联网的计算模型，主要提供对计算资源的按需访问。这些资源包括诸如应用软件，计算资源，服务器和数据中心等许多内容。云服务提供商通常采用“即付即用”模式，允许企业根据需要扩展成本。它允许企业绕开基础架构设置成本，这在云端出现之前是不可避免的。

俺主要用的云计算平台是：AWS、IBM Watson、MS Azure、Google Cloud和阿里云。

9. 预测分析

从经验（数据）中学习的技术，以预测个人的未来行为，以推动更好的决策。

预测分析采用预测模型：

预测个人行为的机制，例如点击，购买，谎言或死亡。它将个体的特征（变量）作为输入，并提供预测分数作为输出。预测打分，分数越高，个人越有可能展现某种预测的行为。

10. 描述性分析

这种形式的分析本质上是描述性的，其名称清楚地暗示。描述性分析总结了数据，更少地关注每个数据的精确细节，而不是专注于整体叙事。

11. 规定性分析

预处理分析通常遵循预测，因为可以根据预测建模中收集到的内容来规定行动。

12. 数据库

数据需要进行策划，编纂和关心。它需要被存储和处理，从而可以将其转化为信息，并进一步改进为知识。存储数据的机制，随后促进这些转换，显然是数据库。

13. 数据仓库

数据仓库是另一个难以捉摸的术语。数据仓库定义为数据存储架构，允许“业务主管系统地组织，了解和使用其数据进行战略决策”。模糊的，一般来说，一个数据仓库表现出这些特点：

与组织的运营和交易数据库分开维护，这些数据库的特点是频繁访问，并被日常的组织操作使用
允许各种不同的应用系统的集成
并允许访问合并的历史数据进行处理和分析

数据仓库的教父Bill Inmon给出了这个原始和持久的定义，我们将得出结论：

数据仓库是面向主题的，综合的，时变的和非易失性的数据收集，以支持管理层的决策过程。

14. ETL

ETL代表提取，变换和加载。这是从源系统（如事务数据库）提取数据并将其放入数据仓库的过程。如果您熟悉在线事务处理（OLTP）和在线分析处理（OLAP），ETL可以被认为是这两种系统类型之间的桥梁。

15. 商业智能

也许最模糊的一个术语（一组大数据术语定义中的令人难以置信的知名度）是商业智能（BI）。BI是一个不稳定，不明确的工具，技术和概念，通过提供业务的历史，当前和预测性观点来支持业务。特别是BI和数据挖掘之间的关系是一个好奇的关系，各种定义提出：BI是数据挖掘的一个子集; 数据挖掘是BI的一个子集，BI由数据挖掘驱动; BI和数据挖掘是分开的和相互排斥的。所以，这样解决了。

在数据科学和大数据时代，BI通常被认为包括OLAP，竞争情报，基准测试，报告和其他业务管理方法（所有这些方法都倾向于定义中的歧义），并受到仪表板的可视化影响。

16. Apache Hadoop

Apache的Hadoop几乎可以单独地负责大数据革命的兴起，至少从软件的角度来说。

Apache Hadoop是一个用于在集群环境中处理大量数据的开源框架。它使用简单的MapReduce编程模型进行可靠，可扩展和分布式计算。存储和计算都分布在此框架中。

17. Apache Spark

Apache Spark是一个功能强大的开源处理引擎，围绕速度，易用性和复杂的分析，采用Java，Scala，Python，R和SQL中的API。Spark运行程序比内存中的Apache Hadoop MapReduce高出100倍，或者在磁盘上快10倍。它可用于将数据应用程序构建为库，或者以交互方式执行临时数据分析。Spark提供了一系列库，包括SQL，DataFrames和Datasets，用于机器学习的MLlib，用于图形处理的GraphX和Spark Streaming。您可以在相同的应用程序中无缝地组合这些库。此外，Spark还运行在笔记本电脑，Apache Hadoop，Apache Mesos，独立或云端。它可以访问不同的数据源，包括HDFS，Apache Cassandra，Apache HBase和S3。

18. 物联网

物联网（IoT）是日益增长的大数据来源。IoT是：

允许基于互联网的通信在物理对象，传感器和控制器之间发生的概念。

19. 机器学习

机器学习可用于大数据中的预测分析和模式识别。机器学习是“关心如何构建自动改进经验的计算机程序”的问题。机器学习是跨学科的，采用计算机科学，统计学和人工智能等方面的技术。机器学习研究的主要是促进这种经验自动改进的算法的科学与艺术，可以应用于诸如计算机视觉，深度学习，人工智能和数据挖掘等不同领域的算法。

20. 数据挖掘

将数据挖掘定义为“从数据中提取模式的特定算法的应用”。这表明，在数据挖掘中，重点在于算法的应用，而不是算法本身。可以定义机器学习和数据挖掘之间的关系如下：数据挖掘是一个过程，在该过程中机器学习算法被用作提取在数据集中保存的潜在有价值的模式的工具。

原文博客来源：http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html

转自微信公众号【沈浩老师】

友情链接

中国信息协会国家统计局涉外调查许可证办理中国数据分析师官网 APRC ESOMAR GRBN


CMRA微信公众号		CMRA微信号

关于协会　|　会员专区　|　招聘信息　|　联系我们

地址：北京市东城区东四十条21号北京一商集团大厦308室　电话：010－64087451，64087991