数据科学和大数据Hadoop是一样的吗? 它们之间有什么区别还是两者都相同?


回答 1:

不,绝对不是。

让我们将这个问题分为三个部分:

数据科学是利用统计,组合数学,数学和计算机科学等不同方法来解决不同问题的专业。

大数据:广义上的大数据是在传统方法之外处理大数据(术语“大数据是相对的”)的概念。

Hadoop:Hadoop是一个框架,或者可以说是一个环境,可以使用不同的工具(PIG,HVE,Scoop,Fume等)来管理和分析大型数据集。

参考文献:

Hadoop教程

数据科学

大数据


回答 2:

我想您认为“数据科学”和“大数据Hadoop”是两个不同的东西,但实际上它们是三个。 数据科学,大数据和Hadoop具有不同的含义。

假设您是10年级的学生。 您已经获得了寻找同学评分的每个科目的平均成绩的工作。 您的班级有50名学生,每个学生学习5门科目。 查找平均值并不是火箭科学,因此您可以在excel表中完成所有操作。 现在,您的老师要求您对大约150名学生的所有A,B和C部分进行相同的计算。 Excel表又足够了。 现在,您想知道全国10个班级学生的科学平均得分是多少,2016年大约有14,31,861名学生。您可能无法在excel表中存储那么多数据,所以您可以存储它在像MySQL或Oracle这样的数据库中。 您运行SQL查询以找到平均值。 现在,您想知道自从过去20年以来,《科学》课程10级(大约3000000条记录)的平均值如何变化的趋势。 如果要找到所有5个主题的平均值,而不仅仅是科学,那么您将处理30000000 x 5条记录。 现在,数据量很大,也称为“大数据”。

大数据-可以进行计算分析以揭示模式,趋势和关联的超大型数据集,特别是与人类行为和互动有关的信息。-来自Wikipedia

您可能不应该在MySQL或Oracle中存储太多数据,而对数百万条记录运行SQL查询。 我从未在SQL数据库中处理过如此多的数据,因此不会评论它的性能,但是我使用Hadoop处理海量数据集,这比我们正在谈论的学生数据库大得多。 Hadoop是一个框架,可将数据分布到多个系统中,以便所有系统都可以并行执行计算,从而提高了总体计算速度,也称为分布式计算。 Hadoop拥有自己的文件系统,该文件系统是大数据的数据存储系统。

用外行术语来说,数据科学是理解大小数据如何处理的科学。 到现在为止,我们只试图找到分数的平均值,但是数据科学家会超越并寻找方法来找到可以用该平均值完成的工作。 对于组织而言,他将帮助他们制定业务决策并找到模式,以帮助老板做出更好的决策并分配资源以增加利润。 如果不处理大数据,大多数数据科学家甚至可能不会使用Hadoop,他们通常使用R lang或Python进行计算。

大数据是一个概念,Hadoop是一种工具,数据科学是计算机科学领域。


回答 3:

我想您认为“数据科学”和“大数据Hadoop”是两个不同的东西,但实际上它们是三个。 数据科学,大数据和Hadoop具有不同的含义。

假设您是10年级的学生。 您已经获得了寻找同学评分的每个科目的平均成绩的工作。 您的班级有50名学生,每个学生学习5门科目。 查找平均值并不是火箭科学,因此您可以在excel表中完成所有操作。 现在,您的老师要求您对大约150名学生的所有A,B和C部分进行相同的计算。 Excel表又足够了。 现在,您想知道全国10个班级学生的科学平均得分是多少,2016年大约有14,31,861名学生。您可能无法在excel表中存储那么多数据,所以您可以存储它在像MySQL或Oracle这样的数据库中。 您运行SQL查询以找到平均值。 现在,您想知道自从过去20年以来,《科学》课程10级(大约3000000条记录)的平均值如何变化的趋势。 如果要找到所有5个主题的平均值,而不仅仅是科学,那么您将处理30000000 x 5条记录。 现在,数据量很大,也称为“大数据”。

大数据-可以进行计算分析以揭示模式,趋势和关联的超大型数据集,特别是与人类行为和互动有关的信息。-来自Wikipedia

您可能不应该在MySQL或Oracle中存储太多数据,而对数百万条记录运行SQL查询。 我从未在SQL数据库中处理过如此多的数据,因此不会评论它的性能,但是我使用Hadoop处理海量数据集,这比我们正在谈论的学生数据库大得多。 Hadoop是一个框架,可将数据分布到多个系统中,以便所有系统都可以并行执行计算,从而提高了总体计算速度,也称为分布式计算。 Hadoop拥有自己的文件系统,该文件系统是大数据的数据存储系统。

用外行术语来说,数据科学是理解大小数据如何处理的科学。 到现在为止,我们只试图找到分数的平均值,但是数据科学家会超越并寻找方法来找到可以用该平均值完成的工作。 对于组织而言,他将帮助他们制定业务决策并找到模式,以帮助老板做出更好的决策并分配资源以增加利润。 如果不处理大数据,大多数数据科学家甚至可能不会使用Hadoop,他们通常使用R lang或Python进行计算。

大数据是一个概念,Hadoop是一种工具,数据科学是计算机科学领域。