Welcome to the Big Data Specialization欢迎来到大数据专业

.有兴趣增加您对大数据领域的了解吗?本课程面向那些刚接触数据科学并有兴趣了解为什么会出现大数据时代的人。它适用于那些想要熟悉大数据问题、应用程序和系统背后的术语和核心概念的人。它适合那些想要开始思考大数据如何在他们的业务或职业中发挥作用的人。它介绍了最常见的框架之一 Hadoop,它使大数据分析变得更容易、更易于访问——增加了数据改变我们世界的潜力!在本课程结束时,您将能够:* 描述大数据格局,包括现实世界大数据问题的示例,包括大数据的三个关键来源:人、组织和传感器。* 解释大数据的 V(数量、速度、多样性、真实性、效价和价值)以及为什么每个 V 都会影响数据收集、监控、存储、分析和报告。* 通过使用 5 个步骤来构建分析,从大数据中获取价值。* 确定什么是大数据问题,什么不是大数据问题,并能够将大数据问题重新定义为数据科学问题。* 解释用于可扩展大数据分析的架构组件和编程模型。* 总结核心 Hadoop 堆栈组件的特性和价值,包括 YARN 资源和作业管理系统、HDFS 文件系统和 MapReduce 编程模型。* 使用 Hadoop 安装和运行程序!本课程面向数据科学新手。无需事先的编程经验,但安装应用程序和使用虚拟机的能力是完成动手作业所必需的。硬件要求:(A) 四核处理器(建议支持 VT-x 或 AMD-V),64 位; (B) 8 GB 内存; (C) 20 GB 可用磁盘。如何查找您的硬件信息: (Windows):通过单击开始按钮,右键单击计算机,然后单击属性打开系统; (Mac):通过单击 Apple 菜单并单击“关于本机”打开概览。在过去 3 年内购买的大多数具有 8 GB RAM 的计算机将满足最低要求。您将需要高速互联网连接,因为您将下载最大 4 Gb 的文件。软件要求:本课程依赖于多种开源软件工具,包括 Apache Hadoop。所有需要的软件都可以免费下载和安装。软件要求包括:Windows 7+、Mac OS X 10.10+、Ubuntu 14.04+ 或 CentOS 6+ VirtualBox 5+。