共计 8 篇文章

以Hadoop入门大数据

一、Hadoop简介 1.什么是Hadoop Apache™ Hadoop® project 生产出的用于高可靠、可扩展、分布式计算的开源软件,它允许通过集群的方式使用简单的编程模型分布式处理大数据,它可以从单一的服务器扩展到成千上万的机器,每一台机器都能提供本地计算和存储。Hadoop认为集群中节点故障为常态,它可以自动检测和处理故障节点,所以它不依赖硬件来提供高可用性。 简单的说,我们可以用Hadoop分布式存储大量数据,然后根据自己的业务对海量数据进行分布式计算。例如: 淘宝网昨天24小时的用户访问量折线图,不同地区、不同时段、不同终端 中国 Apache™ ...

基于Hadoop的企业级网盘系统的研究与开发

采用JavaEE技术和云存储技术对系统进行设计以及具体实现。系统后台的开发是采用Java语言,使用Spring、Hibernate、Struts2等JavaEE开发框架,使用Hadoop的分布式文件系统存储文件。数据库采用关系型数据库Mysql,同时对采用Hadoop的非关系型数据库HBase对该网盘系统进行数据库设计也进行了研究 ...