2010年12月5日日曜日

H2 DatabaseとHadoopでHDFS上のファイルを列挙する関数を作成する

H2 DatabaseとHadoopでHDFS上のファイルを列挙する関数を作成するには、以下のスクリプトを実行します。

create alias if not exists hdfs_list_files as $$ 
import java.io.*;
import java.util.*;
import java.sql.*;
import org.h2.tools.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.*;
import java.net.*;
@CODE
ResultSet hdfs_list_files(String uri, String path)
throws Exception
{
if( uri == null ){
throw new Exception("uri is not specified.");
}
if( path == null ){
throw new Exception("path is not specified.");
}

FileSystem fs = FileSystem.get(
URI.create(uri), new Configuration());

SimpleResultSet rs = new SimpleResultSet();
rs.addColumn("PATH", Types.VARCHAR, 1024, 0);

FileStatus files[] = fs.listStatus(new Path(path));
for(FileStatus file : files ){
rs.addRow(file.getPath());
}

return rs;
}
$$


実行例
select * from hdfs_list_files('hdfs://192.168.1.81:9000/', '/opt/hadoop-data');


※以下のjarをCLASSPATH環境変数に追加
hadoop-common-0.21.0.jar
hadoop-hdfs-0.21.0.jar
log4j-1.2.15.jar

動作環境
JDK6 Update22, Hadoop 0.21.0, H2 Database 1.2.147 (2010-11-21)

関連情報
CentOS5.5にHadoop0.21.0をインストールする
http://serverarekore.blogspot.com/2010/10/centos55hadoop0210.html

0 件のコメント:

コメントを投稿