[RUBY] hash 데이터를 group by 하는 유틸

2012. 3. 10. 20:38

기능추가한 새버전을 보세요 ==> http://tost.tistory.com/177

보통 데이터에서 그룹핑을 하는건 DB에서 자주 쓰인다.
근데, db를 안쓰고도 자료형의 값을 할 수 있는 유틸을 만들어야 하는 상황이 왔다.
루비를 접한지 2주밖에 안되서 좀 미루다가... 오늘 책도 정독하고 고민하면서
이틀을 고민해서 만들었는데 생각보다 편하게 잘 나온거 같다.

아무튼 루비에서 Hash타입이라면 범용적으로 쓸 수 있게 구현했다. (코드를 보면 알 듯)

sql문이랑 비교하는 글쓰다보니 손봐서 where절처럼 필터링하는것도 추가하면 괜찮을듯하다
사실 add, addAll 할 때 걸러내는건 쉽게 구현이 될테니 skip 했는데...
뭐 귀찮으니 필요하면 그 때 만들자.

sql문	내가 만든 코드와 비교하면
select max(size) , max(size) , sum(size) , count(key) , min(size) from table group by filedate.substr(1,4)	# count, sum, max, min, first 라는 기능은 구현해놨다. table = { "size" => "20" ... 생략 ... } obj = GroupHash.new obj.set_field("max(size), max(size),sum(size),count(key), min(size)") obj.addAll( table ) result = obj.group { \|map\| map["filedate"].slice(0,4) } puts result

뭐 이런것이랄까요 ?
DB의 내장함수인 max, sum, count, min 같은것도 및에 소스코드를 보면 알겠지만 함수명과 매칭된다.
혹시 추가적으로 기능을 추가하고 싶다면 쉽게 추가할 수 있다.
~~동적으로 호출하기 때문에 함수기능만 추가하고, set_field에 세팅할때 쿼리에 추가만 하면된다.~~

group_hash.rb

# encoding: utf-8

########################################

# Hash데이터를 group by하기

# 만든이 : 정민철 (deajang 골뱅이 gmail.com)

# 2012.03.10 20:01

########################################

class GroupHash

def initialize

@source = []

@group_by_result = nil

@select_field = {}

end

# @sorce 데이터를 읽어서 그룹핑한다.

def group(&groupKey)

@group_by_result = {} #초기화

@source.each do |row|

row.each do |colName, colValue|

if @select_field.include?(colName)

@select_field[colName].each do |methodName|

self.method(methodName).call(groupKey.call(row), colName, colValue, "#{methodName}(#{colName})")

end

return @group_by_result

end

#데이터 추가

def add(map)

@source << map

end

# 데이터 추가

def addAll(mapList)

mapList.each do |map|

add(map)

end

# 데이터를 추출할 필드와 함수명 정의

def set_field(field_query)

field_query.split(/\s*,\s*/).each do |field|

field_func = _get_function_name(field)

field_name = _get_field_name(field);

if field_func.nil? || field_name.nil?

puts "ParseError: unknown field query. (unexpected = \"#{field}\")"

@select_field = nil

break

else

_map_in_append!(@select_field, field_name, field_func)

end

private

# map[key] << value

def _map_in_append!(map, key, value)

return false if map.nil?

map[key] = [] unless map.include?(key)

map[key] << value

return true

end

# func(fieldName) #=> func

def _get_function_name(token)

if token =~ /^\s*([a-zA-Z_]+)[(][a-zA-Z_]+[a-zA-Z0-9_-]*[)]\s*$/

return $1

end

# func(fieldName) #=> fieldName

def _get_field_name(token)

if token =~ /^\s*[a-zA-Z_]+[(]([a-zA-Z_]+[a-zA-Z0-9_-]*)[)]\s*$/

return $1

end

def _selet_group_value(groupKey, saveFieldName)

if @group_by_result.include?(groupKey)

if @group_by_result[groupKey].include?(saveFieldName)

return (@group_by_result[groupKey])[saveFieldName]

end

return nil

end

def _save_group_value(groupKey, value, saveFieldName)

unless @group_by_result.include?(groupKey)

@group_by_result[groupKey] = {}

end

unless @group_by_result[groupKey].include?(saveFieldName)

(@group_by_result[groupKey])[saveFieldName] = {}

end

(@group_by_result[groupKey])[saveFieldName] = value

end

########################################################

# 필드의 내장함수를 정의하는곳

# groupKey : 그룹을 짓는 기준값

# fieldName: 현재 읽어온 필드명

# value : 현재읽어온 필드의 값

# saveFieldName: select문에 정의된 필드명으로 그룹핑할때 내부적으로 key로 사용

# @see

# _selet_group_value(groupKey, fieldName, value, saveFieldName) : 값을 찾을때

# _save_group_value(groupKey, fieldName, value, saveFieldName) : 값을 저장할때

########################################################

# 합계

def sum(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

_save_group_value(groupKey, preval.to_i + value.to_i, saveFieldName)

end

#카운팅 (nil이 아닌 필드만 셈)

def count(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

_save_group_value(groupKey, preval.to_i + 1, saveFieldName)

end

#최대값

def max(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

max = preval

max = value if(preval.nil? || preval < value )

_save_group_value(groupKey, max, saveFieldName)

end

#최소값

def min(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

min = preval

min = value if(preval.nil? || preval > value )

_save_group_value(groupKey, min, saveFieldName)

end

#처음 매칭되는값

def first(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

if preval.nil?

_save_group_value(groupKey, value, saveFieldName)

end

[테스트용 코드]

###############

## 테스트 해보는 코드

###############

obj = GroupHash.new

obj.addAll(

[

{"name"=>"minchul-1.txt", "basetime"=>"20120101", "filesize"=>100, "comment"=>nil},

{"name"=>"minchul-java.txt", "basetime"=>"20120101", "filesize"=>32, "comment"=>nil},

{"name"=>"junghoon-java.txt", "basetime"=>"20120101", "filesize"=>232, "comment"=>nil},

{"name"=>"jihyun-c.txt", "basetime"=>"20120102", "filesize"=>433, "comment"=>"블라블라"},

{"name"=>"asdf.jpg", "basetime"=>"20120102", "filesize"=>12, "comment"=>nil},

{"name"=>"dddddd.jpg", "basetime"=>"20120102", "filesize"=>34, "comment"=>nil},

{"name"=>"test.jpg", "basetime"=>"20120102", "filesize"=>555, "comment"=>nil},

{"name"=>"junghoon-python.pdf","basetime"=>"20110101", "filesize"=>3300, "comment"=>nil},

{"name"=>"jihyun-php.txt","basetime"=>"20110301", "filesize"=>1, "comment"=>"뭐지이건"}

]

)

obj.set_field("count(comment), sum(filesize), max(filesize), min(filesize), first(name)")

# 날짜별로 그룹바이 한다.

result = obj.group { |map|

map["basetime"]

}

puts "1]---------------"

result.each do |key, val|

puts "#{key} : #{val}"

end

# 2011년도 데이터만 찾아본다

result = obj.group { |map|

map["basetime"].slice(0,4)

}

puts "2]---------------"

result.each do |key, val|

puts "#{key} : #{val}"

end

[실행결과]

1]---------------

20120101 : {"first(name)"=>"minchul-1.txt", "sum(filesize)"=>364, "max(filesize)"=>232, "min(filesize)"=>32}

20120102 : {"first(name)"=>"jihyun-c.txt", "sum(filesize)"=>1034, "max(filesize)"=>555, "min(filesize)"=>12, "count(comment)"=>1}

20110101 : {"first(name)"=>"junghoon-python.pdf", "sum(filesize)"=>3300, "max(filesize)"=>3300, "min(filesize)"=>3300}

20110301 : {"first(name)"=>"jihyun-php.txt", "sum(filesize)"=>1, "max(filesize)"=>1, "min(filesize)"=>1, "count(comment)"=>1}

2]---------------

2012 : {"first(name)"=>"minchul-1.txt", "sum(filesize)"=>1398, "max(filesize)"=>555, "min(filesize)"=>12, "count(comment)"=>1}

2011 : {"first(name)"=>"junghoon-python.pdf", "sum(filesize)"=>3301, "max(filesize)"=>3300, "min(filesize)"=>1, "count(comment)"=>1}

정선생의 블로그

[RUBY] hash 데이터를 group by 하는 유틸

+ Recent posts

티스토리툴바