'프로그래밍/Ruby / Ruby on Rails' 카테고리의 글 목록

어제 개발하고 뭔가 아쉬움을 느꼈다. ( http://tost.tistory.com/176 )

왜냐... 몽고DB에서 json데이터를 집어 넣는데...
이때의 필드명이 map의 key값과 매칭되는데
다른 이름으로 쓰고 싶다는것이다. 흠흠

근데 내가 구현한 어제 코드에서는 그룹핑된 hash의 key값이 고정적이라는것이다.
예를들어, "sum(field)" => "value" 의 sum(field) 같이 말이지

그래서 sql의 as 같은 닉네임과,
손보는김에 where절을 블럭으로 구현해서 쓰도록 했다..

뭔소린지 모르겠으니, sql문과 비교해보면 이런느낌...

sql문	내가 만든 코드와 비교하면
select max(size) as max_size, max(size) , sum(size) , count(key) , min(size) from table where filedate.substr(1,4) = '2011' group by filedate.substr(1,4)	# count, sum, max, min, first 라는 기능은 구현해놨다. table = { "size" => "20" ... 생략 ... } obj = GroupHash.new obj.set_field("max(size) as max_size, max(size),sum(size),count(key), min(size)") obj.addAll( table ) obj.where do map["filedate"].slice(0,4) == "2011" end result = obj.group { \|map\| map["filedate"].slice(0,4) } puts result

group_hash.rb

1. 소스코드

# encoding: utf-8

########################################

# Hash데이터를 group by하기

#

# 만든이 : 정민철 (deajang@gmail.com)

#

# History (ver 0.1.1)

# 2012.03.11 : where 기능구현

# 2012.03.11 : as field 기능구현 (닉네임)

# 2012.03.10 : group by 기능 구현

########################################

class GroupHash

def initialize

@source = []

@group_by_result = nil

@select_field = {}

@nickname_field = {}

@where_lambda = lambda{|nodata| return true }

end

def where(&where_lambda)

@where_lambda = where_lambda

end

# @sorce 데이터를 읽어서 그룹핑한다.

def group(&groupKey)

@group_by_result = {} #초기화

@source.each do |row|

#where에서 걸러내기

unless @where_lambda.call(row)

row.each do |colName, colValue|

if @select_field.include?(colName)

@select_field[colName].each do |methodName|

self.method(methodName).call(groupKey.call(row), colName, colValue, _make_group_field_name(methodName,colName) )

end

return @group_by_result

end

#데이터 추가

def add(map)

@source << map

end

# 데이터 추가

def add_all(mapList)

mapList.each do |map|

add(map)

end

# 데이터를 추출할 필드와 함수명 정의

def set_field(field_query)

field_query.split(/\s*,\s*/).each do |field|

field_func = _get_function_name(field)

field_name = _get_field_name(field)

field_nick = "#{field_func}(#{field_name})"

# nickname 추가

if @nickname_field.include?(field_nick)

puts "Warring: exist nick name. (unexpected = '#{field_nick}'"

@select_field = nil

break

else

unless _get_nick_name(field).nil?

@nickname_field["#{field_nick}"] = _get_nick_name(field)

end

if field_func.nil? || field_name.nil?

puts "ParseError: unknown field query. (unexpected = \"#{field}\")"

@select_field = nil

break

else

_map_in_append!(@select_field, field_name, field_func)

end

private

# map[key] << value

def _map_in_append!(map, key, value)

return false if map.nil?

map[key] = [] unless map.include?(key)

map[key] << value

return true

end

# ex) sum(fieldname) as nicname #=> sum

def _get_function_name(token)

if token =~ /^\s*([a-zA-Z_]+)[(][a-zA-Z_]+[a-zA-Z0-9_-]*[)]*/

return $1

end

# ex) sum(fieldname) as nicname #=> fieldname

def _get_field_name(token)

if token =~ /^\s*[a-zA-Z_]+[(]([a-zA-Z_]+[a-zA-Z0-9_-]*)[)]*/

return $1

end

# ex) sum(fieldname) as nickname #=> nikcname

def _get_nick_name(token)

if token =~ /^\s*[a-zA-Z_]+[(][a-zA-Z_]+[a-zA-Z0-9_-]*[)]\s+as\s([a-z|A-Z_]+),?/

return $1

end

def _find_group_value(groupKey, groupFieldName)

if @group_by_result.include?(groupKey)

if @group_by_result[groupKey].include?(groupFieldName)

return (@group_by_result[groupKey])[groupFieldName]

end

return nil

end

def _save_group_value(groupKey, value, groupFieldName)

unless @group_by_result.include?(groupKey)

@group_by_result[groupKey] = {}

end

unless @group_by_result[groupKey].include?(groupFieldName)

(@group_by_result[groupKey])[groupFieldName] = {}

end

(@group_by_result[groupKey])[groupFieldName] = value

end

# group_unique_key

def _make_group_field_name(methodName, colName)

groupFieldName = "#{methodName}(#{colName})"

if @nickname_field.include?(groupFieldName)

return @nickname_field[groupFieldName]

else

return groupFieldName

end

########################################################

# 필드의 내장함수를 정의하는곳

#

# groupKey : 그룹을 짓는 기준값

# fieldName: 현재 읽어온 필드명

# value : 현재읽어온 필드의 값

# groupFieldName: select문에 정의된 필드명으로 그룹핑할때 내부적으로 key로 사용

#

# @see

# _find_group_value(groupKey, fieldName, value, groupFieldName) : 값을 찾을때

# _save_group_value(groupKey, fieldName, value, groupFieldName) : 값을 저장할때

########################################################

# 합계

def sum(groupKey, fieldName, value, groupFieldName)

preval = _find_group_value(groupKey, groupFieldName)

unless value.nil?

_save_group_value(groupKey, preval.to_i + value.to_i, groupFieldName)

end

#카운팅 (nil이 아닌 필드만 셈)

def count(groupKey, fieldName, value, groupFieldName)

preval = _find_group_value(groupKey, groupFieldName)

value = 0 if value.nil?

_save_group_value(groupKey, preval.to_i + 1, groupFieldName)

end

#최대값

def max(groupKey, fieldName, value, groupFieldName)

#puts "max : groupKey=#{groupKey},fieldName=#{fieldName}, value=#{value}, groupFieldName=#{groupFieldName} "

preval = _find_group_value(groupKey, groupFieldName)

unless value.nil?

max = preval

max = value if(preval.nil? || preval < value )

_save_group_value(groupKey, max, groupFieldName)

end

#최소값

def min(groupKey, fieldName, value, groupFieldName)

preval = _find_group_value(groupKey, groupFieldName)

unless value.nil?

min = preval

min = value if(preval.nil? || preval > value )

_save_group_value(groupKey, min, groupFieldName)

end

#처음 매칭되는값

def first(groupKey, fieldName, value, groupFieldName)

preval = _find_group_value(groupKey, groupFieldName)

if preval.nil?

_save_group_value(groupKey, value, groupFieldName)

end

2. 테스트 샘플코드

###############

## 샘플

###############

obj = GroupHash.new

obj.add_all(

[

{"name"=>"minchul-1.txt", "basetime"=>"20120101", "filesize"=>100, "comment"=>nil},

{"name"=>"minchul-java.txt", "basetime"=>"20120101", "filesize"=>32, "comment"=>nil},

{"name"=>"junghoon-java.txt", "basetime"=>"20120101", "filesize"=>232, "comment"=>nil},

{"name"=>"jihyun-c.txt", "basetime"=>"20120102", "filesize"=>433, "comment"=>"블라블라"},

{"name"=>"asdf.jpg", "basetime"=>"20120102", "filesize"=>12, "comment"=>nil},

{"name"=>"dddddd.jpg", "basetime"=>"20120102", "filesize"=>34, "comment"=>nil},

{"name"=>"test.jpg", "basetime"=>"20120102", "filesize"=>555, "comment"=>nil},

{"name"=>"junghoon-python.pdf","basetime"=>"20110101", "filesize"=>3300, "comment"=>nil},

{"name"=>"jihyun-php.txt","basetime"=>"20110301", "filesize"=>1, "comment"=>"뭐지이건"}

]

)

#

obj.set_field("count(comment) as comment_count, sum(filesize) as filesize_sum, max(filesize), min(filesize), first(name)")

# 날짜별로 그룹바이 한다.

result = obj.group { |map|

map["basetime"]

}

puts "1]---------------"

result.each do |key, val|

puts "#{key} : #{val}"

end

# 2011년도 데이터만 찾아본다

obj.where do |map|

map["basetime"].slice(0,4) == "2011"

end

result = obj.group { |map|

map["basetime"].slice(0,4)

}

puts "2]---------------"

result.each do |key, val|

puts "#{key} : #{val}"

end

3. 실행결과

1]---------------

20120101 : {"first(name)"=>"minchul-1.txt", "filesize_sum"=>364, "max(filesize)"=>232, "min(filesize)"=>32, "comment_count"=>3}

20120102 : {"first(name)"=>"jihyun-c.txt", "filesize_sum"=>1034, "max(filesize)"=>555, "min(filesize)"=>12, "comment_count"=>4}

20110101 : {"first(name)"=>"junghoon-python.pdf", "filesize_sum"=>3300, "max(filesize)"=>3300, "min(filesize)"=>3300, "comment_count"=>1}

20110301 : {"first(name)"=>"jihyun-php.txt", "filesize_sum"=>1, "max(filesize)"=>1, "min(filesize)"=>1, "comment_count"=>1}

2]---------------

2011 : {"first(name)"=>"junghoon-python.pdf", "filesize_sum"=>3301, "max(filesize)"=>3300, "min(filesize)"=>1, "comment_count"=>2}

기능추가한 새버전을 보세요 ==> http://tost.tistory.com/177

보통 데이터에서 그룹핑을 하는건 DB에서 자주 쓰인다.
근데, db를 안쓰고도 자료형의 값을 할 수 있는 유틸을 만들어야 하는 상황이 왔다.
루비를 접한지 2주밖에 안되서 좀 미루다가... 오늘 책도 정독하고 고민하면서
이틀을 고민해서 만들었는데 생각보다 편하게 잘 나온거 같다.

아무튼 루비에서 Hash타입이라면 범용적으로 쓸 수 있게 구현했다. (코드를 보면 알 듯)

sql문이랑 비교하는 글쓰다보니 손봐서 where절처럼 필터링하는것도 추가하면 괜찮을듯하다
사실 add, addAll 할 때 걸러내는건 쉽게 구현이 될테니 skip 했는데...
뭐 귀찮으니 필요하면 그 때 만들자.

sql문	내가 만든 코드와 비교하면
select max(size) , max(size) , sum(size) , count(key) , min(size) from table group by filedate.substr(1,4)	# count, sum, max, min, first 라는 기능은 구현해놨다. table = { "size" => "20" ... 생략 ... } obj = GroupHash.new obj.set_field("max(size), max(size),sum(size),count(key), min(size)") obj.addAll( table ) result = obj.group { \|map\| map["filedate"].slice(0,4) } puts result

뭐 이런것이랄까요 ?
DB의 내장함수인 max, sum, count, min 같은것도 및에 소스코드를 보면 알겠지만 함수명과 매칭된다.
혹시 추가적으로 기능을 추가하고 싶다면 쉽게 추가할 수 있다.
~~동적으로 호출하기 때문에 함수기능만 추가하고, set_field에 세팅할때 쿼리에 추가만 하면된다.~~

group_hash.rb

# encoding: utf-8

########################################

# Hash데이터를 group by하기

#

# 만든이 : 정민철 (deajang 골뱅이 gmail.com)

# 2012.03.10 20:01

########################################

class GroupHash

def initialize

@source = []

@group_by_result = nil

@select_field = {}

end

# @sorce 데이터를 읽어서 그룹핑한다.

def group(&groupKey)

@group_by_result = {} #초기화

@source.each do |row|

row.each do |colName, colValue|

if @select_field.include?(colName)

@select_field[colName].each do |methodName|

self.method(methodName).call(groupKey.call(row), colName, colValue, "#{methodName}(#{colName})")

end

return @group_by_result

end

#데이터 추가

def add(map)

@source << map

end

# 데이터 추가

def addAll(mapList)

mapList.each do |map|

add(map)

end

# 데이터를 추출할 필드와 함수명 정의

def set_field(field_query)

field_query.split(/\s*,\s*/).each do |field|

field_func = _get_function_name(field)

field_name = _get_field_name(field);

if field_func.nil? || field_name.nil?

puts "ParseError: unknown field query. (unexpected = \"#{field}\")"

@select_field = nil

break

else

_map_in_append!(@select_field, field_name, field_func)

end

private

# map[key] << value

def _map_in_append!(map, key, value)

return false if map.nil?

map[key] = [] unless map.include?(key)

map[key] << value

return true

end

# func(fieldName) #=> func

def _get_function_name(token)

if token =~ /^\s*([a-zA-Z_]+)[(][a-zA-Z_]+[a-zA-Z0-9_-]*[)]\s*$/

return $1

end

# func(fieldName) #=> fieldName

def _get_field_name(token)

if token =~ /^\s*[a-zA-Z_]+[(]([a-zA-Z_]+[a-zA-Z0-9_-]*)[)]\s*$/

return $1

end

def _selet_group_value(groupKey, saveFieldName)

if @group_by_result.include?(groupKey)

if @group_by_result[groupKey].include?(saveFieldName)

return (@group_by_result[groupKey])[saveFieldName]

end

return nil

end

def _save_group_value(groupKey, value, saveFieldName)

unless @group_by_result.include?(groupKey)

@group_by_result[groupKey] = {}

end

unless @group_by_result[groupKey].include?(saveFieldName)

(@group_by_result[groupKey])[saveFieldName] = {}

end

(@group_by_result[groupKey])[saveFieldName] = value

end

########################################################

# 필드의 내장함수를 정의하는곳

#

# groupKey : 그룹을 짓는 기준값

# fieldName: 현재 읽어온 필드명

# value : 현재읽어온 필드의 값

# saveFieldName: select문에 정의된 필드명으로 그룹핑할때 내부적으로 key로 사용

#

# @see

# _selet_group_value(groupKey, fieldName, value, saveFieldName) : 값을 찾을때

# _save_group_value(groupKey, fieldName, value, saveFieldName) : 값을 저장할때

########################################################

# 합계

def sum(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

_save_group_value(groupKey, preval.to_i + value.to_i, saveFieldName)

end

#카운팅 (nil이 아닌 필드만 셈)

def count(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

_save_group_value(groupKey, preval.to_i + 1, saveFieldName)

end

#최대값

def max(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

max = preval

max = value if(preval.nil? || preval < value )

_save_group_value(groupKey, max, saveFieldName)

end

#최소값

def min(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

unless value.nil?

min = preval

min = value if(preval.nil? || preval > value )

_save_group_value(groupKey, min, saveFieldName)

end

#처음 매칭되는값

def first(groupKey, fieldName, value, saveFieldName)

preval = _selet_group_value(groupKey, saveFieldName)

if preval.nil?

_save_group_value(groupKey, value, saveFieldName)

end

[테스트용 코드]

###############

## 테스트 해보는 코드

###############

obj = GroupHash.new

obj.addAll(