josephjang

CS234 Reinforcement Learning 7-8강

Reinforcement Learning 7, 8강을 들었습니다. 각각 Imitation Learning과 Policy Search의 도입부를 다루고 있습니다.

Imitation Learning은 전문가의 시연로부터 어떻게 모방할 수 있는가의 문제를, 전문가의 state, action 샘플로부터 reward function을 추정하거나 이로부터 optimal policy를 학습함으로써 풀고 있습니다.

그동안 value function을 학습해서 policy evaluation 및 control을 해왔던 value-based method를 다뤄왔습니다만, 8강에서는 policy 자체를 학습하는 접근을 다루기 시작합니다. policy 자체를 파라미터를 이용해 표현하고, policy의 value를 최대화하는 파라미터를 찾는 최적화 문제로 다룹니다. 최적화 방법에는 여러가지가 있지만, Likelihood Ratio / Score Function Policy Gradient에 temporal structure를 도입함으로써 결국 잘 알려진 REINFORCE 알고리즘을 얻게 되는 과정을 설명합니다.

다음 강의들을 듣는 동시에, Intro to Reinforce Learning의 Chapter 13도 함께 읽어볼 예정입니다.

CS234 Reinforcement Learning 7-8강 더 읽기"

Reinforcement Learning by Sutton & Barto Chapter 9

Chapter 9 On-policy Prediction with Approximation을 읽었습니다.

state space가 매우 크고 이에 따르는 데이터가 큰 문제에 대해 샘플로부터 value function을 approximation하는 문제로 넘어가게 됩니다. state를 대표하는 feature들로부터 value를 계산할 수 있는 function의 weight를 샘플들을 통해서 찾는 supervised learning 문제로 바라봅니다.

여기서부터는 SGD라든가 여러 basis function들을 기반으로 하는 linear method들, non-linear method로서의 neural network 등의 일반적인 방법들이지만 그동안의 RL 연구에서 자주 활용된 방법들을 소개하고 있는 것 같습니다. 이 과정에서 convergence 문제라든가 dimensionality reduction에 관련한 이슈도 다루고 있습니다. coarse coding이나 tile coding 등은 처음 들어본 것이라서 살짝 흥미로웠습니다. 현재는 deep learning이 트렌드가 되었기 때문에 긴장감이 좀 떨어지지만, 그래도 기존의 접근들을 기반으로 새로운 접근들을 쌓아올라가는 면들이 현재도 있는 것 같아서 도움이 될 수도 있겠다는 생각 정도는 들었습니다.

이어서 Atari 관련한 DeepMind 페이퍼들을 좀 읽어볼 예정입니다.

Reinforcement Learning by Sutton & Barto Chapter 9 더 읽기"

CS234 Reinforcement Learning 5-6강

CS234 Reinforcement Learning 강의 6강까지 들었습니다. function approximation으로 넘어갔고, 아타리 게임을 플레이하는 것으로 화제가 되었던 DeepMind의 DQN까지 배웠습니다. function approximation + off-policy에서의 convergence 문제 때문에 관심이 시들하다가 DQN 때문에 다시 많은 관심을 얻게된 것 같네요. 그나저나 TRPO와 PPO의 주저자인 J. Schulman이 OpenAI의 cofounder인 것도 이 강의를 통해 알게 되었네요.

CS234 Reinforcement Learning 5-6강 더 읽기"

듄 – 파트 2

IMAX 극장 갈만한 시간을 찾다가 차라리 그만한 작품이라면 두번 볼 요량으로, 동네 극장 심야상영을 저렴하게 보고 왔다. 아내가 여행간터라 휴가를 쓴 터라 평일이지만 마음 편하게 다녀올 수 있었다.

듄 시리즈가 예지력과 정신훈련, 인간 컴퓨터와 같은 소재를 사용하는 소설이다보니, 원작에는 내적 대사가 상당히 많은데, 이를 드러내기 위해서 내적 대사를 다른 인물이 말하도록 한 장면들이 많이 보였다. 원작을 읽지 않은 관객들이 대부분일 것을 감안하면 전반적으로는 나쁘지 않았다고 생각한다. 다만, 이로 인해 가장 많은 영향을 받은 것은 폴의 의지에 대한 챠니의 입장을 반동으로 설정한 것 같아서 마음에 많이 걸렸다. 조금 더 입체적인 인물로 만들기 위한 각색 정도로 볼 수는 있을 것 같다. 또한, 1편에서와 마찬가지로 제시카의 영향력이 많이 축소된 점도 계속 마음에 걸렸다. 내 기억이 맞다면 폴의 여동생 알리아를 대변하는 것 같은 장면은 없었던 것 같은데 줄곧 대변자 정도로만 행동한 것 같아서 아쉬웠다.

원작에 대비한 인물들의 중요한 변화에도 불구하고 원작의 세계관과 이어지는 상당히 많은 부분들 – 정치적인 이해 관계와 생존을 위한 프레멘의 문화, 생명의 물에 관련한 요소 – 을 한정된 시간 안에 이토록 자연스럽게 넣을 수 있었던 것은 칭찬받아 마땅하다고 생각한다.

듄 1권의 후반에 해당하는 영화이기 때문에 대단원에 해당하는 전투와 결투, 검투사 시합 등이 들어갔다. 영화를 보기 전에도 영화로 만들었을 때도 대중들을 만족시키기 좋은 요소라고 생각했다. 대규모 전투도 멋있는 비주얼의 장비들과 웅장한 음악, 있음직한 전개로 상당히 만족스럽게 그려졌다.

인물들의 모습들에서 의외였던 것 중 하나는 페이트 로타였다. 소설 속에서는 준수한 외모이지만 잔인한 성격을 가진 인물이지만 영화에서는 하코넨의 주요 인물들과 대중들은 모두 대머리..로 잔인한 성격을 외모에 반영함과 동시에 전체주의적인 하코넨 사회의 모습을 간명하게 그리려고 한 것 같다.

반대 의미로 의외였던 것은 비중이 높아진 이룰란 공주의 복장들이 많은 공을 들인 것처럼 참 아름다웠다는 것이다. 듄의 메시아에서는 이룰란 공주의 역할이 좀 더 늘어나는 만큼 후속 작품도 만들어지면 참 좋겠다는 생각을 했다.

원작에서 폴은 자신이 예지하고 선택한 미래에 대해 회의와 책임, 결심을 반복하는데 누구에게도 떠넘길 수 없는 무앗딥만의 고뇌로 그려진다. 그러한 고통 하에서도 지속적으로 위안으로 삼는 곳은 챠니에 대한 사랑이었다. 그렇기에 챠니와의 사랑이 싹트는 장면에서 폴이 챠니의 다른 이름인 “시하야”를 부르는 순간 눈시울이 붉어졌다.

듄 – 파트 2 더 읽기"

Artificial Condition: The Murderbot Diaries

머더봇 다이어리 2권, Artificial Condition을 읽었다.

1권의 사건 이후로 일종의 자유를 얻게된 머더봇은, 처음으로 자신의 목적에 따른 여정을 떠나게 된다.

회사의 소유는 아니게 되었지만 여전히 SecUnit이 홀로 다닌다는 것은 인간들에게 커다란 위협이다. 인간사회로부터 이목을 끌지 않기 위해 노력하는 과정들이 흥미롭고, 결국 어느 정도 성공한 것으로 보인다. 특히 인간들과도 어울릴 수 있게 된 점으로 인해 시리즈의 후속편들에서 여러가지 전개의 가능성이 열리게 된 것 같다.

이 책에서 가장 즐거웠던 것은 머더봇이 ART (Asshole Research Transport)라고 부르는 연구용 수송선과 티격태격 대는 장면들이었다. 드라마를 함께보며 신뢰를 쌓고 서로의 의도를 알아채고 행동을 하는, 인간으로 말하자면 우정을 쌓으며 사건을 해결해나가는 과정이 재미있었다.

1권과 마찬가지로 2권의 사건도 격렬한 전투로 마무리가 된다. 마치 액션 영화를 한편 본 느낌.

이야기가 진행되는 공간의 범위가 크게 넓어지면서, 머더봇이 설명하는 인간들의 모습이나 네트워크와 봇들과 어울려 살아가는 인간 사회의 모습이 꽤나 있음직하고 자세하게 묘사되었다. 이후의 이야기들도 기대가 된다.

Artificial Condition: The Murderbot Diaries 더 읽기"

삼체 1부: 삼체 문제

류츠신의 삼체 1부를 읽었다.

삼체 세계라는 3개의 항성을 가진 행성의 문명과 인류가 조우하는 이야기를, 삼체 게임을 통한 삼체 세계에 관한 설명, 문화혁명으로 시작하는 예원제의 비극적인 삶, 과학자들의 자살 사건으로 시작하는 미스테리와 충돌이라는 3가지의 흐름으로 풀어내고 있다.

이 작품에서 가장 매력을 느꼈던 이야기는 예원제의 이야기였다. 문화혁명에서 소신을 굽히지 않았던 과학자 아버지를 잃고 자신도 반동분자의 자식으로서 정신적인 고통과 고초를 겪는다. 과학자로서 예전에 했던 연구를 의미를 알아보는 사람이 있어서, 양탄일성과 함께 시작된 국가 프로젝트의 격리된 시설에서 외롭고 생존을 위한 치열한 삶을 살아간다. 예원제의 이야기는, 소설의 다른 이야기들과는 달리, 국가 또는 대중의 개인에 대한 폭력이 얼마나 개인에게 상처를 줄 수 있는지, 그리고 정치적인 관념이 과학을 지배할 때 어떠한 일이 일어나는지를 섬세하게 보여주어, 이 소설의 주인공과 주제는 예원제의 삶이 아닐까 생각했다.

삼체 문명과의 조우 사건이 전개되는 과정에서 일반해가 없다고 증명된 삼체 문제를 몬테카를로 방법으로 풀려고 사도한다든가, 우주엘리베이터에 사용될 수 있는 강도를 가진 나노 소재 연구라든가, 소립자의 차원을 조작해서 직접회로를 만든다든가 하는 SF 소설을 읽는 사람들이 즐길만한 소재들도 상당히 많이 활용되었다. 개인적으로는 과학적인 소재에 대한 설명을 줄이고 좀 더 인물들의 생각과 대화에 좀 더 비중을 두었다면 이미 훌륭한 작품이 더욱 훌륭한 SF 고전이 되지 않았을까 생각한다. 하지만, 저자의 맺음말에서도 오히려 과학적인 소재에 치중하는 중국 SF계의 유행을 벗어나기 위해 의식적으로 노력을 기울인 결과임을 알고나서는 어느 정도 이해가 되었다.

삼체 1부: 삼체 문제 더 읽기"

다섯번째 계절

N. K. 제미신의 부서진 대지 3부작의 1권인 다섯번째 계절을 읽었습니다.

서로 다른 시간과 장소에서 세 갈래의 이야기가 각각의 강렬한 사건으로 시작합니다. 이 책을 읽으며 이야기 속의 세상과 삶이 어떻게 이루어져 있는지 배우고, 절반 정도에 이르면 어느 정도 익숙해집니다. 하지만, 이것으로 끝나지 않고, 이 책의 마지막 장까지 놀라움은 끊이지 않습니다.

주인공들과 이 세상의 사람들은 (우리와 별 다를 것 없이) 고통 한가운데에서도 한 줌의 평범한 삶과 자유를 구합니다. 주인공들이 욕지거리를 하거나 그저 침묵으로 말을 하며 감정을 드러내지 않을 때에도 깊이 감정이 전해졌습니다.

마지막에 이르러 세갈래의 이야기가 만나며 이제서야 이야기가 시작되었다고 말합니다.

다섯번째 계절 더 읽기"

나이브스 아웃: 글래스 어니언

셜록 홈즈와 같은 추리소설에서 흔히, 독자들은 사건의 상황과 이를 둘러싼 인물들을 파악하는데에 집중하고 이윽고 대체 무슨 일이 벌어졌지라고 생각할 무렵, 탐정은 독자들이 거의 신경을 기울이지 못했을 법한 사소함으로부터 사건의 실마리를 찾고 논리를 통해 결론을 짓는다. 글래스 어니언에서도 ‘세계 최고의 탐정’은 비슷한 일을 해낸다. 하지만 글래스 어니언과 추리소설들과의 차이는 탐정이 근거를 제시하는 것들 중 일부는 시청자들도 이미 함께 봤던 것이라는 점이다. 함께 보고 함께 들었는데도 난 그냥 지나쳤고 탐정은 거기에서 중요한 단서를 찾아냈다는 것은 그야말로 가장 높은 수준의 묘미를 보여준 것이 아닌가 싶다.

전체 이야기에서도 매우 독특한 상황과 역시 독특하고 다양한 인물들, 화려한 장소에 대해서 시청자들이 탐색하고 파악하느라 바쁜 와중에, 이미 사건들은 모두 발생했고, 그조차도 탐정의 계산 하에 있었다는 전개는 추리소설 특유의 재미를 한껏 보여주었다고 생각한다. 그런 탐정은 뻔뻔하게 나의 관할은 사실을 찾아내고 그 정보를 경찰이나 검찰에게 제공하는 것까지라는 말을 반복한다.

한편으로는, 나의 삶에서도, 어떤 사람의 겉으로 드러난 이미지나 어떤 사건이나 상황에 대해 표면적으로 드러난 것만 가지고 많은 사람들이 생각하는 것에 빠지지 않고, 이면에 존재하는 진실한 모습과 사실에 기초한 진정한 이해를 추구할 수 있는 한해가 되었으면 좋겠다는 생각을 하게 하는 영화였다.

나이브스 아웃: 글래스 어니언 더 읽기"

규칙은 마지막에 고려하세요

규칙과 규칙에 대한 보상과 벌을 설계하고 운영하는 일은 아주 어려운 일이다. 조직에서 어떤 부정적인 행동들이 관찰될 때 매니저로서 즉각적으로 드는 생각은 규칙을 만드는 것일지도 모른다. 하지만, 실제로는 많은 경우 가장 마지막에 고려해야 하는 방법이다.


‘9시 – 6시를 근무시간으로 한다’라는 규칙을 가진 회사를 가정해보자.

인간이 살아가는 세상이 늘 그렇듯이 9시보다 늦게 출근하는 사람들이 생겨나기 시작한다.

정시에 회사에 도착하려고 지하철역에서 뛰어왔지만 1분 늦어버린 사람, 그래도 아침에 맛있는 커피는 필수니까라고 생각하며 카페에 들르다보니 9시 10분에 도착한 사람, 어젯밤에 오랜만에 만난 친구들과 새벽까지 회포를 풀다보니 늦잠을 자버려 10시가 좀 지나서 출근한 사람.

약 20%의 사람들이 한달간 1번 이상 9시 정시 출근을 지키지 않았다. 반대로 정시에 출근하는 사람들의 20% (전체의 16%)는 늦게 출근하는 사람들로 인해 업무에 방해가 되거나 또는 불공평함을 느낀다고 생각했다.

조금 보수적인 회사의 인사부서에서는 이러한 현상을 막기 위해 9시 정시 출근하지 않는 사람들에게 직접적인 불이익을 주는 방법을 고려하다가 그 해의 인사고과에 정시 출근 여부를 반영하기로 했다. 또한, 한달 동안 시스템에 기록된 출근 시간 중에서 9시 이후인 시간이 한 번 이상 있다면 인사부서에서 매니저와 본인을 대상으로 규칙 위반을 통지하고 이는 인사고과에 반영될 것이라는 이메일을 보내기로 했다.

효과는 즉각적이었다. 정시 출근을 지키지 않던 그룹이었던 20%의 80% (전체 중 16%)가 정시 출근을 지키기 시작했다. 다만, 규칙을 지키기 시작한 20%-80% 중에서 다시 80% (전체 중 약 13%)는 다시 규칙을 지키기 시작했음에도 불구하고, 이러한 규칙에 대해 불만이 생겨났다. 살다보면 발생할 수 있는 여러가지 사고와 실수로 인해 10분 늦는 것에 대해 너무 과도한 불이익이 주어진다는 것이었다. 어떤 사람들은 자신은 아침마다 반드시 등교를 돕고 빠듯한 시간 내에 최선을 다해 출근을 하는데도 이러한 불이익은 너무 가혹하다는 논리를 폈다. 반대로, 그래도 정시 출근을 지키지 않던 그룹이었던 20%의 20% (전체 중 4%)의 출근 지연 시간은 평균 10분에서 평균 20분대로 더 늦어졌다. 어차피 불이익을 볼거라면 별 차이가 없지 않냐는 논리였다. 한편, 정시출근을 하지 않는 사람들에 대한 불만은 해소되었지만, 정시출근을 원래부터 지키던 80% 그룹 내에서도 20%의 사람들은 자신이 혹시라도 지키지 않았을 경우 발생하는 불이익에 대해 스트레스를 느꼈고 그것이 불만으로 이어졌다.

여러가지 경로로 이러한 문제점들을 들은 인사부서는 규칙을 조금 개선하기로 했다. 10분 지각까지는 경고를 하되 한달간 3회 누적이 되면 원래 대로의 불이익을 주기로 했다. 다시 규칙을 지키기 시작한 그룹 중에서 80%는 실수로 인한 위험이 줄어들어 어느 정도 만족을 했지만, 그 중 20%는 불만이었다. 그 이유는 다양했는데, 여전히 오는 경고 이메일은 두렵다는 것, 10분 이상의 지각이 일어날 수도 있는 가능성에 대한 불안, 3회 누적 시 불이익은 여전히 너무 강한 불이익이라는 것 등이었다. 정시 출근을 원래부터 지키던 80% 그룹 내에서 스트레스로 인한 불만이 줄어들었다고 대답했지만 여전히 그들 머리 속에는 불안이 자리잡고 있었다.

임원진으로부터 너무 불이익을 주는 방법만 생각하지말고 정시 출근을 하는 사람들에게 이익을 주는 방법도 생각해보자는 의견이 나와서 인사부서는 또 고민을 하게 되었다. 3년 동안 정시 출근을 빠짐없이 한 직원들을 개근 표창하고 보너스 20만원을 지급하기로 했다. 어차피 정시 출근을 하는 사람들이 80% 이상을 차지하고 있기에 3년 개근을 달성하는 것은 약 64%가 달성할 것으로 기대되는, 아주 어려운 일은 아니었다. 그래서 보너스 액수도 적을 수 밖에 없었다. 64%나 받는 표창이기에 어떤 뿌듯함 같은 것은 없었다. 어차피 정시 출근을 지키지 않던 그룹은 이 액수를 보고 마음을 바꾸지 않았다. 반대로 정시 출근을 하던 그룹의 사람들에 대해서 지각을 할 것 같으면 휴가를 사용하라는 웃지 못할 이야기도 돌았다.


‘9시 출근’이라는 어떤 회사에서 반드시 지켜야 하는 어떤 규칙을 사례로, 어떤 규칙을 지키도록 만들기 위해 어떤 일들이 일어나고 그런 과정이 얼마나 험난한지 이야기 식으로 풀어보았다. 어떤 규칙을 지키지 않는 사람들이 발생하고, 규칙을 더 많은 사람들을 지키도록 만들기 위한 과정에서 당근과 채찍을 동원하고, 규칙 그 자체에 대해 불만을 가진 사람들과 채찍에 대한 불안감을 가진 사람들, 당근에 대한 효과와 공정성에 의문을 가진 사람들이 발생한다.

사실 우리들이 모든 일에 대해서 규칙을 원하는 것은 아니다. 우리가 실제로 무엇을 원하는가를 잘 생각해보면, 실은 어떤 긍정적인 행동에 대해 여러 사람들에게 그것이 무엇인지, 그리고 왜 정당한지를 설명하고, 더 많은 사람들이 그러한 행동을 하도록 하고 싶은 것이 대부분이다. 더 좋은 단어가 있을지 모르겠지만 나는 보통 ‘규칙’ 대신 ‘가이드라인’이라는 단어를 쓴다. 가이드라인이라면, 일부가 그렇게 행동하지 않아도 큰 문제가 없다. 오히려 가이드라인이 제시하는 방식에 얽매이지 않고 다른 방식의 행동을 통해 새로운 돌파구를 찾아내는 길을 열어놓아야 할 때도 있다.

물론, 규칙이 필요한 경우도 있다. 모든 사람들이 같거나 비슷한 행동을 할 때 발생하는 시너지가 있다. 하지만, 규칙이라고 해도 여전히 이를 지키지 않는 사람들이 발생할 것이다. 처음에 규칙이 만들어질 때는 모두의 합의에 기초를 했더라도 시간이 흐르면서 또는 새로운 사람들이 들어오면서 규칙을 지키지 않는 사람들이 늘어나는 경우가 있다. 규칙을 지키지 않는 사람들이 너무 늘어나면 규칙이 유명무실해 지므로, 일정 비율 이하로 유지해야할 필요성이 있다.

그럼에도 불구하고, 규칙을 보상과 벌을 이용해 제어하려는 생각도 가급적이면 뒤로 미루는 것이 좋다. 모든 것을 규칙으로 제어하려고 하면 위에서 본 것처럼 규칙을 만드는 사람과 따르는 사람 모두가 그 규칙에 얽매여서 불행한 삶을 살아가야한다. 규칙에 대해 많은 제어를 하지 않기 위해서는 다음과 같은 고려들이 필요한 것 같다.

  • 먼저, 많은 사람들이 현실적으로 지키기 힘든 규칙이어서는 안된다.
  • 가능하다면 규칙의 설계 상 인간으로서 할 수 있는 실수는 어느 정도 허용해야 한다.
  • 규칙을 운영하면서 발생하는 작은 위반들은 그냥 눈감아주되 정상적인 상태로 올 수 있도록 가벼운 자극을 주는 것이 좋다.
  • 규칙의 목적에 반하는 매우 커다란 위반들에 대해서도 규칙을 만들지 말고 하나의 예외로서 처리하는 것이 좋다.

이러한 방식으로 규칙을 만들 때 나는 ‘정책’이라는 단어를 쓴다. ‘정책’은 조직을 운영해나가려는 의도를 통해서 조직의 방향을 제시해 사람들의 혼란을 방지할 수 있고, 규칙을 위반하는 사람들을 어느 정도 포용하면서 논의를 통해 더 나은 방법을 찾아나갈 수 있는 메시지를 준다고 생각한다.

나도 처음 매니저 역할을 경험하면서 명확한 규칙과 엄정한 실행이 답이라고 생각했던 적이 있었기에, 새롭게 매니저 역할을 하시는 분들에게 조금이나마 도움이 되기를 기대하면서 아침에 떠오른 생각들을 정리해봤다.

결국은 더 많은 규칙이 더 효과적인 조직을 만들어주지는 못한다.

규칙은 마지막에 고려하세요 더 읽기"