728x90

안녕하십니까, 간토끼입니다.

 

오늘은 길벗 출판사에서 제공 받은 밑바닥부터 만들면서 배우는 LLM에 대한 서평을 작성해보도록 하겠습니다.

 

 

지난 서평에도 언급한 것처럼, 저는 현재 LLM을 활용한 AI Agent 관련 연구를 진행하고 있는데요.

2025.09.16 - [Records/Book] - [서평] 나만의 MCP 서버 만들기 with 커서 AI (서지영 저/길벗 출판사)

 

[서평] 나만의 MCP 서버 만들기 with 커서 AI (서지영 저/길벗 출판사)

안녕하십니까, 간토끼입니다. 오늘은 길벗 출판사에서 제공 받은 나만의 MCP 서버 만들기 with 커서 AI에 대한 서평을 작성해보도록 하겠습니다. 저는 현재 카이스트에서 데이터 사이언스를 전공

datalabbit.tistory.com

지난 서평에도 언급한 것처럼, 저는 현재 LLM을 활용한 AI Agent 관련 연구를 진행하고 있는데요. 사실 AI Agent의 근본적인 연구라기보단, 이를 활용해서 현실 문제를 풀 수 있는 응용 연구에 가깝습니다.

그렇다보니 LLM을 활용하는 수준에만 그쳐서, 개인적으로 스스로에게 아쉬움을 갖고 있었습니다.

특히 요즘은 실무뿐만 아니라 연구를 하시는 분들도 LLM을 활용한 다양한 응용 연구를 활발히 하고 있는 시점에서, 저도 그 트렌드를 타고 LLM에 기반한 응용 연구를 하는 것에 관심을 두고 있는데요.

그래서 LLM을 밑바닥부터 만들면서 배운다는 컨셉인 이 책을 꼭 읽고 싶었습니다.

사실 우리가 일상 생활에서 챗GPT, 제미나이 등 LLM을 이미 활발히 활용하고 있지만, 이게 어떠한 원리로 작동하는지 관심을 가지는 경우는 드물 거라고 생각합니다. 특히 내가 요청한 것에 바보같은(?) 대답을 하는 상황을 보며 안타까워 하는 것 보다, 원리를 잘 이해하고 있음으로써 이 LLM의 역량을 더욱 잘 이끌어 낼 수 있다면, 보다 현명한 사용자가 될 수 있겠죠.

물론 그런 목적으로 이 책은 다소 어렵고 방대할 수는 있지만, LLM의 동작 방식을 자세하고 이해하고 싶고, LLM을 잘 활용하여 여러가지 응용 연구를 하고 싶은 분들에게는 매우 좋은 가이드가 될 수 있는 책이라고 생각했습니다.

 

좀 더 자세히 서평을 작성해보겠습니다.


Q. 이 책은 어떤 책인가요?

LLM의 작동 방식을 자세히 이해하고, 밑바닥에서부터 자신만의 언어 모델을 구축하는 방법을 배우고 싶은 개발자, 연구자, 학생 등을 위한 책입니다.

뭐랄까 핸즈온 머신러닝과 유사하게, 핸즈온으로 LLM을 밑바닥부터 배울 수 있는 매우 좋은 자료인데요.

LLM을 이해하기 위해서는 필연적으로 트랜스포머 구조와 어텐션 매커니즘을 이해해야 합니다. 이런 선수지식부터 LLM에 이르는 방대한 지식을 혼자서 찾아보는 건 매우 어려운 여정일 가능성이 높죠.

그렇기에 이 책은 LLM의 기본 개념부터 트랜스포머, 언어 모델을 위한 텍스트 전처리 과정, 어텐션 매커니즘, LLM의 사전 훈련 과정 및 파인 튜닝 등을 폭 넓게 다루고 있습니다.

덕분에 여러 자료를 찾아보지 않고도 LLM의 전반적인 내용을 효율적으로 학습할 수 있죠.

하지만 LLM은 매우 방대한 양의 컴퓨팅 자원을 필요로 합니다. 그렇기에 로컬에서 사전 학습을 한다는 것 자체가 말이 되긴 어려울 수 있어요. 그래서 이 책은 누구나 쉽게 예제를 따라할 수 있도록 일반적인 데스크톱(혹은 랩탑)에서 실행될 수 있도록 고려하였으나, 만약 컴퓨팅 자원이 비교적 괜찮아서 더 많은 양의 데이터를 이용해 훈련 성능을 높이고 싶다면, 이러한 부분도 고려하여 작성이 되어 있습니다.

 

특히 이 책의 저자는 세바스찬 라시카로, 이미 길벗의 유명한 책인 머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로 을 작성하기도 했죠. (물론 이 책도 박해선님이 번역하였습니다.)

 

워낙 유명한 책이다보니, 이 책의 퀄리티 또한 저자가 세바스찬 라시카라는 점에서 보증되어 있다고 보셔도 좋을 것 같습니다.

 


Q. 그럼 누구에게 추천하는 책인가요?

개인적으로는 연구자인 제 시점에서는, LLM을 활용한 다양한 연구를 해보고 싶은 분에게 추천하는 책입니다.

사실 LLM을 처음부터 끝까지 사전 훈련하는 것은 매우 어려운 태스크가 될 가능성이 높습니다. 왜냐하면 그만한 데이터셋을 구축하는 것은 물론이고, 학습을 위해서는 매우 큰 GPU 자원이 필요할텐데, 일반적인 사용자가 이러한 환경을 갖추기는 현실적으로 불가능하죠.

그렇기에, 우리가 해볼 수 있는 것은, 이미 잘 만들어진 모델을 가져와서 우리가 하려는 태스크에 맞게 파인튜닝하여 활용하는 것일텐데, 이러한 관점에서 보면 이 책은 여러 가지 파인 튜닝 기법들이 잘 소개가 되어있습니다.

바로 6장과 7장인데요. 6장에서는 사전 훈련된 LLM을 가져와서 우리가 하려는 다운스트림 태스크 (가령 스팸 메일 분류하기)를 위해 파인튜닝을 하는 예제가 소개되어 있습니다.

이 예제는 M3 맥북 에어 노트북에서도 약 6분 정도만 걸리는 예제로, 우리가 우려하는 것과 다르게 충분히 로컬 환경에서도 따라해볼 수 있는 예제겠죠. 예제에서는 이진 분류 문제만 다루었지만, 이걸 다중 분류로 확장하는 것도 충분히 가능합니다. 특히 머신러닝 / 딥러닝 모델링을 해본 분들이라면 전반적인 절차는 매우 유사하니, 따라하는 것도 어렵지 않을 것이라 생각합니다.

제가 관심있는 섹션은 7장 지시 미세 튜닝, Instruction fine-tuning 인데요.

지시 미세 튜닝이란, LLM에게 내리는 지시 (가령 45km를 미터로 변환해) 에 맞는 답변 (45km는 45000 미터입니다) 이 나오도록 하는 튜닝을 의미합니다.

LLM을 지시 미세 튜닝하기 위해서는 데이터셋을 입력-출력 쌍으로 만들어줘야 합니다. 물론 이름에 맞게 지시(intruction)도 있어야죠.

Below is an instruction that describes a task. Write a response that appropriately completes the request.

## Instruction:

Identify the correct spelling of the following word.

## Input:

Occasion

## Response:

The correct spelling is 'Occasion'

 

이런 식으로 지시 미세 튜닝을 위해 잘 알려진 알파카 프롬프트 스타일을 구현하는 방법도 잘 작성돼있고, 이를 기반으로 훈련하는 방법까지 이어져 있습니다.

 

이러한 방법을 잘 활용하면 다음 문제를 푸는 것도 가능한데요.

가령, 사람들이 특정 시간 후에 어느 장소로 이동할까?의 궁금증을 해소하기 위한 Next Location Prediction (다음 위치 예측) 이라는 문제가 있습니다.

이를 전통적인 딥러닝 문제로 풀기 위해서는, 각 유저들의 이동 경로(trajectory)를 시퀀스 데이터로 가정하고 시퀀스에 최적화된 RNN 등의 모델을 이용해야 하는데요.대신, 다음과 같이 instruction-tuning을 이용해 LLM을 이용해서 특정 사람의 다음 위치를 예측하는 문제를 풀 수 있게끔 하는 논문의 사례도 있습니다.

개인적으로 저도 이러한 응용 연구에 관심이 있다 보니, 책을 재밌게 읽었습니다.

사실 개발자들이 관심있는 것도 유사할 것 같아요.

마찬가지로 사전 학습을 하는 건 어려울 가능성이 크기에, 특정 문제를 풀기 위해 파인튜닝을 하는 방법, 그리고 이를 활용해 해볼 수 있는 실무적 응용에 관심을 가지실 거라 생각합니다.

그러한 관점에서는 이 책이 매우 도움이 될 거라 자신합니다.


Q. 이 책의 장점은 무엇인가요?

이 책의 장점은 LLM의 구조, 그리고 LLM의 활용 방법까지 폭 넓게 한 책에서 다룬다는 점이라고 생각합니다.

LLM이 점점 뜨거워지는 요즘 트렌드와 달리, 대부분의 사람들은 서비스 차원에서만 LLM을 접할 뿐, LLM의 작동 원리까지 세심하게 들여다보기는 현실적으로 어렵죠.

특히 LLM 공부를 하고 싶어도, '챗GPT에게 잘 질문하는 방법' 등의 포스트만 주를 이루다 보니, 양질의 콘텐츠를 접하는 것은 더더욱 어렵습니다.

그렇기에 이 책은 복잡한 트랜스포머와 LLM의 원리, 파인 튜닝 방법 등을 직관적으로 다루면서도 개념의 깊이 또한 적절한 수준에서 챙기고 있기에, 개론보다도 더 양질의 콘텐츠를 포함하고 있습니다.

마냥 가볍게 볼 책은 아니기에, 들여다 보는 것에 시간을 많이 써야 하지만, 그 과정을 통해 얻어가는 것 또한 많을 것이라고 생각합니다.

저도 이 책의 내용을 소화하려면 좀 더 읽어봐야 할 것 같아요.

지금까지 읽은 시점에서 느끼는 건, 방대하게 느껴질 수 있는 목차이지만, 잘 따라가다보면 충분히 많은 걸 얻어갈 수 있을 거라 자신합니다.

개인적으로는 LLM의 원리를 이해하고, 오픈소스 모델 (가령 Llama 등)을 활용해 파인튜닝 함으로써 본인이 몸 담고 있는 도메인의 문제를 풀고 싶은 독자들에게 추천하는 책입니다.

 

이상으로 서평 마무리하겠습니다.

 

좋은 책을 읽게 새주신 길벗 출판사에 감사함을 전합니다.

 

감사합니다.

 


- 간토끼(DataLabbit)

- Master's student in Data Science, KAIST

- B.A. in Economics, Data Science, University of Seoul

728x90

+ Recent posts