PyCon KR 2025

preview

PyCon 2025에 다녀왔다. 처음 참여하는 개발 컨퍼런스라 긴장 반 설렘 반으로 참여했다. 컨퍼런스라고 하면 전문가분들이 모이는 진지한 자리 같아서 멀게만 느껴졌지만, 현업에서 Python을 사용하시는 분들의 이야기가 듣고 싶어 참여를 결정했다.

Django와 HTMX에 설득되다

django 발표자료

필자는 주로 ML 모델을 다루다보니 벡엔드는 API를 던지고 받는 정도만 해왔다. 그렇다보니 고민 없이 FastAPI만 사용해왔고, Django는 머리 속에서 잊혀져 있었다. 그러다 여러 세션에서 Django의 장점을 듣게 되었다. 특히 세션 로그인이나 DB migration 등 작업을 Django가 아주 쉽게 할 수 있다는 내용이었다. 물론 앞으로도 간단한 API 서버는 FastAPI로 열겠지만, 머리 속에 Django라는 새로운 옵션이 생겼다. 곧 서비스 레벨로 ML inference를 제공하는 문제를 풀 예정인데 이때 팀에 Django를 도입해도 괜찮겠다는 생각이 들었다.

Django를 소개하며 Pydantic, Scalar, HTMX 등 함께 사용해볼만한 요소를 소개받았다. 그 중 HTMX가 눈에 들어왔다. HTMX라는 프로젝트가 핫하다는 건 알고 있었지만 프론트를 자주 다루지 않다보니 잊고 있었다. 개인적으로 프레임워크 자체가 주는 오버헤드를 싫어해 React를 사용하는 게 부담이었고, 대안으로 Svelte를 주로 활용했다. 그런데 HTMX라는 더 가벼운 옵션이 있다면 사용하지 않을 이유가 없다. 물론 프로젝트가 커지면 HTMX로 한계가 있겠지만 프로토타입 수준의 프로젝트에서는 굉장히 설득력 있는 옵션이라고 생각한다.

Pydantic을 배우다

Django, VLLM, Logfire 등 여러 세션에서 Pydantic을 언급했다. FastAPI에서 user request를 검사하기 위해 Pydantic 유효성 검사를 사용해 왔지만 이렇게까지 다양한 분야에 활용되는지 몰랐다. ML pipeline을 구축할 때 Python의 동적 타이핑 때문에 디버깅이 길어지는 경우가 있는데, Pydantic을 활용하면 일부 문제를 해결할 수 있겠다는 생각이 들었다. 물론 코드가 조금 더 복잡해지겠지만 ‘디버깅 때문에 지연되는 시간’ vs ‘코드 이해를 위해 지연되는 시간’을 고려하면 Pydantic을 사용하는 게 유리한 상황이 분명 있을 것이다.

의료 도메인의 경험을 배우다

의료 분야는 개인정보, 규제 등 문제로 접근할 수 있는 정보가 적다. 그렇다보니 감을 잡는게 어려운데, 현업에서 일하고 계신 연구자의 경험을 들을 수 있는 건 정말 귀한 시간이었다. 필자도 서울삼성병원과 공동 연구를 진행하고 있는데, 의료 도메인은 필요한 배경지식이 많다보니 문제를 접근하고 조율하는 과정부터 어려움이 많았다. 그런데 이번 세션을 듣고 나니 의료진과 협업을 위해 어떤 태도로 접근해야 하는지 배울 수 있는 좋은 기회가 되었다. 발표자님의 말을 빌리면,

의사는 생명을 다루고, 개발자는 그들의 시간을 아낍니다.

또 다른 세션에서는 암 진단을 위해 어떤 데이터 분석 기법을 사용했는지 소개해 주셨다. 의료 데이터, 특히 테이블 형식의 데이터는 성별, 나이, 흡연 여부 등 세세한 feature가 많다보니 막상 예측 모델을 만들려 하면 어디부터 시작할지 막막하다. 그런데 이번 세션에서 Recursive Feature Elimination이나 SMOTE 등 구체적인 방법론을 듣고 나니 조금씩 감이 잡히는 느낌이었다. 특히 인상적이었던 건 DNN보다 Random forest가 더 좋은 성능을 보였다는 결과였다. 당연히 DNN을 사용해야 한다고 생각했는데 데이터 특성에 따라 ML 모델이 더 잘 작동하기도 한다는 설명이었다. 만약 Random forest가 좋은 성능을 보인다면 진단에 사용된 규칙을 명확히 설명할 수 있다는 장점도 가져갈 수 있다. 이런 인사이트를 짧은 세션 안에서 배울 수 있어서 행복했다.

Chunking을 위한 직관을 얻다

Python이 LLM 분야에서 널리 사용되는만큼 PyCon에서도 LLM에 관한 세션이 다수 열렸다. VLLM, Multi-modal fusion, Data Augmentation, MLOps, LLM-as-a-judge, MCP, RAG 등 주제도 다양해서 정말 많은 내용을 배우고 돌아왔다. 그 중 특히 기억에 남는 세션은 RAG Chunking 기법에 관한 세션이었다.

LLM hallucination 문제를 해결하기 위해 팀에서 RAG를 도입하려 했다. 그런데 가장 큰 문제는 데이터를 어떻게 저장하는가였다. 답을 찾기 위해 많은 고민과 시도를 했다. 물론 선행 연구를 근거로 해당 도메인에 적합한 방법을 최종 선택했지만, 조사하는 과정에서 문서의 특성에 따라 방법과 기준이 달라지는 것을 확인했다. 그러다보니 ‘일반적으로 좋은 chunking 방법은 없는건가?’라는 의문이 남았다. 이번 PyCon 세션에서 이에 대한 해답을 찾을 수 있었다. 자주 사용하는 Recursive chunking이나 Semantic chunking부터 Mixture-of-Chunkers나 Late Chunking 같은 최신 기술까지 폭넓게 다뤄주셨다. 특히 문서의 메타데이터를 검색에 활용하라는 단순하지만 강력한 인사이트도 제공해주셨다. 이때까지 메타데이터는 부가적인 정보 정도로 생각했는데, 세션을 듣고나니 메타데이터도 본문만큼이나 중요한 정보를 제공할 수 있구나라는 점을 배웠다.


pycon 25

오픈소스 커뮤니티는 개발자이기에 경험할 수 있는 특별한 문화다. Python을 좋아하는 사람들이 자발적으로 모여 지식을 나눈다는 게 정말 멋진 일인 거 같다. 또 이틀이라는 짧은 시간에 많은 인사이트를 배울 수 있어 보람찼다. 다음은 11월에 있을 GopherCon이 기다리고 있다. GopherCon KR 2025 빨리 왔으면 좋겠다.

이 글은 저작권자의 CC BY-NC 4.0 라이센스를 따릅니다.

인기 태그