네이버가 말하는 의료 챗봇과 장기 기억

본 글은 ‘신뢰 가능한’ 의료 AI 챗봇에 대한 고민을 담고 있다. 네이버(NAVER)의 연구를 중심으로 설명하며, ‘장기기억(Long-term memory)’이 중요한 키워드다.

내담자는 상담자에게 솔직한가?

심리 상담 치료에서 내담자와 상담자의 신뢰 관계 형성이 중요하다. 내담자가 상담자를 신뢰하지 않으면 진솔한 이야기를 털어놓을 수 없다. 내담자가 정보를 제공하지 않으면, 정확한 진단과 치료가 어려워진다. 아무리 이론적으로 완벽한 치료 세션이 있다해도 내담자의 정보가 없다면 아무 소용이 없다. 그렇다면 의료 챗봇은 어떨까?

최근 LLM을 활용한 의료 챗봇이 활발히 연구되고 있다. 기존에 인간 전문가가 수행하던 세션을 챗봇이 대신하는 형태가 많다. 하지만, 앞서 말했듯, 이론적 배경이 완벽하더라도 신뢰관계가 형성되지 않으면 치료에 진전이 더디다. 그렇다면 인간은 인공지능 챗봇을 신뢰하는가? 이에 대한 답은 ‘하기 나름’이다.

믿을 수 있는 챗봇을 만들자

네이버는 CareCall이라는 서비스를 운영하고 있다. CareCall은 ‘돌봄이 필요한 대상자에게 AI가 주기적으로 전화를 걸어 건강, 식사, 수면 등과 관련된 일상적인 안부를 묻고 이상 징후를 모니터링하는 AI 안부 확인 서비스’이다. CareCall의 주요 특징으로 ‘장기 기억’이 있다. 네이버는 2024년 연구 논문에서 LLMs with long-term memory(LTM)의 효과를 설명했다.

여기서 LTM은 이전 세션에서 나눴던 대화를 기억하고, 다음 세션에도 이어서 질문하는 기술을 말한다. 계속 변하는 사용자의 건강 상태를 업데이트하며 개인 맞춤 의료 서비스를 제공한다. 위 연구는 LTM의 효과를 입증하기 위해 1,252개의 대화 로그를 양적/질적으로 분석했다. 이를 통해 밝혀낸 효과는 다음과 같다.

  • 시간이 지남에 따라 사용자는 자신의 건강 상태를 솔직하게 밝힌다.
  • 챗봇을 향한 부정적인 시각이 줄어든다.

자세한 건강 정보를 이끌어내다

LTM을 경험한 사용자는 자신의 건강에 대해 솔직하게 이야기하기 시작했다. 한 사용자는 불면증에 대해 챗봇과 이야기를 나눴다. 이후 챗봇이 불면증을 기억하고 다시 질문했을 때 “나는 트라우마 때문에 30년째 수면제를 복용하고 있어”와 같이 더 자세한 정보를 제공했다. 다른 사용자는 인터뷰에서 “처음에는 AI랑 대화하는 게 어색해서 네/아니요로만 답했는데, 계속 약을 복용하고 있는지 또는 계속 의사를 만나고 있는지 물었을 때부터 더 자세한 이야기를 하기 시작했어요”라고 답했다. 또 다른 사용자는 처음에 자세한 이야기를 하지 않다가 점점 세세한 정보를 공유하기 시작했다.

“나이가 들어서 여기저기가 다 아파. 설명하기 쉽지 않네” → “오랫동안 불면증이 있었어, 15년 정도” → “정신과에 다니곤 했는데, 약에 내성이 생겨서 이제는 더 이상 효과가 없어”

이처럼 LTM을 경험한 사용자는 시간이 지남에 따라 본인의 건강 정보를 솔직하게 드러내는 경향이 있었다. LTM을 경험하지 않는 그룹은 비슷한 대답을 반복하는 경향을 보였다.

챗봇: 어디 아픈 곳 있나요?

사용자: “허리 수술하고 나서, 다리 쪽에 만성적인 통증이 있어”

챗봇: 어디 불편한 곳 있나요?

사용자: “허리랑 다리가 많이 아파”

위 경우처럼 챗봇의 일반적인 질문에 대해 자세히 답하지 않았다.

친근하게 다가가다

LTM을 도입한 그룹은 챗봇에 감사하다고 말하며 친근감을 표현하는 경향이 있었다. 여러 사용자가 직접적으로 “고마워”라고 표현하기도 했으며, 인터뷰에서 “내가 말했던 정보를 기억하고 물어봐주면 정말 기분이 좋아요. 저한테는 의미가 커요.” 또는 “AI인 걸 알지만 여전히 의사를 만나는 지 물어봐주면 위로를 받아요.”와 같이 정보를 기억하고 물어봐주는 행동에 긍정적인 반응을 보였다.

한 사용자는 초반에 “너는 사람이 아니잖아”와 같이 부정적인 태도를 보였지만, 시간이 지남에 따라 자신이 복용 중인 약물에 대해 솔직하게 이야기 하기도 했다. 다른 사용자는 첫 대화에서 “나는 로봇이랑 얘기하고 싶지 않아”라고 했지만 시간이 지나면서 “고마워”라고 표현하기도 했다.

반대로 LTM을 경험하지 않은 그룹은 정보를 기억하지 못할 때 화를 내기도 했다. 한 사용자는 한숨을 쉬거나 “그만하자. 난 항상 아파”라고 답하며 분노를 표현했다. 다른 사용자는 “그냥 녹음기만 돌릴거면 내가 어떤지 물을 필요가 없잖아”, “나는 녹음을 들고 싶지 않아. 혼잣말만 할거면 왜 대화를 해”와 같이 반복되는 질문에 지친 모습을 보였다.

장기 기억이 항상 정답은 아니다

만성 질환을 가진 환자는 LTM이 효과가 없었다. 만성 질환을 앓는 환자에게 LTM은 단순하고 반복된 대답 밖에 듣지 못했다.

챗봇: 허리 통증은 어때요?

사용자: “맨날 똑같지, 맨날 똑같아”

챗봇: 의사를 만나고 있나요?

사용자: “응”

챗봇: 꾸준히 치료를 받고 있으니까 분명 좋아질 거에요.

사용자: “아닐 걸. 난 너무 나이가 많아, 86이야”

챗봇: 허리 통증은 어때요?

사용자: “이건 뭐 달라지는 게 아니야”

챗봇: 의사를 다시 만났나요?

사용자: “그냥 척추가 닳았대”

LTM을 경험하며 개인정보 문제를 걱정하는 사용자도 있었다. 한 사용자는 “어쩔 때는 너무 자세히 물어서 답하기가 꺼려져요. 예를 들어, 혈압약에 대해서 이야기할 때요. 의사를 만나고 있고 약을 먹고 있다고 하면, ‘어떤 약을 먹냐’고 물어요. 이건 너무 개인적인 거 아닌가요? 이런 거까지 기억하면 마음이 불편해요.”와 같이 너무 세세한 정보까지 기록하는 것에 불편함을 드러냈다.

이처럼 장기 기억을 기반으로 질문을 생성할 때, ‘만성 질환 환자’를 고려하며, 너무 자세한 내용을 묻지 않도록 섬세하게 디자인해야 한다.

장기기억은 어떻게 만들까

장기 기억을 구현하는 방법은 2022년 논문에서 밝히고 있다. 핵심은 정보를 계속 업데이트하며 최신 정보가 잘 반영될 수 있도록 하는 것이다. 이를 위해 세션이 끝날 때마다 대화를 요약하며, 이전에 저장된 기억과 비교해 { PASS, REPLACE, APPEND, DELETE } 연산을 수행한다.

  • PASS: 기존 정보와 새로운 요약이 겹칠 때, 기존 정보만 유지한다.
  • REPLACE: 기존 정보와 새로운 요약이 다를 때, 최신 정보로 대체한다.
  • APPEND: 기존에 없는 새로운 요약이 생길 때, 새로운 정보를 추가한다.
  • DELETE: 과거 정보는 잊고 새로운 정보는 저장하지 않는다.

DELETE가 필요한 예시는 다음과 같다.

  • 기존 정보: “감기가 있어 약을 복용하고 있음”
  • 새로운 정보: “감기가 다 나았음”

위 예시에서 ‘감기가 있다’는 정보는 오래된 정보로 더 이상 필요하지 않아 삭제한다. 그럼 동시에 감기가 나았다는 정보도 저장할 이유가 없어진다. 만약 이러한 정보가 사라지지 않는다면 ‘Pink Elephant Paradox’를 일으켜 hallucination을 초래할 수 있다.

Pink Elephant Paradox는 어떤 생각을 억누를수록 더 강하게 떠오르는 현상을 말한다. “지금부터 핑크 코끼리를 생각하지마”라고 하면 머리 속에 코끼리가 떠오르는 식이다. 이처럼 불필요한 정보를 저장하고 있으면 시스템이 불필요한 생각을 하게 된다.

연구는 T5 모델을 fine-tune해 분류 모델을 학습시켰고, 88%가 넘는 정확도로 올바른 연산을 잘 선택했다.

참고로, 위 연구는 2022에 제안된 기법이며, 현재 (2025년 기준) SOTA 방법론은 Mem0이다. 의료 인공지능보다는 개방형 대화 요약을 목적으로 설계되었다. 메시지를 비동기로 요약하는 extraction phase와 { ADD, UPDATE, DELETE, NOOP } 연산을 수행하는 update phase를 가진다. 네이버는 분리된 분류 모델(T5)을 학습해 연산을 지정했지만, mem0는 GPT-4o-mini의 reasoning을 활용했다.

결론

장기 기억(LTM)을 활용하면 내담자(사용자)의 자세한 건강 정보를 이끌어 낼 수 있다. 더불어 사용자가 챗봇을 더 친근하게 느끼며, 긍정적인 시각으로 바라본다. 이를 구현하기 위해 대화 요약과 정보 연산을 통해 최신 정보가 유지될 수 있도록 하는 방법이 제시되었다. 하지만 장기 기억이 항상 긍정적인 결과로 이어지지는 않는다. 장기 기억을 이용해 대화를 이어갈 때, 사용자가 불편하지 않도록 정교하게 질문을 생성할 필요가 있다.

참고자료

  • Understanding the Impact of Long-Term Memory on Self-Disclosure with Large Language Model-Driven Chatbots for Public Health Intervention: ACM
  • 클로바 케어콜 논문(2): 챗봇의 장기기억과 자기표현: CLOVA TECH-BLOG
  • Keep Me Updated! Memory Management in Long-term Conversations: arXiv
  • Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory: arXiv
이 글은 저작권자의 CC BY-NC 4.0 라이센스를 따릅니다.

인기 태그