웹 접근성 향상을 위한 FaceMouse 개발
v1: 2022-07 v2: 2025-05 FaceMouse: Empowering Web Accessibility with a Lightweight and Open-Source Interaction System 요약 본 연구는 상지 장애인의 디지털 접근성을 개선하기 위해 세 가지 기여를 통한 새로운 비접촉 입력 시스템을 제안한다. ...
v1: 2022-07 v2: 2025-05 FaceMouse: Empowering Web Accessibility with a Lightweight and Open-Source Interaction System 요약 본 연구는 상지 장애인의 디지털 접근성을 개선하기 위해 세 가지 기여를 통한 새로운 비접촉 입력 시스템을 제안한다. ...
😎 개발하는 기획자가 되기 위해 군대를 전역하고 25년 3월에 복학했다. 이번 년도의 목표는 명확했다. “기획부터 배포까지 모든 단계를 경험하자.” 필자는 이론적인 연구보다도 실제 서비스를 통해 사회적인 임팩트를 만들고 사용자로부터 피드백 받는 일에 더 큰 흥미를 느낀다. 그렇다보니 리서치-기획-디자인-개발-테스트-배포로 이어지는 전 과정을 모두 경...
Github: Hateful-Meme Multi-modal과 Reasoning 학기 중에 수업 기말 프로젝트로 컴퓨터비전 기술을 이용한 무언가를 만들어야 했다. 그런데 거창한 비전 모델을 학습할 GPU가 없었고돈도 없었고, 최근 논문으로만 읽었던 ‘멀티모달’과 ‘reasoning’을 모두 구현해 보면서 동시에 GPU도 적게 드는 과제를 찾다...
Github: Jin-A-Park/Speak2UI 실시간으로 음성 명령을 입력받아 LLM으로 사용자 명령을 분석하고, Android A11y API를 통해 동작을 실행하는 프로젝트다. 안드로이드 단에서 정보를 불러오고 조작하는 코드는 주로 Jin-A-Park님께서 작업해 주셨고, 필자는 주로 LLM 기반 명령 해석 모듈의 개발 및 실험을 ...
Agent의 변화와 정의 ReAct: Synergizing Reasoning and Acting in Language Models, 2023. Counterfactual Multi-Agent Policy Gradients, 2024. Agent는 전통적인 관점에서 policy를 가지며, 자율적으로 판단하고 행동하는 모델을 말한다. 오래...
LLM을 활용한 연구가 쏟아지는 동시에 LLM의 한계도 점점 명확해져 가고 있다. 그로 인해 Microsoft의 BitNet과 같이 작은 모델을 만들기 위한 시도가 계속 이어져왔다. 그러다 최근 몇 달 동안 reasoning 분야에서 새로운 아키텍쳐가 논의되고 있다. 오늘은 Hierarchical Reasoning Model이라고 불리는 아키텍쳐에 대...
Fine-tuning은 가성비가 떨어진다 A Survey on In-context Learning, 2024. LLM은 최근 많은 분야에서 활용되고 있다. 특정 과제에서 LLM의 성능을 높이기 위해 지도학습 + 강화학습 개념의 fine-tuning 기법이 사용되고 있다. 하지만 fine-tuning은 가성비가 떨어진다. 우선, 계산 비용...