AI 공부/논문 리뷰 4

[논문 리뷰] Qwen2.5-Omni Technical Report

리뷰 IntroQwen3이 나온 시점에서 좀 늦긴 했지만, 그래도 Omni 모델이기에 Qwen2.5-Omni Technical Report를 파헤쳐 보고자 한다.Qwen 계열 자체가 현재 Llama와 같은 오픈소스 모델을 제치고 오픈소스 모델 계열 중에서 가장 높은 평가를 받고 있기에 Qwen의 최신 멀티모달 모델에 대한 매우 중요한 테크 리포트지 않을까 싶다. 사용된 방법론이 상당히 디테일하고 모델 구조 또한 그림과 함께 잘 설명되어 있어서 모델 파악에 많은 도움이 되었다.결론: 중요도 5/5github: https://github.com/QwenLM/Qwen2.5-Omni GitHub - QwenLM/Qwen2.5-Omni: Qwen2.5-Omni is an end-to-end multimodal m..

[논문 리뷰] TTRL: Test-Time Reinforcement Learning

리뷰 Intro테스트 셋에 대해 강화학습을 적용했을 때 (label이 없다는 가정) 충분한 성능 향상을 볼 수 있다는 논문이다. label이 없을 때를 가정해 majority voting으로 pseudo-label을 만들고 그걸 바탕으로 RL을 적용한다. 충분히 해 볼 수 있는 생각이기에 방법 자체는 매우 단순하다. 다만, 의외로 성능 향상이 크고 그에 대한 다양한 결과 분석을 담고 있으며 통찰이 돋보이는 분석도 있다. 특히 pseudo-label이 틀렸더라도 어차피 많은 답변들 중 하나이기때문에 나머지 답변들에 대해 틀렸다고 reward를 주고 학습을 하는 것이 모델을 평균적으로 옳은 방향으로 학습되게 만들어 충분히 학습이 가능하다는 분석이 흥미롭다.테스트 셋으로만 학습되었다보니 아직 대규모 데이터셋에..

[논문 리뷰] xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

리뷰 IntroLLM과 같은 언어 모델과 관련한 연구 혹은 서비스 개발을 하다 보면 평가 방법이 항상 애매해짐. 따라서 보통 또 다른 LLM들에게 평가를 시키게 되는데, 주관적 평가도 애매하지만 객관적 평가도 상당히 애매함. 그 이유는 LLM의 답이 rule에 맞춰 나오도록 하는게 쉽지 않기 때문임. 이 경우 이를 보고 일일히 평가할 수 있는 하청업체가 매우 절실한데, 이 연구는 이를 LLM 학습을 통해 해결할 수 있다는 제안. 효용성은 충분히 있으나 LLM의 메인 스트림 연구로 보기에는 어려움.재밌는 사실은 이 평가용 LLM은 작을 수록 더 좋은 성능을 보여줌. 다만, 학습 데이터가 더 커지면 더 큰 사이즈의 LLM이 더 좋은 성능과 일반화 성능을 보여줄 것이라는 가능성을 설명함.결론: 중요도 (3/5..

[논문 리뷰] ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

리뷰 Intro바이트댄스의 RL 관련 논문으로 RL을 통해 tool 사용을 학습시키는 framework에 대한 연구이다.결론적으로는 tool 사용을 포함해 RL을 시킨다는 내용으로 DeepSeek-R1처럼 RLHF가 아닌 스스로 학습시키는것만으로 충분하다는걸 보여주는 연구로 방법론적으로 특별해 보이지는 않고 대세에 편승하는 연구인듯 하다.결론: 중요도 (3/5)Abstracttextual reasoning에 강력한 모습을 보이는 강화 학습 기반 추론 모델(예: DeepSeek R1)은 geometric reasoning (기하 추론), concise computation (간결한 계산), complex equation solving (복잡한 방정식 풀기) 등 구조화된 문제 해결이 요구되는 상황에서는 한계..