nlp, 

LLM Paper Abstract - 2023.10

LLM Paper Abstract - 2023.10

LLM Paper Abstract - 2023.10

LLM 관련해서 워낙 많은 논문들이 나와서, 최근에 읽은 논문들에 대해 간단하게 요약한 리스트입니다.
아래 리스트중에는 가볍게 읽어본 논문들이 포함되어 있어서 요약에 틀린 내용이 있을 수 있습니다.

Abstract

10월 4주차

10월 3주차

  • Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models : 기존의 CoT(Chain of Thought)의 방식은 task별로 demonstration과 같은 few shot sample들을 입력해줘야 한다. 하지만 이러한 방식은 generalization에서의 gap이 생겨서, 본 논문에서는 Meta-CoT라는 방식으로 task specific하지 않고, generalization을 한다.

  • Prompted LLMs as Chatbot Modules for Long Open-domain Conversation : MPC(Modular Prompted Chatbot)이라는 개념으로 파인튜닝 없이도 long-term consistency와 flexibility를 유지할 수 있다는 논문. 여기서 핵심 개념은 단순히 프롬프팅만으로 챗봇을 만드는 것이 아니다. 유저가 input을 입력하면 LLM 입장에서 모호하지 않게 문장을 바꿔주는 clarifier, clarifier의 output과 이전에 대화 히스토리에서 쌓아놨던 memory pool에서의 memory들을 DPR을 활용하여 추출한다. 이렇게 추출된 문장들을 CoT(Chain of Thought)를 활용한 Memory Processor를 이용하여 한 문장으로 나타낸다. 마지막으로 이렇게 추출된 문장을 활용해 챗봇의 페르소나로 활용하여 utterance를 생성한다. 그리고 생성된 대화들을 모아서 요약하여 다시 memory pool에 주입한다.

  • Ring Attention with Blockwise Transformers for Near-Infinite Context : 16M 토큰까지 확장 가능한 어텐션을 제안한 논문.

  • VeRA: Vector-based Random Matrix Adaptation : LoRA보다 학습 파라미터수를 1/10으로 줄이면서 성능은 유지했다는 논문.

  • FIRE ACT: TOWARD LANGUAGE AGENT FINE-TUNING : Prompting보다 fine-tuning이 효과적이고, 파인튜닝 데이터 및 태스크가 다양할수록 성능이 개선된다고 주장하는 논문.

  • RECOMP: IMPROVING RETRIEVAL-AUGMENTED LMS WITH COMPRESSION AND SELECTIVE AUGMENTATION : RAG가 LLM에서 많이 사용되고 있는데, 긴 document가 그대로 프롬프트에 들어가는건 computational cost 측면에서 비효율적임. 이런 부분을 보완하고자 2개의 compressor를 사용하여 프롬프트에 들어가는 토큰 수를 줄이는데, 하나는 필요한 정보를 선택하고, 나머지 하나는 필요한 정보들을 모아서 요약하는 역할을 수행한다. 이 2가지 추가 모듈로 RAG를 더 효율적으로 적용함.

  • LARGE LANGUAGE MODELS CAN LEARN RULES : 2진수에서 1+1=10 인것 같이 일반적인 상식(1+1=2)과 다른 문제를 풀 때, hallucination이 일어나기 쉬운데 이를 방지 및 더 잘 풀게 하기 위해 Induction, Deduction 두 스테이지로 나눠서 풀었을 때 성능이 좋아졌다는 논문. Induction은 예제를 보여주고 (1+1=10, 10+1=11, 11+1=100, …) 이 예제에서 Rule을 찾아보라고 LLM에게 시켜보는 단계고, Deduction은, 이 Rule을 프롬프트에 넣어서 문제를 풀게하는 단계. 이렇게 나눠서 풀게했을 때, 바로 풀게했을때보다 성능이 좋아졌다고 함. 구글에서 낸 논문.

  • ChatHaruhi: Reviving Anime Character in Reality via Large Language Model : RAG를 사용한 Role-playing 챗봇에 대한 논문. 해리포터, 빅뱅이론, 영화, 드라마, 애니 등 32개의 다양한 캐릭터들을 챗봇으로 만들었음. 대사 스크립트 등을 크롤링 또는 STT를 사용해서 텍스트 DB로 변환하고 RAG 방식으로 실제 대사를 검색하여 프롬프트에 넣고 대답을 생성하는 방식을 적용. Demo :octocat: GitHub

10월 2주차

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models : LLM은 다양한 문제를 해결해주지만, 모델 구조상 토큰 레벨로, 왼쪽부터 오른쪽으로 추론하는 방식만 사용할 수 있다. 여기서 많은 문제점이 발생할 가능성이 있어서, 이 부분을 해결하고자 Tree of Thoughts라는 해결 방식을 본 논문에서는 제시한다. 창의적 글짓기나, Mini Crossword 게임 등에서 많은 성능 향상을 이끌어냈다. 토큰 단위가 아닌 사고 과정 단위로 끊어서 BFS, DFS 등으로 최적의 사고 흐름을 찾는 느낌이다.:octocat: GitHub

  • Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic : LLM은 많은 지식을 그 모델 안에 내포하고 있지만, 이것을 일관적인 사고 과정으로 꺼내 쓰지는 않는다. 본 논문에서는 zero-shot chain-of-thought 추론 성능을 향상 시키기 위해 Logical Chain-of-Thought(LogiCoT) 방법론을 제시한다. 단순 Chain-of-Thought가 아닌 생성된 output의 검증 과정을 하나 더 넣은 과정으로 보인다.

  • Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca : ChatGPT나 GPT-4와 같은 LLM은 close source로 운영하기에 academic한 연구를 하기에는 어려움이 많다. LLAMA와 같은 모델들이 open source로 풀렸지만 영어 이외의 언어에 대해서는 사용성이 떨어져서 본 논문을 통해 LLAMA가 중국어 text를 이해하고, 중국어 instruction을 따를 수 있도록 하기 위한 방법론을 제시한다. :octocat: GitHub

  • LARGE LANGUAGE MODELS AS OPTIMIZE : LLM이 직접 더 좋은 프롬프트를 찾아주게하는 시도를 한 논문. 잘 알려진 Let's think step by step 보다 LLM이 제안한 Take a deep breath and work on thie problem step-by-step로 문제를 풀었을 때 더 나은 결과를 보임. by deepmind.

  • LIMA: Less Is More for Alignment : LLM에 대해 너무 많은 데이터로 파인튜닝하는것보다 오히려 적은 데이터로 학습하는게 더 좋았다는 논문. 단 1,000개의 파인튜닝 데이터로 좋은 성능을 보임.

10월 1주차

  • Retrieval meets Long Context Large Language Models : LLM을 파인튜닝하는거나 긴 컨텍스트 모델을 사용하는것보다 RAG를 잘 사용하는것이 좋다고하는 논문. 엔비디아에서 냄.

  • FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation : 최신 지식이 필요한 질문에 대하여 구글 검색결과를 그대로 스크래핑해서 프롬프트에 넣었더니, 28.6 => 75.6으로 점수가 크게 상승했다는 논문. OpenAI, Google이 참여한 것치고 간단한 방법.

  • RAIN: Your Language Models Can Align Themselves without Finetuning : LLM을 align하기 위해 일반적으로 human preference data와 RL, instruction tuning 방식을 활용하곤 한다. 하지만 본 논문에서는 self-evaluation과 rewind 메커니즘만으로도 human preference response를 생성할 수 있다고 한다.

  • LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS : 일반적으로 long context를 학습하는데 매우 많은 계산 비용이 드는데, 본 논문에서는 이를 가속화하려고 한다. 추론시에는 dense global attention이 필요한데, FT시에는 shift short attention(sparse local attention)을 활용하고, LoRA를 활용하여, 계산 효율적이면서도 정확성을 유지하고자 한다. :octocat: GitHub

  • Think before you speak: Training Language Models With Pause Tokens : 사람이 고민하고 답변을 내는 것처럼, <PAUSE> 토큰이라는 것을 만들어서 인퍼런스시에 프롬프트 이후에 K 스텝의 아웃풋을 무시하고 그 뒤부터 생성 결과를 활용하는 방식으로 했을 때, QA 태스크에서 성능 향상이 있었다는 논문 (프리트레이닝도 토큰에 대한 학습이 필요함)

  • Efficient Streaming Language Models with Attention Sinks : Backbone 모델의 max_length는 한정되어 있다는 단점이 있는데, 이를 Key와 Value의 initial token의 어텐션 스코어가 과도하게 높은 경향이 있는 점을 이용하여 해당 토큰들만 포함하여 어텐션을 수행하는 방식으로 추가적인 fine-tuning 없이 최대 토큰 길이를 infinite하게 늘린 방법론에 대한 논문 (성능이 괜찮다고 함) :octocat: GitHub

  • Llama 2: Open Foundation and Fine-Tuned Chat Models : Meta에서 공개한 LLaMA2 모델 학습 관련한 테크니컬 리포트 (7B, 13B, 70B 모델 공개)

Subscribe to SOOFTWARE

Get the latest posts delivered right to your inbox