본문 바로가기

전체 글

(46)
GPT 고장내기 GPT를 갈구다가 고장냈습니다.나름 gpt-4o오고 고장안날줄 알았는데  gpt를 agent화 시키면서 tool calling(web search)를 붙였는데 그 정보를 잘못가져온
Survey on Evaluation of LLM-based Agents 논문 링크 : https://arxiv.org/pdf/2503.16416 [ Abstract ] plannig, reasoning, tool using, memory usage을 활용하는 agent가 대세다.본 논문은 agent의 평가에 대한 survey 논문 agent evaluation benchmark and framework에 대한 분석agent의 근본적인 핵심 능력 (planning, tool usage, self-reflection, memory)특정 도메인 특화 agent 벤치마크범용 agent 벤치마크agent 평가 framework 본 논문은 agent 평가에 대한 정리이자 향후 연구에 대한 이정표가 된다.[ Introduction ] llm은 single-turn의 텍스트 입출력에 제한..
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 논문 리뷰 (논문 링크 : https://arxiv.org/pdf/2306.05685) [ Abstract ]기존의 벤치마크들은 인간의 선호도를 측정하기 부족하기 때문에, llm의 광범위한 기능을 평가하기 어렵다. 이 문제를 해결하기 위해 LLM을 심판(평가자)로 활용하여 개방적인 질문(open-ended question)에 대한 평가를 진행한다.gpt-4와 같은 강력한 llm은 사람의 선호도와 높은 수준으로 일치하며, 80%이상 일치도를 보임 [ Introduction ]사용자의 선호도 높아진다고 LLM 벤치마크 점수가 향상되지는 않는다. (챗봇의 유용성과 벤치마크 평가 기준에 차이가 있다.)-> 이러한 차이는 기존의 평가방식이 llm의 핵심 능력(제한된 작업)만 측정하기 때문이를 연구하기 위해 (MT-bench..
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questionsfor Conversational Search with LLMs 논문리 (논문링크 : https://arxiv.org/pdf/2410.19692 ) Abstract다양하고 명확한 질문을 생성하는것은 중요하다.명확한 질문 (기존 수작업과 다르게)자동 생성 평가 LLM기반 프레임워크 AGENT-CQ(automatic generation, evaluation of clarifying questions)를 제안AEGNT-CQ는 1. 생성단계(llm 프롬프팅 전략), 2. 평가 단계로 구성(multiple llm활용, 평가지표) CrowdLLM(multiple llm)이 ClariQ 데이터셋에서 질문 및 답변을 품질을 평가하는데 효과적임을 확인 Introduction 단발성 검색보다 더 자연스러운 방식으로 정보를 찾는 대화형 검색(Conversational Search, CS) 시스..
RAGAS: Automated Evaluation of Retrieval Augmented Generation 논문리뷰 논문 링크 : (https://arxiv.org/pdf/2309.15217) [ Abstract ]RAG System은 retrieval(검색)과 llm기반의 generation 모듈로 구성되며, 텍스트 데이터베이스의 정보를 활용해 LLM의 hallucination의 위험을 줄인다.그러나 이러한 RAG 구조에 대한 평가는 어려움이(retrieval(검색) 시스템의 정보 추출 능력, 추출한 문맥을 llm이 활용하는 능력, 출력의 품질) 많다. RAGAS 프레임워크는 인간의 주석에 의존하지 않는 평가 지표를 제시 [ Instroduction ] LLM들이 다양한 평가지표에서 인간과 견주는 지식을 가지고있지만 두가지 한계점이 존재한다.1. train 이후의 사건에 대해서는 답변 할 수 없다.2. llm은 tr..
Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰 [ Abstract ] 현대의 평가 시스템(과정은 무시하고 최종결과만 판단)은 agent system에 적절하지 않다.agent system을 평가하기 위한 agent system을 제안한다. (code generation task) (DevAI dataset : 전문가 주석이 담긴 ai app 개발 데이터셋) (DevAI dataset : 전문가 주석이 담긴 ai app 개발 데이터셋) 에 대해서 DevAI(agent-as-a-judge)는 사람의 평가와 90% 유사했다(LLM-as-a-judgesms 70%) 이는 비용과 성능 측면에서 더 유용할 수 있음을 시사한다.  {agent, human이 requirements, prerequisites 를 얼마나 만족했는지 check }  논문의 기여 - D..
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 ( 읽기전에 MoE(링크)논문을 읽는걸 추천드립니다. )  [ Abstract ] 최근 LLM(large-language-model)이 뛰어난 성능을 보이며, 여러 LLM을 효과적으로 활용하는 방법이 중요한 연구 주제가 되고 있다.우리는 LLM의 집단적 강점을 활용하는 Mixture-of-Agents (MoA) 방법론을 제안한다.MoA는 계층적 구조를 가지며, 각 계층(layer)은 여러 개의 LLM 에이전트(agent)로 이루어져 있다. 각 에이전트는 이전 계층의 모든 에이전트가 생성한 출력을 보조 정보로 활용하여 응답을 생성한다.MoA 모델은 AlpacaEval 2.0, MT-Bench, FLASK 등의 벤치마크에서 최신 최고 성능(SOTA) 을 달성했으며, 특히 오픈소스 LLM만으로 구성된 MoA ..
MoE(Mixtral of Experts) 논문리뷰 ( 이전 논문을 먼저 살펴보세요. ) [ Abstract ] Mistral 7b의 구조를 따르나 feedforward blocks을 8개의 각 Expert로 분리(MoE 구조를 따름)각 토큰을 처리 할 때 router network가 두개의 expert를 선정 후 결과 결합 47B 파라미터 보유, 추론시에 13B만 활성화 (모델은 크나, 연상량이 적음) llama 2 70b, gpt-3.5 성능 능가 [ Introduction ] Mixtral 8x7b는 각 토큰에 대해 파라미터의 일부만 사용하기 때문에 작은 batch-size에서도 빠른 속도로 추론이 가능하다. [ Architectural details ] 32k 토큰으로 학습, feed forward blacks가 MoE layer로 대체Sparse..