본문 바로가기

전체 글

(46)

MoE(OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER) 논문리뷰 [ Abstract ] 기존 신경망 모델은 파라미터 수에 따라서 용량(성능)이 제한됨.모델의 용량에 따른 비례적 증가없이, 네트워크의 일부만 활성화하는 조건부 계산이 연구되었으나 알고리즘, 성능에 대한 한계가 존재모델 용량의 1000배 이상 증가시키며 연산 효율성을 유지하는 조건부 연산 방식을 제안이를 위해 Sparsely-Gated Mixture-of-Experts(MoE) 레이어 도입, gating network가 입력에 맞는 experts만 선택해 활성화 [ Introduction ] 데이터셋이 충분하고 모델이 크면 성능이 좋으나 학습 비용이 제곱으로 증가한다. 이러한 문제를 해결하기 위해 조건부 계산에 대한 연구가 진행되었다. (gating decision에 대한 연구 진행, 강화학습, back-..

ModuleNotFoundError: No module named 'langchain.chains.conversational_retrieval' 에러 from langchain.chains import ConversationalRetrievalChain from langchain.chains import ConversationalRetrievalChain --------------------------------------------------------------------------- ModuleNot..

LangChain - RAG (실습, tutorial) What is RAG(retrieval augmented generation)? LLM은 광범위한 분야에서 추론 능력이 있지만, 학습 데이터에 국한 된다. private data 또는 학습 이후의 데이터에 대해서 추론하기 위해서는 모델에 정보를 보강해줘야한다. RAG란 적절한 정보를 가져와서 모델 prompt에 삽입하는 과정이다. 일반 적으로 RAG는 크게 2가지 구성요소를 가진다. - indexing : 데이터를 수집하고 인덱싱하는 pipeline Load : 자신의 데이터를 가져옴 Split : Text Spliter가 문서를 작은 chunk로 쪼갠다. 큰 chunk가 검색하기 어렵고 모델의 입력은 한정된 크기를 가지기 때문에 작은게 효율적이다. Store : 나중에 쉽게 검색 할 수 있도록 이를 체..

LangChain - LLM chain (실습, tutorial) [ LangChain QuickStart ] LangChain이란? : 언어 모델을 응용하는데 다양한 기능을 제공하는 라이브러리 실습을 하기위해 LangChain X Openai 패키지 설치 pip install langchain-openai ( 0.0.8 version으로 실습 진행 ) { 본 실습을 위해서는 openai api key가 필요하다 발급 받은 후 실습을 진행하자 : link} openai_key = '******' ## 자신의 api key 입력 1. openai 모델 불러오기 from langchain_openai import OpenAI, ChatOpenAI llm = OpenAI(openai_api_key = openai_key) chat_llm = ChatOpenAI(openai_..

openai api 실습관련 에러 ( ValidationError: 1 validation error for OpenAI, NotFoundError: Error code: 404, RateLimitError: Error code: 429) Langchain 실습을 진행하는 과정에서 from langchain.llms import OpenAI llm = OpenAI(model_name='text-davinci-003') Error 1. key 미발급 ValidationError: 1 validation error for OpenAI __root__ Did not find openai_api_key, please add an environment variable `OPENAI_API_KEY` which contains it, or pass `openai_api_key` as a named parameter. (type=value_error) -> 원인 : openai api key를 발급받지 않아 발생 llm = OpenAI(model_nam..

VSCode SSH 원격 접속 시 파일 저장 오류 해결: 'NoPermissions Error EACCES' vscode를 이용해서 ssh 접속 후 파일 저장할 때 NoPermissions (FileSystemError): Error: EACCES: permission denied, open '/path/../train.py') 을(를) 쓸 수 없음 에러 발생 사용 중인 사용자 계정이 파일에 쓰기 권한이 있는지 ls -al을 통해 확인 없으면 아래 명령어를 통해서 sudo chown username:username ./file_name.py 작성하려는 파일에 권한을 제공 ( username을 모를경우 whoami 명령어를 통해서 확인) 하지만 위 방법 또한 모든 파일에 일일이 권한을 주기 번거로움 권한 변경을 원하는 상위 폴더에서 (-R 옵션을 이용해) 하위 폴더에 모두 권한 제공 sudo chown -R u..

LLAMA 논문리뷰 논문 링크 : https://arxiv.org/abs/2302.13971 Abstract 최근 공개되지 않은 방대한 양의 데이터로 학습된 Lage Language Models(LLMs)와 다르게 LLAMA는 공개된 방대한 데이터를 통해 학습한 모델. 대부분의 벤치마크에서 LLAMA-13b 모델만으로 GPT-3(175b)의 성능을 능가, LLAMA-65b의 모델은 Chinchila-70b, PaLM-540b와 같이 기존의 sota와 유사한 성능을 보임 Introduction LLMs은 기존에 학습하지 않은 task에서도 좋은 성능을 보인다. 이런 few-shot의 좋은 성능은 LLMs의 모델 크기확장 실험에 초점을 맞춰 졌다. 하지만 최근 연구에 따르면 가장 큰 모델이 아닌 더 많은 데이터에 의해 학습된..

python argparser 사용 import argparse ## parser 생성 parser = argparse.ArgumentParser(description="설명") ## 인수를 parser에 추가 parser.add_argument('--argment_name', type=str, required=True) ## parser 실행, args = parser.parse_args()

이전 1 2 3 4 5 6 다음

티스토리툴바