윤영준 윤영준 2024-01-25
Update README.md
@d1efaecf6abbe5b8670fdff1123426dc5f8dd03f
README.md
--- README.md
+++ README.md
@@ -1,5 +1,5 @@
 # RAG-minimal-example
-모든것에 On-Premise에서 작동하는 Retrival Argmented Generation의 최소 예제입니다. 
+모든것이 On-Premise에서 작동하는 Retrival Argmented Generation의 최소 예제입니다. 
 회사내의 워크스테이션에서 작동하는 vLLM서버를 통하여 언어모델을 작동하고, 개인 컴퓨터에서 임베딩 모델이 작동됩니다. 따라서 서버가 닫혀있으면 작동하지 않습니다.
  이 경우 윤영준 주임에게 요구하여 서버를 다시 여는 방법 하나, 원한다면 코드를 조금만 수정하여 OpenAI 나 Claude등의 api를 사용하는 방법 둘, 심지어는 LlamaCPP를 통한 완전한 로컬 LLM 구동하는 방법 셋이 있습니다. 이러한 LLM 인터페이스를 위한 자세한 내용은 LLAMA INDEX 개발 문서를 참조해주세요. LlamaCPP는 직접 컴파일 해야 하며, 컴파일 방법은 LlamaCPP 깃허브 페이지 및 LlamaCPP-Python 바인딩 프로젝트 깃허브 페이지를 참고해주세요. vLLM을 별도로 구축하고자 할 때에는 리눅스 구동을 강력 권장합니다. 또한 모델 사이즈가 작지 않으므로 이미 작업된 양자화 모델 가중치를 찾아 구동하는것을 추천 드립니다. 현재 vLLM을 통하여 구동되는 Mixtral 모델 또한 4INT AWQ양자화가 되어 있습니다.
 
Add a comment
List