나만의 챗봇 프로그램 만들기

ToolBOX01 2025. 1. 29. 07:29

□ Deepseek에 문의 하였습니다

" DEEPSEEK R1을 PC에 설치하고, PC에 있는 모든 PPT문서를 분석하여, 나만의 챗봇을 만들수 있나요? 챗봇의 기능은 질문에 대한 문서를 찾아주는 것 입니다."

□ Deepseek에 답변 입니다.

오, 사용자가 DEEPSEEK R1을 PC에 설치해서 PPT 문서를 분석하고 챗봇을 만들고 싶어하는군요. 먼저 설치 방법을 찾아봐야겠어. 검색 결과를 보면 Ollama를 사용해서 설치하는 방법이 여러 웹페이지에서 언급되고 있네. 예를 들어 웹페이지 1, 3, 6, 7, 8, 9에서 Ollama를 통해 모델을 다운로드하고 실행하는 과정을 설명하고 있어. 특히 웹페이지 3에서는 Ollama 설치 후 deepseek-r1 모델을 실행하는 명령어를 제시했고, 웹페이지 6에서는 GPU 요구 사항과 함께 다양한 모델 크기를 선택하는 방법을 안내했어.

그 다음으로는 PPT 문서 분석을 위한 방법을 고민해야 해. 챗봇이 문서를 찾아주는 기능을 구현하려면 RAG(Retrieval-Augmented Generation) 시스템을 구축해야 할 것 같아. 웹페이지 8에서 Ollama와 Docker를 사용해 로컬 환경에서 RAG 시스템을 구축하는 내용이 나오네. 여기서는 MongoDB, Ollama, Chat-UI를 도커 컴포즈로 설정하는 방법을 설명하고 있어. 이 부분을 참고해서 문서 저장 및 검색 시스템을 만들 수 있을 것 같아.

또한, 웹페이지 9에서는 Python 환경 설정과 의존성 설치에 대한 상세한 가이드를 제공하고 있어. 여기서는 가상 환경을 만들고 필요한 라이브러리를 설치하는 과정이 나와있으니, 이걸 기반으로 문서 처리 스크립트를 작성할 수 있을 거야. PPT 파일을 텍스트로 변환하는 부분은 파이썬 라이브러리인 python-pptx를 사용하면 되겠지. 변환된 텍스트를 벡터 데이터베이스에 저장하고 임베딩을 생성한 뒤, 사용자 질문과 유사도 검색을 수행하는 과정이 필요해. 웹페이지 8에서 언급한 FAISS나 Chroma 같은 도구를 활용할 수 있을 거야.

마지막으로 챗봇 인터페이스는 웹페이지 3과 8에서 소개한 Open Web UI나 Chat-UI를 사용하면 편리할 것 같아. 이렇게 하면 사용자가 웹 브라우저를 통해 챗봇과 상호작용할 수 있게 되겠지. 전체적인 흐름을 정리하면 설치 → 문서 처리 → 검색 시스템 구축 → 챗봇 통합 순서로 진행하면 될 것 같아. 가능성은 충분히 있고, 검색 결과에 제시된 방법들을 조합하면 충분히 구현 가능해 보여.

네, DEEPSEEK R1을 PC에 설치한 후 로컬 환경에서 PPT 문서를 분석하여 맞춤형 챗봇을 구축하는 것이 가능합니다. 아래 단계별로 설명드리겠습니다.

---

### **1. DEEPSEEK R1 설치 및 설정**
#### **필요 사항**
- **운영체제**: Windows 10 이상, macOS Big Sur 이상, Linux (Ubuntu 권장).
- **하드웨어**:
  - CPU: 4코어 이상 (2.5GHz 이상 권장).
  - GPU: 8GB 이상의 NVIDIA GPU (RTX 3060 이상 권장).
  - RAM: 16GB 이상.
  - 저장 공간: 모델 크기에 따라 5GB~685GB (기본 8B 모델은 약 5GB).

#### **설치 단계**
1. **Ollama 설치**
   - 공식 웹사이트([Ollama](https://ollama.com/))에서 OS에 맞는 설치 파일 다운로드 후 설치 .
   - 터미널에서 설치 확인:
     ```bash
     ollama -v
     ```

2. **DeepSeek R1 모델 다운로드**
   - 8B 모델 (권장):
     ```bash
     ollama run deepseek-r1:8b
     ```
   - 더 큰 모델 (70B 이상)은 고사양 GPU 필요 .

3. **테스트**
   - 터미널에서 간단한 질문으로 동작 확인:
     ```bash
     What is DeepSeek R1?
     ```

---

### **2. PPT 문서 분석 시스템 구축**
#### **문서 처리 파이프라인**
1. **PPT → 텍스트 변환**
   - Python 라이브러리 `python-pptx`를 사용해 PPT 파일에서 텍스트 추출:
     ```python
     from pptx import Presentation

     def extract_text_from_ppt(file_path):
         prs = Presentation(file_path)
         text = ""
         for slide in prs.slides:
             for shape in slide.shapes:
                 if hasattr(shape, "text"):
                     text += shape.text + "\n"
         return text
     ```

2. **텍스트 임베딩 생성**
   - Hugging Face의 `sentence-transformers`를 사용해 텍스트를 벡터로 변환:
     ```python
     from sentence_transformers import SentenceTransformer

     model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
     embeddings = model.encode(texts)
     ```

3. **벡터 데이터베이스 구축**
   - FAISS 또는 Chroma를 사용해 임베딩 저장 및 검색 최적화:
     ```python
     import faiss
     import numpy as np

     index = faiss.IndexFlatL2(embeddings.shape[1])
     index.add(embeddings)
     ```

---

### **3. 챗봇 시스템 통합**
#### **RAG (Retrieval-Augmented Generation) 구조**
1. **질문 입력**
   - 사용자가 "2024년 매출 전략 관련 슬라이드를 찾아줘"와 같은 질문 입력.

2. **문서 검색**
   - 질문을 임베딩으로 변환 후 FAISS/Chroma에서 유사도 기반 검색:
     ```python
     query_embedding = model.encode([user_query])
     distances, indices = index.search(query_embedding, k=3)  # 상위 3개 문서 추출
     ```

3. **DeepSeek R1을 통한 응답 생성**
   - 검색된 문서를 컨텍스트로 사용해 답변 생성:
     ```python
     from openai import OpenAI

     client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
     response = client.chat.completions.create(
         model="deepseek-r1:8b",
         messages=[
             {"role": "system", "content": "검색된 문서: " + retrieved_docs},
             {"role": "user", "content": user_query}
         ]
     )
     print(response.choices[0].message.content)
     ```

---

### **4. 추가 기능 및 최적화**
- **웹 인터페이스 연동**:
  Open Web UI 또는 Chat-UI를 Docker로 구축해 브라우저 기반 챗봇 제공 .
- **오프라인 지원**:
  Ollama를 통해 인터넷 없이도 동작 가능 .
- **GPU 가속**:
  CUDA 설정을 통해 추론 속도 향상 (NVIDIA GPU 필수) .

---

### **주의 사항**
1. **저장 공간 관리**:
   대형 모델은 685GB까지 요구될 수 있으므로 SSD 여유 공간 확인 .
2. **개인정보 보호**:
   로컬 실행 시 데이터 유출 없음 .
3. **성능 제한**:
   8B 모델은 복잡한 질문 처리에 3~10초 소요될 수 있음 .

---

이와 같은 단계를 따라 PPT 분석 챗봇을 구축할 수 있습니다. 추가적인 질문이나 기술적 지원이 필요하면 언제든 문의해 주세요!

나만의 문서를 검색 할수 있는 챗봇을 만들수 있습니다. 하지만 노가다성 구성을 해야 할것 같습니다. 조금 더 지켜보면 최적화된 방법을 누군가가 만들어 판매 할것 같습니다. AI 개발자 및 활용자는 꼭 전산 전문가는 아니어도 되지않을까요?

저작자표시 비영리 변경금지