Blog | gracefullight.dev

RAG, 검색 증강 생성

May 5, 2024 · 4 min read

Gracefullight

Owner

RAG 개요

RAG 개념

LLM의 출력을 최적화하여 응답을 생성하기 전 학습 데이터 소스 외부의 지식 베이스 데이터를 참조하도록 하는 기술

RAG의 배경

LLM의 문제점	설명	RAG 기대효과
환각	답변이 없을 때 허위정보 제공	독점 데이터 활용 정보 제공
최신 데이터	일반적인 정보 제공	구체적 정보 제공
신뢰성	신뢰할 수 없는 출처로부터의 응답 제공	신뢰할 수 있는 정보 제공

RAG의 구성도 및 절차

구성도

rag

웹인터페이스 -> 벡터데이터베이스 -> LLM

구성요소

구분	설명	특징
웹인터페이스	질의 가능한 웹 인터페이스	챗봇 형태로 사용
벡터데이터베이스	임베딩 데이터 저장	최신/프라이빗 데이터 반환
LLM	자연어처리, 일반 지식 응답	임베딩 데이터 포함 응답

RAG 절차

외부 데이터 생성 및 준비: 텍스트, 이미지, 파일 등 다양한 소스로 임베딩 후 벡터DB 저장
관련 정보 검색: 질문을 기반으로 벡터 유사도 기반 데이터 검색
LLM 프롬프트 확장: 검색된 데이터는 LLM 프롬프트와 결합하여 응답 반환
외부 데이터 업데이트: 벡터DB에 새로운 데이터를 주기적으로 업데이트하여 최신화

파인튜닝과 RAG 비교

구분	파인튜닝	검색증강생성
방식	특화데이터를 모델이 재학습	데이터 소스 추가 제공으로 모델 성능 향상
데이터 규모	작음	대규모 지식 베이스
모델 조정	재학습으로 모델이 새로운 데이터로 조정됨	추가 학습 없어 모델 조정 불필요
비용	고비용, 모델 전체 재학습	저비용
장점	적은 데이터로 학습 가능, 특정 작업에서 효과적 성능 향상	재학습 불필요, 과적합 위험 없음, 최신 데이터 반영
단점	고품질 데이터 확보 어려움 과적합, 편향, 환각 고비용	LLM 모델에 따른 답변 품질 저하 소스 데이터 속성에 맞는 임베딩 모델 검토 필요

참조

AWS: RAG란 무엇인가요?

sLLM

May 5, 2024 · 2 min read

Gracefullight

Owner

sLLM 개요

sLLM 개념

small Large Language Model
기업 전용 특화모델로 활용 가능한 경량화된 거대 언어모델

sLLM 배경

LLM은 거대 언어모델로 천문학적인 비용과 학습 시간 필요
매개변수를 줄이고, 미세조정하여 정확도 향상

LLM과 sLLM 비교

구분	LLM	sLLM
훈련 데이터 크기	대규모, 대용량	상대적으로 작은 규모, 소용량
파라미터 크기	수천억 개	수십억 개
성능	더많은 컨텍스트와 언어이해능력	작은 모델로 일부 성능 제한
배포 용이성	대용량으로 배포 어려움	작은 규모로 배포 용이
사용성	학습 리소스 등 자원 사용량이 많아 운영 제약	경량화 된 모델로 제한된 자원으로 활용 가능
서비스 제공	클라우드 기반에서 범용 서비스 적합	온프레미스 방식으로 기업내 구축 가능
예시	ChatGPT, Gemini	LLama, Phi-3

OSI 7 레이어

May 4, 2024 · 2 min read

Gracefullight

Owner

OSI 7 레이어 개념

Open Systems Interconnection Reference Model
ISO 에서 제시한 표준화된 네트워크 기본 모델
프로토콜 계층화
- 계층별 기능 분담
- 확장성과 유연성 확보

OSI 7 레이어 개념도, 구성

OSI 7 레이어 개념도

OSI 7 레이어

같은 계층간 논리통신을 제공하기 위하여 터널링 기법(가상통신, Peer to Peer)을 사용
하부 계층 내려갈 때는 캡슐화, 그 반대는 역캡슐화 가정

OSI 7 레이어 구성

계층	용도	대표프로토콜	전송단위
응용	최종 사용자와 인터페이스	HTTP, SMTP	데이터
표현	프로토콜/데이터 변환, 암호화	ASCII, MPEG, JPEG	데이터
세션	대화의 동기 위한 SLA	RPC, TLS, SSH	메세지
전송	응용 간 논리적 통로 제공	TCP, UCP, SCTP	세그먼트
네트워크	망 통한 호스트간 통로, 라우팅 경로 설정	IP, ICMP, ARP	패킷
데이터링크	인접 노드간 링크 제공, 포워딩	PPP, L2TP	프레임
물리	전기적, 기계적 수단 제공, 비트스트림	이더넷, Wi-Fi	Bit

OSI 7 레이어와 TCP/IP와의 비교

TCP/IP 비교	프로토콜 구조

TCP/IP는 인터넷 구현을 위한 프로토콜로 Defacto 표준.
OSI 7 레이어는 컴퓨터 구조를 포함하므로 실제는 TCP/IP의 Hybrid 모델로 구현.

참조

서포트 벡터 머신

May 4, 2024 · 2 min read

Gracefullight

Owner

SVM 개념

서포트 벡터, 하이퍼플레인, 차원 전환 원리를 이용하여 주어진 데이터가 어떤 카테고리에 속할지 판단하는 이진선형분류모델
서포트 벡터 분류기 + 비선형 커널 = 서포트벡터머신

SVM의 개념도, 문제 해결방법, 장단점

개념도

선형 문제	비선형 문제

문제 해결 방법

구분	선형 문제	비선형 문제
특징	초평면 분리 가능	초평면 분리 불가
해결방법	마진을 최대화하는 서포트벡터 탐색 후 분류	커널 트릭 사용하여 데이터 고차원 매핑

장단점

장점: 인공신경망의 과적합 해결방법 제시, 비선형 문제 해결
단점: 단일 SVM 성능 한계

SVM 한계점과 해결방안

SVM 데이터 범주간 비율이 비슷하다는 가정에서 학습하고 예측결과 도출, 실제 데이터는 데이터의 불균형이 빈번하여 모델 성능이 저하됨.
앙상블 기법을 이용한 SVM으로 성능 문제 해결.

참조

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs

의사결정나무

May 3, 2024 · 4 min read

Gracefullight

Owner

의사결정나무 개요

의사결정나무 개념

주어진 입력값들의 조합을 의사결정규칙에 따라 출력값을 예측하는 모형
의사결정규칙을 트리구조로 나타내어 분류와 예측을 수행하는 분석 방법

의사결정나무 구성, 유형, 절차

의사결정나무 구성

루트 노드: 최상단 노드, 첫 분류 조건
부모 노드: 상위 노드
자식 노드: 하위 노드
리프 노드: 결과를 예측하는 말단 노드
엣지: 샘플을 분류하기 위한 조건
뎁스: 루트 노드에서 특정 노드까지 도달하기 위해 거쳐야하는 엣지 수

의사결정나무 유형

분류트리: 범주형 변수를 예측하기 위해 사용되는 트리 모델, 데이터를 여러 범주로 분류
회귀트리: 연속형 변수의 값을 예측하기 위한 트리모델

구분	분류트리	회귀트리
대상	범주형 변수 대상	연속형 변수 대상
특징	불순도를 기준으로 최적 분류 결정	분산을 최소화하는 방향으로 분할
평가방법	지니지수, 엔트로피	오차제곱합
사용시기	명확한 범주를 가진 데이터 분류	연속적 수치 예측, 트렌드 예측

의사결정나무 절차

성장 -> 가지치기 -> 최적 나무모형 선택 -> 해석 및 예측

성장: 분석목적에 따른 트리 생성
가지치기: 불필요한 가지를 제거하여 과대적합, 과소적합 방지
타당성 평가: 가장 적은 엔트로피를 갖는 나무를 평가하고 최적 모형 선택
해석 및 예측: 구축된 나무모형 해석

의사결정나무 평가모델

지니 계수: Gini Index
- 데이터의 불순도를 측정하는 지표
- 0에 가까울수록 노드의 데이터가 한 클래스로 분류된 것이고, 1에 가까울수록 데이터 분산
엔트로피: Entropy
- 데이터의 확률분포가 가지는 정보량을 수치로 표현
- 작을 수록 잘 분류된 것
오차제곱합: Mean Squared Error, MSE
- 예측치와 실제치의 차이를 측정하는 지표
- MSE가 작을수록 모델의 예측 성능이 좋다고 평가

OWASP 2021 TOP 10

May 2, 2024 · 3 min read

Gracefullight

Owner

OWASP 개요

Open Web Application Security Project
소프트웨어의 보안 취약점을 분석하고 연구하는 비영리 단체

OWASP 2024 Top 10 취약점

1. Broken Access Control

접근 권한 취약점
사용자가 권한을 벗어나 행동할 수 없도록 정책 시행
취약한 경우 모든 데이터를 무단으로 열람, 수정, 삭제 가능

2. Cryptographic Failures

암호화 오류
적절한 암호화가 없을시 민감 데이터 노출 가능

3. Injection

인젝션
SQL, NoSQL, ORM, LDAP의 인젝션 취약점
사용자 제공 데이터 조작을 위한 공격, XSS 포함

4. Insecure Design

안전하지 않은 설계
설계 단계에서 발생하는 보안 결함
요구사항 및 리소스 관리, 보안 설계, 보안 개발 생명 주기

5. Security Misconfiguration

보안 설정 오류
어플리케이션 보안 설정이 누락되거나 클라우드 서비스 권한이 잘못된 경우

6. Vulnerable and Outdated Components

취약하고 오래된 컴포넌트
취약한 어플리케이션, 라이브러리, 프레임워크 등의 보안 위협

7. Identification and Authentication Failures

식별 및 인증 오류
취약한 인증에서 식별까지 포함된 보안 결함
사용자 신원확인, 인증, 세션관리 취약점

8. Software and Data Integrity Failures

소프트웨어 및 데이터 무결성 오류
안전하지 않은 역직렬화가 병합된 항목으로, 어플리케이션이 신뢰할 수 없는 소스, 저장소, 라이브러리, 모듈에 의존하는 경우 발생

9. Security Logging and Monitoring Failures

보안 로깅 및 모니터링 오류
로깅으로 공격 발생 감지 및 대응까지 포함

10. Server-Side Request Forgery

서버 측 요청 위조
어플리케이션이 사용자 제공 URL의 유효성을 검사하지 않고 원격 리소스를 가져올 때 발생

참조

OWASP: OWASP Top Ten

블로그 댓글 기능 비교

May 1, 2024 · 2 min read

Gracefullight

Owner

개요

데이터베이스가 필요 없으면서 블로그에 무료로 댓글을 붙힐 수 있는 기능이 필요했다.
Hexo 블로그 시스템에서는 Disqus를 사용했었지만, 형편없는 어드민 UX와 많은 트레킹 스크립트로 Gitalk 로 이사를 왔다.
Gitalk는 생각보다 괜찮았다. 하지만 Docusaurus 기반 블로그로 이전하게 되면서 문제가 발생했다.
- 트리쉐이킹 없는 모듈을 호출해야했고, document.title 을 가지고오는 로직이 꼬이는지 가끔 댓글 타이틀을 잘못 가지고 왔다.
Docsly는 원하는 위치에 댓글을 다는 게 재밌어보였다.
- 플로팅 푸터로 가운데에 댓글을 쓰는 기능이 들어간다. 그런데 powered by docsly 워터마크가 꽤 크게 노출되어 블로그가 docsly로 운영되는 듯한 느낌을 준다.
Giscus는 Github discussion 기반으로 코멘트를 남기는데 모든 기능을 다 만족했다.

기능 비교

구분	Disqus	Gitalk	Docsly	Giscus
오픈소스	△	O	X	O
업데이트지원	~2022	~2021	2024~	2024~
리액트지원	△ (Class)	△ (Class)	O	O
데이터저장	Closed	Issues	Closed	Discussions
워터마킹	O	X	O	X

결론

giscus/giscus-component 쓰자.

가치사슬

May 1, 2024 · 2 min read

Gracefullight

Owner

가치사슬 개념

value-chain

고객에게 가치를 제공함에 있어 마진을 극대화하기 위한 일련의 활동, 기능, 프로세스

구성

주요활동

운영
물류
마케팅
서비스

구분	ERP	MES	SCM	CRM
목적	전사지원	생산관리	물류/공급망관리	고객관리
대상	전사활동	공정	유통	고객
활동	전사자원통합	통합 생산	공급망 최적화	마케팅, 서비스
가치사슬	주요+보조	주요	주요	주요
신기술	DX	디지털트윈	빅데이터	O2O

보조활동

기업 인프라
인적 자원 관리
기술 개발
조달

분석 단계

가치사슬 활동 분류, 분석
가치 파악 및 비용 정의
경쟁사 가치사슬 벤치마킹
경쟁 우위 확보 및 기회 파악

고려사항

ESG 목표 지원
효율화, 자동화

참조

IBM: 가치 사슬 분석이란 무엇인가요?

ISMS-P

May 1, 2024 · 2 min read

Gracefullight

Owner

ISMS-P 개요

정보보호 및 개인정보보호를 위한 일련의 조치와 활동이 인증기준에 적합한지 인증하는 제도

법적 근거

정보통신망법 제 47조
개인정보 보호법 제 32조 2

인증 체계

정책기관: 과기정통부, 개인정보보호위원회
인증기관: 한국인터넷진흥원(KISA), 금융보안원(FSI)
심사기관: 한국정보통신진흥협회(KAIT), 한국정보통신기술협회(TTA), 개인정보보호협회(OPA), 차세대정보보안인증원(NISC)

인증 기준

1. 관리체계 수립 및 운영

관리체계 기반마련
위험관리
관리체계 점검 및 개선
관리체계 운영

2. 보호대책 요구사항

정책, 조직, 자산관리
인적보안
외부자보안
물리보안
인증 및 권한관리
접근통제
암호화
정보시스템 도입 및 개발 보안
시스템 및 서비스 운영 관리
시스템 및 서비스 보안 관리
사고 예방 및 대응
재해복구

3. 개인정보 처리단계별 요구사항

개인정보 수집 시 보호 조치
개인정보 보유 및 이용 시 보호조치
개인정보 제공 시 보호조치
개인정보 파기 시 보호조치
정보주체 권리 보호

참조

KISA: ISMS-P 제도소개

가트너 10대 전략 기술 트렌드 2024

May 1, 2024 · 4 min read

Gracefullight

Owner

가트너 10대 전략기술 개요

트리즘, 위협관리, 지속가능 기술 플랫폼엔지니어링, AI증강개발, 산업클라우드 지능형앱, 생성형AI 보편화, 증강-연결인력 기계고객

1. AI TRiSM

AI Trust, Risk and Security Management
AI 모델 거버넌스, 신뢰성, 공정성, 견고성, 효능 및 데이터 보호 정책과 도구들을 준비한 상태에서 운영

2. 지속적인 위협 노출 관리

CTEM: Continuous Threat Exposure Management
기업의 보안 위협을 지속적으로 평가하고 관리
선제적 정보보안 대책

3. 지속가능한 기술

Sustainable Technology
ESG, 생태 균형, 인권 존중
재생에너지, 추적성, 효율성

4. 플랫폼 엔지니어링

Platform Engineering
SW 제공, 수명주기 관리 위한 내부고객용 플랫폼 구축 및 운영

5. AI 증강 개발

AI-Augmented Development
개발, 테스트시 생셩형 AI, 머신러닝과 같은 AI 적용 개발 도구 활용

6. 산업 클라우드 플랫폼

ICP: Industry Cloud Platform
특정 산업 분야에 맞춤형 솔루션을 제공하는 전문 클라우드 플랫폼

7. 지능형 애플리케이션

Intelligent applications
AI를 기반으로 사람과 기계에 자율적으로 반응할 수 있는 프로그램

8. 보편화된 생성형 AI

Democratized Generative AI
사전 학습모델, 클라우드 컴퓨팅, 오픈소스의 결합으로 생성형 AI가 보편화되면서 전 세계 사람들이 모델에 접근 가능

9. 증강-연결된 인력

Augmented-Connected Workforce
회사로부터 디지털 도구로 모니터링 및 업무를 하는 노동자

10. 기계 고객

Machine Customers, Custobot
기계가 인간을 대신해서 자율적으로 제품이나 서비스 주문 및 결제

AI TRiSM

1-1. 설명 가능성, 모델 모니터링

xAI, Explainability / Model Monitoring
AI 알고리즘의 설명 가능성 확보하고 신뢰할 수 있게 하는 것
AI 모델 성능 모니터링으로 프로세스 효율적 개선 가능

1-2. 모델옵스

ModelOps
AI 모델의 재조정, 재학습, 재구축 지원
AI 기반 시스템 개발, 운영, 유지보수의 무중단 프로세스
AI 거버넌스와 라이프사이클 관리

1-3. AI 어플리케이션 보안

AI Application Security
AI 적대적 공격 방어 및 위협 탐지, 안정적 프로세스 보장

1-4. 개인정보보호

Privacy
데이터 보호, GDPR 준수
개인정보 비식별화를 넘어 합성 데이터, 허위 데이터 사용

RAG 개요​

RAG 개념​

RAG의 배경​

RAG의 구성도 및 절차​

구성도​

구성요소​

RAG 절차​

파인튜닝과 RAG 비교​

참조​

sLLM 개요​

sLLM 개념​

sLLM 배경​

LLM과 sLLM 비교​

OSI 7 레이어 개념​

OSI 7 레이어 개념도, 구성​

OSI 7 레이어 개념도​

OSI 7 레이어 구성​

OSI 7 레이어와 TCP/IP와의 비교​

참조​

SVM 개념​

SVM의 개념도, 문제 해결방법, 장단점​

개념도​

문제 해결 방법​

장단점​

SVM 한계점과 해결방안​

참조​

의사결정나무 개요​

의사결정나무 개념​

의사결정나무 구성, 유형, 절차​

의사결정나무 구성​

의사결정나무 유형​

의사결정나무 절차​

의사결정나무 평가모델​

OWASP 개요​

OWASP 2024 Top 10 취약점​

1. Broken Access Control​

2. Cryptographic Failures​

3. Injection​

4. Insecure Design​

5. Security Misconfiguration​

6. Vulnerable and Outdated Components​

7. Identification and Authentication Failures​

8. Software and Data Integrity Failures​

9. Security Logging and Monitoring Failures​

10. Server-Side Request Forgery​

참조​

개요​

기능 비교​

결론​

가치사슬 개념​

구성​

주요활동​

보조활동​

분석 단계​

고려사항​

참조​

ISMS-P 개요​

법적 근거​

인증 체계​

인증 기준​

1. 관리체계 수립 및 운영​

2. 보호대책 요구사항​

3. 개인정보 처리단계별 요구사항​

참조​

가트너 10대 전략기술 개요​

1. AI TRiSM​

2. 지속적인 위협 노출 관리​

3. 지속가능한 기술​

4. 플랫폼 엔지니어링​

5. AI 증강 개발​

6. 산업 클라우드 플랫폼​

7. 지능형 애플리케이션​

8. 보편화된 생성형 AI​

9. 증강-연결된 인력​

10. 기계 고객​

AI TRiSM​

1-1. 설명 가능성, 모델 모니터링​

1-2. 모델옵스​

1-3. AI 어플리케이션 보안​

1-4. 개인정보보호​

RAG 개요

RAG 개념

RAG의 배경

RAG의 구성도 및 절차

구성도

구성요소

RAG 절차

파인튜닝과 RAG 비교

참조

sLLM 개요

sLLM 개념

sLLM 배경

LLM과 sLLM 비교

OSI 7 레이어 개념

OSI 7 레이어 개념도, 구성

OSI 7 레이어 개념도

OSI 7 레이어 구성

OSI 7 레이어와 TCP/IP와의 비교

참조

SVM 개념

SVM의 개념도, 문제 해결방법, 장단점

개념도

문제 해결 방법

장단점

SVM 한계점과 해결방안

참조

의사결정나무 개요

의사결정나무 개념

의사결정나무 구성, 유형, 절차

의사결정나무 구성

의사결정나무 유형

의사결정나무 절차

의사결정나무 평가모델

OWASP 개요

OWASP 2024 Top 10 취약점

1. Broken Access Control

2. Cryptographic Failures

3. Injection

4. Insecure Design

5. Security Misconfiguration

6. Vulnerable and Outdated Components

7. Identification and Authentication Failures

8. Software and Data Integrity Failures

9. Security Logging and Monitoring Failures

10. Server-Side Request Forgery

참조

개요

기능 비교

결론

가치사슬 개념

구성

주요활동

보조활동

분석 단계

고려사항

참조

ISMS-P 개요

법적 근거

인증 체계

인증 기준

1. 관리체계 수립 및 운영

2. 보호대책 요구사항

3. 개인정보 처리단계별 요구사항

참조

가트너 10대 전략기술 개요

1. AI TRiSM

2. 지속적인 위협 노출 관리

3. 지속가능한 기술

4. 플랫폼 엔지니어링

5. AI 증강 개발

6. 산업 클라우드 플랫폼

7. 지능형 애플리케이션

8. 보편화된 생성형 AI

9. 증강-연결된 인력

10. 기계 고객

AI TRiSM

1-1. 설명 가능성, 모델 모니터링

1-2. 모델옵스

1-3. AI 어플리케이션 보안

1-4. 개인정보보호