AI 운영 리스크 통제

Guardrail Chain 도입 문의하기

탈옥 공격, 유해 콘텐츠, 개인정보 유출,
프롬프트 인젝션까지. LLM의 입력과 출력을
즉시 검사합니다.

도입 문의하기
Guardrail Chain 입력·출력 검사 다이어그램
Definition

AI를 도입하는 가장 안전한 방법, 가드레일 체인 AI를 도입하는 가장 안전한 방법,
가드레일 체인

AI 가드레일은 LLM의 입력과 출력 사이에 위치하여, 위험한 프롬프트와 응답을 즉시 탐지하고 차단하는 안전장치입니다. 21개 카테고리 · 149개 정책 · 1300+ 방어 규칙이 LLM의 입력과 출력을 즉시 검사합니다.

Guardrail Chain의 필요성
진화하는 AI는 역할극, 감정 조작, 인코딩 우회, 점진적 유도 등 갈수록 교묘한 방식으로 기존 필터를 우회합니다. 단순한 키워드 차단이나 텍스트 검열 도구로는 대응할 수 없습니다. 가드레일 없이 AI를 운영하면 프롬프트 인젝션, 탈옥 공격, 개인정보 유출, 유해 콘텐츠 생성 등의 위협에 그대로 노출됩니다.
Guardrail Chain의 접근
Guardrail Chain은 4단계 다층 검사 구조(4-Rail Pipeline)의 LLM 기반 의도 분석을 결합합니다. 키워드로 잡히는 공격은 즉시 차단하고, 키워드를 교묘하게 피한 공격은 LLM이 문맥을 이해하여 판단합니다.
맞춤형 제어
21개 카테고리 중 필요한 것만 선택하고, 카테고리별 민감도를 조절하고, 기업 고유의 커스텀 룰을 추가할 수 있습니다. 챗봇, 교육, 공공, 글로벌 등 어떤 업종이든 서비스에 맞는 가드레일을 설계합니다.
Architecture

사용자와 LLM 사이에 위치하여 입력과 출력을 즉시 검사합니다 사용자와 LLM 사이에 위치하여
입력과 출력을 즉시 검사합니다

가드레일 체인은 사용자 요청부터 LLM 응답까지 전 구간을 이중 검증하는 파이프라인입니다. 입력 단계에서는 PreRail·IntentRail·ContextRail이 의도와 맥락을 분석해 잠재 위협을 선별하고, 출력 단계에서는 OutRail이 PII 및 내부 프롬프트 유출 여부를 검증합니다. 이를 통해 안전하지 않은 콘텐츠가 사용자에게 전달되기 전에 선제적으로 제어합니다.

< Guardrail Chain 서비스 구조 > Guardrail Chain
사용자 서비스 이용자의 요청
고객 어플리케이션 웹 · 앱 · 챗봇 등의 백엔드 서버에서 요청 수신
API Gateway 인증·인가와 Rate Limiting으로 1차 진입 통제
Input Guard
입력 안전 검증 PreRail → IntentRail → ContextRail UNSAFE 차단 입력 정규화 → 의도 분석 →
맥락 분석 → SAFE/UNSAFE 판정
SAFE
Vector DB/RAG 지식 검색, 문서 컨텍스트
Context
Logging/Monitoring 요청/응답 기록, 비용 추적
Prompt Engineering System Prompt → 사용자 입력 조정 RAG Context 주입(선택적)
LLM Provider OpenAI/Claude/Gemini/사채 모델 토큰 관리, 모델 선택, 응답 생성
Output Guard
출력 안전 검증 OutRail UNSAFE 차단 PII 마스킹 / 시스템 프롬프트
유출 방지 / 최종 검증
SAFE
응답 처리 웹 · 앱 · 챗봇 등의 백엔드 서버에서 요청 수신
사용자에게 응답 전달
사용자 서비스 이용자의 요청
고객 어플리케이션 웹 · 앱 · 챗봇 등의 백엔드 서버에서 요청 수신
API Gateway 인증·인가와 Rate Limiting으로 1차 진입 통제
Input Guard
입력 안전 검증 PreRail → IntentRail → ContextRail UNSAFE 차단 입력 정규화 → 의도 분석 →
맥락 분석 → SAFE/UNSAFE 판정
SAFE
Prompt Engineering System Prompt
→ 사용자 입력 조정
RAG Context 주입(선택적)
Context
Vector
DB/RAG
지식 검색,
문서 컨텍스트
LLM Provider OpenAI/Claude/Gemini/
사채 모델 토큰 관리,
모델 선택, 응답 생성
Logging/
Monitoring
요청/응답
기록, 비용 추적
Output Guard
출력 안전 검증 OutRail UNSAFE 차단 PII 마스킹 / 시스템 프롬프트 유출 방지 / 최종 검증
SAFE
응답 처리 웹 · 앱 · 챗봇 등의 백엔드 서버에서 요청 수신
사용자에게 응답 전달
21 Categories

9개 도메인, 21개 카테고리로 모든 위협을 커버합니다 9개 도메인, 21개 카테고리로
모든 위협을 커버합니다

LLM이 만들어낼 수 있는 위험
보안
  • S 보안 위협
  • J 탈옥 우회
콘텐츠
  • H 유해 콘텐츠
  • T 독성 표현
  • X 성적 콘텐츠
  • V 폭력 위험
데이터
  • D 개인정보
  • I 지적재산권
윤리
  • E 윤리 위반
  • P 편향 공정성
신뢰성
  • R 신뢰성
  • G 근거 부족
법적
  • L 법적 리스크
  • C 규제 미준수
사기
  • F 사기 피싱
  • W 사이버 범죄
경험
  • B 브랜드
  • A 접근성
  • M 다국어
특수
  • K 아동 보호
  • N 국가안보

* 위험 항목을 클릭하여 상세 내용을 확인해 보세요.

보안 위협 | 보안

프롬프트 인젝션, 권한 상승, 시스템 정보 탈취 등 LLM 보안을 직접 위협하는 공격을 탐지합니다. OWASP LLM01, LLM07 대응.

업종별 추천 설정
챗봇 운영

AI 챗봇 서비스에서 발생하는 탈옥 공격, 유해 응답 생성, 브랜드 이미지 훼손을 방어합니다. 사용자가 역할극이나 감정 조작으로 가드레일을 우회하려는 시도를 IntentRail에서 즉시 탐지합니다.

SJHTB

S 보안 위협 / J 탈옥 우회 / H 유해 콘텐츠 / T 독성 표현 / B 브랜드

교육 플랫폼

미성년자가 사용하는 교육 서비스에서 아동에게 부적절한 콘텐츠가 노출되지 않도록 보호합니다. 아동 보호(K) 카테고리는 민감도 0.95로 가장 엄격하게 설정하는 것을 권장합니다.

KHXA

K 아동 보호 / H 유해 콘텐츠 / X 성적 콘텐츠 / A 접근성

공공 / 국방

국가안보에 민감한 정보 유출을 방지하고, 산업별 규제를 준수합니다. 사이버범죄 관련 정보 요청과 개인정보 탈취 시도를 차단합니다. 데이터가 외부로 나가지 않도록 로컬 LLM 연동을 권장합니다.

NSCDW

N 국가안보 / S 보안 위협 / C 규제 미준수 / D 개인정보 / W 사이버범죄

글로벌 서비스

다국어 환경에서 문화적 감수성을 위반하거나 특정 인종, 종교, 성별에 대한 편향적 응답이 생성되지 않도록 합니다. 다국어 우회 공격도 탐지합니다.

MPTE

M 다국어 / P 편향 공정성 / T 독성 표현 / E 윤리 위반

풀 가드

전체 21개 카테고리를 모두 활성화합니다. 최고 수준의 보안이 필요한 서비스에 적합합니다. 카테고리별 민감도를 개별 조정하여 오탐을 최소화할 수 있습니다.

ALL 전체 21개 카테고리
4-Rail Architecture

4단계 Rail이 순차적으로 검사합니다 4-Rail Architecture

단일 검증에 의존하지 않고, 여러 탐지 단계를 중첩 적용하는 Defense-in-Depth 구조입니다.

PreRail, IntentRail, ContextRail, OutputRail이 YOUR AI를 동심원 형태로 감싸는 4-Rail 구조 다이어그램
PreRail 입력 전처리

인코딩 기반 우회 공격을 정규화하여 원래 의도를 복원

  • Base64 / URL 인코딩 디코딩
  • 유니코드 호몰로글리프 정규화
  • Leet Speak / 다국어 우회 복원
IntentRail 의도 분석

키워드로 의심 대상을 걸러내고, LLM이 맥락을 분석해 최종 판단

  • 커스텀 룰 + 방어 규칙 1,300+ 키워드 매칭 (의심 필터링)
  • LLM 의도 분석으로 최종판단 (오탐 방지)
  • 키워드 탐지를 우회하는 교묘한 공격까지 맥락 기반으로 탐지
ContextRail 맥락 분석

멀티턴 대화 흐름에서 점진적 유도 공격을 탐지

  • 멀티턴 점진적 유도 감지
  • 주제 이탈 / 컨텍스트 오염
  • 누적 위험도 스코어링
OutputRail 출력 검증

LLM 응답을 사용자에게 전달하기 전 최종 검증

  • PII 자동 마스킹
  • 할루시네이션 / 비인가 약속 탐지
  • 시스템 프롬프트 유출 방지
카테고리별 토글 스위치 UI 예시

카테고리 ON/OFF

21개 카테고리 중 필요한 것만 켜고 끌 수 있어, 서비스 특성에 맞게 조절 가능합니다.

민감도 0.3 SAFE, 0.9 UNSAFE 결과 비교 예시

민감도 조절

같은 입력이라도 민감도에 따라 결과가 달라집니다. 카테고리별로 0.0(관대)~1.0(엄격)의 설정값을 조정할 수 있습니다.

커스텀 룰 BLOCK/FLAG 설정 예시

커스텀 룰

기업 고유의 차단 규칙을 정의합니다. IntentRail 안에서 가장 먼저 검사됩니다. block/flag 액션 선택이 가능합니다.

키워드 매칭과 LLM 분석 2단계 검증 예시

LLM 의도 분석

키워드 매칭으로 의심된 입력을 LLM이 맥락을 이해하여 최종 판단합니다. 일상 대화는 통과하고, 실제 위험 의도만 차단합니다.(선택 사항)

Integration

코드 한 줄로 연동합니다 코드 한 줄로 연동합니다

Python SDK

pip install 후 코드 3줄이면 가드레일이 작동합니다.

  • pip install guardrail-chain으로 설치
  • config.json으로 카테고리, 민감도, 커스텀 룰 설정
  • LangChain, CrewAI 등 에이전트 프레임워크에 연결 가능
  • 모든 검사 결과를 로컬에서 처리
main.py
from guardrail_chain import GRCClient

grc = GRCClient(config_path="./config.json")
result = grc.check("사용자 입력 텍스트")

if result.is_unsafe:
    print(f"차단: {result.label}")
else:
    response = llm.generate(user_input)
SDK 도입 절차
  1. 1 도입 상담

    서비스 환경과 보안 요구사항을 분석하고, 적합한 플래그 카테고리 구성을 제안합니다.

  2. 2 라이선스 발급 및 설치

    플랜에 맞는 라이선스를 발급하고, pip install guardrail-chain으로 SDK를 설치합니다.

  3. 3 설정 및 연동

    config.json에서 카테고리, 민감도, 커스텀 룰을 설정하고, 기존 코드에 grc.check() 한 줄을 추가합니다.

  4. 4 운영 및 최적화

    검사 로그 기반으로 오탐/미탐을 분석하고, 민감도와 규칙을 지속적으로 최적화합니다.

Pricing

서비스 규모에 맞는 플랜을 시작하세요 서비스 규모에 맞는
플랜을 시작하세요

모든 플랜은 동일한 4-Rail Pipeline을 사용합니다. 1 크레딧 = 1 check() 호출

Free
무료

테스트, 개인 프로젝트

시작하기
  • 1,000 크레딧 (1회)
  • 2 동시 요청
  • 5개 카테고리 (S, J, H, D, K)
Starter
₩15만원 /월

소규모 서비스, 스타트업

시작하기
  • 10,000 크레딧 / 월
  • 10 동시 요청
  • 12개 카테고리 (MLCommons 개수 수준)
  • 3개 커스텀 룰
  • 업종별 프리셋
  • 기본 지원
Enterprise
문의 /연

대기업, 맞춤 구축

문의하기
  • 1,000,000 크레딧 / 월
  • 200 동시 요청
  • 21개 카테고리 전체 + 커스텀 확장
  • 커스텀 룰 무제한
  • 전담 지원 + SLA 보장
  • LLM 심층 분석
  • 추가 크레딧 구매 가능