데이터브릭스 생성형 AI 엔지니어 자격증 기출 문제 덤프 4/6 (45문제)

Databricks Certified Generative AI Engineer 자격증 합격을 향한 덤프 4번째 세트입니다. 실전 시험에서 마주할 수 있는 핵심 유형을 엄선했습니다.

페이지 내 정답 확인 기능을 통해 이동 중에도 빠르게 복습하며 개념을 완전히 내 것으로 만들어 보세요. 반복 학습이 합격의 지름길입니다.

참고해 주세요! 기출 덤프의 특성상 일부 문제나 선지, 정답에 오류가 있을 수 있습니다. 학습 시 이상한 점이 있다면 교재나 공식 문서를 통해 정답을 다시 한번 확인해 보시는 것을 추천합니다.”

데이터브릭스 생성형 AI 엔지니어 자격증 기출 문제 덤프 4/6 (45문제)

Question 1

생성형 AI 엔지니어가 RAG 시스템에서 문서 청크를 벡터화하여 저장소에 인덱싱할 때, 검색 품질 향상을 위해 ‘메타데이터 필터링’을 구현해야 합니다. 이 방법이 가져오는 주된 장점은 무엇인가요?

Question 2

Databricks 환경 내에서 개발자의 코딩 생산성을 돕기 위해 노트북(Notebook)에 내장된 생성형 AI 보조 도구의 이름은 무엇입니까?

Question 3

사용자가 LLM을 속여 원래 의도되지 않은 악의적인 동작을 수행하도록 지시를 조작하는 공격 기법을 무엇이라고 합니까?

Question 4

MLflow Evaluate 기능을 사용하여 정답(Ground Truth)이 없는 RAG 챗봇의 응답 품질을 정성적으로 자동 평가하려고 합니다. 가장 널리 쓰이는 평가 접근 방식은 무엇입니까?

Question 5

긴 문서를 벡터화하기 전 일정한 크기로 나누는 청킹(Chunking) 과정에서, 인접한 청크 사이에 일부 텍스트를 겹치게(Overlap) 설정하는 주된 이유는 무엇입니까?

Question 6

Databricks Vector Search에서 인덱스 업데이트 모드로 ‘Continuous’를 선택했을 때의 동작 특징은 무엇입니까?

Question 7

조직 내에서 특정 부서만 배포된 거대 언어 모델(LLM) 엔드포인트를 호출할 수 있도록 보안을 설정하려고 합니다. Databricks에서 이를 구현하는 가장 표준적인 방법은 무엇입니까?

Question 8

LLM 모델 파라미터 중 Top-P 값을 0.1과 같이 매우 낮게 설정하면 출력 결과에 어떤 변화가 생깁니까?

Question 9

Databricks Model Serving에서 ‘Provisioned Throughput’ 모드를 사용하여 파운데이션 모델을 배포할 때의 주요 장점은 무엇입니까?

Question 10

LangChain 아키텍처에서 단순 체인(Chain)과 구별되는 에이전트(Agent)만의 고유한 특징은 무엇입니까?

Question 11

고객 지원 내역을 LLM 파인튜닝 학습 데이터로 활용하기 전, 컴플라이언스 및 개인정보 보호 규정 준수를 위해 반드시 거쳐야 하는 데이터 파이프라인 단계는 무엇입니까?

Question 12

재무 제표가 포함된 복잡한 PDF 문서에서 표 구조와 텍스트를 파싱하려고 합니다. 일반 텍스트 추출기보다 높은 정밀도를 위해 사용해야 할 도구는 무엇입니까?

Question 13

매일 변동되는 최신 금융 뉴스를 기반으로 답변하는 챗봇을 설계할 때, 파인튜닝(Fine-tuning)보다 RAG 아키텍처가 더 적합한 이유는 무엇입니까?

Question 14

검색된 문서들이 너무 많아 LLM의 허용된 컨텍스트 윈도우(Context Window) 한도를 초과할 때 이를 해결하는 올바른 전략은 무엇입니까?

Question 15

챗봇 시스템 개발 시 시스템 프롬프트(System Prompt)에 반드시 포함되어야 할 최적의 지침 구성 요소는 무엇입니까?

Question 16

RAG 아키텍처 내에서 검색의 품질을 극대화하기 위해 ‘Cross-encoder’를 Re-ranking(재정렬) 단계에 투입합니다. 이 기법의 특징은 무엇입니까?

Question 17

환각(Hallucination) 현상을 방지하기 위해 프롬프트 엔지니어링 단계에서 가장 기본적으로 적용해야 하는 강력한 제약 문구는 무엇입니까?

Question 18

벡터 데이터베이스에서 가장 널리 사용되는 거리 측정 기준으로, 임베딩된 두 벡터 간의 ‘방향적 유사성’을 평가하는 지표는 무엇입니까?

Question 19

데이터브릭스에서 제공하는 데이터 엔지니어링 파이프라인 프레임워크로, RAG 구현을 위해 원시 문서를 수집, 정제, 청킹하여 고품질의 델타 테이블로 관리하는 데 활용되는 기술은 무엇입니까?

Question 20

다중 턴(Multi-turn) 대화형 LLM 시스템에서, 과거 대화 이력이 계속 누적되어 토큰 한도를 초과하는 문제를 효율적으로 방지하는 메모리 관리 전략은 무엇입니까?

Question 21

대규모 언어 모델이 추론한 결과를 다른 시스템 파이프라인으로 넘기기 위해 반드시 특정 JSON 키-값 형태로만 반환하게 하려면 프롬프트에 어떤 정보를 포함시켜야 합니까?

Question 22

파운데이션 모델을 특정 도메인 데이터로 파인튜닝(Fine-tuning)할 때, 모델이 ‘과적합(Overfitting)’에 빠졌음을 알 수 있는 대표적인 학습 평가 지표의 양상은 무엇입니까?

Question 23

Databricks Unity Catalog 환경 내에서 RAG 애플리케이션의 소스 문서에 대한 세분화된 보안(접근 제어)을 적용하는 권장 방식은 무엇입니까?

Question 24

사내 헬프데스크 챗봇 등 반복적인 질문이 빈번한 LLM 애플리케이션에서 값비싼 API 호출 비용과 응답 지연 시간을 극적으로 줄일 수 있는 아키텍처 설계는 무엇입니까?

Question 25

문서 분할(Chunking) 시 단순히 N개의 글자 단위로 자르지 않고, 문맥 훼손을 막기 위해 마침표나 단락 태그를 기준으로 나누는 전략을 의미하는 용어는 무엇입니까?

Question 26

HuggingFace에서 다운로드한 오픈소스 대규모 언어 모델의 대용량 가중치(Weights) 파일들을 Databricks 내부에 안전하게 영속적으로 저장하고 권한 관리를 통합할 수 있는 스토리지는 어디입니까?

Question 27

생성형 모델이 출력한 여러 개의 답변 후보에 대해 인간 평가자가 직접 선호도 점수를 매기고, 이 점수를 기반으로 보상 모델(Reward Model)을 학습시켜 언어 모델의 결과물을 정렬(Alignment)하는 기법은 무엇입니까?

Question 28

RAG 파이프라인의 Retriever 성능을 정량적으로 평가할 때, 검색 쿼리에 대해 반환된 상위 K개의 문서 리스트 내에 실제 정답이 포함된 문서가 하나라도 존재하는지 여부를 측정하는 지표는 무엇입니까?

Question 29

LLM에게 복잡한 포맷의 답변을 요구할 때, 시스템 프롬프트에 2~3개의 질의응답 모범 예시(Examples)를 미리 삽입하여 모델의 출력 방향을 유도하는 프롬프트 엔지니어링 기법은 무엇입니까?

Question 30

운영 중인 모델 서빙 엔드포인트에서 유저가 보낸 입력 프롬프트와 모델이 생성한 응답 텍스트 전체를 감시 및 분석 목적으로 Delta 테이블에 자동 로깅해 주는 Databricks의 기능은 무엇입니까?

Question 31

기존 파운데이션 모델이 학습하지 못한 사내 독점 지식이나 어제 발생한 최신 뉴스 이벤트에 대한 질문에 사실 기반으로 대답할 수 있도록 시스템을 보강하는 가장 빠르고 경제적인 접근법은 무엇입니까?

Question 32

모델이 논리 퍼즐이나 복잡한 수학 문제를 풀 때 곧바로 최종 답을 내뱉지 않고, 중간 연산 및 사고 과정을 텍스트로 명시하게 유도하여 추론 능력을 비약적으로 높이는 기법은 무엇입니까?

Question 33

Databricks Foundation Model API 호출 시 반환되는 페이로드 객체 내에서, 입력 프롬프트와 생성된 응답이 소모한 ‘토큰 개수’ 정보를 확인하려면 어떤 키(Key)를 참조해야 합니까?

Question 34

LangChain이나 LlamaIndex 프레임워크에서 특정 파이썬 함수, API 엔드포인트 호출, SQL 쿼리 실행 등 에이전트가 외부 세계와 상호작용하기 위해 사용하는 모듈의 명칭은 무엇입니까?

Question 35

임베딩 모델 선택 시, 출력 벡터의 ‘차원(Dimension) 수가 큰 모델’을 채택했을 때 나타나는 아키텍처적 트레이드오프(Trade-off) 현상은 무엇입니까?

Question 36

단순한 모델 가중치 파일 배포를 넘어, MLflow 환경에서 입력 데이터를 전처리하거나 모델 출력 후처리(Post-processing) 로직까지 하나의 배포 단위로 패키징할 수 있도록 해주는 모델 래퍼 형식은 무엇입니까?

Question 37

LLM의 고질적 문제로, 학습된 적 없는 정보이거나 검색된 문서에 없는 내용임에도 불구하고 통계적 유사성에 기반해 사실인 것처럼 당당하게 답변을 지어내는 현상을 무엇이라고 부릅니까?

Question 38

언어 모델이 인간의 문장(자연어)을 처리할 수 있도록, 텍스트를 가장 작은 의미 단위인 숫자의 배열로 매핑하고 변환하는 데이터 전처리 과정을 지칭하는 단어는?

Question 39

RAG 애플리케이션의 Generation(생성) 품질 지표를 측정할 때, 생성된 최종 텍스트가 검색 단계에서 제공된 소스 문서의 컨텍스트 내에서만 유도되었는지를 검사하여 환각 정도를 파악하는 메트릭은 무엇입니까?

Question 40

LLM을 파인튜닝할 때 모델 가중치의 데이터 비트 수를 낮추어 메모리 적재량을 획기적으로 줄이는 기술(Quantization)과, 기존 가중치는 얼리고 저랭크 행렬만 훈련하는 기술(LoRA)을 융합한 최신 효율적 학습 기법은?

Question 41

Databricks 노트북 및 작업 환경에서, 복잡한 다단계 LangChain 호출이나 에이전트 도구 실행 내역을 단계별로 시각화하여 병목을 디버깅할 수 있게 해주는 기능은 무엇입니까?

Question 42

대화형 RAG 챗봇에서 사용자가 “그럼 거기에 가는 데 얼마나 걸려?”처럼 대명사를 포함한 모호한 후속 질문을 했을 때, 이전 채팅 기록을 분석해 “제주도 한라산에 가는 데 얼마나 걸리나요?”와 같이 명확한 독립형 질문으로 재생성하는 파이프라인 단계를 무엇이라 합니까?

Question 43

LLM 보안 설정 단계에서, 정규 표현식이나 고정된 ‘나쁜 단어(Bad words)’ 목록에만 의존하여 독성 및 편향 필터링을 수행할 때 발생하는 가장 치명적인 한계점은 무엇입니까?

Question 44

조직이 Llama 모델을 도메인 특화 데이터로 학습시킬 때, 천문학적인 컴퓨팅 연산 자원을 아끼기 위해 모델의 전체 가중치를 변경하는 대신 일부 특수 행렬이나 어댑터만 제한적으로 업데이트하는 머신러닝 방법론을 통칭하여 무엇이라 합니까?

Question 45

Databricks RAG 파이프라인에서 ‘BGE-large’나 ‘OpenAI text-embedding-ada-002’ 같은 모델들의 근본적인 역할은 무엇입니까?

데이터브릭스 AI 엔지니어 자격증 합격 팁

표시된 정답은 학습 참고용이므로 공식 가이드를 함께 교차 검증하시는 것을 추천합니다. 다음 단계인 [데이터브릭스 생성형 AI 엔지니어 덤프 5/6] 포스팅에서 다음 문제를 이어 푸실 수 있습니다.

Leave a Comment