데이터브릭스 생성형 AI 엔지니어 자격증 기출 문제 덤프 3/6 (45문제)

Databricks Certified Generative AI Engineer 자격시험 합격을 위한 필수 관문, 덤프 3번째 세트입니다. 시중에서 구하기 어려운 최신 기출 경향을 완벽히 반영한 문제들로만 구성했습니다.

페이지 내에서 정답을 바로바로 체크하며 효율적으로 복습할 수 있어 학습 시간을 획기적으로 줄여줍니다. 눈으로 매끄럽게 훑어 내리며 개념을 다지고 실전에 완벽히 대비해 보세요.

참고해 주세요! 기출 덤프의 특성상 일부 문제나 선지, 정답에 오류가 있을 수 있습니다. 학습 시 이상한 점이 있다면 교재나 공식 문서를 통해 정답을 다시 한번 확인해 보시는 것을 추천합니다.”

데이터브릭스 생성형 AI 엔지니어 자격증 기출 문제 덤프 3/6 (45문제)

Question 1

조직에서 프레임워크 유연성과 효율적인 리소스 할당을 결합하여 고성능 맞춤형 LLM 솔루션을 설계하려고 합니다. 아키텍처에 어떤 조합을 포함해야 할까요?

1. 유연성을 위한 맞춤형 변환기 아키텍처 및 컴퓨팅 효율성을 위한 분산 가속기 인프라.

2. 컴퓨팅 비용 절감을 위한 더 작은 임베딩 모델.

3. 사전 처리 파이프라인을 위한 규칙 기반 시스템.

4. 파이프라인 단순화를 위한 단일 호스트 배포.

Question 2

생성형 AI 엔지니어는 의료 RAG 파이프라인에서 환자 피드백을 요약하는 임무를 맡았습니다. 수집된 피드백의 일부에는 의료 기밀 정보가 포함되어 있습니다. 요약 파이프라인으로 전송하기 전에 민감한 보건 데이터를 어떻게 처리해야 할까요?

1. 규정 준수 및 안전장치 구성을 위해 전처리 과정에서 민감한 보건 정보를 완벽히 식별하고 마스킹 처리하십시오.

2. 분석의 연속성을 보장하기 위해 민감한 데이터를 그대로 유지합니다.

3. 요약 프로세스를 빠르게 진행하기 위해 필터링을 생략합니다.

4. 원본 피드백을 축소하기 위해 정밀도가 더 낮은 임베딩 모델을 적용하세요.

Question 3

한 대형 금융 기관이 주식 시장 동향을 추적하는 RAG 파이프라인을 운영하고 있습니다. 검색 단계에서 심각한 병목 현상이 감지되었는데, 시스템 지연 시간이 급증했습니다. 검색 단계의 부하를 줄이기 위해 어떤 전략을 적용할 수 있을까요?

1. 실시간 쿼리 로깅 기능을 비활성화합니다.

2. 검색 정밀도를 조율하기 위해 하드웨어 연산 성능을 높입니다.

3. 검색 지연 시간을 낮추기 위해 벡터 인덱스의 캐싱 메커니즘을 강화하거나 파티셔닝을 최적화하십시오.

4. 추론 시 모델의 출력 토큰 제한 값을 줄이세요.

Question 4

생성형 AI 엔지니어가 금융 분석을 도출하기 위해 여러 소스의 원본 데이터를 파싱하고 있습니다. 최종 문서 파이프라인의 완성도를 높이기 위해, 어떤 데이터 형식을 기본으로 채택해야 할까요?

1. Delta 테이블 포맷을 활용하여 감사 추적 기능과 풍부한 메타데이터 구조를 유지하십시오.

2. 비정형 원시 로그 텍스트를 그대로 보존합니다.

3. 각 파일을 개별적인 텍스트 문서로 로컬에 보관합니다.

4. 모든 테이블 구조를 완전 폐기하고 JSON 파일로만 저장합니다.

Question 5

한 팀이 실시간 고객 관리 챗봇용 에이전트 시스템을 배포하려고 합니다. 에이전트 성능을 실시간으로 벤치마킹하고 평가하기에 가장 적합한 도구 세트는 무엇일까요?

1. MLflow 평가 기능(Evaluation API)을 사용하여 대화 내역의 정밀도, 재현율 및 일관성 지표를 종합 모니터링하십시오.

2. 스프레드시트를 사용하여 정기 조사를 진행합니다.

3. 추론 속도를 높이기 위해 로깅 시스템을 전면 중단합니다.

4. 단일 LLM 출력에 대한 사람 평가만 상시 수행합니다.

Question 6

생성형 AI 엔지니어가 뉴스 피드를 바탕으로 자동 뉴스 요약을 제공하는 파이프라인을 구축했습니다. 요약본의 전반적인 품질을 측정하기 위해 어떤 정량적 평가 지표 조합을 채택해야 할까요?

1. BLEU 점수와 ROUGE 메트릭을 교차 활용하여 참조 문서와의 유사성 및 키워드 보존율을 파악하십시오.

2. 요약본의 총 단어 수만 고정 계산합니다.

3. 모델 서빙에 활용된 인프라의 메모리 사용량을 측정합니다.

4. 사용자 로그인 횟수와 클릭율에만 초점을 맞춥니다.

Question 7

다단계 LLM 추론 오케스트레이션 및 상태 관리를 구현할 때, 엔지니어가 아키텍처에 필수적으로 포함해야 하는 프레임워크는 무엇일까요?

1. LangChain 이나 데이터브릭스 내장 체인 관리 라이브러리를 적용하여 복합 파이프라인을 논리적으로 연결하십시오.

2. PySpark MLlib 기본 선형 회귀 모듈.

3. 전통적인 웹 스크래핑 전용 BeautifulSoup 파서.

4. 단순 텍스트 백업용 파일 시스템 스크립트.

Question 8

생성형 AI 엔지니어가 원본 매뉴얼 데이터프레임을 벡터화하기 전에, 대용량 배열 구조를 레코드 단위로 고유하게 정렬하려고 합니다. 데이터프레임을 효과적으로 영속화하는 아키텍처 흐름은 무엇일까요?

1. 데이터프레임을 행 단위로 고르게 평탄화(Flatten)한 후 고유 키 ID를 할당하여 Delta 테이블로 관리하십시오.

2. 각 레코드를 원시 이진 파일(Binary File)로 개별 저장합니다.

3. 데이터를 가공하지 않고 임시 메모리(Cache)에만 올립니다.

4. 전체 데이터를 압축하여 단일 텍스트 청크로 변환합니다.

Question 9

Databricks 자격 증명 보안 정책에 따라 배포된 실시간 서비스 인프라에 API 비밀 키를 은닉하여 주입하고자 합니다. 엔지니어가 설정해야 하는 아키텍처 요소를 선택하세요.

1. 서비스 모델 엔드포인트 세팅 항목에서 Databricks 비밀(Secrets) 범위와 연동된 환경 변수로 안전하게 주입하십시오.

2. 하드코딩 형식으로 소스 코드 상단에 배치합니다.

3. 오픈 공유 소스 저장소에 평문으로 게시합니다.

4. 사용자가 실시간으로 직접 전달하도록 입력 창을 엽니다.

Question 10

사전 학습 모델과 도메인 지식 베이스를 활용하여 대화 서비스의 응답 지연 시간(Latency)을 단축하고 처리량 비용을 최적화하기 위해, 엔지니어가 구현해야 할 필수 설계 항목은 무엇일까요?

1. 추론 요청을 배치 형태로 지능형 패킹 처리하고 캐싱 아키텍처를 도입하여 비용 효율성을 증대시키십시오.

2. 대화마다 모델 전체 가중치를 다시 파인튜닝합니다.

3. 연산 가속기를 완전 차단하고 오직 CPU 인프라만 활용합니다.

4. 텍스트 임베딩 차원을 최대로 올려 검색 연산을 정교화합니다.

Question 11

생성형 AI 엔지니어가 엔터프라이즈 Unity Catalog 환경에 최신 학습 LLM 아키텍처 버전을 로깅하고 중앙 관리 플랫폼으로 안전하게 전달하는 올바른 구현 순서는 무엇일까요?

1. MLflow 추적 기능을 활성화하여 아티팩트 서명과 함께 자산을 저장한 뒤, 유니티 카탈로그 모델 가탈로그에 최종 승인 등록하십시오.

2. 로컬 저장소에 압축 파일로 추출하여 백업 보관합니다.

3. 입출력 규격을 무시하고 임의 데이터베이스에 바이너리로 저장합니다.

4. 외부 서드파티 스토리지에 인증 정보 없이 업로드합니다.

Question 12

긴 문서 구조에서 토큰 최대 수용량을 보존하고 텍스트의 맥락적 단편화(Context Fragmentation) 문제를 근본적으로 완화하기 위해 적용하는 가장 직접적인 모델 아키텍처 특성은 무엇일까요?

1. 대규모 컨텍스트 윈도우(Large Context Window) 지원 명세를 갖춘 최적화된 기성 모델 제품군을 채택하십시오.

2. 임베딩 벡터 간의 단순 거리 계산에만 의존합니다.

3. 모든 소스 문서를 고정된 초소형 청크 크기로 파쇄합니다.

4. 추론 온도를 극한으로 올려 텍스트의 다양성을 높입니다.

Question 13

생성형 AI 엔지니어가 특수 도메인 지식 매뉴얼 텍스트의 의미적 매칭 정확도를 비약적으로 증대시키고자 합니다. RAG 아키텍처 성능 고도화를 위해 고려해야 할 가장 효과적인 수정 조치는 무엇일까요?

1. 해당 특수 도메인 코퍼스 데이터를 반영하여 임베딩 모델 자체를 파인튜닝하거나 도메인 특화 인덱스를 전면 구축하십시오.

2. 전체 입력 문서에서 텍스트 수집 범위를 대폭 축소합니다.

3. 유사도 검색 과정을 생략하고 임의 키워드 매칭만 수행합니다.

4. 파이프라인에서 프롬프트 엔지니어링 세팅을 완전 배제합니다.

Question 14

대화형 비즈니스 파이프라인에서 정형화된 작업 관리 지침, 마감 기한 및 책임 할당 데이터를 비정형 텍스트 소스로부터 정확하게 파싱하여 출력 구조를 정형화하는 최적의 설계 기법은 무엇일까요?

1. 구체적인 예시 포맷 구조를 정의하는 퓨샷 프롬프팅 지침이나 강력한 구조화 제어 기능(Structured Outputs)을 명시하십시오.

2. 규칙 기반 단순 정규 표현식으로만 텍스트를 분류합니다.

3. 모델 아키텍처에 문맥 제한을 최소화하여 자유롭게 서술형으로 받습니다.

4. 입력 피드백 데이터를 요약하여 주요 문장만 화면에 뿌립니다.

Question 15

과거 거래 기록, 메타데이터 정보 및 사용자 구매 이력을 정밀 연산하여 벡터 검색 매칭 정확도를 극대화하는 파이프라인 아키텍처 조합은 무엇입니까?

1. 소스 데이터 임베딩 기반 의미 벡터 생성 프로세스 및 고도화된 근접 이웃 검색 벡터 공간 인덱싱 연동 아키텍처.

2. 텍스트 카테고리 매칭을 활용한 단순 다항 조건 필터 구조.

3. 실시간 학습이 배제된 단순 데이터 조회 스크립트.

4. 텍스트를 무작위 배치 가공하여 추천하는 인프라 레이아웃.

Question 16

의료 정보 질의응답 시스템의 신뢰도 향상을 위해 설계 엔지니어가 최우선으로 검증하고 추적해야 하는 핵심 정성적 보안 평가 지표는 무엇일까요?

1. 생성 답변의 사실적 정확성(Factual Accuracy) 검증 및 교차 지식 베이스 그라운딩 여부 확인.

2. 출력된 응답 텍스트의 가시적인 길이와 폰트 가독성.

3. 임베딩 데이터프레임의 전체 연산 속도 단축 유무.

4. 챗봇 인프라의 평균 네트워크 연결 대역폭 명세.

Question 17

생성형 AI 엔지니어가 의료 상담 가이드라인 어시스턴트에 환각 및 무허가 의료 진단 행위를 차단하는 방어 알고리즘을 빌드하고자 합니다. 프롬프트 단에서 설정해야 하는 필수 설계 기법은 무엇일까요?

1. 메타프롬프트에 엄격한 권한 한계 범위를 할당하고 오직 일반 의료 정보 검색 결과 제공만 허용하도록 지침을 수립하십시오.

2. 모델 온도를 높여 무작위 진단 텍스트를 다양하게 출력합니다.

3. 입력된 환자 질의에서 의료 단어가 탐지되면 강제 세션을 종료합니다.

4. 후처리 텍스트 구조에서 임의로 특정 조항들을 파쇄합니다.

Question 18

LangChain 다단계 대화 체인을 구성할 때, 여러 세션에 걸친 이전 사용자 대화 기록과 컨텍스트 상태 정보를 안전하게 공유하기 위해 통합해야 하는 핵심 클래스 요소는 무엇일까요? (두 가지를 선택하세요)

복수 선택

1. 대화 기록 상태를 지속적으로 기록하는 메모리 모듈 구성 요소.

2. 출력 형식을 무작위 변환하는 규칙 기반 파서.

3. 벡터 저장소에 연동되어 실시간 컨텍스트를 주입하는 리트리버 컴포넌트.

4. 텍스트 차원을 고정 분할하는 초소형 임베딩 파이프라인.

5. 대화 세션을 임의 초기화하는 전처리 단락 스크립트.

Question 19

생성형 AI 엔지니어가 뉴스 아티팩트 정리 과정에서 발생한 쓸모없는 웹 광고 스크랩 텍스트와 비정형 쓰레기 메타데이터를 원천 차단하고자 합니다. 데이터 클렌징 단계에서 가장 추천되는 직접적인 완화 방식은 무엇일까요?

1. 원본 수집 데이터의 사전 정제 필터(Preprocessing Filter)를 전면 도입하여 노이즈 요소와 정형 태그를 완벽하게 제거하십시오.

2. 전체 기사를 있는 그대로 하나의 거대한 파일로 합칩니다.

3. 텍스트 분할 청킹 크기를 극대화하여 통째로 인덱싱합니다.

4. 모델이 스스로 노이즈를 파악하도록 온도 제어 조율만 진행합니다.

Question 20

타사에서 입수한 오픈 데이터셋 문서들을 RAG 파이프라인에 대량 병합하는 과정에서 악의적이고 오염된 허위 정보 문서 팩이 섞여 있는 것을 발견했습니다. 파이프라인의 오염을 방지하기 위한 보안 조치는 무엇일까요?

1. 수집 파이프라인 전단에서 오염 플래그 문서들을 완벽하게 격리 및 배제(Exclude)하는 엄격한 필터 조건을 구성하십시오.

2. 출력 결과창에 면책 조항 문구 하나만 삽입하고 그대로 운영합니다.

3. 임बे딩 인덱싱 모델의 데이터 압축률을 크게 올립니다.

4. 모델 매개변수를 조정하여 해당 정보가 자동으로 무시되기를 기대합니다.

Question 21

생성형 AI 엔지니어가 사내 정밀 제품 설명서 지식 문서에서 RAG 검색 단계의 불필요한 노이즈와 잘못된 마케팅 문장들을 소거하려고 합니다. 최우선적으로 적용해야 하는 청킹 전처리 원칙은 무엇일까요?

1. 순수 제품 사양 명세 데이터와 연관성이 높은 핵심 섹션만 유효화하여 지식 베이스 아키텍처에 보존하십시오.

2. 완결성을 보장하기 위해 문서의 서문과 꼬리말까지 전부 병합합니다.

3. 모든 마케팅 문구를 데이터베이스 레이어에 그냥 남겨둡니다.

4. 소스 텍스트 매칭 대신 단순 요약 요약문만 벡터 공간에 밀어 넣습니다.

Question 22

엔터프라이즈 사내 법률 기밀 보장 규정에 맞추어 RAG 서비스 엔드포인트의 데이터 이동 및 저장소 트래픽 전 구간을 완벽하게 보호하는 다중 보안 통제 방식은 무엇입니까? (두 가지를 선택하세요)

복수 선택

1. 엄격한 API 토큰 인증 및 역할 기반 접근 권한 제어를 시스템 인프라 엔드포인트 전반에 확립하십시오.

2. 오픈 네트워크 환경에 평문 전송 구조로 엔드포인트를 노출시킵니다.

3. 저장 데이터(Data at Rest) 및 전송 데이터(Data in Transit) 전 구간에 강력한 암호화 표준을 일괄 강제하십시오.

4. 사내망 전체 공용 마스터 보안 키 하나를 전 직원이 전사 공유합니다.

5. 접근 속도 향상을 위해 인증 확인 백엔드 모듈을 비활성화합니다.

Question 23

RAG 파이프라인의 핵심인 정보 검색 시스템의 효율성을 다차원 분석하고 오답률 병목 구간을 탐지하기 위해 모니터링해야 하는 정량적 평가지표 메트릭 그룹은 무엇일까요?

1. 검색 품질의 정밀도(Precision), 재현율(Recall) 및 순위 정확도를 산출하는 NDCG 점수 체계를 계측하십시오.

2. 모델 최종 레이어의 텍스트 혼란도 지표값만 측정합니다.

3. 최종 요약 텍스트 간의 형태소 중복을 계산하는 ROUGE-1 스코어.

4. 인프라가 주기적으로 수집하는 쿼리당 평균 사용 토큰 요금.

Question 24

생성형 AI 엔지니어가 비정형 고객 불만 수집 데이터셋 파이프라인을 구축하던 중, 일부 욕설 섞인 문장들과 공격적인 언어를 사전에 걸러내고자 합니다. 어떤 조치가 적절할까요?

1. 입력 버퍼 단에 유해 유저 언어를 실시간 스캔하여 마스킹 및 전면 드롭 처리하는 세이프티 가드 레일 시스템을 연결하십시오.

2. 의미 일관성을 보존하기 위해 욕설 단어들을 그대로 모델에 주입합니다.

3. 긴 문장 구조를 가진 사용자 질의셋 자체를 통째로 폐기합니다.

4. 출력 생성 레이어의 토큰 선택 온도를 무작위 상향 조절합니다.

Question 25

생성형 AI 엔지니어가 수집 데이터의 개인정보 유출 리스크를 미연에 차단하기 위해 원본 피드백 데이터셋 내의 전화번호, 주소, 실명을 은닉하고자 합니다. 획득할 수 있는 이점은 무엇입니까?

1. 개인정보(PII) 식별 및 마스킹 처리는 규정 위반 위험을 해소하고 원본 텍스트의 분석 가치를 훼손 없이 유지시킵니다.

2. 파이프라인 전반의 모델 추론 실시간 응답 시간을 기하급수적으로 단축합니다.

3. 대규모 언어 학습 과정의 가중치 과적합 문제를 영구 해결합니다.

4. 저장 스토리지 레이어의 물리적 데이터 암호화를 완전 대체합니다.

Question 26

생성형 AI 엔지니어가 이미지 형식(JPG/PNG)으로 저장된 기업 스캔 영수증 파일들로부터 내부 텍스트 자산을 온전히 복구하여 파싱하고자 합니다. 필수 패키지 아키텍처 조합은 무엇입니까?

1. 오픈소스 혹은 엔터프라이즈 급 Tesseract OCR 인터페이스를 지원하는 pytesseract 등의 라이브러리 엔진을 연동하십시오.

2. 순수 PDF 구조 분석 전용 pdfplumber 컴포넌트.

3. 이진 파일 전용 가공 스크립트 모듈 파서.

4. 웹 HTML 노드 트리 스크래핑용 전용 패키지.

Question 27

사내 계약서 정보 분석을 위한 에이전트 시스템에서 유효 문서를 탐색하는 리트리버 지연 시간(Latency) 지표가 과도하게 늘어나는 장애가 감지되었습니다. 원인 진단을 위해 추적해야 할 메트릭은 무엇일까요?

1. 검색 레이어 자체의 구간별 정밀도 분석 데이터와 인덱싱 벡터 조회의 물리 지연 시간 수치를 통합 진단하십시오.

2. 사용자의 월별 누적 질의 패턴 및 주간 빈도 시각화 그래프.

3. 가중치 학습 로그 상에 남아있는 에포크 당 혼란도 스코어.

4. 하위 인프라 스토리지의 입출력 네트워크 비용 한도.

Question 28

생성형 AI 엔지니어가 보험 상품 설명 챗봇 엔진을 개발하던 중, 모델이 임의로 허위 사실이나 유포 금지 조항을 지어내서 유저에게 출력하는 환각(Hallucination) 현상을 원천 방지하고자 합니다. 어떤 보완 조치가 가장 확실할까요?

1. 사내 검증 필터를 거친 신뢰할 수 있는 규정 지식 베이스를 연동하고, 검색 증강 생성(RAG) 검증 루프 아키텍처를 도입하십시오.

2. 비정형 외부 공개 커뮤니티 데이터셋을 대량 수집하여 사전 학습을 재실행합니다.

3. 추론 생성 가중치 레이어의 무작위 온도를 최고 수준으로 개방합니다.

4. 질문 문자열의 길이를 무조건 고정 규격 이하로 절단 가공합니다.

Question 29

대규모 엔터프라이즈 환경에서 RAG 챗봇 서비스를 상용급으로 운영 및 동적 스케일링하기 위해 인프라 설계 단에서 확보해야 하는 가장 필수적인 리소스 자원 조합은 무엇일까요?

1. 가속 임베딩 연산용 컴퓨팅 인프라 자원, 확장 가능한 고속 분산 벡터 스토리지 노드 및 실시간 통합 관제 시스템.

2. 동기식 파일 전송 제어 도구 스크립트 셋.

3. 로컬 파일 백업 전용 독립 메모리 장치 하드웨어.

4. 텍스트 정렬 연산 가속화 전용 초소형 정규화 유틸리티.

Question 30

사내 고객 피드백 상시 수집 인프라를 상용 배포한 상태에서 실시간 비즈니스 효율과 실제 유저 만족도를 계측하기 위해 관제 대시보드에 연동해야 하는 핵심 실시간 라이브 지표는 무엇일까요?

1. 단위 시간당 안정적으로 처리를 완료한 고객 인입 문의 해결 총량 수치 및 평균 시스템 지연 시간 수치.

2. 모델 최초 가중치 초기화 훈련 단계의 에너지 소비량 통계.

3. 기본 언어 모델 파라미터가 획득한 벤치마크 테스트 스코어.

4. 수집된 피드백 문단 내부의 평균 한글 형태소 비율.

Question 31

생성형 AI 엔지니어가 사내 재무 정밀 보고서 데이터셋 가공 과정에서 스캔 문서 표 영역에 뒤섞여 있는 투명 워터마크 노이즈와 희미한 배경 로고 이미지를 전처리 단계에서 소거하고자 합니다. 어떤 방식이 정답입니까?

1. 문항 텍스트를 추출하기 전 단계에서 정교한 이미지 이진화 및 픽셀 노이즈 제거 필터링 공정을 선행하십시오.

2. 글자가 깨지거나 누락된 텍스트 청크 구간을 강제 영구 삭제합니다.

3. 원본 증빙을 위해 노이즈가 포함된 배경 픽셀 구조를 그대로 벡터화합니다.

4. 임베딩 가공 단계를 생략하고 대규모 요약 모델 하나에 원본 이미지를 통째로 주입합니다.

Question 32

지식 매뉴얼 RAG 솔루션을 안정적으로 구동하기 위한 LLM 모델 제품군을 비교 검증할 때, 최우선적으로 매칭을 검토해야 하는 아키텍처 요구 명세는 무엇일까요?

1. 타겟 문서 최대 청크를 완벽 소화할 수 있는 수용 컨텍스트 창 길이, 요약 품질 밸런스 및 실시간 서빙 연산 속도.

2. 기성 임베딩 인덱스 모델 간의 단순 코사인 유사성 결과 격차.

3. 사전 학습에 동원된 코퍼스 원본 데이터셋의 절대 용량 크기.

4. 인프라 대여 시장에서 가장 단가가 저렴하게 책정된 초소형 파라미터 구조.

Question 33

생성형 AI 엔지니어가 금융 규제 법규 해석 가이드를 지원하는 실시간 지능형 질의응답 솔루션을 구성하고자 합니다. 의미 매칭 품질의 한계를 극복하고 노이즈 문서를 자동 필터링하기 위한 대안 설계는 무엇일까요?

1. 금융 도메인 법률 언어 코퍼스를 정밀하게 파악하여 최적화 가중치를 확보한 전용 특화 임베딩 공간 모델을 도입하십시오.

2. 단순 요약 필터를 거친 요약문들만 영구 영속화하여 관리합니다.

3. 벡터 데이터베이스의 1회당 탑케이 검색 허용 개수를 무작위 늘립니다.

4. 키워드 매칭 성능을 보강하기 위해 전통적인 통계 기반 형태소 규칙 사전만 단독 연결합니다.

Question 34

생성형 AI 엔지니어가 사내 가용 인력 풀 비정형 이력 텍스트와 실시간 프로젝트 타임라인 지식 명세 데이터를 교차 매칭하여, 빈 프로젝트에 최적의 엔지니어를 가공 및 추천하는 파이프라인 아키텍처를 설계하고자 합니다. 올바른 방식은 무엇입니까?

1. 타임라인 데이터를 실시간으로 트래킹하는 전용 인터페이스 도구를 연동하고, 이력 텍스트를 벡터 인덱스 공간에 적재하여 다차원 검색 매칭을 구현하십시오.

2. 전체 타임라인 덩어리를 벡터 공간에 밀어 넣고 개별 인력의 실명 프로필로 역검색을 태웁니다.

3. 모든 추천 대상자의 가중치를 조건문 스크립트로 하나씩 단순 계산하는 수작업 논리를 일괄 강제합니다.

4. 프로젝트 필수 키워드 단어만 추출하여 단순 정합 확인 기법으로 일치 여부를 판별합니다.

Question 35

생성형 AI 엔지니어가 사내 지식 스토리지 내의 비정형 문서 팩을 파싱하여 대화형 어시스턴트 서비스에 연동하고자 합니다. 데이터 마이그레이션 효율을 고려할 때, 원본 벡터들을 고정 적재하는 가장 정확한 순서의 파이프라인 아키텍처는 무엇일까요?

1. 문서 원본 가공 수집 → 논리 텍스트 청킹 및 다차원 임베딩 변환 → 벡터 스토어 공간 인덱싱 저장 → 유저 질의 인입 → 실시간 검색 및 컨텍스트 보강 → 최종 응답 생성.

2. 유저 검색 질의 입력 → 원본 실시간 크롤링 정제 → 벡터 공간 변환 → 화면 즉시 노출.

3. 문서 소스 덤프 전량 업로드 → 통째로 가중치 인계 모델 파인튜닝 파이프라인 전송 → 즉시 상용 배포.

4. 텍스트 청크 무작위 분할 → 인프라 파일 백업 디렉토리 영속화 → 조건 매칭 조회.

Question 36

사내 규제 및 보안 통제 규정에 의거하여 기밀 유지 서약서 및 기외 외부 노출 차단 문서를 기반으로 상용 챗봇을 설계하려 합니다. 어떠한 클라우드 외부 트래픽 노출도 금지된 상태에서 최고의 정확도를 달성할 수 있는 자체 온프레미스 인프라 용 대형 파라미터 모델 규격은 무엇일까요?

1. Llama2-70B 급 이상의 초거대 오픈소스 가중치 자산을 사내 독립 하드웨어 클러스터 인프라에 직접 독립 적재하여 전용 서빙을 구성하십시오.

2. 퍼블릭 망에 노출된 상용 타사 외부 GPT-4 커넥션을 연동합니다.

3. 연산 리소스 절감을 위해 극소형 매개변수 명세를 가진 1.5B 급 모델 자산을 단독 서빙합니다.

4. 사전 오픈 텍스트 임베딩 전용 경량 모델 파일 하나만 단독 구동합니다.

Question 37

생성형 AI 엔지니어가 사내 신규 장치 사양서 텍스트의 구조와 대화 흐름을 유기적으로 결합하여 다회차 질문 대답(Multi-turn)이 가능한 오케스트레이션 체인을 빌드하려고 합니다. 필수 결합 요소는 무엇일까요? (두 가지를 선택하세요)

복수 선택

1. 사양서 청크 벡터 구조에 연결되어 실시간 유효 조항들을 패치하는 고성능 리트리버 컴포넌트.

2. 임의로 출력 문장을 단축 가공하여 화면에 뿌리는 요약 필터 모듈.

3. 이전 턴의 유저 대화 이력을 유기적으로 누적 보존하여 컨텍스트 윈도우에 피딩하는 프롬프트 템플릿 메모리 레이아웃.

4. 실시간으로 변환 오류 유무를 체크하는 데이터프레임 유틸리티 단락.

5. 사용자의 감정 변화 곡선을 추적하는 독립 인공신경망 분류기.

Question 38

Databricks 자격증 시험 가이드 명세에 기재된 대규모 지식 데이터 동기화 함수 체계 중 기본 관리형 가중치 모델을 활용한 델타 테이블 인덱스 실시간 동기화 호출 명령어는 무엇일까요?

1. vsc.create_delta_sync_index()

2. vsc.create_direct_access_index()

3. vsc.similarity_search()

4. vsc.get_index_status()

Question 39

생성형 AI 엔지니어가 배포된 대화 솔루션의 비정형 답변의 텍스트 왜곡 유무와 원문 유사성 보존 비율을 기계적으로 연산 및 자동 검증하고자 합니다. 최적의 메트릭은 무엇입니까?

1. ROUGE 점수 체계를 연산하여 실시간 텍스트 매칭율을 자동 스캔하십시오.

2. 번역 정확도 검증 전용 BLEU 점수 하나만 확인합니다.

3. 텍스트의 유창성 지표를 나타내는 퍼플렉시티 스코어.

4. 인프라 백엔드가 소모한 실시간 가속기 클럭 주파수 통계.

Question 40

생성형 AI 엔지니어가 다단계 대화 인터페이스에서 외부 결합 시스템이나 백엔드 인프라 데이터 조회를 유기적으로 실행하기 위해 프롬프트 구조에 도구 세트를 명시하고자 합니다. 어떤 결합 방식이 정답입니까?

1. 가용 도구 명세 지침 구조가 명확하게 이식된 시스템 프롬프트 명세서 양식을 활용하여 지능형 에이전트 오케스트레이션 루프를 조율하십시오.

2. 전체 도구 설명서 PDF 문서를 통째로 기본 지식 벡터 디렉토리에 적재 처리합니다.

3. 텍스트 분류 조건문을 수작업으로 라우팅하는 하드코딩 논리 구조를 주입합니다.

4. 질문 문자열에 사전 정의된 키워드가 확인되면 강제로 특정 함수를 가동시킵니다.

Question 41

대용량 텍스트 파이프라인 전처리 과정에서 수집된 비정형 텍스트 내에 포함된 불필요한 개행 문자, 노이즈 특수 기호 및 공백 배열을 원천 무효화하여 토큰 소모량을 최적화하는 아키텍처 접근은 무엇일까요?

1. 커스텀 PyFunc 정규화 컴포넌트 모델 모듈을 선행 빌드하여 소스 코퍼스 정제 단계를 구조적으로 통합 가동시키십시오.

2. 전통적인 배치 가공용 Spark 프레임워크 분산 SQL 연산만 태웁니다.

3. 실시간 Delta Live Tables 스트리밍 전처리 트리거에만 의존합니다.

4. 가중치 학습 레이어를 파인튜닝하여 모델 내부에서 필터링되도록 지시합니다.

Question 42

생성형 AI 엔지니어가 복잡하게 중첩된 다차원 표(Tables) 구조와 다양한 폰트 단락이 포함된 비정형 웹 HTML 문서 매뉴얼 파일셋으로부터 정보 왜곡 없이 고성능으로 원문 문장을 파싱하고자 합니다. 최적의 컴포넌트는 무엇입니까?

1. 고속 구조 파싱 전용 LXML 인터페이스나 계층형 노드 추출 성능을 증명한 BeautifulSoup 엔진 조합을 활용하십시오.

2. 순수 PDF 구조 파싱 전용 pdfplumber 패키지 유틸.

3. 이진 이미지 픽셀 정보 복구 전용 pytesseract OCR 모듈.

4. 단순 텍스트 절단 추출용 PyPDF2 라이브러리 인터페이스.

Question 43

생성형 AI 엔지니어가 소스 코드 보조 자동 생성 솔루션을 사내 개발 조직에 구축 배포하려 합니다. 다국어 소스 제어 문법을 완벽히 이해하고 구조적 프로그래밍 컨텍스트 해석 능력이 입증된 최적의 배포 모델은 무엇입니까?

1. CodeLlama-34B 급 이상의 특화 코드 생성 가중치 파라미터 명세 모델 아키텍처를 선택하십시오.

2. 사전 학습 말뭉치가 일반 대화 위주인 MPT-7B 급 모델 자산.

3. 임베딩 차원 생성 전용 경량 인프라인 BGE-large 컴포넌트.

4. 문장 단순 일치 분류 최적화용 DistilBERT 기반 분류기 파일.

Question 44

생성형 AI 엔지니어가 서빙 인프라 모델 교체 공정 진행 중, 프롬프트 입력 제한 한계선(Token Limit) 규격을 초과하여 400번 대 잘못된 요청(InvalidArgument) 에러가 반환되는 현상을 목격했습니다. 즉시 조치해야 하는 아키텍처 변경 요소는 무엇일까요? (두 가지를 선택하세요)

복수 선택

1. 벡터 스토어 레이어에서 1회 질의당 반환하여 프롬프트에 병합하는 문서 검색 레코드 개수를 축소 조정하십시오.

2. 텍스트 임베딩 차원 사이즈 규격을 강제 축소 변경합니다.

3. 지식 베이스 사전 수집 데이터셋의 기본 청킹 분할 크기 명세를 하향 조정하십시오.

4. 토큰 가중치 조율을 위해 ALiBi 알고리즘 플러그인을 강제 통합 재학습합니다.

5. 모델 인프라 설정 창의 최대 아웃풋 생성 토큰 한계값을 깎습니다.

Question 45

비정형 법률 조항 텍스트 파일셋 내의 특정 핵심 리스크 정보 및 권리 의무 귀속 관계 문장들을 분류 및 추출하여 정형화된 보고서 개요 데이터로 전환하기 위한 필수 알고리즘 컴포넌트 조합은 무엇입니까? (두 가지를 선택하세요)

복수 선택

1. 정교하게 정의된 법률 가이드라인 기반 의미론적 분석을 실행하는 다차원 임베딩 추출 공간 컴포넌트.

2. 단순 계약 문서 분류 전용 기계 학습 이진 분류기 모듈.

3. 정형 법적 조항 분석 및 동적 구조 요약문 완성을 수행하는 고성능 대형 언어 학습 모델 서빙 인프라.

4. 단순 텍스트 축소형 고정 규격 요약 전용 압축 필터 모듈.

5. 고정 문장 사전 매칭형 전통 규칙 기반 템플릿 검색 시스템.

데이터브릭스 AI 엔지니어 자격증 합격 팁

표시된 정답은 학습 참고용이므로 실제 시험의 출제 의도와 일부 다를 수 있으니 공식 가이드를 함께 교차 검증하시는 것을 추천합니다. 다음 단계인 [데이터브릭스 생성형 AI 엔지니어 덤프 4/6] 포스팅에서 다음 문제를 이어 푸실 수 있습니다.

데이터브릭스 생성형 AI 엔지니어 자격증 기출 문제 덤프 3/6 (45문제)

데이터브릭스 AI 엔지니어 자격증 합격 팁

✅ 관련 글을 읽어보세요

Leave a Comment 응답 취소