DELL PowerEdge 14G TPM 설치와 문제해결 과정 (TPM Binding Issue)

vSphere에서 Windows 11 VM 사용을 위해 Native Key Provider를 구성 하던 도중, 보안 향상을 위해 ESXi 호스트 내 TPM 2.0을 강제 하도록 지정하는 옵션을 보게 되었다.
이는 필수는 아니지만, 향상된 보안 효과를 누릴 수 있고 TPM이 그렇게 비싼 부품은 아니기에 이왕 하는 거 적용을 하기로 결정 하였다.
이번 글에서는 이를 위한 TPM 구매 후 설치 과정 및 발생한 문제의 Troubleshooting 내용을 다룬다.

사실 이 작업은 지난 2023년 12월로 거슬러 올라간다.
기존 ESXi 호스트에 TPM이 있긴 했는데 2.0이 아니라 1.2가 장착 된 물건 이여서 2.0으로 신규 구매가 필요 한 상황이였다.

현재 ESXi 호스트는 Supermicro 서버 한대, DELL 서버 두대로 구성 되어있어 각 서버에 알맞는 부품을 eBay에서 주문 하였다.
주문한 부품의 P/N은 아래와 같다.
– AOM-TPM-9670H-S
— Supermicro X11 플랫폼과 호환되는 TPM 2.0
— PCB 및 단자가 ㄱ자 형태로 이루어짐(Horizontal FF)
— 1U 샤시에 쓰려면 무조건 이거 사야 함. Vertical FF로 사면 뚜껑을 못 닫는다.
— Reference: https://www.supermicro.com/en/products/system/1u/6019/sys-6019u-tn4r4t.cfm
– DP/N 1MW70
— DELL PowerEdge 14G와 호환 되는 TPM 2.0
— 리비전으로 인해 DP/N 이 이것 말고도 더 있었는데, 필자가 구매한 DP/N은 상기와 같다.

위와 같이 모듈이 도착 했고, Supermicro 서버의 경우 장착 후 기동 및 설정에 문제가 없음을 확인 하였다.

DELL 서버의 경우 R740, R740xd 기준 PERC와 Riser 1이 있는 곳에 TPM 슬롯이 있다.
신품이면 그냥 단자에 맞게 끼우고 눌러서 장착 하면 되는데, 필자가 구매를 한 건 고정핀이 분리되어서 왔다.
그냥 TPM에 고정 핀 끼우고 하면 되는데 깜빡해서 별도 조립을 진행 했다.

그렇게 장착하고 BIOS에서 TPM 활성화 후 재기동을 하는데, 계속 POST를 하다 중간에 Reset이 되는 현상을 보이더니 위와 같이 에러가 발생하고 TPM이 Disabled되었다.

BIOS 및 iDRAC 초기화, 재 장착, 다른 PowerEdge에 장착 등 여러 시도를 해보았으나 증상 개선 불가.
이건 또 무슨 경우인가.

사례를 찾아보기 위해 DELL 문서를 뒤지던 도중, 아래와 같은 문서 및 문구를 발견 하였다.

CAUTION:Once the TPM plug-in module is installed, it is cryptographically bound to that specific system board. Any attempt to remove an installed TPM plug-in module breaks the cryptographic binding, the removed TPM cannot be reinstalled or installed on another system board.

번역
주의: TPM 플러그인 모듈이 설치되면 특정 시스템 보드에 암호화되어 바인딩됩니다. 설치된 TPM 플러그인 모듈을 제거하려고 시도하면 암호화 바인딩이 손상되고 제거된 TPM을 다시 설치하거나 다른 시스템 보드에 설치할 수 없습니다.

Dell EMC PowerEdge R740xd Installation and Service Manual – Upgrading the Trusted Platform Module

그렇다, DELL의 TPM은 한번 설치되면 분리하거나 다른 시스템 보드로 옮기는 순간 못 쓰는 물건이 되어버리는 것 이였다.
TPM의 신뢰성을 위한 조치로 보인다.

2개를 구매 했는데, 2개 중 한 개가 저런 상태라 eBay 판매자와 연락하여 우선 한 개에 대한 금액은 환불 받았다.
그럼 이제 어떻게 해야 하는가?
Used 부품이 주로 돌아다니는 eBay에서 한번도 작동하지 않은 TPM이 나에게 온다는 보장이 이제 없기 때문에 eBay에서 추가 구매를 하는 건 리스크가 있어 보류 하기로 하였다.

이제 대안이 뭐가 있나 하고 인터넷에 유사 사례를 검색 하던 중, 아래와 같은 Reddit 스레드와 의견을 발견 하였다.

I ended up calling our Dell rep, gave them the service tags, and ordered 5 brand new. I popped them in and They worked like a charm. The kit even included the torx security bit. They had the same part number as the ones I had ordered on eBay.
I think they we’re only $16 too. I Can’t believe I wasted my time ordering them on eBay. I thought they were going to be much more expensive from Dell.
The reports are definitely true. If you get that error message the module has already been cryptographically keyed to another Dell server and can never be used again. I don’t think you can even remove it and put it back into the same server.
Hope that helps. Let us know how you make out!

Reddit r/sysadmin – Dell R730 TPM Module
by Exocutis

DELL에 연락하여 해당 부품을 주문 하였고, 해당 부품으로 장착 하자 정상 작동 하였다는 내용이다.
심지어 가격도 저렴하다고 한다!
이 글을 보고 DELL 홈페이지에 해당 부품 구매 페이지를 확인 했는데 부가세 포함 24,200KRW 밖에 하지 않는 것을 확인 하였다.
Trusted Platform 모듈 2.0, Customer Kit

해당 부품이 호환 되는지 DELL 기술 지원 연락을 통해 교차 검증을 요청 하였고, 호환 되는 것을 확인 받았다.
호환성 검증을 마치고 나서 바로 주문 하였고, 주문 후 약 2주 만에 부품이 도착 하였다.

부품 상자에는 TPM 2.0과, 고정핀 나사를 풀기 위한 wiha제 T8H 비트가 같이 들어 있었다.
T8H 비트는 왜 비트만 온 건지 좀 의문인데, 그냥 L렌치로 줘도 되지 않았나 싶다.
이왕 줄 거면 드라이버도 같이 줬으면…
이번에 받은 TPM 2.0의 DP/N은 0FMYG3다.

그렇게 받은 TPM을 장착하기 위해 랙에서 꺼냈고, TPM을 장착하기 위해 PCIe 카드를 잠시 제거 하여 공간을 만들고 장착.

요즘 작업이 한번에 끝나는 일이 없어, 밀어 넣기 전에 먼저 검증을 위해 전원 케이블과 iDRAC Direct 포트만 연결해 확인을 진행 하였다.

iDRAC Direct 포트를 연결 후 iDRAC 내 iKVM을 이용해 장비를 기동.
BIOS 내에 TPM Information에 장착한 TPM이 인식되어 정보가 뜨는 것을 확인 하였고, 활성화 하여 재기동 하였더니 만세! 잘 작동 한다!

BIOS 내 TPM Advanced Settings -> TPM2 Algorithm Selection 옵션을 SHA1에서 SHA256으로 변경, Intel(R) TXT 옵션도 Enable 해준다. Secure Boot도 Enable 할 것을 잊지 말 것.
BIOS 설정 변경 후 기동 하니 vCenter에서 문제가 있었던 ESXi 호스트에도 Attestaion이 성공적으로 진행 된 것을 확인 하였다.
이제 정상적으로 Native Key Provider를 구성하고 VM Encryption 기능을 사용 할 수 있게 되었다.

TPM은 단순히 설치, 초기화 만 하면 사용에 문제가 없을 것으로 생각 했었다.
하지만 위와 같이 모듈이 시스템 보드에 바인딩 되어 돌려 쓸 수 없게 만들어 놓는 경우도 발생 할 수 있다는 사실을 이번 사례로 알게 되었다.
비교적 단순한 문제였지만, 지금 까지 다뤘던 장비 중 이런 경우는 처음 이여서 적잖게 당황 했다.
하지만 향후 유사한 상황을 겪는다면 적어도 예비 장비나, 사용된 장비에서 TPM을 빼서 조치를 하는 건 불가능 할 가능성이 매우 높다는 사실을 이제 알게 되었으니 또 한번 의미 있는 작업이 되었다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다