دستاورد بزرگ هومش: ViT+ArcFace
دقت تشخیص عنبیه به بالاترین سطح جهانی رسید
با نرخ خطای برابر (EER) تنها 0.29% و ROC AUC نزدیک به حد تئوری —
ما با استفاده از ترنسفورمر بینایی، مرزهای تشخیص عنبیه را بازتعریف کردیم
▲ ترنسفورمر بینایی پارادایم زیربنایی استخراج ویژگی عنبیه را بازتعریف میکند
I. این بار، این فقط پیشرفت نیست — این یک تغییر پارادایم است
اگر از مهندسی که دو دهه در زمینه تشخیص عنبیه کار کرده بپرسید: "سختترین مشکلی که تا به حال با آن روبرو شدهاید چیست؟"
او احتمالاً لحظهای مکث میکند، سپس میگوید: "برگه لاستیکی".
از زمانی که جان داگمن الگوریتم IrisCode را در سال 1993 پیشنهاد کرد، فرآیند "باز کردن برگه لاستیکی" مانند وردی بوده که در DNA سیستمهای تشخیص عنبیه در سراسر جهان حک شده است. باز کردن عنبیه دایرهای به یک تصویر مستطیلی، سپس استخراج بافتها با استفاده از فیلترهای گابور... این گردش کار سه دهه است که استفاده میشود و هیچکس آن را زیر سوال نبرد.
تا زمانی که ما تصمیم گرفتیم آن را دور بیندازیم.
II. چرا برگه لاستیکی دیگر کار نکرد؟
ترنسفورمر بینایی (به اختصار ViT) یکی از خیرهکنندهترین پیشرفتهای فناوری در حوزه یادگیری عمیق در سه سال گذشته است. این مدل تصویر را به تعدادی "وصله" 16×16 تقسیم میکند، از مکانیزم خودتوجهی مدلهای زبانی برای درک ساختار کلی تصویر استفاده میکند و در چندین وظیفه بصری سطح بالا از شبکههای عصبی کانولوشنال (CNN) که سالها غالب بودند، بهتر عمل میکند.
هنگامی که ما برای اولین بار تلاش کردیم ViT را در تشخیص عنبیه به کار ببریم، نتایج اولیه ناامیدکننده بود: نرخ خطای برابر (EER) تا 4.65% بالا بود، بسیار پایینتر از انتظارات.
تیم به سرعت علت اصلی را شناسایی کرد: "برگه لاستیکی" عنبیه حلقوی 64×512 پیکسلی را به یک مستطیل "صاف" میکند، که سپس به ورودی 224×224 مورد نیاز ViT مقیاسبندی میشود — کشش عمودی 3.5 برابری و فشردهسازی افقی 2.3 برابری. ساختار بافت طبیعی شعاعی/محیطی عنبیه به شدت تحریف شده بود، که باعث میشد مکانیزم توجه وصلهای ViT نتواند معنای درون آن را درک کند.
به عبارت دیگر: ما با روشی اشتباه به هوشمندترین مدل خوراک میدادیم.
راه حل ساده به نظر میرسد، اما نیاز به شجاعت شکستن سنت داشت — کنار گذاشتن برگه لاستیکی و تغییر به برش دایرهای ROI: با مرکز عنبیه به عنوان مبدأ، یک ناحیه مربعی (2.5 برابر شعاع) برش داده میشود تا تقارن فضایی طبیعی عنبیه حفظ شود، سپس مستقیماً به 224×224 تغییر اندازه داده شده و به ViT داده میشود. به این ترتیب، هر وصله 16×16 میتواند بافت واقعی و بدون اعوجاج عنبیه را درک کند.
III. معیارهای کلیدی: EER = 0.29%، ROC AUC = 0.9999
تغییر این مرحله ساده پیشپردازش، تفاوت بزرگی ایجاد کرد:
| راه حل |
EER |
توضیحات |
| دور اول: ViT + برگه لاستیکی |
4.65% |
گردش کار سنتی |
| دور دوم: CNN + برگه لاستیکی |
2.80% |
جایگزینی ستون فقرات با بهبود محدود |
| دور سوم: ViT + برش ROI |
~0.12%* |
دستاورد مهم |
| نسخه نهایی: ViT-S/16 + ROI + منظمسازی |
0.29% |
راه حل درجه تولید |
*نتایج دور سوم تحت تأیید آماری دقیق نیستند و حاوی سوگیری خوشبینانه هستند.
سیستم نهایی منتشر شده از ViT-S/16 (22.1 میلیون پارامتر) + تابع زیان حاشیه زاویهای ArcFace استفاده میکند، که بر روی ترکیبی از 8 مجموعه داده عمومی (مجموعاً 4480 هویت / 67704 تصویر) آموزش دیده است. پس از تأیید آماری دقیق، نتایج به شرح زیر است:
● EER = 0.29% (نرخ خطای برابر)
● فاصله اطمینان 95%: [0.21%، 0.40%] (200 دور نمونهبرداری بوت استرپ)
● ROC AUC = 0.9999 (امتیاز تقریباً کامل)
● میانگین شباهت جفت واقعی: 0.8742 (سازگاری بالا برای یک فرد)
● میانگین شباهت جفت متقلب: 0.0450 (جداسازی کامل ویژگی برای افراد مختلف)
● در FRR=1%، FAR = 0.00% (شناسایی نادرست صفر در نقاط عملیاتی امنیتی بالا)
▲ منحنی ROC (AUC=0.9999) و توزیع امتیاز واقعی/متقلب — دو قله کاملاً جدا شده
IV. دادههای آموزشی: نه فقط بزرگ، بلکه متنوع
این مطالعه 8 مجموعه داده عمومی را ترکیب کرد، از جمله دو چالشبرانگیزترین سناریو در صنعت:
دادههای دوقلو (CASIA-Iris-Twins)
دادههای عنبیه از 200 جفت دوقلو — حتی با ژنتیک تقریباً یکسان، بافتهای عنبیه کاملاً متفاوت هستند. این "آزمون نهایی" برای تأیید قدرت تمایز الگوریتم است.
سناریوهای نامحدود نور مرئی (UBIRIS.v2)
518 هویت با بیش از 11000 تصویر، که تحت نور طبیعی با تاری حرکت، اعوجاج خارج از فوکوس و تغییرات نور ثبت شدهاند — این مجموعه داده نزدیکترین به سناریوهای استقرار در دنیای واقعی است.
آموزش در حدود 12.3 ساعت (90 دوره آموزشی) بر روی Apple Silicon M2 Ultra (Mac Studio) تکمیل شد، با حداکثر تأخیر استنتاج تنها حدود 35 میلیثانیه (شامل برش ROI و استخراج ویژگی).
V. مقایسه افقی با کارهای برتر صنعت
| روش |
ستون فقرات |
پیشپردازش |
EER |
| کد عنبیه داگمن |
گابور |
برگه لاستیکی |
~0.10% (محیط کنترل شده) |
| UniqueNet (2016) |
شبکه سیامی CNN |
برگه لاستیکی |
0.18% |
| IrisFormer (2023) |
ViT-B/16 |
برگه لاستیکی |
0.22% |
| PolyIRIS (2021) |
CNN چند مقیاسی |
برگه لاستیکی |
(مجموعه داده واحد) |
| Homsh ViT+ArcFace (این انتشار) |
ViT-S/16 |
برش ROI |
0.29% (8 مجموعه داده) |
▲ از 4.65% به 0.29% EER: مسیر تکامل فناوری چهار دور تکرار
VI. گامهای بعدی
1. ارزیابی مستقل بین مجموعه دادهها
آزمایش کور بر روی مجموعه داده IIT Delhi که در آموزش دخیل نبوده است برای تأیید توانایی تعمیم در دنیای واقعی.
2. ادغام تشخیص زنده بودن
ترکیب پاسخ فلش چند فریم یا تحلیل بافت برای دفاع در برابر حملات پخش عکس و ساخت یک سیستم ضد جعل کامل.
3. تشخیص عنبیه در فواصل متوسط و طولانی
معرفی دادههای برد متوسط (3 متر) برای گسترش به سناریوهایی با فواصل ثبت بزرگتر — اقیانوس آبی بعدی برای پیادهسازی تجاری.
4. سبکسازی و استقرار در سمت لبه
تقطیر مدل ViT-S/16 به <5 میلیون پارامتر برای انطباق با دستگاههای لبه با منابع محدود (NPU/FPGA).
نتیجهگیری: یک سنت سی ساله شایسته بازنگری است
برگه لاستیکی داگمن بهترین راه حل دوران خود بود. اما جوهر فناوری این است: وقتی ابزارهای بهتر ظهور میکنند، پارادایم قدیمی باید کنار برود.
ترنسفورمر بینایی منطق زیربنایی تشخیص تصویر را تغییر داده است. از طریق چهار دور آزمایش و چهار ماه کاوش، ما راه صحیح را برای ViT برای باز کردن واقعی پتانسیل خود در تشخیص عنبیه پیدا کردهایم — نه اینکه ViT را با گردش کار قدیمی تطبیق دهیم، بلکه یک پارادایم پیشپردازش جدید متناسب با ViT طراحی کنیم.
EER 0.29% فقط یک عدد نیست، بلکه یک اعلامیه است:
تشخیص عنبیه وارد عصر ترنسفورمر شده است و هومش در خط شروع قرار دارد.
درباره هومش
شرکت فناوری هومش ووهان (HOMSH)، تاسیس شده در سال 2011، یکی از معدود شرکتهای با فناوری پیشرفته در جهان است که حقوق مالکیت معنوی مستقل برای الگوریتمها و تراشههای اصلی تشخیص عنبیه را داراست. الگوریتم Phaselirs™ و تراشههای هوشمند FPGA/ASIC سری Qianxin برای تشخیص عنبیه آن به طور گسترده در جمعآوری مالی، ترخیص گمرکی، صدور گواهی دولتی، امنیت نظامی و سایر زمینهها مورد استفاده قرار گرفته است.