اخبار

خونه > اخبار >

اخبار شرکت در مورد شکست بی‌سابقه هومش: ViT+ArcFace به EER 0.29% در تشخیص عنبیه دست یافت

مناسبت ها

پرونده ها

تماس ها

تماس ها: Mr. Kelvin Yi

تلفن: 65-80381900

حالا تماس بگیرید

به ما ایمیل بفرست

شکست بی‌سابقه هومش: ViT+ArcFace به EER 0.29% در تشخیص عنبیه دست یافت

2026-04-01

دستاورد بزرگ هومش: ViT+ArcFace

دقت تشخیص عنبیه به بالاترین سطح جهانی رسید
با نرخ خطای برابر (EER) تنها 0.29% و ROC AUC نزدیک به حد تئوری —
ما با استفاده از ترنسفورمر بینایی، مرزهای تشخیص عنبیه را بازتعریف کردیم

▲ ترنسفورمر بینایی پارادایم زیربنایی استخراج ویژگی عنبیه را بازتعریف می‌کند

I. این بار، این فقط پیشرفت نیست — این یک تغییر پارادایم است

اگر از مهندسی که دو دهه در زمینه تشخیص عنبیه کار کرده بپرسید: "سخت‌ترین مشکلی که تا به حال با آن روبرو شده‌اید چیست؟"

او احتمالاً لحظه‌ای مکث می‌کند، سپس می‌گوید: "برگه لاستیکی".

از زمانی که جان داگمن الگوریتم IrisCode را در سال 1993 پیشنهاد کرد، فرآیند "باز کردن برگه لاستیکی" مانند وردی بوده که در DNA سیستم‌های تشخیص عنبیه در سراسر جهان حک شده است. باز کردن عنبیه دایره‌ای به یک تصویر مستطیلی، سپس استخراج بافت‌ها با استفاده از فیلترهای گابور... این گردش کار سه دهه است که استفاده می‌شود و هیچ‌کس آن را زیر سوال نبرد.

تا زمانی که ما تصمیم گرفتیم آن را دور بیندازیم.

II. چرا برگه لاستیکی دیگر کار نکرد؟

ترنسفورمر بینایی (به اختصار ViT) یکی از خیره‌کننده‌ترین پیشرفت‌های فناوری در حوزه یادگیری عمیق در سه سال گذشته است. این مدل تصویر را به تعدادی "وصله" 16×16 تقسیم می‌کند، از مکانیزم خودتوجهی مدل‌های زبانی برای درک ساختار کلی تصویر استفاده می‌کند و در چندین وظیفه بصری سطح بالا از شبکه‌های عصبی کانولوشنال (CNN) که سال‌ها غالب بودند، بهتر عمل می‌کند.

هنگامی که ما برای اولین بار تلاش کردیم ViT را در تشخیص عنبیه به کار ببریم، نتایج اولیه ناامیدکننده بود: نرخ خطای برابر (EER) تا 4.65% بالا بود، بسیار پایین‌تر از انتظارات.

تیم به سرعت علت اصلی را شناسایی کرد: "برگه لاستیکی" عنبیه حلقوی 64×512 پیکسلی را به یک مستطیل "صاف" می‌کند، که سپس به ورودی 224×224 مورد نیاز ViT مقیاس‌بندی می‌شود — کشش عمودی 3.5 برابری و فشرده‌سازی افقی 2.3 برابری. ساختار بافت طبیعی شعاعی/محیطی عنبیه به شدت تحریف شده بود، که باعث می‌شد مکانیزم توجه وصله‌ای ViT نتواند معنای درون آن را درک کند.

به عبارت دیگر: ما با روشی اشتباه به هوشمندترین مدل خوراک می‌دادیم.

راه حل ساده به نظر می‌رسد، اما نیاز به شجاعت شکستن سنت داشت — کنار گذاشتن برگه لاستیکی و تغییر به برش دایره‌ای ROI: با مرکز عنبیه به عنوان مبدأ، یک ناحیه مربعی (2.5 برابر شعاع) برش داده می‌شود تا تقارن فضایی طبیعی عنبیه حفظ شود، سپس مستقیماً به 224×224 تغییر اندازه داده شده و به ViT داده می‌شود. به این ترتیب، هر وصله 16×16 می‌تواند بافت واقعی و بدون اعوجاج عنبیه را درک کند.

III. معیارهای کلیدی: EER = 0.29%، ROC AUC = 0.9999

تغییر این مرحله ساده پیش‌پردازش، تفاوت بزرگی ایجاد کرد:

راه حل	EER	توضیحات
دور اول: ViT + برگه لاستیکی	4.65%	گردش کار سنتی
دور دوم: CNN + برگه لاستیکی	2.80%	جایگزینی ستون فقرات با بهبود محدود
دور سوم: ViT + برش ROI	~0.12%*	دستاورد مهم
نسخه نهایی: ViT-S/16 + ROI + منظم‌سازی	0.29%	راه حل درجه تولید

*نتایج دور سوم تحت تأیید آماری دقیق نیستند و حاوی سوگیری خوش‌بینانه هستند.

سیستم نهایی منتشر شده از ViT-S/16 (22.1 میلیون پارامتر) + تابع زیان حاشیه زاویه‌ای ArcFace استفاده می‌کند، که بر روی ترکیبی از 8 مجموعه داده عمومی (مجموعاً 4480 هویت / 67704 تصویر) آموزش دیده است. پس از تأیید آماری دقیق، نتایج به شرح زیر است:

● EER = 0.29% (نرخ خطای برابر)

● فاصله اطمینان 95%: [0.21%، 0.40%] (200 دور نمونه‌برداری بوت استرپ)

● ROC AUC = 0.9999 (امتیاز تقریباً کامل)

● میانگین شباهت جفت واقعی: 0.8742 (سازگاری بالا برای یک فرد)

● میانگین شباهت جفت متقلب: 0.0450 (جداسازی کامل ویژگی برای افراد مختلف)

● در FRR=1%، FAR = 0.00% (شناسایی نادرست صفر در نقاط عملیاتی امنیتی بالا)

▲ منحنی ROC (AUC=0.9999) و توزیع امتیاز واقعی/متقلب — دو قله کاملاً جدا شده

IV. داده‌های آموزشی: نه فقط بزرگ، بلکه متنوع

این مطالعه 8 مجموعه داده عمومی را ترکیب کرد، از جمله دو چالش‌برانگیزترین سناریو در صنعت:

داده‌های دوقلو (CASIA-Iris-Twins)

داده‌های عنبیه از 200 جفت دوقلو — حتی با ژنتیک تقریباً یکسان، بافت‌های عنبیه کاملاً متفاوت هستند. این "آزمون نهایی" برای تأیید قدرت تمایز الگوریتم است.

سناریوهای نامحدود نور مرئی (UBIRIS.v2)

518 هویت با بیش از 11000 تصویر، که تحت نور طبیعی با تاری حرکت، اعوجاج خارج از فوکوس و تغییرات نور ثبت شده‌اند — این مجموعه داده نزدیک‌ترین به سناریوهای استقرار در دنیای واقعی است.

آموزش در حدود 12.3 ساعت (90 دوره آموزشی) بر روی Apple Silicon M2 Ultra (Mac Studio) تکمیل شد، با حداکثر تأخیر استنتاج تنها حدود 35 میلی‌ثانیه (شامل برش ROI و استخراج ویژگی).

V. مقایسه افقی با کارهای برتر صنعت

روش	ستون فقرات	پیش‌پردازش	EER
کد عنبیه داگمن	گابور	برگه لاستیکی	~0.10% (محیط کنترل شده)
UniqueNet (2016)	شبکه سیامی CNN	برگه لاستیکی	0.18%
IrisFormer (2023)	ViT-B/16	برگه لاستیکی	0.22%
PolyIRIS (2021)	CNN چند مقیاسی	برگه لاستیکی	(مجموعه داده واحد)
Homsh ViT+ArcFace (این انتشار)	ViT-S/16	برش ROI	0.29% (8 مجموعه داده)

▲ از 4.65% به 0.29% EER: مسیر تکامل فناوری چهار دور تکرار

VI. گام‌های بعدی

1. ارزیابی مستقل بین مجموعه داده‌ها

آزمایش کور بر روی مجموعه داده IIT Delhi که در آموزش دخیل نبوده است برای تأیید توانایی تعمیم در دنیای واقعی.

2. ادغام تشخیص زنده بودن

ترکیب پاسخ فلش چند فریم یا تحلیل بافت برای دفاع در برابر حملات پخش عکس و ساخت یک سیستم ضد جعل کامل.

3. تشخیص عنبیه در فواصل متوسط و طولانی
معرفی داده‌های برد متوسط (3 متر) برای گسترش به سناریوهایی با فواصل ثبت بزرگتر — اقیانوس آبی بعدی برای پیاده‌سازی تجاری.

4. سبک‌سازی و استقرار در سمت لبه
تقطیر مدل ViT-S/16 به <5 میلیون پارامتر برای انطباق با دستگاه‌های لبه با منابع محدود (NPU/FPGA).

نتیجه‌گیری: یک سنت سی ساله شایسته بازنگری است

برگه لاستیکی داگمن بهترین راه حل دوران خود بود. اما جوهر فناوری این است: وقتی ابزارهای بهتر ظهور می‌کنند، پارادایم قدیمی باید کنار برود.

ترنسفورمر بینایی منطق زیربنایی تشخیص تصویر را تغییر داده است. از طریق چهار دور آزمایش و چهار ماه کاوش، ما راه صحیح را برای ViT برای باز کردن واقعی پتانسیل خود در تشخیص عنبیه پیدا کرده‌ایم — نه اینکه ViT را با گردش کار قدیمی تطبیق دهیم، بلکه یک پارادایم پیش‌پردازش جدید متناسب با ViT طراحی کنیم.

EER 0.29% فقط یک عدد نیست، بلکه یک اعلامیه است:

تشخیص عنبیه وارد عصر ترنسفورمر شده است و هومش در خط شروع قرار دارد.

درباره هومش

شرکت فناوری هومش ووهان (HOMSH)، تاسیس شده در سال 2011، یکی از معدود شرکت‌های با فناوری پیشرفته در جهان است که حقوق مالکیت معنوی مستقل برای الگوریتم‌ها و تراشه‌های اصلی تشخیص عنبیه را داراست. الگوریتم Phaselirs™ و تراشه‌های هوشمند FPGA/ASIC سری Qianxin برای تشخیص عنبیه آن به طور گسترده در جمع‌آوری مالی، ترخیص گمرکی، صدور گواهی دولتی، امنیت نظامی و سایر زمینه‌ها مورد استفاده قرار گرفته است.

اخبار

پرونده ها

شکست بی‌سابقه هومش: ViT+ArcFace به EER 0.29% در تشخیص عنبیه دست یافت

I. این بار، این فقط پیشرفت نیست — این یک تغییر پارادایم است

II. چرا برگه لاستیکی دیگر کار نکرد؟

III. معیارهای کلیدی: EER = 0.29%، ROC AUC = 0.9999

IV. داده‌های آموزشی: نه فقط بزرگ، بلکه متنوع

V. مقایسه افقی با کارهای برتر صنعت

VI. گام‌های بعدی

نتیجه‌گیری: یک سنت سی ساله شایسته بازنگری است

درباره هومش

ماژول تشخیص عنبیه

ماژول اسکنر عنبیه

ماژول دوربین Iris

دستگاه ضبط عنبیه

کنترل دسترسی عنبیه

کنترل مرزی آیریس

قفل درب اسکنر عنبیه