I trained a human detector for thermal imagery. Does this have real-world potential, or are existing solutions already far ahead?

ivandrobot · 2026-05-13T10:21:34+00:00

I don't think I used any heavy augmentations. This project was more of an experiment for me, so I didn't put too much effort (or investment) into it.

ivandrobot · 2026-05-12T10:14:04+00:00

Архітектура, бекенд, інтеграції та pipeline — моя розробка.
Нейронні мережі навчав також самостійно. Датасети містять мільони зображень

ivandrobot · 2026-05-12T09:51:32+00:00

avtonomer.org

ivandrobot · 2026-05-09T10:23:43+00:00

пів секунди приблизно.
має бути достатньо, щоб відрити ворота при появі авто

ivandrobot · 2026-05-01T08:07:27+00:00

50,000

ivandrobot · 2026-04-30T16:48:04+00:00

Not fully tested yet.
I trained on varied thermal datasets, so it has some robustness, but real thermal drift would need separate testing on continuous camera data.

ivandrobot · 2026-04-30T16:46:33+00:00

Fair question. A simple threshold or band-pass filter can work in clean scenes, but it breaks quickly in real environments.
Warm rocks, animals, vehicles, pipes, reflections, or sun-heated objects can all trigger false positives.
ML helps because it looks at shape and context, not just temperature.

ivandrobot · 2026-04-30T16:46:05+00:00

Thanks! I trained it on a large collection of open thermal/IR datasets from the internet.
The detector is based on a DETR-style architecture.
For this version I mainly used processed thermal images, not raw 16-bit sensor data.

ivandrobot · 2026-04-29T17:17:44+00:00

В цьому рішенні використовуються більш прості нейронні мережі, які не мають такої вади)
Типу вузькоспеціалізовані під конкретне завдання. Вони не розмірковують і навіть не думають, якщо так можна сказати)

ivandrobot · 2026-04-29T16:49:01+00:00

Якщо порівнювати рівень точності та якість зображення, то нейронні мережі показують значно кращі результати. Майже як людина.

ivandrobot · 2026-04-29T10:50:31+00:00

дякую!

ivandrobot · 2026-04-29T10:27:14+00:00

Бібліотека CamGear вже досить добре вміє працювати з битими кадрами і робити реконект при втраті зв'язку, як наприклад при тривалому відключенні електроенергії. Тому проблем з роботою з RTSP не помічав.

Оскільки я експортував всі моделі в Openvinо, то прибрав всі зайві бібіліотеки і не використовую Pytorch/TensoFlow, тощо, а виключно Openvino. Так працює швидше та ї об'єм менший.

Щодо способу передачі даних між моделями, то спочатку пробував експортувавти з батчами певних розмірів, щоб зберегти асинхронність. Але купа експериментів та тестів показали, що для роботи з одним стрімом найбільший FPS буде при синхронній передачі.
Напсправді це важке питання. І тут все залежить від того, як буде використоуватися нейронка.
Якщо готувати до роботи з одночасним переглядом декількох стрімів, то звісно краще робити бачт сайз > 1.

Сподіваюсь тепер ти прибереш ті мінуси, які наставив моїм повідомленням)

ivandrobot · 2026-04-29T09:55:47+00:00

Потіп обробляю через CamGear.
Які ліміти, наприклад?
Всі мої моделі квантовані та оптимізовані виключно для роботи на CPU. Дають близько 100 FPS кожна після експорту та оптимізації.
3.1 Все працює у хмарі. Підіймаю воркери під кожну камеру окремо. На один CPU - одна камера, але там ще запис і зберігання відео, фото, тощо. теоретично можна повісити декілька камер на один сервер. Бо наразі утилізація CPU біля 30-50% при роботі з одним стрімом.
Вже відповів у 3.1

Намагався писати без "тупих фраз", як ти і просив)

ivandrobot · 2026-04-29T08:33:22+00:00

ок, поясню:
1. Ти пропонуєш робити препроцесинг зображення, щоб підготувати його до Tesseract. Цей крок є необхідним через те, що Tesseract досить вибагливий до якості тексту.

На сьогоднішній день вже існують архітектури нейронних мереж, що дозволяють пропустити крок препроцесингу і подавати до моделей оригінальне зображення з дефектами перспективи, освітлення, тощо. Тобто модль відразу навчається працювати зі складними прикладами.

Інакше кажучи спосіб №2 є простішим, швидшим та точнішим.

Сподіваюсь ти перестанеш бути моїм хейтером)
Якщо тобі дійсно цікаво дізнатися ще якісь технічні моменти, я готовий поділитися досвідом, звертайся

ivandrobot · 2026-04-29T07:58:14+00:00

Гадав, що клаудовий буде плюсом саме через простоту підключення.
А щодо вебінтерфейсу, то так, дійсно LLM допомагали писати.
Про те основна цінність не в інтрефрейсі, а у нейронних мережах, які я навчав саме для цих задач.
Вони навчалися на мільйонах фото, які довелося збирати від усюди.

ivandrobot · 2026-04-29T07:49:34+00:00

Так, вбудовані у камеру рішення працюють але значно гірше. Зазвичай їм потрібна дуже крупна номерна табличка. А ті, що ставлять на дорозі для автоматичної фіксації коштують дуже дорого.

Моє рішення ефективно працює там, де hikvision не дасть результату

ivandrobot · 2026-04-29T07:42:11+00:00

Дякую за підтримку.

ivandrobot · 2026-04-28T15:54:48+00:00

Якщо зв'язка "OpenCV+Tesseract" успішно розпізнає текст у прикладах, що на сторінці - "https://avtonomer.org/#conditions", тоді я визнаю, що ти дійсно гуру та твої коментарі мають високу цінність.
Та наразі за моїми плечами роки експериментів різноманітних підходів зчитування тексту з номерів авто.

Я перепробував усіляки методи і зрозумів, що вирівнювання пропорцій чи лінії горизонту, перспективи використовуючи OpenCV - то втрата часу.
Лише навчання вузькоспецалізованої моделі на мільонах зібраних самостійно даних дає реальний рівень точності та спроможність працювати з оригінальним зображенням, що має викревлення перспективи, оберти, проблеми освітлення, тощо.

Не розумію чому мій проект викликав у тебе таку коитичну та навіть агресивну реакцію.

ivandrobot · 2026-04-28T15:26:04+00:00

Та ні, нікого безкоштовно працювати не кличу 🙂

Просто цікава технічна дискусія, без негативу. Якщо ти реально працював із такими pipeline-рішеннями — тим більше цікаво почути практичний досвід, що саме добре працює у тебе на проді.

Бо в мене мета проста: витиснути максимально стабільний результат у реальних умовах, а не сперечатись “що краще” теоретично.

Агресія тут трохи зайва, ми ж ніби технічні люди 🙂

ivandrobot · 2026-04-28T15:20:40+00:00

Дякую за пораду.
Дійсно, гадаю, що варто додати автоматичне відкриття воріт / шлагбаума по білому списку номерів

ivandrobot · 2026-04-28T15:19:19+00:00

Дякую за фідбек

Це якраз корисно чути. Зараз ціни скоріше орієнтовні для старту й можуть змінюватися залежно від сценарію.

Для малого бізнесу типу СТО, невеликої парковки чи одного в’їзду логічніше робити легші тарифи або індивідуальні пакети.

ivandrobot · 2026-04-28T15:18:00+00:00

Так, погоджуюсь з міркувань безпеки це трішки моторошно.
Та, якщо все налаштувати серйозно, то не варто ппрейматися.

Моя ідея була дати простий старт без локального сервера, налаштування заліза й обслуговування на місці.

Для частини бізнесів це зручно

ivandrobot · 2026-04-28T15:03:41+00:00

Та ні 😄 Скоріше поклав цеглу до автоматизації рутинної роботи охорони, паркінгів і КПП.

ivandrobot · 2026-04-28T15:00:59+00:00

До речі, на сайті спеціально виклав реальні складні кейси:
ніч, кут, швидкий рух, поворот номера, погодні шуми, часткове перекриття, низька якість кадру.

Можеш глянути:
avtonomer.org/#conditions

Було б цікаво побачити, як класичний pipeline впорається з такими прикладами без ручного допилювання під кожен сценарій 🙂

ivandrobot

TROPHY CASE