AutoML Vision је производ за машинско учење који је развио Google Cloud, посебно дизајниран за изградњу прилагођених модела за класификацију, детекцију и интерпретацију података о сликама. Његова основна функционалност је усмерена на аутоматизацију процеса обуке, евалуације и примене модела дубоког учења за задатке засноване на сликама, као што су класификација слика, детекција објеката и сегментација слика. Да би се утврдило да ли се AutoML Vision може користити за анализу типова података који нису слике, потребно је испитати његову архитектуру, модалитете уноса и шири контекст AutoML понуда Google Cloud-а.
Визија AutoML-а: Обим и дизајн
AutoML Vision функционише на принципу аутоматизоване анализе слика. Његов кориснички интерфејс, механизми за унос података, кораци претходне обраде, архитектуре модела и метрике евалуације су прилагођени визуелним подацима. Услуга очекује улазне податке у облику датотека слика (нпр. JPEG, PNG) и одговарајуће ознаке за задатке надгледаног учења. Корисник отпрема скупове података слика путем Google Cloud конзоле или API-ја, одређује жељени задатак (класификацију или детекцију објеката), а систем управља поделом података, екстракцијом карактеристика, избором модела, подешавањем хиперпараметара и процесом обуке без потребе за детаљним знањем машинског учења од корисника.
Основни технолошки стек користи конволуционе неуронске мреже (CNN) и сродне архитектуре, које су посебно веште у издвајању карактеристика из просторно корелираних података, као што су низови пиксела на сликама. Излаз из AutoML Vision-а је обично тренирани модел који се може користити за предвиђање класа слика или координата граничног оквира за невидљиве слике.
Анализа типова података
С обзиром на специфичност дизајна AutoML Vision-а, његова употреба је ограничена на податке типа слике. Покушај уноса података који нису слике (као што су табеларни подаци, подаци временских серија, аудио датотеке или текстуални документи) резултирао би некомпатибилношћу на више слојева, почевши од уноса података до обраде модела. Систем не пружа механизме за парсирање, инжењеринг карактеристика или моделирање на подацима који нису слике.
На пример, претпоставимо да корисник покушава да отпреми CSV датотеку која представља табеларне податке (као што су трансакције купаца или очитавања сензора) у AutoML Vision. Сервис не би прихватио овај формат, јер га не препознаје као валидан унос слике. Чак и ако би се табеларни подаци некако конвертовали у формат слике (нпр. приказивањем топлотне мапе или графикона и чувањем као PNG), семантичко значење података не би било сачувано, а обучени модели не би били погодни за оригиналне аналитичке циљеве повезане са табеларним подацима.
Слично томе, аудио подаци (као што су говор или звуци из околине) или текстуални подаци (документи, имејлови, објаве на друштвеним мрежама) захтевају специјализовану претходну обраду и архитектуру модела. Иако постоје истраживачке технике које конвертују аудио сигнале у спектрограмске слике за анализу засновану на CNN-у или кодирају текстуалне податке као матрице сличне сликама, ови приступи нису изворно подржани од стране AutoML Vision-а, а њихова имплементација би захтевала прилагођени цевовод претходне обраде ван обима намењене употребе производа.
AutoML породица: Модалитети изван слика
Иако је AutoML Vision ограничен на податке о сликама, Google Cloud AutoML обухвата низ производа, сваки прилагођен различитим типовима података:
1. Табеле АутоМЛДизајнирано за структуриране, табеларне податке као што су прорачунске таблице, базе података и CSV датотеке. AutoML Tables пружа аутоматизовано инжењерство карактеристика, избор модела (укључујући појачавање градијента, случајне шуме и неуронске мреже) и метрике евалуације погодне за задатке регресије и класификације на табеларним подацима.
2. АутоМЛ природни језикНамењен за текстуалне податке, подржава задатке као што су анализа расположења, екстракција ентитета и класификација текста. Користи моделе обраде природног језика (NLP) оптимизоване за интерпретацију на нивоу докумената и реченица.
3. AutoML видео интелигенцијаНамењено за видео податке, омогућавајући задатке као што су класификација видеа, праћење објеката и препознавање акција. Користи технике временског и просторног моделирања.
4. АутоМЛ ТранслатионОмогућава аутоматизовано тренирање прилагођених модела превођења за текстуалне податке на различитим језицима.
Сваки од ових AutoML производа дели свеобухватни циљ демократизације машинског учења аутоматизацијом сложених корака укључених у развој модела. Међутим, сваки је пројектован за јединствене захтеве и изазове које поставља његов одговарајући модалитет података.
Дидактички пример: Случајеви употребе и избор производа
Размотрите предузеће које жели да аутоматизује контролу квалитета у производном процесу прегледањем слика производа у потрази за недостацима. AutoML Vision је идеалан за овај случај употребе, јер се може обучити да препозна суптилне разлике у изгледу производа и класификује или лоцира недостатке. Корисник отпрема означени скуп података слика производа, а AutoML Vision се бави обуком модела за детекцију недостатака.
Упоредите ово са сценаријем у којем предузеће жели да предвиди одлив купаца на основу структурираних података као што су демографски подаци, историја куповине и метрике ангажовања. У овом случају, подаци су у потпуности невизуелни и најбоље су представљени у табелама. AutoML табеле су одговарајући алат, јер могу да обрађују табеларне податке, врше аутоматско инжењерство карактеристика (нпр. руковање недостајућим вредностима, кодирање категоријалних променљивих) и одаберу оптималне моделе за класификацију.
За аудио анализу, као што је класификација звукова из околине или транскрипција говора, Google Cloud пружа услуге као што су Speech-to-Text и AutoML Natural Language (за анализу текста низводно), али AutoML Vision не би био погодан осим ако се аудио подаци прво не трансформишу у формат слике (као што је спектрограм), па чак и тада, резултати би у великој мери зависили од прикладности таквог инжењеринга карактеристика за аналитички циљ.
Техничка перспектива: Зашто се AutoML Vision не може проширити на податке који нису слике
Архитектонска специјализација AutoML Vision-а је утемељена у неколико техничких аспеката:
- Слој за унос податакаAPI-ји и кориснички интерфејси AutoML Vision-а су дизајнирани да уносе сликовне датотеке у одређеним форматима. Не постоји могућност рашчлањивања формата података који нису слике.
- Цевовод за претходну обрадуКораци претходне обраде су прилагођени сликама, укључујући промену величине, нормализацију вредности пиксела и технике проширења података као што су ротација, окретање и исецање. Подаци који нису слике немају користи од таквих трансформација.
- Модел АрцхитецтуреАрхитектуре модела (CNN, могуће са прилагођеним слојевима за детекцију или сегментацију) су дизајниране да искористе просторну локалност и инваријантност у подацима слике. Подаци који нису слике, као што је табела евиденције продаје, не поседују ова својства и стога не би били погодни за такве моделе.
- Означавање и евалуацијаАлати за обележавање и метрике евалуације (тачност, прецизност, присетљивост за класе слика; средња прецизност за детекцију објеката) дефинисани су око задатака заснованих на сликама.
- Извоз и имплементацијаМодели обучени у AutoML Vision-у се извозе у формате погодне за инференцију слика (нпр. TensorFlow SavedModel, Edge TPU). Улазни потписи очекују слике као улаз.
Из ових разлога, AutoML Vision се не може прилагодити за анализу података који нису слике без фундаменталне измене његове инфраструктуре за претходну обраду, моделирање и имплементацију, у ком случају би престао да буде AutoML Vision у свом тренутном облику.
Најбоље праксе: Избор исправног AutoML производа
Приликом решавања проблема машинског учења, тип података треба да води избор одговарајућег AutoML производа:
– За сликовне податке (нпр. фотографије, медицинске скенирања, сателитске снимке): Користите AutoML Vision.
– За структуриране табеларне податке (нпр. прорачунске таблице, табеле базе података): Користите AutoML табеле.
– За текст слободне форме или структурирани текст (нпр. документи, рецензије, имејлови): Користите AutoML Natural Language.
– За видео записе (нпр. снимке са надзорних камера, спортске снимке): Користите AutoML Video Intelligence.
– За преводилачке задатке: Користите AutoML превод.
Покушај коришћења производа ван његовог предвиђеног начина обраде података доводи до неоптималних резултата, проблема са некомпатибилношћу или потпуног неуспеха у обради података.
Примери прилагођавања модела у оквиру AutoML Vision-а
Иако је прилагођена употреба унутар AutoML Vision-а могућа у смислу дефинисања прилагођених ознака, одређивања прилагођених подела слика и подешавања критеријума за процену, ова прилагођавања су ограничена на податке о сликама. На пример, истраживач који проучава биљне болести може да отпреми слике лишћа категорисане према типу болести и да прилагоди поделу за обуку и валидацију или да прошири слике трансформацијама специфичним за домен (нпр. подешавањем канала боја за симулацију различитих услова осветљења). Ова прилагођавања побољшавају перформансе модела унутар домена анализе слика, али не проширују корисност производа на податке који нису слике.
Алтернативне стратегије за податке који нису слике
Организације које траже аутоматизовано машинско учење за податке који нису слике требало би да искористе одговарајући AutoML производ или да размотре следеће алтернативе:
- Развој прилагођеног моделаАко тип података или задатак није обухваћен постојећим AutoML производима, организације ће можда морати да развију прилагођене цевоводе користећи библиотеке отвореног кода (нпр. scikit-learn, TensorFlow, PyTorch) или друге управљане сервисе који подржавају ширу прилагођавање.
- Трансформација податакаУ ретким случајевима, подаци се могу трансформисати у приказ сличан слици (нпр. подаци временских серија конвертовани у графиконе рекурентности или Грамијева угаона поља), а затим обрадити моделима заснованим на сликама. Међутим, ово захтева значајно стручно знање у домену и пажљиву валидацију како би се осигурали значајни резултати.
- Решења трећих странаПостоје AutoML решења трећих страна (нпр. H2O.ai, DataRobot) која нуде подршку за шири спектар модалитета података у оквиру обједињеног интерфејса.
AutoML Vision је пројектован само за аутоматизовано машинско учење на сликовним подацима и не може се користити прилагођено за анализу типова података ван визуелног домена. За податке који нису слике, као што су табеларни, текстуални, аудио или видео, Google Cloud пружа наменске AutoML производе са прилагођеним процесима, интерфејсима и архитектурама модела. Избор исправног AutoML производа у складу са типом података је кључан за успешне резултате машинског учења.
Остала недавна питања и одговори у вези Напредак у машинском учењу:
- Како могу да вежбам AutoML Vision без Google Cloud Platform-а (немам кредитну картицу)?
- Да ли се режим „eager“ аутоматски укључује у новијим верзијама TensorFlow-а?
- Како креирати модел и верзију на GCP-у након отпремања model.joblib-а на bucket?
- Да ли се Kubeflow може инсталирати на сопственим серверима?
- Да ли се режим рада аутоматски искључује када се пређе на нову ћелију у свесци?
- Да ли се приватни модели, са приступом ограниченим на сараднике компаније, могу радити у оквиру TensorFlowHub-а?
- Да ли је могуће конвертовати модел из json формата назад у h5?
- Да ли библиотека Keras омогућава примену процеса учења током рада на моделу ради континуиране оптимизације његових перформанси?
- Шта је ТенсорФлов игралиште?
- Да ли је могуће користити Каггле за отпремање финансијских података и обављање статистичке анализе и предвиђања користећи економетријске моделе као што су Р-квадрат, АРИМА или ГАРЦХ?
Погледајте више питања и одговора у Напредак у машинском учењу

