Приступ врећама речи је уобичајена техника у обради природног језика (НЛП) за претварање речи у нумеричке репрезентације. Овај приступ се заснива на идеји да редослед речи у документу није важан, већ је важна само учесталост речи. Модел вреће речи представља документ као збирку речи, без обзира на граматику, ред речи и контекст.
Да би се речи претвориле у нумеричке репрезентације користећи приступ врећици речи, потребно је неколико корака. Хајде да детаљно размотримо сваки корак.
1. Токенизација: Први корак је токенизација текста, што укључује његово разбијање на појединачне речи или лексеме. Овај процес обично укључује уклањање знакова интерпункције, претварање свих речи у мала слова и поделу текста на токене на основу размака.
На пример, размотрите следећу реченицу: „Брза смеђа лисица прескаче лењог пса.“ Након токенизације добијамо следеће токене: [„тхе“, „куицк“, „бровн“, „фок“, „јумпс“, „овер“, „тхе“, „лази“, „дог“].
2. Креирање речника: Следећи корак је креирање речника, који је јединствени скуп свих речи присутних у корпусу или збирци докумената. Свакој речи у речнику је додељен јединствени индекс или идентификатор.
Користећи горњи пример, речник би био: ["тхе", "куицк", "бровн", "фок", "јумпс", "овер", "лази", "пас"].
3. Векторизација: Када имамо речник, сваки документ можемо представити као вектор бројева. Дужина вектора је једнака величини речника, а сваки елемент вектора представља учесталост или присуство речи у документу.
На пример, хајде да размотримо реченицу „Брза смеђа лисица скаче“. Користећи горњи речник, ову реченицу можемо представити као вектор: [1, 1, 1, 1, 1, 0, 0, 0]. Овде првих пет елемената представљају учесталост речи „тхе“, „куицк“, „бровн“, „фок“ и „јумпс“ у реченици, док последња три елемента представљају одсуство речи „преко“ , "лењи" и "пас".
4. Пондерисање фреквенције инверзне фреквенције докумената (ТФ-ИДФ): Поред основног представљања речи, ТФ-ИДФ пондерисање се може применити да би се дао већи значај ретким речима и мањи значај уобичајеним речима. ТФ-ИДФ је статистичка мера која процењује важност речи у документу у односу на колекцију докумената.
ТФ-ИДФ се израчунава множењем терминске фреквенције (ТФ) речи у документу са инверзном учесталошћу документа (ИДФ) речи у целом корпусу. ИДФ се израчунава као логаритам укупног броја докумената подељен бројем докумената који садрже ту реч.
На пример, узмите у обзир корпус од два документа: „Брза смеђа лисица“ и „Лењи пас“. ТФ-ИДФ репрезентација речи "брзо" у првом документу би била већа него у другом документу пошто се појављује само у првом документу.
Приступ кесама речи претвара речи у нумеричке репрезентације токенизацијом текста, креирањем речника и векторизацијом докумената на основу учесталости или присуства речи. ТФ-ИДФ пондерисање се може применити да се ретким речима додели већи значај, а уобичајеним речима мањи значај.
Остала недавна питања и одговори у вези ЕИТЦ/АИ/ГЦМЛ Гоогле Цлоуд Мацхине Леарнинг:
- Шта је регуларизација?
- Да ли постоји тип обуке као модел вештачке интелигенције у коме се истовремено примењују и приступи учењу под надзором и без надзора?
- Како се учење одвија у системима машинског учења без надзора?
- Како користити Фасхион-МНИСТ скуп података у Гоогле Цлоуд Мацхине Леарнинг/АИ платформи?
- Које врсте алгоритама за машинско учење постоје и како их изабрати?
- Када је језгро рачвано са подацима, а оригинал је приватан, да ли рачвано језгро може бити јавно и ако јесте, то није повреда приватности?
- Може ли се логика НЛГ модела користити у друге сврхе осим НЛГ, као што је предвиђање трговања?
- Које су неке детаљније фазе машинског учења?
- Да ли је ТенсорБоард најпрепоручљивији алат за визуелизацију модела?
- Приликом чишћења података, како се може осигурати да подаци нису пристрасни?
Погледајте више питања и одговора у ЕИТЦ/АИ/ГЦМЛ Гоогле Цлоуд Мацхине Леарнинг