рдмрд╣реБрдд рд░реВрдврд╝рд┐рд╡рд╛рджреА рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдЫреЛрдбрд╝рдХрд░ рдЕрдм рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЕрдзрд┐рдХрд╛рдВрд╢ рддрдХрдиреАрдХреА рд╕рдорд╛рдзрд╛рдиреЛрдВ рдореЗрдВ, "рдорд╛рдирд╡" рднрд╛рд╖рд╛рдУрдВ рдХреА рдорд╛рдиреНрдпрддрд╛ рдФрд░ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рд▓рдВрдмреЗ рд╕рдордп рд╕реЗ рд╢реБрд░реВ рдХреА рдЧрдИ рд╣реИ: рдпрд╣реА рдХрд╛рд░рдг рд╣реИ рдХрд┐ рд╣рд╛рд░реНрдб-рдХреЛрдбрд┐рдд рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╛рдорд╛рдиреНрдп рдЖрдИрд╡реАрдЖрд░ рдзреАрд░реЗ-рдзреАрд░реЗ рдЕрддреАрдд рдХреА рдмрд╛рдд рдмрди рд░рд╣реА рд╣реИ, рдЪреИрдЯрдмреЙрдЯреНрд╕ рд▓рд╛рдЗрд╡ рдСрдкрд░реЗрдЯрд░ рдХреА рднрд╛рдЧреАрджрд╛рд░реА рдХреЗ рдмрд┐рдирд╛ рдЕрдзрд┐рдХ рдкрд░реНрдпрд╛рдкреНрдд рд░реВрдк рд╕реЗ рд╕рдВрд╡рд╛рдж рдХрд░рдирд╛ рд╢реБрд░реВ рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рдореЗрд▓ рдлрд╝рд┐рд▓реНрдЯрд░ рдПрдХ рдзрдорд╛рдХреЗ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВ, рдЖрджрд┐ред рд░рд┐рдХреЙрд░реНрдб рдХрд┐рдП рдЧрдП рднрд╛рд╖рдг рдХреА рдкрд╣рдЪрд╛рди, рдкрд╛рда рдХреИрд╕реЗ рд╣реИ? рдпрд╛ рдмрд▓реНрдХрд┐, рдЖрдзреБрдирд┐рдХ рдорд╛рдиреНрдпрддрд╛ рдФрд░ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рддрдХрдиреАрдХреЛрдВ рдХрд╛ рдЖрдзрд╛рд░ рдХреНрдпрд╛ рд╣реЛрдЧрд╛? рд╣рдорд╛рд░рд╛ рдЖрдЬ рдХрд╛ рдЕрдиреБрдХреВрд▓рд┐рдд рдЕрдиреБрд╡рд╛рдж рдЗрд╕ рдкрд░ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рдХрд░рддрд╛ рд╣реИ - рдХрдЯ рдХреЗ рддрд╣рдд рдЖрдкрдХреЛ рдПрдХ рд▓реЙрдиреНрдЧрдбреНрд░рд╛рдЗрд╡ рдорд┐рд▓реЗрдЧрд╛ рдЬреЛ рдПрдирдПрд▓рдкреА рдХреА рдореВрд▓ рдмрд╛рддреЛрдВ рдкрд░ рдЕрдВрддрд░рд╛рд▓ рдХреЛ рдмрдВрдж рдХрд░ рджреЗрдЧрд╛ред рдЕрдЪреНрдЫрд╛ рдкрдврд╝рд╛ рд╣реИ!

рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреНрдпрд╛ рд╣реИ?
рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг (рдмрд╛рдж рдореЗрдВ рдПрдирдПрд▓рдкреА рдХреЗ рд░реВрдк рдореЗрдВ рдЬрд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ) - рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬреНрдЮрд╛рди рдФрд░ рдПрдЖрдИ рдХрд╛ рдПрдХ рдЙрдк-рд╕рдореВрд╣ рд╣реИ рдЬреЛ рдХрдВрдкреНрдпреВрдЯрд░ рдкреНрд░рд╛рдХреГрддрд┐рдХ (рдорд╛рдирд╡) рднрд╛рд╖рд╛рдУрдВ рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдПрдирдПрд▓рдкреА рдкрд╛рда рдФрд░ рднрд╛рд╖рдг рдХреЗ рд▓рд┐рдП рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЗ рдЙрдкрдпреЛрдЧ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред
рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рд╣рдо рдПрдирдПрд▓рдкреА рдХрд╛ рдЙрдкрдпреЛрдЧ рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди, рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдХреЗ рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг, рдорд╢реАрди рдЕрдиреБрд╡рд╛рдж, рд╕реНрдкреИрдо рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ, рдирд╛рдорд┐рдд рд╕рдВрд╕реНрдерд╛рдУрдВ рдХреА рдорд╛рдиреНрдпрддрд╛, рдкреНрд░рд╢реНрдиреЛрдВ рдХреЗ рдЙрддреНрддрд░, рдСрдЯреЛ-рдХрдореНрдкреНрд▓реАрдЯ, рдкреНрд░реЗрдбрд┐рдХреНрдЯрд┐рд╡ рдЯреЗрдХреНрд╕реНрдЯ рдЗрдирдкреБрдЯ рдЗрддреНрдпрд╛рджрд┐ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдЖрдЬ, рд╣рдо рдореЗрдВ рд╕реЗ рдХрдИ рдХреЗ рдкрд╛рд╕ рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рд╡рд╛рд▓реЗ рд╕реНрдорд╛рд░реНрдЯрдлреЛрди рд╣реИрдВ - рд╡реЗ рд╣рдорд╛рд░реЗ рднрд╛рд╖рдг рдХреЛ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдирдПрд▓рдкреА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред рд╕рд╛рде рд╣реА, рдХрдИ рд▓реЛрдЧ рдУрдПрд╕ рдореЗрдВ рдмрд┐рд▓реНрдЯ-рдЗрди рд╕реНрдкреАрдЪ рд░рд┐рдХрдЧреНрдирд┐рд╢рди рд╡рд╛рд▓реЗ рд▓реИрдкрдЯреЙрдк рдХрд╛ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд░рддреЗ рд╣реИрдВред
рдЙрджрд╛рд╣рд░рдг
Cortana
рд╡рд┐рдВрдбреЛрдЬ рдореЗрдВ рдПрдХ Cortana рдЖрднрд╛рд╕реА рд╕рд╣рд╛рдпрдХ рд╣реИ рдЬреЛ рднрд╛рд╖рдг рдХреЛ рдкрд╣рдЪрд╛рдирддрд╛ рд╣реИред рдХреЛрд░рдЯрд╛рдирд╛ рдХреЗ рд╕рд╛рде, рдЖрдк рдЕрдиреБрд╕реНрдорд╛рд░рдХ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ, рдЖрд╡реЗрджрди рдЦреЛрд▓ рд╕рдХрддреЗ рд╣реИрдВ, рдкрддреНрд░ рднреЗрдЬ рд╕рдХрддреЗ рд╣реИрдВ, рдЦреЗрд▓ рдЦреЗрд▓ рд╕рдХрддреЗ рд╣реИрдВ, рдореМрд╕рдо рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛ рд╕рдХрддреЗ рд╣реИрдВ, рдЖрджрд┐ред
рд╕рд┐рд░реА
рд╕рд┐рд░реА Apple рдХреЗ OS рдХреЗ рд▓рд┐рдП рдПрдХ рд╕рд╣рд╛рдпрдХ рд╣реИ: iOS, watchOS, macOS, HomePod, рдФрд░ TVOSред рд╡реЙрдпрд╕ рдХрдВрдЯреНрд░реЛрд▓ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХрдИ рдХрд╛рд░реНрдп рднреА рд╣реЛрддреЗ рд╣реИрдВ: рдХрд┐рд╕реА рдХреЛ рдХреЙрд▓ рдХрд░рдирд╛ / рд▓рд┐рдЦрдирд╛, рдИрдореЗрд▓ рднреЗрдЬрдирд╛, рдЯрд╛рдЗрдорд░ рд╕реЗрдЯ рдХрд░рдирд╛, рдлреЛрдЯреЛ рд▓реЗрдирд╛ рдЖрджрд┐ред
рдЬреАрдореЗрд▓
рдПрдХ рдкреНрд░рд╕рд┐рджреНрдз рдИрдореЗрд▓ рд╕реЗрд╡рд╛ рд╕реНрдкреИрдо рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдирд╛ рдЬрд╛рдирддреА рд╣реИ рддрд╛рдХрд┐ рд╡рд╣ рдЖрдкрдХреЗ рдЗрдирдмреЙрдХреНрд╕ рдХреЗ рдЗрдирдмреЙрдХреНрд╕ рдореЗрдВ рди рдЬрд╛рдПред
Dialogflow
Google рдХрд╛ рдПрдХ рдкреНрд▓реЗрдЯрдлрд╝реЙрд░реНрдо рдЬреЛ рдЖрдкрдХреЛ рдПрдирдПрд▓рдкреА рдмреЙрдЯ рдмрдирд╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдЖрдк рдкрд┐рдЬреНрдЬрд╛ рдСрд░реНрдбрд░ рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдмреЙрдЯ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ, рдЬрд┐рд╕реЗ
рдЖрдкрдХреЗ рдСрд░реНрдбрд░ рдХреЛ рд╕реНрд╡реАрдХрд╛рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкреБрд░рд╛рдиреЗ рдЬрдорд╛рдиреЗ рдХреЗ рдЖрдИрд╡реАрдЖрд░ рдХреА рдЬрд░реВрд░рдд рдирд╣реАрдВ рд╣реИ ред
рдПрдирдПрд▓рдЯреАрдХреЗ рдкрд╛рдпрдерди рд▓рд╛рдЗрдмреНрд░реЗрд░реА
рдПрдирдПрд▓рдЯреАрдХреЗ (рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдЯреВрд▓рдХрд┐рдЯ) рдкрд╛рдпрдерди рдореЗрдВ рдПрдирдПрд▓рдкреА рдХрд╛рд░реНрдпрдХреНрд░рдо рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдкреНрд░рдореБрдЦ рдордВрдЪ рд╣реИред рдЗрд╕рдореЗрдВ рдХрдИ
рднрд╛рд╖рд╛ рдХреЙрд░реНрдкрд╕ рдХреЗ рд╕рд╛рде-рд╕рд╛рде рд╡рд░реНрдЧреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рд╢рдмреНрдж рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреЗ рд▓рд┐рдП рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдореЗрдВ рдЖрд╕рд╛рди рдЗрдВрдЯрд░рдлреЗрд╕ рд╣реИ, tokenization,
stemming ,
markup , filtering рдФрд░
рдЕрд░реНрде рд╕рдВрдмрдВрдзреА рддрд░реНрдХ ред рдЦреИрд░, рдФрд░ рдпрд╣ рдПрдХ рдореБрдлреНрдд рдЦреБрд▓рд╛ рд╕реНрд░реЛрдд рдкрд░рд┐рдпреЛрдЬрдирд╛ рд╣реИ рдЬрд┐рд╕реЗ рд╕рдореБрджрд╛рдп рдХреА рдорджрдж рд╕реЗ рд╡рд┐рдХрд╕рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд░рд╣рд╛ рд╣реИред
рд╣рдо рдЗрд╕ рдЯреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдПрдирдПрд▓рдкреА рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ рджрд┐рдЦрд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд░реЗрдВрдЧреЗред рдмрд╛рдж рдХреЗ рд╕рднреА рдЙрджрд╛рд╣рд░рдгреЛрдВ рдХреЗ рд▓рд┐рдП, рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдПрдирдПрд▓рдЯреАрдХреЗ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдЖрдпрд╛рддрд┐рдд рд╣реИ; рдпрд╣
import nltk
рд╕рд╛рде рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ
рдкрд╛рда рдХреЗ рд▓рд┐рдП рдПрдирдПрд▓рдкреА рдореВрд▓ рдмрд╛рддреЗрдВ
рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рд╣рдо рд╡рд┐рд╖рдпреЛрдВ рдХреЛ рдХрд╡рд░ рдХрд░реЗрдВрдЧреЗ:
- рдкреНрд░рд╕реНрддрд╛рд╡реЛрдВ рджреНрд╡рд╛рд░рд╛ рдЯреЛрдХрдиред
- рд╢рдмреНрджреЛрдВ рджреНрд╡рд╛рд░рд╛ рдЯреЛрдХрдиред
- рдкрд╛рда рдХрд╛ рд▓реЗрдорд┐рдиреЗрд╢рди рдФрд░ рд╕реНрдЯреИрдореНрдкрд┐рдВрдЧ ред
- рд╢рдмреНрджреЛрдВ рдХреЛ рд░реЛрдХреЗрдВред
- рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ред
- рд╢рдмреНрджреЛрдВ рдХрд╛ рдереИрд▓рд╛ ред
- TF-IDF ред
1. рдкреНрд░рд╕реНрддрд╛рд╡реЛрдВ рджреНрд╡рд╛рд░рд╛ рдЯреЛрдХрди
рд╡рд╛рдХреНрдпреЛрдВ рдХрд╛ рдирд┐рд░реВрдкрдг (рдХрднреА-рдХрднреА рд╡рд┐рднрд╛рдЬрди) рдПрдХ рд▓рд┐рдЦрд┐рдд рднрд╛рд╖рд╛ рдХреЛ рдШрдЯрдХ рд╡рд╛рдХреНрдпреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИред рд╡рд┐рдЪрд╛рд░ рдмрд╣реБрдд рд╕рд░рд▓ рд▓рдЧрддрд╛ рд╣реИред рдЕрдВрдЧреНрд░реЗрдЬреА рдФрд░ рдХреБрдЫ рдЕрдиреНрдп рднрд╛рд╖рд╛рдУрдВ рдореЗрдВ, рд╣рдо рд╣рд░ рдмрд╛рд░ рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рд╡рд┐рд░рд╛рдо рдЪрд┐рд╣реНрди - рдПрдХ рдЕрд╡рдзрд┐ рдХреЗ рд▓рд┐рдП рдПрдХ рд╡рд╛рдХреНрдп рдХреЛ рдЕрд▓рдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рд▓реЗрдХрд┐рди рдЕрдВрдЧреНрд░реЗрдЬреА рдореЗрдВ рднреА рдпрд╣ рдХрд╛рд░реНрдп рддреБрдЪреНрдЫ рдирд╣реАрдВ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдмрд┐рдВрджреБ рдХрд╛ рдЙрдкрдпреЛрдЧ рд╕рдВрдХреНрд╖рд┐рдкреНрдд рд░реВрдк рдореЗрдВ рднреА рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рд╕рдВрдХреНрд╖рд┐рдкреНрдд рдирд╛рдо рддрд╛рд▓рд┐рдХрд╛ рд╢рдмреНрдж рд╕рдВрд╕рд╛рдзрди рдХреЗ рджреМрд░рд╛рди рд╡рд╛рдХреНрдп рд╕реАрдорд╛рдУрдВ рдХреЗ рдЧрд▓рдд рдЗрд╕реНрддреЗрдорд╛рд▓ рд╕реЗ рдмрдЪрдиреЗ рдореЗрдВ рдмрд╣реБрдд рдорджрдж рдХрд░ рд╕рдХрддреА рд╣реИред рдЬреНрдпрд╛рджрд╛рддрд░ рдорд╛рдорд▓реЛрдВ рдореЗрдВ, рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдЗрд╕рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдЖрдкрдХреЛ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рд╡рд┐рд╡рд░рдг рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдЪрд┐рдВрддрд╛ рдХрд░рдиреЗ рдХреА рдЬрд╝рд░реВрд░рдд рдирд╣реАрдВ рд╣реИред
рдПрдХ рдЙрджрд╛рд╣рд░рдг:рдмреИрдХрдЧреИрдореМрди рдмреЛрд░реНрдб рдЧреЗрдо рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдПрдХ рдЫреЛрдЯрд╛ рдкрд╛рда рд▓реЗрдВ:
Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.
NLTK рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдСрдлрд╝рд░ рдЯреЛрдХрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк
nltk.sent_tokenize
рд╡рд┐рдзрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ
| рдкрд╛рда = "рдмреИрдХрдЧреИрдореМрди рд╕рдмрд╕реЗ рдкреБрд░рд╛рдиреЗ рдЬреНрдЮрд╛рдд рдмреЛрд░реНрдб рдЧреЗрдореЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рд╣реИред рдЗрд╕рдХрд╛ рдЗрддрд┐рд╣рд╛рд╕ рдордзреНрдп рдкреВрд░реНрд╡ рдореЗрдВ рдкреБрд░рд╛рддрддреНрд╡ рдЦреЛрдЬреЛрдВ рдореЗрдВ рд▓рдЧрднрдЧ 5,000 рд╡рд░реНрд╖реЛрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдпрд╣ рдПрдХ рджреЛ рдЦрд┐рд▓рд╛рдбрд╝реА рдХрд╛ рдЦреЗрд▓ рд╣реИ, рдЬрд╣рд╛рдВ рдкреНрд░рддреНрдпреЗрдХ рдЦрд┐рд▓рд╛рдбрд╝реА рдореЗрдВ рдкрдВрджреНрд░рд╣ рдЪреЗрдХрд░реНрд╕ рд╣реЛрддреЗ рд╣реИрдВ рдЬреЛ рдЪреМрдмреАрд╕ рдЕрдВрдХреЛрдВ рдХреЗ рдмреАрдЪ рдЪрд▓рддреЗ рд╣реИрдВред рджреЛ рдкрд╛рд╕рд╛ рдХреЗ рд░реЛрд▓ рдХреЗ рд▓рд┐рдПред тАЭ |
| рд╡рд╛рдХреНрдп = nltk ред sent_tokenize ( рдкрд╛рда ) |
| рдХреЗ рд▓рд┐рдП рд╡рд╛рдХреНрдп рдореЗрдВ рд╡рд╛рдХреНрдп : |
| рдкреНрд░рд┐рдВрдЯ ( рд╡рд╛рдХреНрдп ) |
| рдкреНрд░рд┐рдВрдЯ рдХрд░реЗрдВ () |
рдмрд╛рд╣рд░ рдирд┐рдХрд▓рдиреЗ рдкрд░, рд╣рдореЗрдВ 3 рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡рд╛рдХреНрдп рдорд┐рд▓рддреЗ рд╣реИрдВ:
Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.
2. рд╢рдмреНрджреЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдЯреЛрдХрдиреЗрд╢рди
рд╢рдмреНрджреЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдЯреЛрдХрдирдХрд░рдг (рдХрднреА-рдХрднреА рд╡рд┐рднрд╛рдЬрди) рдШрдЯрдХ рд╢рдмреНрджреЛрдВ рдореЗрдВ рд╡рд╛рдХреНрдпреЛрдВ рдХреЛ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИред рдЕрдВрдЧреНрд░реЗрдЬреА рдФрд░ рдХрдИ рдЕрдиреНрдп рднрд╛рд╖рд╛рдУрдВ рдореЗрдВ рдЬреЛ рд▓реИрдЯрд┐рди рд╡рд░реНрдгрдорд╛рд▓рд╛ рдХреЗ рдПрдХ рдпрд╛ рджреВрд╕рд░реЗ рд╕рдВрд╕реНрдХрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ, рдПрдХ рд╕реНрдерд╛рди рдПрдХ рдЕрдЪреНрдЫрд╛ рд╢рдмреНрдж рд╡рд┐рднрд╛рдЬрдХ рд╣реИред
рд╣рд╛рд▓рд╛рдБрдХрд┐, рд╕рдорд╕реНрдпрд╛рдПрдВ рдЙрддреНрдкрдиреНрди рд╣реЛ рд╕рдХрддреА рд╣реИрдВ рдпрджрд┐ рд╣рдо рдХреЗрд╡рд▓ рдПрдХ рд╕реНрдерд╛рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ - рдЕрдВрдЧреНрд░реЗрдЬреА рдореЗрдВ, рдпреМрдЧрд┐рдХ рд╕рдВрдЬреНрдЮрд╛рдПрдВ рдЕрд▓рдЧ-рдЕрд▓рдЧ рд▓рд┐рдЦреА рдЬрд╛рддреА рд╣реИрдВ рдФрд░ рдХрднреА-рдХрднреА рд░рд┐рдХреНрдд рд╕реНрдерд╛рди рджреНрд╡рд╛рд░рд╛ рдЕрд▓рдЧ рд╣реЛ рдЬрд╛рддреА рд╣реИрдВред рдФрд░ рдпрд╣рд╛рдБ рдкреБрд╕реНрддрдХрд╛рд▓рдп рд╣рдорд╛рд░реА рдлрд┐рд░ рд╕реЗ рдорджрдж рдХрд░рддреЗ рд╣реИрдВред
рдПрдХ рдЙрджрд╛рд╣рд░рдг:рдЪрд▓реЛ рдкрд┐рдЫрд▓реЗ рдЙрджрд╛рд╣рд░рдг рд╕реЗ рд╡рд╛рдХреНрдп рд▓реЗрддреЗ рд╣реИрдВ рдФрд░ рдЙрдирдХреЗ рд▓рд┐рдП
nltk.word_tokenize
рд╡рд┐рдзрд┐ рд▓рд╛рдЧреВ рдХрд░рддреЗ рд╣реИрдВ
| рдХреЗ рд▓рд┐рдП рд╡рд╛рдХреНрдп рдореЗрдВ рд╡рд╛рдХреНрдп : |
| words = nltk.word_tokenize(sentence) |
| print(words) |
| print() |
рдирд┐рд╖реНрдХрд░реНрд╖:
['Backgammon', 'is', 'one', 'of', 'the', 'oldest', 'known', 'board', 'games', '.'] ['Its', 'history', 'can', 'be', 'traced', 'back', 'nearly', '5,000', 'years', 'to', 'archeological', 'discoveries', 'in', 'the', 'Middle', 'East', '.'] ['It', 'is', 'a', 'two', 'player', 'game', 'where', 'each', 'player', 'has', 'fifteen', 'checkers', 'which', 'move', 'between', 'twenty-four', 'points', 'according', 'to', 'the', 'roll', 'of', 'two', 'dice', '.']
3. рдкрд╛рда рдХрд╛ рд▓реЗрдорд┐рдиреЗрд╢рди рдФрд░ рд╕реНрдЯреИрдореНрдкрд┐рдВрдЧ
рдЖрдорддреМрд░ рдкрд░ рдЧреНрд░рдВрдереЛрдВ рдореЗрдВ рдПрдХ рд╣реА рд╢рдмреНрдж рдХреЗ рд╡рд┐рднрд┐рдиреНрди рд╡реНрдпрд╛рдХрд░рдгрд┐рдХ рд░реВрдк рд╣реЛрддреЗ рд╣реИрдВ, рдФрд░ рдПрдХ-рдореВрд▓ рд╢рдмреНрдж рднреА рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВред Lemmatization рдФрд░ stemming рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рд╕рднреА рд╣реЛрдиреЗ рд╡рд╛рд▓реЗ рд╢рдмреНрдж рд░реВрдкреЛрдВ рдХреЛ рдПрдХ рдПрдХрд▓, рд╕рд╛рдорд╛рдиреНрдп рд╢рдмреНрджрд╛рд╡рд▓реА рд░реВрдк рдореЗрдВ рд▓рд╛рдирд╛ рд╣реИред
рдЙрджрд╛рд╣рд░рдг:рд╡рд┐рднрд┐рдиреНрди рд╢рдмреНрдж рд░реВрдкреЛрдВ рдХреЛ рдПрдХ рдореЗрдВ рд▓рд╛рдирд╛:
dog, dogs, dog's, dogs' => dog
рд╡рд╣реА, рд▓реЗрдХрд┐рди рдкреВрд░реЗ рд╡рд╛рдХреНрдп рдХреЗ рд╕рдВрджрд░реНрдн рдореЗрдВ:
the boy's dogs are different sizes => the boy dog be differ size
Lemmatization рдФрд░ stemming рд╕рд╛рдорд╛рдиреНрдпреАрдХрд░рдг рдХреЗ рд╡рд┐рд╢реЗрд╖ рдорд╛рдорд▓реЗ рд╣реИрдВ рдФрд░ рд╡реЗ рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╣реИрдВред
рд╕реНрдЯреЗрдорд┐рдВрдЧ рдПрдХ рдХреНрд░реВрдб рд╣реЗрдпреБрд░рд┐рд╕реНрдЯрд┐рдХ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИ рдЬреЛ рд╢рдмреНрджреЛрдВ рдХреА рдЬрдбрд╝ рд╕реЗ "рдЕрддрд┐рд░рд┐рдХреНрдд" рдХреЛ рдХрд╛рдЯрддреА рд╣реИ, рдЕрдХреНрд╕рд░ рдпрд╣ рд╢рдмреНрдж-рдирд┐рд░реНрдорд╛рдг рдкреНрд░рддреНрдпрдп рдХреЗ рдиреБрдХрд╕рд╛рди рдХреА рдУрд░ рдЬрд╛рддрд╛ рд╣реИред
Lemmatization рдПрдХ рдЕрдзрд┐рдХ рд╕реВрдХреНрд╖реНрдо рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИ рдЬреЛ рд╢рдмреНрджрд╛рд╡рд▓реА рдФрд░ рд░реВрдкрд╛рддреНрдордХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЕрдВрддрддрдГ рд╢рдмреНрдж рдХреЛ рдЕрдкрдиреЗ рд╡рд┐рд╣рд┐рдд рд░реВрдк - рд▓реЗрдореНрдорд╛ рдореЗрдВ рд▓рд╛рддреА рд╣реИред
рдЕрдВрддрд░ рдпрд╣ рд╣реИ рдХрд┐ рд╕реНрдЯреЗрдорд░ (рд╕реНрдЯреЗрдорд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХрд╛ рдПрдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди - рдЕрдиреБрд╡рд╛рджрдХ рдЯрд┐рдкреНрдкрдгреА) рд╕рдВрджрд░реНрдн рдХреЛ рдЬрд╛рдирдиреЗ рдХреЗ рдмрд┐рдирд╛ рд╕рдВрдЪрд╛рд▓рд┐рдд рд╣реЛрддрд╛ рд╣реИ рдФрд░ рддрджрдиреБрд╕рд╛рд░, рдЙрди рд╢рдмреНрджреЛрдВ рдХреЗ рдмреАрдЪ рдЕрдВрддрд░ рдХреЛ рдирд╣реАрдВ рд╕рдордЭрддрд╛ рд╣реИ рдЬрд┐рдирдХреЗ рднрд╛рд╖рдг рдХреЗ рд╣рд┐рд╕реНрд╕реЗ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдЕрд░реНрде рд╣реИрдВред рд╣рд╛рд▓рд╛рдВрдХрд┐, рд╕реНрдЯреЗрдорд░реНрд╕ рдХреЗ рдЕрдкрдиреЗ рдлрд╛рдпрджреЗ рд╣реИрдВ: рдЙрдиреНрд╣реЗрдВ рд▓рд╛рдЧреВ рдХрд░рдирд╛ рдЖрд╕рд╛рди рд╣реИ рдФрд░ рд╡реЗ рддреЗрдЬреА рд╕реЗ рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдХрдо "рд╕рдЯреАрдХрддрд╛" рдХреБрдЫ рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдорд╛рдпрдиреЗ рдирд╣реАрдВ рд░рдЦ рд╕рдХрддреА рд╣реИред
рдЙрджрд╛рд╣рд░рдг:- рд╢рдмреНрдж рдЕрдЪреНрдЫрд╛ рд╣реИ рд╢рдмреНрдж рдХреЗ рд▓рд┐рдП рдмреЗрд╣рддрд░ рдПрдХ рдиреАрдВрдмреВ рд╣реИред рд╕реНрдЯреАрдорд░ рдЗрд╕ рдХрдиреЗрдХреНрд╢рди рдХреЛ рдирд╣реАрдВ рджреЗрдЦреЗрдЧрд╛, рдпрд╣рд╛рдБ рд╕реЗ рдЖрдкрдХреЛ рд╢рдмреНрджрдХреЛрд╢ рд╕реЗ рдкрд░рд╛рдорд░реНрд╢ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред
- рд╢рдмреНрдж рдХрд╛ рдЦреЗрд▓ рдЦреЗрд▓рдирд╛ рд╢рдмреНрдж рдХрд╛ рдореВрд▓ рд░реВрдк рд╣реИред рдпрд╣рд╛рдВ рд╕реНрдЯреЗрдорд┐рдВрдЧ рдФрд░ рд▓реЗрдореЗрдЯрд╛рдЗрдЬреЗрд╢рди рджреЛрдиреЛрдВ рд╕рд╛рдордирд╛ рдХрд░реЗрдВрдЧреЗред
- рд╢рдмреНрдж рдмреИрдардХ рдпрд╛ рддреЛ рд╕рдВрдЬреНрдЮрд╛ рдХрд╛ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рд░реВрдк рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдпрд╛ рд╕рдВрджрд░реНрдн рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдорд┐рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдХреНрд░рд┐рдпрд╛ рдХрд╛ рдПрдХ рд░реВрдк рд╣реЛ рд╕рдХрддрд╛ рд╣реИред рд╕реНрдЯреЗрдорд┐рдВрдЧ рдХреЗ рд╡рд┐рдкрд░реАрдд, рд▓реЗрдЯрдореИрдЯрд╛рдЗрдЬреЗрд╢рди рд╕рдВрджрд░реНрдн рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╕рд╣реА рд▓реЗрдореНрдорд╛ рдЪреБрдирдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реЗрдЧрд╛ред
рдЕрдм рд╣рдо рдЬрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдЕрдВрддрд░ рдХреНрдпрд╛ рд╣реИ, рдЖрдЗрдП рдПрдХ рдЙрджрд╛рд╣рд░рдг рджреЗрдЦреЗрдВ:
| from nltk.stem import PorterStemmer, WordNetLemmatizer |
| from nltk.corpus import wordnet |
| |
| def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos): |
| """ |
| Print the results of stemmind and lemmitization using the passed stemmer, lemmatizer, word and pos (part of speech) |
| """ |
| print("Stemmer:", stemmer.stem(word)) |
| print("Lemmatizer:", lemmatizer.lemmatize(word, pos)) |
| print() |
| |
| lemmatizer = WordNetLemmatizer() |
| stemmer = PorterStemmer() |
| compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "seen", pos = wordnet.VERB) |
| compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "drove", pos = wordnet.VERB) |
рдирд┐рд╖реНрдХрд░реНрд╖:
Stemmer: seen Lemmatizer: see Stemmer: drove Lemmatizer: drive
4. рд╢рдмреНрджреЛрдВ рдХреЛ рд░реЛрдХреЗрдВ
рд░реЛрдХ рд╢рдмреНрдж рд╡реЗ рд╢рдмреНрдж рд╣реИрдВ рдЬреЛ рдкрд╛рда рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рд╕реЗ рдкрд╣рд▓реЗ / рдмрд╛рдж рдореЗрдВ рдкрд╛рда рд╕реЗ рдмрд╛рд╣рд░ рдлреЗрдВрдХ рджрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред рдЬрдм рд╣рдо рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХреЛ рдЧреНрд░рдВрдереЛрдВ рдкрд░ рд▓рд╛рдЧреВ рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдРрд╕реЗ рд╢рдмреНрдж рдмрд╣реБрдд рдЕрдзрд┐рдХ рд╢реЛрд░ рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рдЖрдкрдХреЛ рдЕрдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╢рдмреНрджреЛрдВ рд╕реЗ рдЫреБрдЯрдХрд╛рд░рд╛ рдкрд╛рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред
рд╕реНрдЯреЙрдк рд╢рдмреНрджреЛрдВ рдХреЛ рдЖрдорддреМрд░ рдкрд░ рд▓реЗрдЦреЛрдВ, рдЕрдиреБрдорд╛рдиреЛрдВ, рдпреВрдирд┐рдпрдиреЛрдВ, рдЖрджрд┐ рджреНрд╡рд╛рд░рд╛ рд╕рдордЭрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ рд╢рдмреНрджрд╛рд░реНрде рд▓реЛрдб рдирд╣реАрдВ рдХрд░рддреЗ рд╣реИрдВред рдпрд╣ рд╕рдордЭрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП рдХрд┐ рд╕реНрдЯреЙрдк рд╢рдмреНрджреЛрдВ рдХреА рдХреЛрдИ рд╕рд╛рд░реНрд╡рднреМрдорд┐рдХ рд╕реВрдЪреА рдирд╣реАрдВ рд╣реИ, рдпрд╣ рд╕рдм рд╡рд┐рд╢реЗрд╖ рдорд╛рдорд▓реЗ рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИред
рдПрдирдПрд▓рдЯреАрдХреЗ рдореЗрдВ рд╕реНрдЯреЙрдк рд╢рдмреНрджреЛрдВ рдХреА рдкреВрд░реНрд╡рдирд┐рд░реНрдзрд╛рд░рд┐рдд рд╕реВрдЪреА рд╣реИред рдкрд╣рд▓реЗ рдЙрдкрдпреЛрдЧ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ рдЗрд╕реЗ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрдЧреА:
nltk.download(тАЬstopwordsтАЭ)
ред рдбрд╛рдЙрдирд▓реЛрдб рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж, рдЖрдк
stopwords
рдкреИрдХреЗрдЬ рдХреЛ рдЖрдпрд╛рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдФрд░ рд╕реНрд╡рдпрдВ рд╢рдмреНрджреЛрдВ рдХреЛ рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ:
| from nltk.corpus import stopwords |
| print(stopwords.words("english")) |
рдирд┐рд╖реНрдХрд░реНрд╖:
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', "don't", 'should', "should've", 'now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren', "aren't", 'couldn', "couldn't", 'didn', "didn't", 'doesn', "doesn't", 'hadn', "hadn't", 'hasn', "hasn't", 'haven', "haven't", 'isn', "isn't", 'ma', 'mightn', "mightn't", 'mustn', "mustn't", 'needn', "needn't", 'shan', "shan't", 'shouldn', "shouldn't", 'wasn', "wasn't", 'weren', "weren't", 'won', "won't", 'wouldn', "wouldn't"]
рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ рдХрд┐ рдЖрдк рд╢рдмреНрджреЛрдВ рдХреЛ рдПрдХ рд╡рд╛рдХреНрдп рд╕реЗ рдХреИрд╕реЗ рд╣рдЯрд╛ рд╕рдХрддреЗ рд╣реИрдВ:
| stop_words = set(stopwords.words("english")) |
| sentence = "Backgammon is one of the oldest known board games." |
| |
| words = nltk.word_tokenize(sentence) |
| without_stop_words = [word for word in words if not word in stop_words] |
| print(without_stop_words) |
рдирд┐рд╖реНрдХрд░реНрд╖:
['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']
рдпрджрд┐ рдЖрдк рд╕реВрдЪреА рд╕рдордЭ рд╕реЗ рдкрд░рд┐рдЪрд┐рдд рдирд╣реАрдВ рд╣реИрдВ, рддреЛ рдЖрдк
рдпрд╣рд╛рдБ рдФрд░ рдЕрдзрд┐рдХ рдЬрд╛рдирдХрд╛рд░реА рдкреНрд░рд╛рдкреНрдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдпрд╣рд╛рдВ рдПрдХ рд╣реА рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХрд╛ рдПрдХ рдФрд░ рддрд░реАрдХрд╛ рд╣реИ:
| stop_words = set(stopwords.words("english")) |
| sentence = "Backgammon is one of the oldest known board games." |
| |
| words = nltk.word_tokenize(sentence) |
| without_stop_words = [] |
| for word in words: |
| if word not in stop_words: |
| without_stop_words.append(word) |
| |
| print(without_stop_words) |
рд╣рд╛рд▓рд╛рдВрдХрд┐, рдпрд╛рдж рд░рдЦреЗрдВ рдХрд┐ рд╕реВрдЪреА рдХреА рд╕рдордЭ рддреЗрдЬрд╝ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рд╡реЗ рдЕрдиреБрдХреВрд▓рд┐рдд рд╣реИрдВ - рджреБрднрд╛рд╖рд┐рдпрд╛ рд▓реВрдк рдХреЗ рджреМрд░рд╛рди рдПрдХ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдкреИрдЯрд░реНрди рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛ рдХрд░рддрд╛ рд╣реИред
рдЖрдк рдкреВрдЫ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рд╣рдордиреЗ рд╕реВрдЪреА рдХреЛ
рдХрдИ рдореЗрдВ рдХреНрдпреЛрдВ рдмрджрд▓ рджрд┐рдпрд╛ред рдПрдХ рд╕реЗрдЯ рдПрдХ рд╕рд╛рд░ рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░ рд╣реИ рдЬреЛ рдПрдХ рдЕрдкрд░рд┐рднрд╛рд╖рд┐рдд рдХреНрд░рдо рдореЗрдВ рдЕрджреНрд╡рд┐рддреАрдп рдореВрд▓реНрдпреЛрдВ рдХреЛ рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд░ рд╕рдХрддрд╛ рд╣реИред рдХрд┐рд╕реА рд╕реВрдЪреА рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЦреЛрдЬ рдХрд░рдиреЗ рд╕реЗ рд╕реЗрдЯ рджреНрд╡рд╛рд░рд╛ рдЦреЛрдЬ рдХрд░рдирд╛ рдмрд╣реБрдд рддреЗрдЬрд╝ рд╣реИред рдХрдо рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рд╢рдмреНрджреЛрдВ рдХреЗ рд▓рд┐рдП, рдпрд╣ рдХреЛрдИ рдлрд░реНрдХ рдирд╣реАрдВ рдкрдбрд╝рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдЕрдЧрд░ рд╣рдо рдмрдбрд╝реА рд╕рдВрдЦреНрдпрд╛ рдореЗрдВ рд╢рдмреНрджреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рддреЛ рдпрд╣ рд╕реЗрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдбрд╝рд╛рдИ рд╕реЗ рдЕрдиреБрд╢рдВрд╕рд┐рдд рд╣реИред рдпрджрд┐ рдЖрдк рд╡рд┐рднрд┐рдиреНрди рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рдХрд░рдиреЗ рдореЗрдВ рд▓рдЧрдиреЗ рд╡рд╛рд▓реЗ рд╕рдордп рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдереЛрдбрд╝рд╛ рдФрд░ рдЬрд╛рдирдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рддреЛ
рдЗрд╕ рдЕрджреНрднреБрдд рдЪреАрдЯ рд╢реАрдЯ рдХреЛ рджреЗрдЦреЗрдВ ред
5. рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ред
рдПрдХ рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ (regex, regexp, regex) рд╡рд░реНрдгреЛрдВ рдХрд╛ рдПрдХ рдХреНрд░рдо рд╣реИ рдЬреЛ рдПрдХ рдЦреЛрдЬ рдкреИрдЯрд░реНрди рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддрд╛ рд╣реИред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП:
- ред - рд▓рд╛рдЗрди рдлреАрдб рдХреЛ рдЫреЛрдбрд╝рдХрд░ рдХреЛрдИ рднреА рдЪрд░рд┐рддреНрд░;
- \ w рдПрдХ рд╢рдмреНрдж рд╣реИ;
- \ d - рдПрдХ рдЕрдВрдХ;
- \ s - рдПрдХ рд╕реНрдерд╛рди;
- \ W рдПрдХ рдЧреИрд░-рд╢рдмреНрдж рд╣реИ;
- \ D - рдПрдХ рдЧреИрд░-рдЕрдВрдХ;
- \ S - рдПрдХ рдЧреИрд░-рд╕реНрдерд╛рди;
- [рдПрдмреАрд╕реА] - рдХреЛрдИ рднреА рдирд┐рд░реНрджрд┐рд╖реНрдЯ рд╡рд░реНрдг рдХрд┐рд╕реА рднреА, рдмреА рдпрд╛ рд╕реА рд╕реЗ рдореЗрд▓ рдЦрд╛рддрд╛ рд╣реИ;
- [^ abc] - рдирд┐рд░реНрджрд┐рд╖реНрдЯ рд▓реЛрдЧреЛрдВ рдХреЛ рдЫреЛрдбрд╝рдХрд░ рдХреЛрдИ рднреА рдЪрд░рд┐рддреНрд░ рдкрд╛рддрд╛ рд╣реИ;
- [рдПрдЬреА] - рдПрдХ рдЬреА рд╕реЗ рд╕реАрдорд╛ рдореЗрдВ рдПрдХ рдЪрд░рд┐рддреНрд░ рдкрд╛рддрд╛ рд╣реИред
рдкрд╛рдпрдерди рдкреНрд░рд▓реЗрдЦрди рд╕реЗ рдЕрдВрд╢:
рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпрд╛рдБ рд╡рд┐рд╢реЗрд╖ рд░реВрдкреЛрдВ рдХреЛ рдЗрдВрдЧрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдпрд╛ рд╡рд┐рд╢реЗрд╖ рд╡рд░реНрдгреЛрдВ рдХреЗ рдЙрдкрдпреЛрдЧ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдмреИрдХрд╕реНрд▓реИрд╢ (\)
рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреА рд╣реИрдВред рдпрд╣ рдкрд╛рдпрдерди рдореЗрдВ рдмреИрдХрд╕реНрд▓реИрд╢ рдХреЗ рдЙрдкрдпреЛрдЧ рдХрд╛ рд╡рд┐рд░реЛрдз рдХрд░рддрд╛ рд╣реИ: рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдмреИрдХрд╕реНрд▓реИрд╢ рдХрд╛ рд╢рд╛рдмреНрджрд┐рдХ рдЕрд░реНрде рдмрддрд╛рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдкрдХреЛ рдПрдХ рдЦреЛрдЬ рдкреИрдЯрд░реНрди рдХреЗ рд░реВрдк рдореЗрдВ '\\\\'
рд▓рд┐рдЦрдирд╛ рд╣реЛрдЧрд╛, рдХреНрдпреЛрдВрдХрд┐ рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ \\
рддрд░рд╣ рджрд┐рдЦрдирд╛ рдЪрд╛рд╣рд┐рдП, рдЬрд╣рд╛рдВ рдмреИрдХрд╕реНрд▓реИрд╢ рд╕реЗ рдмрдЪ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред
рдЗрд╕рдХрд╛ рд╕рдорд╛рдзрд╛рди рдЦреЛрдЬ рдкреИрдЯрд░реНрди рдХреЗ рд▓рд┐рдП рдХрдЪреНрдЪреЗ рд╕реНрдЯреНрд░рд┐рдВрдЧ рд╕рдВрдХреЗрддрди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рд╣реИ; рдпрджрд┐ рдЙрдкрд╕рд░реНрдЧ 'r'
рд╕рд╛рде рдкреНрд░рдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рддреЛ рдмреИрдХрд╕реНрд▓реИрд╢ рдХреЛ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рд╕рдВрд╕рд╛рдзрд┐рдд рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛ред рдЗрд╕ рдкреНрд░рдХрд╛рд░ rтАЭ\nтАЭ
рджреЛ рд╡рд░реНрдгреЛрдВ ('\' 'n')
рд╕рд╛рде рдПрдХ рд╕реНрдЯреНрд░рд┐рдВрдЧ рд╣реИ, рдФрд░ тАЬ\nтАЭ
рдПрдХ рд╡рд░реНрдг (рдкрдВрдХреНрддрд┐ рдлрд╝реАрдб) рдХреЗ рд╕рд╛рде рдПрдХ рд╕реНрдЯреНрд░рд┐рдВрдЧ рд╣реИред
рд╣рдо рдЕрдкрдиреЗ рдкрд╛рда рдХреЛ рдЖрдЧреЗ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рдпрдорд┐рдд рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдЖрдк рдЙрди рд╕рднреА рд╡рд░реНрдгреЛрдВ рдХреЛ рд╣рдЯрд╛ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рд╢рдмреНрдж рдирд╣реАрдВ рд╣реИрдВред рдХрдИ рдорд╛рдорд▓реЛрдВ рдореЗрдВ, рд╡рд┐рд░рд╛рдо рдЪрд┐рд╣реНрди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реЛрддреА рд╣реИ рдФрд░ рдирд┐рдпрдорд┐рдд рдХреА рдорджрдж рд╕реЗ рдирд┐рдХрд╛рд▓рдирд╛ рдЖрд╕рд╛рди рд╣реЛрддрд╛ рд╣реИред
рдкрд╛рдпрдерди рдореЗрдВ
рдкреБрди: рдореЙрдбреНрдпреВрд▓ рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рд╕рдВрдЪрд╛рд▓рди рдХрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдХрд░рддрд╛ рд╣реИред рд╣рдо рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдкреИрдЯрд░реНрди рдХреЗ рд╕рд╛рде рдЦреЛрдЬ рдкреИрдЯрд░реНрди рдХреЛ рдлрд┐рдЯ рдХрд░рдиреЗ рд╡рд╛рд▓реА рд╣рд░ рдЪреАрдЬ рдХреЛ рдмрджрд▓рдиреЗ рдХреЗ рд▓рд┐рдП
re.sub рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рддреЛ рдЖрдк рд╕рднреА рдЧреИрд░-рд╢рдмреНрджреЛрдВ рдХреЛ рд░рд┐рдХреНрдд рд╕реНрдерд╛рди рд╕реЗ рдмрджрд▓ рд╕рдХрддреЗ рд╣реИрдВ:
| import re |
| sentence = "The development of snowboarding was inspired by skateboarding, sledding, surfing and skiing." |
| pattern = r"[^\w]" |
| print(re.sub(pattern, " ", sentence)) |
рдирд┐рд╖реНрдХрд░реНрд╖:
'The development of snowboarding was inspired by skateboarding sledding surfing and skiing '
рдирд┐рдпрдорд┐рдд рдПрдХ рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рдЙрдкрдХрд░рдг рд╣реИ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдЕрдзрд┐рдХ рдЬрдЯрд┐рд▓ рдкреИрдЯрд░реНрди рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред рдпрджрд┐ рдЖрдк рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЕрдзрд┐рдХ рдЬрд╛рдирдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рддреЛ рдореИрдВ рдЗрди 2 рд╡реЗрдм рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреА рд╕рд┐рдлрд╛рд░рд┐рд╢ рдХрд░ рд╕рдХрддрд╛ рд╣реВрдВ:
regex ,
regex101 ред
6. рд╢рдмреНрджреЛрдВ рдХрд╛ рдереИрд▓рд╛
рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рд╕реАрдзреЗ рдХрдЪреНрдЪреЗ рдкрд╛рда рдХреЗ рд╕рд╛рде рдХрд╛рдо рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдЖрдкрдХреЛ рдкрд╛рда рдХреЛ рд╕рдВрдЦреНрдпрд╛рдУрдВ (рд╡реИрдХреНрдЯрд░) рдХреЗ рд╕реЗрдЯ рдореЗрдВ рдмрджрд▓рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЗрд╕реЗ
рдлреАрдЪрд░ рдирд┐рд╖реНрдХрд░реНрд╖рдг рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред
рдПрдХ рд╢рдмреНрдж рдмреИрдЧ рдПрдХ рд▓реЛрдХрдкреНрд░рд┐рдп рдФрд░ рд╕рд░рд▓ рд╕реБрд╡рд┐рдзрд╛ рдирд┐рд╖реНрдХрд░реНрд╖рдг рддрдХрдиреАрдХ рд╣реИ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдкрд╛рда рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддреЗ рд╕рдордп рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдпрд╣ рдкрд╛рда рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ рд╢рдмреНрдж рдХреА рдШрдЯрдирд╛рдУрдВ рдХрд╛ рд╡рд░реНрдгрди рдХрд░рддрд╛ рд╣реИред
рдореЙрдбрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдореЗрдВ рдЪрд╛рд╣рд┐рдП:
- рдЬреНрдЮрд╛рдд рд╢рдмреНрджреЛрдВ (рдЯреЛрдХрди) рдХреЗ рдПрдХ рд╢рдмреНрджрдХреЛрд╢ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░реЗрдВред
- рдкреНрд░рд╕рд┐рджреНрдз рд╢рдмреНрджреЛрдВ рдХреА рдЙрдкрд╕реНрдерд┐рддрд┐ рдХреА рдбрд┐рдЧреНрд░реА рдЪреБрдиреЗрдВред
рд╢рдмреНрджреЛрдВ рдХреЗ рдХреНрд░рдо рдпрд╛ рд╕рдВрд░рдЪрдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХрд┐рд╕реА рднреА рдЬрд╛рдирдХрд╛рд░реА рдХреЛ рдЕрдирджреЗрдЦрд╛ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдЗрд╕рд▓рд┐рдП рдЗрд╕реЗ рд╢рдмреНрджреЛрдВ рдХрд╛ BAG рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред рдпрд╣ рдореЙрдбрд▓ рдпрд╣ рд╕рдордЭрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреНрдпрд╛ рдПрдХ рдкрд░рд┐рдЪрд┐рдд рд╢рдмреНрдж рдХрд┐рд╕реА рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рджрд┐рдЦрд╛рдИ рджреЗрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рдирд╣реАрдВ рдЬрд╛рдирддрд╛ рдХрд┐ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдпрд╣ рдХрд╣рд╛рдБ рд╣реЛрддрд╛ рд╣реИред
рдЕрдВрддрд░реНрдЬреНрдЮрд╛рди рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ рдХрд┐
рд╕рдорд╛рди рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдореЗрдВ
рд╕рдорд╛рди рд╕рд╛рдордЧреНрд░реА рд╣реИ ред рд╕рд╛рде рд╣реА, рд╕рд╛рдордЧреНрд░реА рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рдж, рд╣рдо рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдЕрд░реНрде рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХреБрдЫ рд╕реАрдЦ рд╕рдХрддреЗ рд╣реИрдВред
рдПрдХ рдЙрджрд╛рд╣рд░рдг:рдЗрд╕ рдореЙрдбрд▓ рдХреЛ рдмрдирд╛рдиреЗ рдХреЗ рдЪрд░рдгреЛрдВ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВред рдореЙрдбрд▓ рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ рдпрд╣ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо рдХреЗрд╡рд▓ 4 рд╡рд╛рдХреНрдпреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЬреАрд╡рди рдореЗрдВ, рдЖрдк рдЕрдзрд┐рдХ рдбреЗрдЯрд╛ рдХрд╛ рд╕рд╛рдордирд╛ рдХрд░реЗрдВрдЧреЗред
1. рдбреЗрдЯрд╛ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░реЗрдВ
рдХрд▓реНрдкрдирд╛ рдХреАрдЬрд┐рдП рдХрд┐ рдпрд╣ рд╣рдорд╛рд░рд╛ рдбреЗрдЯрд╛ рд╣реИ рдФрд░ рд╣рдо рдЗрд╕реЗ рдПрдХ рд╕рд░рдгреА рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЛрдб рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ:
I like this movie, it's funny. I hate this movie. This was awesome! I like it. Nice one. I love it.
рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдмрд╕ рдлрд╝рд╛рдЗрд▓ рдкрдврд╝реЗрдВ рдФрд░ рд▓рд╛рдЗрди рд╕реЗ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░реЗрдВ:
| with open("simple movie reviews.txt", "r") as file: |
| documents = file.read().splitlines() |
| |
| print(documents) |
рдирд┐рд╖реНрдХрд░реНрд╖:
["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
2. рдПрдХ рд╢рдмреНрджрдХреЛрд╖ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░реЗрдВ
рд╣рдо 4 рд▓реЛрдб рдХрд┐рдП рдЧрдП рд╡рд╛рдХреНрдпреЛрдВ, рдорд╛рдорд▓реЗ рдХреА рдЕрдирджреЗрдЦреА, рд╡рд┐рд░рд╛рдо рдЪрд┐рд╣реНрди рдФрд░ рдПрдХ-рдЪрд░рд┐рддреНрд░ рдХреЗ рдЯреЛрдХрди рд╕реЗ рд╕рднреА рдЕрдиреВрдареЗ рд╢рдмреНрдж рдПрдХрддреНрд░ рдХрд░реЗрдВрдЧреЗред рдпрд╣ рд╣рдорд╛рд░рд╛ рд╢рдмреНрджрдХреЛрд╢ (рдкреНрд░рд╕рд┐рджреНрдз рд╢рдмреНрдж) рд╣реЛрдЧрд╛ред
рдПрдХ рд╢рдмреНрджрдХреЛрд╢ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк рд╕реНрдХреЗрд▓реЗрд░рди рд▓рд╛рдЗрдмреНрд░реЗрд░реА рд╕реЗ
CountVectorizer рд╡рд░реНрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдЕрдЧрд▓реЗ рдЪрд░рдг рдкрд░ рдЬрд╛рдПрдВред
3. рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рд╡реИрдХреНрдЯрд░ рдмрдирд╛рдПрдБ
рдЕрдЧрд▓рд╛, рд╣рдореЗрдВ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рд╢рдмреНрджреЛрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЗрд╕ рдЪрд░рдг рдореЗрдВ, рд╣рдорд╛рд░рд╛ рд▓рдХреНрд╖реНрдп рдХрдЪреНрдЪреЗ рдкрд╛рда рдХреЛ рд╕рдВрдЦреНрдпрд╛рдУрдВ рдХреЗ рд╕рдореВрд╣ рдореЗрдВ рдмрджрд▓рдирд╛ рд╣реИред рдЙрд╕рдХреЗ рдмрд╛рдж, рд╣рдо рдЗрди рд╕реЗрдЯреЛрдВ рдХреЛ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдХреЗ рдЗрдирдкреБрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред рд╕рдмрд╕реЗ рд╕рд░рд▓ рд╕реНрдХреЛрд░рд┐рдВрдЧ рд╡рд┐рдзрд┐ рд╢рдмреНрджреЛрдВ рдХреА рдЙрдкрд╕реНрдерд┐рддрд┐ рдХреЛ рдиреЛрдЯ рдХрд░рдирд╛ рд╣реИ, рдЕрд░реНрдерд╛рдд, рдпрджрд┐ рдХреЛрдИ рд╢рдмреНрдж рд╣реИ рдФрд░ 0 рдЕрдиреБрдкрд╕реНрдерд┐рдд рд╣реИ рддреЛ 1 рдбрд╛рд▓ рджреЗрдВред
рдЕрдм рд╣рдо рдкреВрд░реНрд╡реЛрдХреНрдд рдЧрдгрдХ рд╡рд░реНрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╢рдмреНрджреЛрдВ рдХрд╛ рдПрдХ рдереИрд▓рд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВред
| # Import the libraries we need |
| from sklearn.feature_extraction.text import CountVectorizer |
| import pandas as pd |
| |
| # Step 2. Design the Vocabulary |
| # The default token pattern removes tokens of a single character. That's why we don't have the "I" and "s" tokens in the output |
| count_vectorizer = CountVectorizer() |
| |
| # Step 3. Create the Bag-of-Words Model |
| bag_of_words = count_vectorizer.fit_transform(documents) |
| |
| # Show the Bag-of-Words Model as a pandas DataFrame |
| feature_names = count_vectorizer.get_feature_names() |
| pd.DataFrame(bag_of_words.toarray(), columns = feature_names) |
рдирд┐рд╖реНрдХрд░реНрд╖:
рдпреЗ рд╣рдорд╛рд░реЗ рд╕реБрдЭрд╛рд╡ рд╣реИрдВред рдЕрдм рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ "рд╢рдмреНрджреЛрдВ рдХрд╛ рдмреИрдЧ" рдореЙрдбрд▓ рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИред
рд╢рдмреНрджреЛрдВ рдХреЗ рдмреИрдЧ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХреБрдЫ рд╢рдмреНрдж
рдЗрд╕ рдореЙрдбрд▓ рдХреА рдЬрдЯрд┐рд▓рддрд╛ рдпрд╣ рд╣реИ рдХрд┐ рдХреИрд╕реЗ рд╢рдмреНрджрдХреЛрд╢ рдХрд╛ рдирд┐рд░реНрдзрд╛рд░рдг рдХрд┐рдпрд╛ рдЬрд╛рдП рдФрд░ рд╢рдмреНрджреЛрдВ рдХреА рдШрдЯрдирд╛ рдХреЛ рдХреИрд╕реЗ рдЧрд┐рдирд╛ рдЬрд╛рдПред
рдЬрдм рд╢рдмреНрджрдХреЛрд╢ рдЖрдХрд╛рд░ рдмрдврд╝рддрд╛ рд╣реИ, рддреЛ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рд╡реЗрдХреНрдЯрд░ рднреА рдмрдврд╝рддрд╛ рд╣реИред рдКрдкрд░ рдХреЗ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ, рд╡реЗрдХреНрдЯрд░ рдХреА рд▓рдВрдмрд╛рдИ рдЬреНрдЮрд╛рдд рд╢рдмреНрджреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рдмрд░рд╛рдмрд░ рд╣реИред
рдХреБрдЫ рдорд╛рдорд▓реЛрдВ рдореЗрдВ, рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдЕрд╡рд┐рд╢реНрд╡рд╕рдиреАрдп рд░реВрдк рд╕реЗ рдмрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рдбреЗрдЯрд╛ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдлрд┐рд░ рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рд╣рдЬрд╛рд░реЛрдВ рдпрд╛ рд▓рд╛рдЦреЛрдВ рддрддреНрд╡ рд╢рд╛рдорд┐рд▓ рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдкреНрд░рддреНрдпреЗрдХ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рд╢рдмреНрджрдХреЛрд╖ рдХрд╛ рдХреЗрд╡рд▓ рдПрдХ рдЫреЛрдЯрд╛ рд╕рд╛ рд╣рд┐рд╕реНрд╕рд╛ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред
рдирддреАрдЬрддрди, рд╡реЗрдХреНрдЯрд░ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдореЗрдВ рдХрдИ рд╢реВрдиреНрдп рд╣реЛрдВрдЧреЗред рдХрдИ рд╢реВрдиреНрдп рд╡рд╛рд▓реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рд╡рд┐рд░рд▓ рд╡реИрдХреНрдЯрд░ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЙрдиреНрд╣реЗрдВ рдЕрдзрд┐рдХ рд╕реНрдореГрддрд┐ рдФрд░ рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд╕рдВрд╕рд╛рдзрдиреЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред
рд╣рд╛рд▓рд╛рдВрдХрд┐, рд╣рдо рдХрдВрдкреНрдпреВрдЯрд┐рдВрдЧ рд╕рдВрд╕рд╛рдзрдиреЛрдВ рдкрд░ рдорд╛рдВрдЧреЛрдВ рдХреЛ рдХрдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕ рдореЙрдбрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╕рдордп рдЬреНрдЮрд╛рдд рд╢рдмреНрджреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЛ рдХрдо рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк рдЙрдиреНрд╣реАрдВ рддрдХрдиреАрдХреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╣рдордиреЗ рдкрд╣рд▓реЗ рд╣реА рд╢рдмреНрджреЛрдВ рдХрд╛ рдПрдХ рдмреИрдЧ рдмрдирд╛рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рдорд╛рдирд╛ рдерд╛:
- рд╢рдмреНрджреЛрдВ рдХреЗ рдорд╛рдорд▓реЗ рдХреА рдЕрдирджреЗрдЦреА;
- рд╡рд┐рд░рд╛рдо рдЪрд┐рд╣реНрди рдХреА рдЕрдирджреЗрдЦреА;
- рд░реЛрдХ рд╢рдмреНрджреЛрдВ рдХреЛ рдмрд╛рд╣рд░ рдХрд░рдирд╛;
- рд╢рдмреНрджреЛрдВ рдХреЛ рдЙрдирдХреЗ рдореВрд▓ рд░реВрдкреЛрдВ рдореЗрдВ рдХрдореА (рд▓реЗрдореЗрдЯреЗрдЯрд╛рдЗрдЬреЗрд╢рди рдФрд░ рд╕реНрдЯреЗрдорд┐рдВрдЧ);
- рдЧрд▓рдд рд╡рд░реНрддрдиреА рд╡рд╛рд▓реЗ рд╢рдмреНрджреЛрдВ рдХрд╛ рд╕реБрдзрд╛рд░ред
рд╢рдмреНрджрдХреЛрд╢ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдФрд░ рдЕрдзрд┐рдХ рдЬрдЯрд┐рд▓ рддрд░реАрдХрд╛ рд╣реИ, рд╕рдореВрд╣реАрдХреГрдд рд╢рдмреНрджреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ред рдпрд╣ рд╢рдмреНрджрдХреЛрд╢ рдХрд╛ рдЖрдХрд╛рд░ рдмрджрд▓ рджреЗрдЧрд╛ рдФрд░ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд░рдгреЛрдВ рдХрд╛ рдмреИрдЧ рджреЗрдЧрд╛ред рдЗрд╕ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдХреЛ "
рдПрди-рдЧреНрд░рд╛рдо " рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред
рдПрди-рдЧреНрд░рд╛рдо рдХрд┐рд╕реА рднреА рд╕рдВрд╕реНрдерд╛ (рд╢рдмреНрдж, рдЕрдХреНрд╖рд░, рд╕рдВрдЦреНрдпрд╛, рд╕рдВрдЦреНрдпрд╛, рдЖрджрд┐) рдХрд╛ рдПрдХ рдХреНрд░рдо рд╣реИред рднрд╛рд╖рд╛рдИ рдирд┐рдХрд╛рдпреЛрдВ рдХреЗ рд╕рдВрджрд░реНрдн рдореЗрдВ, рдПрди-рдЧреНрд░рд╛рдо рдХреЛ рдЖрдорддреМрд░ рдкрд░ рд╢рдмреНрджреЛрдВ рдХреЗ рдЕрдиреБрдХреНрд░рдо рдХреЗ рд░реВрдк рдореЗрдВ рд╕рдордЭрд╛ рдЬрд╛рддрд╛ рд╣реИред рдПрдХрдЧреНрд░рд╛рдо рдПрдХ рд╢рдмреНрдж рд╣реИ, рдПрдХ рдЖрд╢реНрд░рдо рджреЛ рд╢рдмреНрджреЛрдВ рдХрд╛ рдПрдХ рдХреНрд░рдо рд╣реИ, рдПрдХ рдЯреНрд░рд┐рдЧреНрд░рд╛рдо рдПрдХ рддреАрди рд╢рдмреНрдж рд╣реИ, рдФрд░ рдЗрд╕реА рддрд░рд╣ред рд╕рдВрдЦреНрдпрд╛ N рдпрд╣ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ N- рдЧреНрд░рд╛рдо рдореЗрдВ рдХрд┐рддрдиреЗ рд╕рдореВрд╣реАрдХреГрдд рд╢рдмреНрдж рд╢рд╛рдорд┐рд▓ рд╣реИрдВред рд╕рднреА рд╕рдВрднрд╡ рдПрди-рдЧреНрд░рд╛рдо рдореЙрдбрд▓ рдореЗрдВ рдирд╣реАрдВ рдЖрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдХреЗрд╡рд▓ рд╡реЗ рдЬреЛ рдорд╛рдорд▓реЗ рдореЗрдВ рджрд┐рдЦрд╛рдИ рджреЗрддреЗ рд╣реИрдВред
рдПрдХ рдЙрджрд╛рд╣рд░рдг:рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╡рд╛рдХреНрдп рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ:
The office building is open today
рдпрд╣рд╛рдБ рдЙрдирдХреЗ рдмреАрдШреЗ рд╣реИрдВ:
- рдХрд╛рд░реНрдпрд╛рд▓рдп
- рдХрд╛рд░реНрдпрд╛рд▓рдп рдХреА рдЗрдорд╛рд░рдд
- рдЗрдорд╛рд░рдд рд╣реИ
- рдЦреБрд▓рд╛ рд╣реИ
- рдЖрдЬ рдЦреЛрд▓реЛ
рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, рд╢рдмреНрджреЛрдВ рдХреЗ рдПрдХ рдмреИрдЧ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдмрдбрд╝реЗ рдмреИрдЧ рдХрд╛ рдПрдХ рдмреИрдЧ рдЕрдзрд┐рдХ рдкреНрд░рднрд╛рд╡реА рджреГрд╖реНрдЯрд┐рдХреЛрдг рд╣реИред
рд╢рдмреНрджреЛрдВ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди (рд╕реНрдХреЛрд░рд┐рдВрдЧ)рдЬрдм рдПрдХ рд╢рдмреНрджрдХреЛрд╢ рдмрдирд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рд╢рдмреНрджреЛрдВ рдХреА рдЙрдкрд╕реНрдерд┐рддрд┐ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред рд╣рдордиреЗ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдПрдХ рд╕рд░рд▓, рджреНрд╡рд┐рдЖрдзрд╛рд░реА рджреГрд╖реНрдЯрд┐рдХреЛрдг рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд┐рдпрд╛ рд╣реИ (1 - рдПрдХ рд╢рдмреНрдж рд╣реИ, 0 - рдХреЛрдИ рд╢рдмреНрдж рдирд╣реАрдВ рд╣реИ)ред
рдЕрдиреНрдп рд╡рд┐рдзрд┐рдпрд╛рдБ рд╣реИрдВ:
- рд╕рдВрдЦреНрдпрд╛ред рдпрд╣ рдЧрдгрдирд╛ рдХреА рдЬрд╛рддреА рд╣реИ рдХрд┐ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ рд╢рдмреНрдж рдХрд┐рддрдиреА рдмрд╛рд░ рджрд┐рдЦрд╛рдИ рджреЗрддрд╛ рд╣реИред
- рдЖрд╡реГрддреНрддрд┐ред рдпрд╣ рдЧрдгрдирд╛ рдХреА рдЬрд╛рддреА рд╣реИ рдХрд┐ рдкрд╛рда рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ рд╢рдмреНрдж рдХрд┐рддрдиреА рдмрд╛рд░ рд╣реЛрддрд╛ рд╣реИ (рд╢рдмреНрджреЛрдВ рдХреА рдХреБрд▓ рд╕рдВрдЦреНрдпрд╛ рдХреЗ рд╕рдВрдмрдВрдз рдореЗрдВ)ред
7. TF-IDF
рдлрд╝реНрд░рд┐рдХреНрд╡реЗрдВрд╕реА рд╕реНрдХреЛрд░рд┐рдВрдЧ рдореЗрдВ рдПрдХ рд╕рдорд╕реНрдпрд╛ рд╣реИ: рдЙрдЪреНрдЪрддрдо рдЖрд╡реГрддреНрддрд┐ рд╡рд╛рд▓реЗ рд╢рдмреНрдж, рдХреНрд░рдорд╢рдГ, рдЙрдЪреНрдЪрддрдо рд░реЗрдЯрд┐рдВрдЧред рдЗрди рд╢рдмреНрджреЛрдВ рдореЗрдВ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЙрддрдиреА
рдЬрд╛рдирдХрд╛рд░реА рдирд╣реАрдВ рд╣реЛ рд╕рдХрддреА рдЬрд┐рддрдиреА рдХрдо рд╢рдмреНрджреЛрдВ рдореЗрдВред рд╕реНрдерд┐рддрд┐ рдХреЛ рдареАрдХ рдХрд░рдиреЗ рдХрд╛ рдПрдХ рддрд░реАрдХрд╛ рд╢рдмреНрдж рд╕реНрдХреЛрд░ рдХрдо рдХрд░рдирд╛ рд╣реИ, рдЬреЛ рдЕрдХреНрд╕рд░
рд╕рднреА рд╕рдорд╛рди рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдореЗрдВ рдкрд╛рдпрд╛ рдЬрд╛рддрд╛
рд╣реИ ред рдЗрд╕реЗ
TF-IDF рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИред
TF-IDF (рдЯрд░реНрдо рдлрд╝реНрд░реАрдХреНрд╡реЗрдВрд╕реА рдХреЗ рд▓рд┐рдП рдЫреЛрдЯрд╛ - рдЙрд▓рдЯрд╛ рдбреЙрдХреНрдпреВрдореЗрдВрдЯ рдлрд╝реНрд░реАрдХреНрд╡реЗрдВрд╕реА) рдХрд┐рд╕реА рдбреЙрдХреНрдпреВрдореЗрдВрдЯ рдореЗрдВ рдХрд┐рд╕реА рд╢рдмреНрдж рдХреЗ рдорд╣рддреНрд╡ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдЙрдкрд╛рдп рд╣реИ рдЬреЛ рд╕рдВрдЧреНрд░рд╣ рдпрд╛ рдХреЙрд░реНрдкрд╕ рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рд╣реЛрддрд╛ рд╣реИред
рдЯреАрдПрдл-рдЖрдИрдбреАрдПрдл рджреНрд╡рд╛рд░рд╛ рд╕реНрдХреЛрд░рд┐рдВрдЧ рдПрдХ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рдПрдХ рд╢рдмреНрдж рдХреА рдЖрд╡реГрддреНрддрд┐ рдХреА рдЖрд╡реГрддреНрддрд┐ рдХреЗ рдЕрдиреБрдкрд╛рдд рдореЗрдВ рдмрдврд╝рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рдЗрд╕ рд╢рдмреНрдж рд╕реЗ рдпреБрдХреНрдд рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рд╕реЗ рдСрдлрд╕реЗрдЯ рд╣реИред
рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ Y рдореЗрдВ X рд╢рдмреНрдж рдХреЗ рд▓рд┐рдП рд╕реНрдХреЛрд░рд┐рдВрдЧ рд╕реВрддреНрд░:
рдлреЙрд░реНрдореВрд▓рд╛ TF-IDFред рд╕реНрд░реЛрдд: filotechnologia.blogspot.com/2014/01/a-simple-java-class-for-tfidf-scoring.htmlрдЯреАрдПрдл (рд╢рдмреНрдж рдЖрд╡реГрддреНрддрд┐) рдХрд┐рд╕реА рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдореЗрдВ рдХрд┐рд╕реА рд╢рдмреНрдж рдХреА рдШрдЯрдирд╛рдУрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХрд╛ рдЕрдиреБрдкрд╛рдд рд╣реИред
рдЖрдИрдбреАрдПрдл (рдЙрд▓рдЯрд╛ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдЖрд╡реГрддреНрддрд┐) рдЙрд╕ рдЖрд╡реГрддреНрддрд┐ рдХрд╛ рд╡реНрдпреБрддреНрдХреНрд░рдо рд╣реИ рдЬрд┐рд╕рдХреЗ рд╕рд╛рде рд╕рдВрдЧреНрд░рд╣ рджрд╕реНрддрд╛рд╡реЗрдЬреЛрдВ рдореЗрдВ рдПрдХ рд╢рдмреНрдж рд╣реЛрддрд╛ рд╣реИред
рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк, рд╢рдмреНрдж рд╢рдмреНрдж рдХреЗ рд▓рд┐рдП TF-IDF рдХреА рдЧрдгрдирд╛ рдЗрд╕ рдкреНрд░рдХрд╛рд░ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИ:
рдПрдХ рдЙрджрд╛рд╣рд░рдг:TF-IDF рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдк рд╕реНрдХреЗрд▓реЗрд░ рд▓рд╛рдЗрдмреНрд░реЗрд░реА рд╕реЗ
TfidfVectorizer рд╡рд░реНрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдЖрдЗрдП рдЗрд╕реЗ рдЙрдиреНрд╣реАрдВ рд╕рдВрджреЗрд╢реЛрдВ рдХреЗ рд╕рд╛рде рдХрд░рддреЗ рд╣реИрдВ рдЬреЛ рд╣рдордиреЗ рд╢рдмреНрджреЛрдВ рдХреЗ рдмреИрдЧ рдореЗрдВ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд┐рдП рдереЗред
I like this movie, it's funny. I hate this movie. This was awesome! I like it. Nice one. I love it.
рдХреЛрдб:
| from sklearn.feature_extraction.text import TfidfVectorizer |
| import pandas as pd |
| |
| tfidf_vectorizer = TfidfVectorizer() |
| values = tfidf_vectorizer.fit_transform(documents) |
| |
| # Show the Model as a pandas DataFrame |
| feature_names = tfidf_vectorizer.get_feature_names() |
| pd.DataFrame(values.toarray(), columns = feature_names) |
рдирд┐рд╖реНрдХрд░реНрд╖:
рдирд┐рд╖реНрдХрд░реНрд╖
рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рдкрд╛рда рдХреЗ рд▓рд┐рдП рдПрдирдПрд▓рдкреА рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ, рдЕрд░реНрдерд╛рддреН:
- рдПрдирдПрд▓рдкреА рдкрд╛рда рдФрд░ рднрд╛рд╖рдг рдХреЗ рд▓рд┐рдП рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЗ рдЙрдкрдпреЛрдЧ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ;
- рдПрдирдПрд▓рдЯреАрдХреЗ (рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдЯреВрд▓рдХрд┐рдЯ) - рдкрд╛рдпрдерди рдореЗрдВ рдПрдирдПрд▓рдкреА-рдкреНрд░реЛрдЧреНрд░рд╛рдо рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдкреНрд░рдореБрдЦ рдордВрдЪ;
- рдкреНрд░рд╕реНрддрд╛рд╡ рдЯреЛрдХрди рдПрдХ рд▓рд┐рдЦрд┐рдд рднрд╛рд╖рд╛ рдХреЛ рдШрдЯрдХ рд╡рд╛рдХреНрдпреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИ;
- рд╢рдмреНрдж рдЯреЛрдХреЗрдирд╛рдЗрдЬреЗрд╢рди рд╡рд╛рдХреНрдпреЛрдВ рдХреЛ рдШрдЯрдХ рд╢рдмреНрджреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рд╣реИ;
- Lemmatization рдФрд░ stemming рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рдПрдХрд▓, рд╕рд╛рдорд╛рдиреНрдп рд╢рдмреНрджрд╛рд╡рд▓реА рдХреЗ рд░реВрдк рдореЗрдВ рдЖрдиреЗ рд╡рд╛рд▓реЗ рд╕рднреА рд╢рдмреНрдж рд░реВрдкреЛрдВ рдХреЛ рд▓рд╛рдирд╛ рд╣реИ;
- рд╕реНрдЯреЙрдк рд╢рдмреНрдж рд╡реЗ рд╢рдмреНрдж рд╣реИрдВ рдЬреЛ рдЯреЗрдХреНрд╕реНрдЯ рдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ рд╕реЗ рдкрд╣рд▓реЗ / рдмрд╛рдж рдореЗрдВ рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗ рдмрд╛рд╣рд░ рдлреЗрдВрдХ рджрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВ;
- regex (regex, regexp, regex) рд╡рд░реНрдгреЛрдВ рдХрд╛ рдПрдХ рдХреНрд░рдо рд╣реИ рдЬреЛ рдПрдХ рдЦреЛрдЬ рдкреИрдЯрд░реНрди рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рддрд╛ рд╣реИ;
- рд╢рдмреНрджреЛрдВ рдХрд╛ рдПрдХ рдмреИрдЧ рдПрдХ рд▓реЛрдХрдкреНрд░рд┐рдп рдФрд░ рд╕рд░рд▓ рд╕реБрд╡рд┐рдзрд╛ рдирд┐рд╖реНрдХрд░реНрд╖рдг рддрдХрдиреАрдХ рд╣реИ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдкрд╛рда рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддреЗ рд╕рдордп рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдпрд╣ рдкрд╛рда рдореЗрдВ рдкреНрд░рддреНрдпреЗрдХ рд╢рдмреНрдж рдХреА рдШрдЯрдирд╛рдУрдВ рдХрд╛ рд╡рд░реНрдгрди рдХрд░рддрд╛ рд╣реИред
рдмрд╣реБрдд рдмрдврд╝рд┐рдпрд╛! рдЕрдм рдЬрдм рдЖрдк рд╕реБрд╡рд┐рдзрд╛ рдирд┐рд╖реНрдХрд░реНрд╖рдг рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ рдЬрд╛рдирддреЗ рд╣реИрдВ, рддреЛ рдЖрдк рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЗ рдЗрдирдкреБрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдпрджрд┐ рдЖрдк рд╕рднреА рд╡рд░реНрдгрд┐рдд рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рдПрдХ рдмрдбрд╝реЗ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ рджреЗрдЦрдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рддреЛ
рдпрд╣рд╛рдВ рдЖрдк рд╣реИрдВ ред