рдпрд╣ рд▓реЗрдЦ рдЙрди рд▓реЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рд╣реИ, рдЬрд┐рдиреНрд╣реЛрдВрдиреЗ рдХрднреА рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдПрд▓рдИрдкреАрдкреА рдХреЗ рд╕рд╛рде рдХрд╛рдо рдирд╣реАрдВ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдЗрд╕рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рдиреЗ рдФрд░ рдЗрд╕реЗ рдЬрд▓реНрдж рд╕реЗ рдЬрд▓реНрдж рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреЗ рд╕рд╛рде рд╕рд╛рдордирд╛ рдХрд┐рдпрд╛ рд╣реИред
рдпрд╣ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдХрд╛рдлреА рдЖрдо рд╣реИ, рдФрд░, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ, рд╣рдорд╛рд░реА рдХрдВрдкрдиреА -
рдмрд╛рд▓реНрдЯрдЗрдирдлреЛ.рдХреЙрдо - рдЗрд╕ рдХрд╛рд░реНрдпрдХреНрд░рдо рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреА рд╣реИред
рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ рдЖрдкрдХреЛ рдПрдХ рд╕рд╛рдзрд╛рд░рдг рдмрд╛рдд рд╕рдордЭрдиреЗ рдХреА рдЬрд░реВрд░рдд рд╣реИ: рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдПрдирдПрд▓рдкреА рд╢рдмреНрджреЛрдВ рдХреЗ рдЙрдЪреНрдЪрд╛рд░рдг рдХреЗ рд╕рд┐рджреНрдзрд╛рдВрдд рдкрд░ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ, рдпрд╛рдиреА, рдПрдХ рдпрд╛ рдПрдХ рд╕реЗ рдЕрдзрд┐рдХ рдПрдиреЛрдЯреЗрд╢рди, рдЬреИрд╕реЗ рдХрд┐ рдкреАрдУрдПрд╕ (рднрд╛рд╖рдг рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ - рднрд╛рд╖рдг рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛), рдПрдирдИрдЖрд░ (рдирд╛рдорд╛рдВрдХрд┐рдд-рдПрдВрдЯрд┐рдЯреА рдкрд╣рдЪрд╛рдирдирд╛ - рдирд╛рдорд╛рдВрдХрд┐рдд рдЗрдХрд╛рдИ), рдФрд░ рдЖрджрд┐
рдПрдХ рд╢реБрд░реБрдЖрддреА рд╡реНрдпрдХреНрддрд┐ рдЬреЛ рдкрд╣рд▓реА рдмрд╛рд░ рджреЗрдЦрддрд╛ рд╣реИ, рдЬрдм рд╡рд╣ "
рддреНрд╡рд░рд┐рдд рд╢реБрд░реБрдЖрдд " рдЕрдиреБрднрд╛рдЧ рдореЗрдВ рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдПрдирдПрд▓рдкреА рд╡реЗрдмрд╕рд╛рдЗрдЯ рдкрд░ рдЬрд╛рддрд╛ рд╣реИ, рд╡рд╣ рдирд┐рдореНрди рдбрд┐рдЬрд╝рд╛рдЗрди рд╣реИ:
Properties props = new Properties(); props.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,regexner,parse,depparse,coref"); StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
рдпрд╣рд╛рдВ рд╕реНрдЯреИрдирдлреЛрд░реНрдбрдХреЙрд░рдПрдирдПрд▓рдкреА рдПрдХ рд╕рдВрджреЗрд╢рд╡рд╛рд╣рдХ рд╣реИ, рдЬрд┐рд╕рдХреЗ рдЗрдирдкреБрдЯ рдкрд░ рд╣рдорд╛рд░рд╛ рдЯреЗрдХреНрд╕реНрдЯ рдХреЛрд░рдбреЙрдиреНрдЬрд┐рдореЗрдВрдЯ рдСрдмреНрдЬреЗрдХреНрдЯ рдореЗрдВ рдкреНрд░реА-рдкреИрдХреНрдб рд╣реИред рд╕реНрдЯреИрдирдлреЛрд░реНрдбрдХреЙрд░рдПрдирдПрд▓рдкреА, рдпрд╣ рдкреВрд░реА рд╕рдВрд░рдЪрдирд╛ рдореЗрдВ рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдФрд░ рдЕрдХреНрд╕рд░ рдЙрдкрдпреЛрдЧ рдХреА рдЬрд╛рдиреЗ рд╡рд╛рд▓реА рд╡рд╕реНрддреБ рд╣реИ, рдЬрд┐рд╕рдХреЗ рд╕рд╛рде рд╕рднреА рдореБрдЦреНрдп рдХрд╛рд░реНрдп рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред
рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ, рд╣рдо рд╕реНрдЯреИрдирдлреЛрд░реНрдбрдХреЛрд░рдПрдирдПрд▓рдкреА рдореЗрдВ рдкреИрд░рд╛рдореАрдЯрд░ рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рд╣рдореЗрдВ рдЙрди рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдХрд╛ рд╕рдВрдХреЗрдд рджреЗрддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдореЗрдВ рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдЗрди рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рднреА рд╕рдВрднрд╛рд╡рд┐рдд рд╕рдВрдпреЛрдЬрди
рдЗрд╕ рд▓рд┐рдВрдХ рдкрд░ рдЖрдзрд┐рдХрд╛рд░рд┐рдХ рд╡реЗрдмрд╕рд╛рдЗрдЯ рдкрд░ рдкрд╛рдП рдЬрд╛ рд╕рдХрддреЗ рд╣реИрдВред
- tokenize - рддрджрдиреБрд╕рд╛рд░, tokenization
- ssplit - рдПрдХ рд╡рд╛рдХреНрдп рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдирд╛
- рд╕реНрдерд┐рддрд┐ - рднрд╛рд╖рдг рдХреЗ рдПрдХ рд╣рд┐рд╕реНрд╕реЗ рдХреА рдкрд░рд┐рднрд╛рд╖рд╛
- рд▓реЗрдореНрдорд╛ - рдкреНрд░рддреНрдпреЗрдХ рд╢рдмреНрдж рдХреЛ рдЙрд╕рдХреЗ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд░реВрдк рдореЗрдВ рдЬреЛрдбрд╝рдирд╛
- ner - рдирд╛рдорд┐рдд рд╕рдВрд╕реНрдерд╛рдУрдВ рдХреА рдкрд░рд┐рднрд╛рд╖рд╛, рдЬреИрд╕реЗ "рд╕рдВрдЧрдарди", "рдлреЗрд╕", рдЖрджрд┐ред
- рд░реЗрдЧреЗрдХреНрд╕рдирд░ - рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдирд╛рдорд┐рдд рд╕рдВрд╕реНрдерд╛рдУрдВ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдирд╛
- рдкрд╛рд░реНрд╕ - рд╢рдмреНрджрд╛рд░реНрде рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдкреНрд░рддреНрдпреЗрдХ рд╢рдмреНрдж рдХрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг (рд▓рд┐рдВрдЧ, рд╕рдВрдЦреНрдпрд╛, рдФрд░ рдЗрд╕реА рддрд░рд╣)
- depparse - рдПрдХ рд╡рд╛рдХреНрдп рдореЗрдВ рд╢рдмреНрджреЛрдВ рдХреЗ рдмреАрдЪ рдкрд╛рд░реНрд╕ рд╕рд┐рдВрдЯреИрдХреНрд╕ рдирд┐рд░реНрднрд░рддрд╛
- coref- рдкрд╛рда рдореЗрдВ рдПрдХ рд╣реА рдирд╛рдорд┐рдд рдЗрдХрд╛рдИ рдХреЗ рд╕рдВрджрд░реНрдн рдХреЗ рд▓рд┐рдП рдЦреЛрдЬ, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, "рдореИрд░реА" рдФрд░ "рд╡рд╣"
рдпрд╣рд╛рдБ рдПрдХ рдЙрджрд╛рд╣рд░рдг рд╣реИ рдХрд┐ рдПрдиреЛрдЯреЗрдЯрд░реНрд╕ (рдкрд╛рд░реНрд╕ рдФрд░ рдбреЗрдкрд░реНрд╕) рдПрдХ рд╕рд╛рде рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВ:

рдпрджрд┐ рдЖрдк рдЯреЛрдХрди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдПрдиреЛрдЯреЗрд╢рди рдХреЛ рдирд╣реАрдВ рд╕рдордЭрддреЗ рд╣реИрдВ, рддреЛ рдЗрди рд╕рд╛рдЗрдЯреЛрдВ рдкрд░ рдЖрдкрдХреЛ рдЙрдирдХреЗ рдЕрд░реНрде рдорд┐рд▓реЗрдВрдЧреЗ:
рд╡рд╛рдХреНрдпреЛрдВ рдореЗрдВ рдХрдиреЗрдХреНрд╢рди рдХреЗ рдЕрд░реНрде ,
рднрд╛рд╖рдг рдХреЗ рдХреБрдЫ рд╣рд┐рд╕реНрд╕реЛрдВ рдХреЗ рдЕрд░реНрде ред
рдЗрди рдорд╛рдкрджрдВрдбреЛрдВ рдореЗрдВ рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдХреЗ рд▓рд┐рдП, рдЖрдк "рдПрдиреЛрдЯреЗрдЯрд░реНрд╕" рдЕрдиреБрднрд╛рдЧ рдореЗрдВ
рдпрд╣рд╛рдВ рдЕрдзрд┐рдХ рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдЕрддрд┐рд░рд┐рдХреНрдд рдЭрдВрдбреЗ рдкрд╛ рд╕рдХрддреЗ рд╣реИрдВред
рдЗрди рдирд┐рд░реНрдорд╛рдгреЛрдВ рдХреЛ рд╕реЗрдЯ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдпрджрд┐ рдЖрдк рдЕрдВрддрд░реНрдирд┐рд╣рд┐рдд рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдПрдирдПрд▓рдкреА рдореЙрдбрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдЖрдк рдЙрдиреНрд╣реЗрдВ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ рдПрдбрдСрдиреЛрдЯреЗрдЯрд░ (рдПрдиреЛрдЯреЗрдЯрд░ ...) рд╡рд┐рдзрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдпрд╛ рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдХреЙрд░реЗрдВрдмрд░ рдСрдмреНрдЬреЗрдХреНрдЯ рдмрдирд╛рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рдорд╛рдкрджрдВрдбреЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рд╕реЗрдЯ рдХрд░рдХреЗ рднреА рд╕реЗрдЯ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдЕрдм рдЖрдк рдкрд╛рда рд╕реЗ рдирд╛рдорд┐рдд рд╕рдВрд╕реНрдерд╛рдУрдВ рдХреЛ рдХреИрд╕реЗ рдирд┐рдХрд╛рд▓ рд╕рдХрддреЗ рд╣реИрдВ, рдЗрд╕рдХреЗ рдмрд╛рд░реЗ рдореЗрдВред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдПрдирдПрд▓рдкреА рдореЗрдВ рдореЙрдбрд▓ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЯреЛрдХрди рдХреЛ рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рддреАрди рдЕрдВрддрд░реНрдирд┐рд╣рд┐рдд рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐-рдЖрдзрд╛рд░рд┐рдд рдХрдХреНрд╖рд╛рдПрдВ рдФрд░ рдПрдХ рд╡рд░реНрдЧ рд╣реИред
рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рдХрдХреНрд╖рд╛рдПрдВ:
- рдЯреЛрдХрдирд░реЗрдЬрдПрдХреНрд╕рдиреЛрдЯреНрдиреЛрдЯ - рдПрдиреЛрдЯреЗрдЯрд░ рдЬреЛ рдирд┐рдпрдореЛрдВ рджреНрд╡рд╛рд░рд╛ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ - рд╕реАрдХреНрд╡реЗрдВрд╕рдореИрдЪрдЯреНрд░реВрд▓реНрд╕ ред
рдЗрди рдирд┐рдпрдореЛрдВ рдкрд░ рдирд┐рд░реНрдорд┐рдд, рдЗрд╕рдХреЗ рд▓рд┐рдП рдорд╛рдирдЪрд┐рддреНрд░рдг рдХреЗ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВред
ner = { type: "CLASS", value: "edu.stanford.nlp.ling.CoreAnnotations$NamedEntityTagAnnotation" } $EMAIL = "/.*([A-z0-9-]+?)(@)([A-z0-9-]+?).*/" { ruleType: "tokens", pattern: (([]) ($EMAIL)), action: (Annotate($0, ner, "MAIL")), priority:0 }
рдкрд╣рд▓реА рдкрдВрдХреНрддрд┐ рдЗрдВрдЧрд┐рдд рдХрд░рддреА рд╣реИ рдХрд┐ рд╣рдо рдЗрд╕ рдЯреЗрдореНрдкрд▓реЗрдЯ рдореЗрдВ рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХреЗ рдЯреИрдЧ рднрд░реЗрдВрдЧреЗред
рджреВрд╕рд░реЗ рдореЗрдВ, рд╣рдо рдПрдХ рдЪрд░ рдмрдирд╛рддреЗ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдирд┐рдпрдореЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░ "$" рд╡рд░реНрдг рд╕реЗ рд╢реБрд░реВ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП рдФрд░ рдкрдВрдХреНрддрд┐ рдХреА рд╢реБрд░реБрдЖрдд рдореЗрдВ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред
рдЙрд╕рдХреЗ рдмрд╛рдж, рдПрдХ рдмреНрд▓реЙрдХ рдмрдирд╛рдПрдВ рдЬрд┐рд╕рдореЗрдВ рд╣рдо рдирд┐рдпрдореЛрдВ рдХреЗ рдкреНрд░рдХрд╛рд░ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рддреЗ рд╣реИрдВред рдлрд┐рд░ рддреБрд▓рдирд╛ рдХреЗ рд▓рд┐рдП рдПрдХ рдЯреЗрдореНрдкрд▓реЗрдЯ (рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рд╣рдо рдХрд╣рддреЗ рд╣реИрдВ рдХрд┐ рд╣рдореЗрдВ "[]" рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ - рдХреЛрдИ рднреА рдЯреЛрдХрди рдЬрд┐рд╕рдХреЗ рдмрд╛рдж рд╣рдорд╛рд░рд╛ рдЪрд░ EMAIL рдЖрддрд╛ рд╣реИред рдЙрд╕рдХреЗ рдмрд╛рдж рд╣рдо рдХрд╛рд░реНрд░рд╡рд╛рдИ рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ, рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ рд╣рдо рдЯреЛрдХрди рдХреЛ рдПрдиреЛрдЯреЗрдЯ рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВред
рдХреГрдкрдпрд╛ рдзреНрдпрд╛рди рджреЗрдВ рдХрд┐ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ, "[]" рдФрд░ "$ EMAIL" рдХреЛ рдХреЛрд╖реНрдардХ рдореЗрдВ рд╕рдВрд▓рдЧреНрди рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ $ 0 рдЗрдВрдЧрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ рд╣рдо рдХрд┐рд╕ рдХреИрдкреНрдЪрд░ рд╕рдореВрд╣ рдХреЛ рдорд┐рд▓реЗ рд╣реБрдП рдкреИрдЯрд░реНрди рд╕реЗ рд╣рд╛рдЗрд▓рд╛рдЗрдЯ рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдЬрдмрдХрд┐ рдХреИрдкреНрдЪрд░ рдЧреНрд░реБрдк рдХрд╛ рдЕрд░реНрде рдХреЛрд╖реНрдардХреЛрдВ рдореЗрдВ рд╕рдВрд▓рдЧреНрди рд╕рдореВрд╣ рд╕реЗ рд╣реИред рдпрджрд┐ рдЖрдк 0 рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рд╡рд╛рдХреНрдпрд╛рдВрд╢ "sobaka@mail.ru рдореЗрд▓" рдореЗрдВ рд╕рднреА рдЯреЛрдХрди рдХреЛ "рдореЗрд▓" рдХреЗ рд░реВрдк рдореЗрдВ рдПрдиреЛрдЯреЗрдЯ рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛ред рдпрджрд┐ рдЖрдк 1 рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ (рдЕрд░реНрдерд╛рдд, рдкрд╣рд▓рд╛ рдХреИрдкреНрдЪрд░ рдЧреНрд░реБрдк), рддреЛ рдХреЗрд╡рд▓ "рдореЗрд▓" рд╢рдмреНрдж рдПрдиреЛрдЯреЗрдЯ рд╣реЛрдЧрд╛; рдпрджрд┐ 2, рддреЛ рдХреЗрд╡рд▓ sobaka@mail.ruред
рдРрд╕реА рд╕реНрдерд┐рддрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП, рдЬрд╣рд╛рдВ рджреЛ рдирд┐рдпрдореЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░, рдПрдХ рд╣реА рдЯреЛрдХрди рдХреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЖрдк рджреВрд╕рд░реЗ рдХреЗ рд╕рд╛рдкреЗрдХреНрд╖ рдирд┐рдпрдо рдХреА рдкреНрд░рд╛рдердорд┐рдХрддрд╛ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╡рд╛рдХреНрдпрд╛рдВрд╢ - "рд╣рд╛рдЙрд╕ $ 25" рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рджреЛ рдкрд░рд╕реНрдкрд░ рд╡рд┐рд░реЛрдзреА рдирд┐рдпрдо рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ, рдЬрд┐рдирдореЗрдВ рд╕реЗ рдПрдХ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рд╕рдВрдЦреНрдпрд╛ 25 рдХреЛ рдШрд░ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рд░реВрдк рдореЗрдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛, рдФрд░ рджреВрд╕рд░реЗ рдХреЗ рдЕрдиреБрд╕рд╛рд░ - рдЗрд╕рдХреЗ рдореВрд▓реНрдп рдХреЗ рд░реВрдк рдореЗрдВред - RegexNERAnnotator - рдпрд╣ рдПрдиреЛрдЯреЗрдЯрд░ RegexNERSequenceClassifier рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИред
рдЙрд╕рдХреЗ рд▓рд┐рдП рдореИрдкрд┐рдВрдЧ рдЗрд╕ рдкреНрд░рдХрд╛рд░ рд╣реИ
regex1 TYPE overwritableType1,Type2... priority
рдпрд╣рд╛рдБ regex1 рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐ рд╣реИ рдЬреЛ TokenSequencePattern рдХреЗ рдкреНрд░рд╛рд░реВрдк рдореЗрдВ рд╣реИред
TYPE рдирд╛рдорд┐рдд рдЗрдХрд╛рдИ рдХрд╛ рдирд╛рдо рд╣реИред
overwritableType1, Type2 ... - рдкреНрд░рдХрд╛рд░ рдЬреЛ рд╣рдо рдПрдХ рд╡рд┐рд╡рд╛рджрд╛рд╕реНрдкрдж рд╕реНрдерд┐рддрд┐ рдХреЗ рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдмрджрд▓ рд╕рдХрддреЗ рд╣реИрдВред
рдкреНрд░рд╛рдердорд┐рдХрддрд╛ - рдКрдкрд░ рд╡рд░реНрдгрд┐рдд рд╡рд┐рд╡рд╛рджреЛрдВ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рдердорд┐рдХрддрд╛ред
рдХреГрдкрдпрд╛ рдзреНрдпрд╛рди рджреЗрдВ рдХрд┐ рдЗрд╕ рдорд╛рдирдЪрд┐рддреНрд░рдг рдореЗрдВ рд╕рднреА рд╕реНрддрдВрднреЛрдВ рдХреЛ рдЯреИрдм рджреНрд╡рд╛рд░рд╛ рдЕрд▓рдЧ рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред - TokensRegexNERAnnotator
рдпрд╣ рдПрдиреЛрдЯреЗрдЯрд░ рдкрд┐рдЫрд▓реЗ рдПрдХ рд╕реЗ рдЕрд▓рдЧ рд╣реИ рдХрд┐ рдпрд╣ рдирд┐рдпрдорд┐рдд рдЕрднрд┐рд╡реНрдпрдХреНрддрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЯреЛрдХрдирд░рдЧреЗрдХреНрд╕ рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИ, рд╡рд╣реА рдкрд╣рд▓рд╛ рдПрдиреЛрдЯреЗрдЯрд░ рд╣реИ, рдЬреЛ рдЖрдкрдХреЛ рдорд┐рд▓рд╛рди рдХреЗ рд▓рд┐рдП рдЕрдзрд┐рдХ рд▓рдЪреАрд▓реЗ рдирд┐рдпрдореЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ; рдПрдирдИрдЖрд░ рдЯреИрдЧ рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдЕрдиреНрдп рдЯреИрдЧ рдореВрд▓реНрдпреЛрдВ рдХреЛ рд░рд┐рдХреЙрд░реНрдб рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛрдиреЗ рдХреЗ рд╕рд╛рде-рд╕рд╛рдеред
рдЗрд╕рдХреЗ рд▓рд┐рдП рдорд╛рдирдЪрд┐рддреНрд░рдг RegexNERAnnotator рдХреЗ рдирд┐рдпрдореЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рд╕рдВрдХрд▓рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ
NERClassifierCombiner рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдПрдХ рдореЙрдбрд▓ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдкрд╛рда рдХреЛ рдЪрд┐рд╣реНрдирд┐рдд рдХрд░рдирд╛
рдЗрд╕ рд╡рд░реНрдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдкрдХреЛ рдкрд╣рд▓реЗ рдЕрдкрдиреЗ рдореЙрдбрд▓ рдХреЛ рдмрдирд╛рдирд╛ рдпрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдирд╛ рд╣реЛрдЧрд╛ред
рдпрд╣ рдХреИрд╕реЗ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ
рдпрд╣рд╛рдВ рдкрд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛
рд╣реИ ;
рдЖрдкрдХреЗ рджреНрд╡рд╛рд░рд╛ рдореЙрдбрд▓ рдХреЛ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж, рдпрд╣ рдХреЗрд╡рд▓ NERClassifierCombiner рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдмрдирд╛ рд░рд╣рддрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдкрде рдХреЛ рджрд░реНрд╢рд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдФрд░ рд╡рд░реНрдЧреАрдХреГрдд рд╡рд┐рдзрд┐ рдХреЛ рдХреЙрд▓ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
NERClassifierCombiner classifier = new NERClassifierCombiner(false, false, serialized_model); String text = "Some lucky people working in BaltInfoCom Org."; List<List<CoreLabel>> out = classifier.classify(text);
рдПрдиреЛрдЯреЗрдЯрд░реНрд╕ рдХреА рдПрдХ рдкреВрд░реА рд╕реВрдЪреА
рдпрд╣рд╛рдВ рдкрд╛рдИ рдЬрд╛ рд╕рдХрддреА
рд╣реИ ред
рдЙрдкрд░реЛрдХреНрдд рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдпрджрд┐ рдЖрдкрдХреЛ рд░реВрд╕реА рднрд╛рд╖рд╛ рдХреЗ рд▓рд┐рдП рд╕реНрдЯреИрдирдлреЛрд░реНрдб рдПрдирдПрд▓рдкреА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рддреЛ рдореИрдВ рдЖрдкрдХреЛ
рдпрд╣рд╛рдВ рдЖрдиреЗ рдХреА рд╕рд▓рд╛рд╣ рджреЗ рд╕рдХрддрд╛ рд╣реВрдВред рднрд╛рд╖рдг рдХреЗ рд╣рд┐рд╕реНрд╕реЛрдВ (рдкреЙрдЬрд╝-рдЯреИрдЧрд░) рдХреА рдкрд╣рдЪрд╛рди рдХрд░рдиреЗ рдФрд░ рд╡рд╛рдХреНрдпреЛрдВ рдореЗрдВ рд╕рдВрдмрдВрдзреЛрдВ рдХреА рдкрд╣рдЪрд╛рди (рдирд┐рд░реНрднрд░рддрд╛ рдкрд╛рд░реНрд╕рд░) рдХреЗ рд▓рд┐рдП рдореЙрдбрд▓ рд╣реИрдВред
рд╡рд╣рд╛рдВ рджрд░реНрд╢рд╛рдП рдЧрдП рдЯреИрдЧ рдХреЗ рдкреНрд░рдХрд╛рд░:
рд░рд╢рд┐рдпрди- ud-pos.tagger рд╕рд┐рд░реНрдл рдПрдХ рдЯреИрдЧрд░ рд╣реИ,
рд░реВрд╕реА- ud-mfmini.tagger - рд░реВрдкрд╛рддреНрдордХ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреА рдореБрдЦреНрдп рд╕реВрдЪреА рдХреЗ рд╕рд╛рде,
рд░реВрд╕реА- ud-mf.tagger - рд░реВрдкрд╛рддреНрдордХ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреА рдПрдХ рдкреВрд░реА рд╕реВрдЪреА рдХреЗ рд╕рд╛рде, рдорд╛рдирдЪрд┐рддреНрд░рдг рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг рдЬрд┐рд╕рдХреЗ рд▓рд┐рдП рдпрд╣рд╛рдВ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛
рд╣реИ ред