Компания IBM огласила планы по распространению технологии поиска по понятиям и фактам, применяющейся при обработке корпоративной информации. Такие поисковые механизмы должны прийти на смену более простому и широко используемому ныне поиску по ключевым словам.
Хотя простой, но мощный механизм поиска по ключевым словам существенно повлиял на то, как пользователи интернета находят и получают информацию, IBM стремится предложить новый инструмент, способный находить информацию в огромных массивах корпоративных данных.
По словам Артура Чикколо (Arthur Ciccolo), главы отделения поисковых технологий IBM Research, ведущие массовые поисковые машины – Google, Yahoo и Microsoft – ориентированы на открытый сегмент интернета, а не на поиск служебной информации.
IBM намерена предоставить сторонним разработчикам программного обеспечения свою архитектуру управления неструктурированной информацией (UIMA). Эта технология позволяет анализировать содержащийся в документах текст и распознавать скрытые в нем понятия, отношения и факты.
По заявлениям IВM, около 15 компаний, включая Attensity, ClearForest, Cognos, Endeca, Factiva, Kana, Inquira, iPhrase, Inxight, nStein, QL2, SAS, Schemalogic, Semagix, SPSS Inc. и Temis, планируют использовать UIMA в качестве механизма поиска и анализа текста в неструктурированных данных.
Также IBM предлагает ПО WebSphere OmniFind, позволяющее пользователям осуществлять поиск в неструктурированных данных различных форматов и на различных языках, содержащихся в базах данных, файлах электронной почты, аудиозаписях, изображениях и видеофрагментах.
По словам Чикколо, UIMA упростит совместную работу приложений различных разработчиков, предназначенных для управления знаниями, поиска, коммерческой разведки и анализа текстов.
Данный механизм поиска корпоративных данных разрабатывался IBM Research на протяжении более чем четырех лет, при участии ученых крупнейших университетов США и при поддержке Управления перспективных исследований Министерства обороны США (DARPA).
В числе прочих участников разработки UIMA – военные подрядчики Science Applications International, BBN Technologies и MITRE, а также медицинская фирма The Mayo Clinic.
Один из примеров применения новой технологии – совместное использование программных продуктов Attensity, ClearForest, iPhrase, Kana и IBM производителями потребительских товаров для обнаружения в Сети жалоб покупателей на дефектные изделия и затем поиска внутренней корпоративной информации, помогающей максимально быстро решить возникшую проблему.
В последнее время распространение неструктурированной информации в Сети в виде документов, изображений, комментариев и примечаний, сообщений электронной почты, а также видео- и аудиофайлов происходит взрывными темпами.
Около десяти лет назад ряд разработчиков СУБД, включая Informix, которая затем была приобретена IBM, заявили о том, что в скором времени проблема неструктурированных данных будет решена. Тем не менее, ныне по оценке аналитиков до 85% корпоративных данных хранится в неструктурированном виде вне баз данных.
Ожидается, что технология UIMA будет распространяться, начиная с конца 2005 года, с помощью сайта SourceForge, на котором размещается ПО с открытым исходным кодом. Структуру UIMA можно уже сейчас бесплатно загрузить с сайта IBM AlphaWorks.