Диссертация на соискание академической степени магистра




НазваниеДиссертация на соискание академической степени магистра
страница11/14
Дата публикации21.07.2013
Размер1.33 Mb.
ТипДиссертация
exam-ans.ru > Информатика > Диссертация
1   ...   6   7   8   9   10   11   12   13   14
^

Категоризация Интернет-контента


Одной из главных особенностей нашего времени есть постоянный рост темпов производства информации. Этот процесс объективен и в целом, безусловно, позитивен. Однако на сегодняшний день человечество встретилось с парадоксальной, на первый взгляд, ситуацией: прогресс в области производства информации ведет к снижению общего уровня информированности. Поэтому особенно для высших учебных заведений очень важной задачей становится, не сама предоставление возможностей Интернет для повышения эффективности образовательного процесса, а именно отсечь пользователей от доступа к нежелательной информации.

Для реализации системы фильтрации Интернет-контента в первую очередь необходимо выбрать признаки и категории классификации Интернет-ресурсов, то есть создать список категорий Интернет-ресурсов и соответствующие им ключевые слова.

В разрабатываемой системе управления доступом в Интернет было решено использовать категории, которые предложены в IBM Web Filter Database. Данный набор категорий представляет собой список, охватывающий широкий спектр отраслей и предназначен для категоризации различного рода документов, к которым можно отнести и сайты Интернет. Список категорий представлен в таблице 4.
Таблица 4 – Список категорий контента

Название категории в IBM

Название категории по-русски

Undefined

Неопознанная

Pornography

Порнография

Erotic / Sex

Эротика/секс

Swimwear / Lingerie

Нижнее бельё

Shopping

Покупки

Auctions / Classified Ads

Аукционы

Governmental Organizations

Правительственные организации

Non-Governmental Organizations

Неправительственные организации

Cities / Regions / Countries

Регионы

Education

Образование

Political Parties

Политические партии

Religion

Религия

Sects

Секты

Illegal Activities

Незаконная деятельность

Computer Crime

Компьютерные преступления

Political Extreme / Hate / Discrimination

Экстримизм

Warez / Hacking / Illegal Software

Взлом ПО

Violence / Extreme

Насилие

Gambling / Lottery

Азартные игры

Computer Games

Компьютерные игры

Toys

Игрушки

Cinema / Television

Кино и телевидение

Recreational Facilities/Amusement / Theme Parks

Места отдха

Art / Museums / Memorials / Monuments

Искусство

Music

Музыка

Literature / Books

Книги / Литература

Humor / Comics

Юмор

Продолжение таблицы 4

Название категории в IBM

Название категории по-русски

General News / Newspapers / Magazines

Газеты / Журналы

Web Mail

Почта

Chat

Чат

Newsgroups / Bulletin Boards / Blogs

Новости

Mobile Telephony

Мобильные телефоны

Digital Postcards

Эл. Открытки

Search Engines / Web Catalogs / Portals

Поисковые системы

Software / Hardware / Distributors

ПО / АО

Communication Services

Службы связи

IT Security / IT Information

Информационные технологии

Website Translation

Переводчики

Anonymous Proxies

Анонимные proxy-серверы

Illegal Drugs

Наркотики

Alcohol

Алкоголь

Tobacco

Табак

Dating / Relationships

Знакомства

Restaurants / Bars

Рестораны / Бары

Travel

Путешествия

Fashion / Cosmetics / Jewelry

Мода

Sports

Спорт

Building / Residence / Architecture / Furniture

Строительство

Nature / Environment / Animals

Природа

Personal Homepages

Домашние странички

Job Search

Поиск работы

Investment Brokers / Stocks

Ценные бумаги

Financial Services / Investment / Insurance

Финансы

Banking / Home Banking

Банки

Vehicles / Transportation

Транспорт

Weapons / Military

Оружие / Армия

Health

Здоровье

Abortion

Аборты

Instant Messaging

Интернет - пейджеры


Категоризация данных и формирование баз категорий производится в полуавто­матическом режиме — сначала выполняются анализ содержимого и определение катего­рии с помощью специально разработанных средств, основанных на системе распознавания текстов. После чего полученная информация часто проверяется администраторами, принимающими решение о том, к какой категории можно от­нести тот или иной сайт. Для этого используется локальная база категорий с регулярным обновлением.

Для работы автоматизированной системы распознавания необходимо каждой категории сопоставить список ключевых слов, и весов этих слов, по которым и будет определяться категория ресурса. Для этого при работе системы происходит её автоматическое обучение, то есть слова, встречающиеся в содержании сайта, автоматически становятся ключевыми для определенной категории. Однако тут необходимо учитывать слова, которые не несут смысловой нагрузки.

Согласно принципу Г. Луна самые часто встречающиеся в языке слова являются не самыми значимыми. В соответствии с этим принципом к неключевым словам можно относить все местоимения, предлоги и частицы.
1   ...   6   7   8   9   10   11   12   13   14

Похожие:

Диссертация на соискание академической степени магистра iconДиссертация на соискание академической степени
Данная магистерская диссертация содержит введение, 5 глав и заключение, изложенных на 99 страницах машинописного текста. В работу...

Диссертация на соискание академической степени магистра iconАктуальность работы
Графический материал к диссертациИ на соискание академической степени магистра техники и технологии по направлению подготовки «Информатика...

Диссертация на соискание академической степени магистра iconAnotācija
Работа «Исследование и разработка методики оценки и выбора по для создания scorm learning Objects» на соискание академической степени...

Диссертация на соискание академической степени магистра iconМаремшаова Ирина Исмаиловна Эволюция этнического сознания карачаево-балкарского народа
Диссертация на соискание ученой степени доктора исторических наук, Махачкала – 2002 г

Диссертация на соискание академической степени магистра iconGalvojums
Работа «Исследование влияния Agile методологий на качество процесса разработки программного обеспечения» на соискание степени магистра...

Диссертация на соискание академической степени магистра iconПлешакова Екатерина Александровна «Информационное и pr-сопровождение...
Диссертация на соискание ученой степени кандидата политических наук, специальность 23. 00. 02 политические институты, этнополитическая...

Диссертация на соискание академической степени магистра iconНовые требования к оформлению
Эти требования несколько изменились в феврале 2012 года («Положение о совете по защите диссертаций на соискание ученой степени кандидата...

Диссертация на соискание академической степени магистра icon«Связи с общественностью в условиях чрезвычайных ситуаций» Аннотация...
Аннотация к диссертации на соискание ученой степени кандидата филологических наук по специальности 10. 01. 10 – журналистика

Диссертация на соискание академической степени магистра iconВоспитание эстетической культуры школьников в условиях дополнительного...
Теоретико-методологические основы воспитания эстетической культуры школьников в условиях дополнительного образования художественно-эстетической...

Диссертация на соискание академической степени магистра iconСистемы управления государственной службой Российской Федерации,...
Хорохордина Олега Леонидовича на диссертационную работу Никитиной Александры Юрьевны «Моделирование системы управления государственной...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2015
контакты
exam-ans.ru
<..на главную