Sos!!!

Статус
Закрыто для дальнейших ответов.
Ответ: Sos!!!

А программу распознавания писал еще один такой же программист.
 
Ответ: Sos!!!

fedun сказал(а):
Всё правильно, правильно...

Только всё-таки вряд-ли это можно назвать распознаванием образов.
Да назовите как угодно, суть от этого не меняется.

fedun сказал(а):
Просто меня покоробила такая постановка вопроса, типа: "А давайте, вместо того, чтобы добиться корректного представления информации..
Попробуйте, добейтесь!

Не одному Вам приходила в голову гениальная мысль про "корректное представление информации" вообще и телепрограммы в частности. Только программных редакторов каналов до сих пор почему-то эти мысли стороной обходят. И вообще "Телеканалы и не согласятся" (vbatushev). Кстати, господин vbatushev, почему ?!

Постановка вопроса распознавания текстов Вас, вероятно, тоже коробит и вызывает приступы недоумения. Разумеется, "вместо того, чтобы добиться корректного представления информации.." они выпускают очередную версию OCR с усовершенствованными алгоритмами распознавания. Психи. Заняться им нечем. И кто только это покупает? Предлагаю слоган для новой компани-проиводителя систем OCR: "Мы создали совершенный алгоритм распознавания. Его секрет прост: Добейтесь корректного представления информации!". Авторские права уступаю Вам:)
Я всего лишь хочу сказать, что на данный момент ожидать хоть какого-то единообразия в том, что приходит в редакции с тв-каналов и от многочисленных посредников (потому что не всегда удается договориться напрямую) - примерно то же самое, что искать USB-порт у пачки рукописей.

fedun сказал(а):
Я, честно говоря, не могу удержатся от смеха, когда представляю себе, программу, распознающую образ в данной задаче. ... что-то типа: поиск по ключевым фразам, отсекание имен известных киноартистов, переделка в именительный падеж и т.д.
Вы можете ухохотаться, но существующие на данный момент и упомянутые здесь программы именно это и делают. Может быть еще не настолько хорошо, как хотелось бы. Но, как бы Вам ни казалось странным, эти проекты развиваются. TvText, например, в новой версии собирались полностью переписать движок, использовав принципиально новый подход к обработке текстов.
 
Ответ: Sos!!!

Dr.Caligari
Почему каналы не согласятся? А оно им надо?
Договариваться, согласовывать, вырабатывать стандарты и т.п.
НЕ РЕАЛЬНО это. Если мы с авторами договориться не можем, которые от нас целиком и полностью зависят, то как собираетесь общаться со структурой которой вы и ваши проблемы вообще по барабану.

Относительно задачи...
Да, можно действительно построить систему анализа телепрограммы с элементами АИ. Нужно ли это?

Может быть построить модульную систему, которая могла бы подстраиваться под текущую структуру канала и платить деньги за поддержку софта, т.е. с изменением структуры выходит обновление программы?

Такое решение дешевле. И заплатить сколько там? $25 за программу, которая все вам разгребет и еще, небось в эту сумму поддержка входит...
Вот честное слово, я бы из своего кармана эти деньги выложил если бы все так просто решалось.
 
Ответ: Sos!!!

JAW сказал(а):
Dr.Caligari
Почему каналы не согласятся? А оно им надо?
Договариваться, согласовывать, вырабатывать стандарты и т.п.
НЕ РЕАЛЬНО это. Если мы с авторами договориться не можем, которые от нас целиком и полностью зависят, то как собираетесь общаться со структурой которой вы и ваши проблемы вообще по барабану
Согласен. Вобщем-то я рассуждал примерно так же. Просто думал, что vbatushev что-то еще знает :)

JAW сказал(а):
Может быть построить модульную систему, которая могла бы подстраиваться под текущую структуру канала и платить деньги за поддержку софта, т.е. с изменением структуры выходит обновление программы?
Мысль верная. У меня сейчас подобное соглашение с одним из больших издательств.
 
Ответ: Sos!!!

Знаете чего...
...вношу конкретное предложение.

Распознавать программу телепередач лучше всего по распечатке! Пусть телеканал оформляет и распечатку предоставляет. В распечатке легко по оформлению ориентироваться. Здорово, правда!
___________________________
->Dr.Caligari
Констатировать проблему распознавания образов - это значит не констатировать ничего. Почти любую задачу можно свести к распознаванию образов. Любой фильтр импорта тоже,типа, распознает образы. И человек, форматирующий и обрабатывающий исходник программы телепередач точно так же распознаёт образы. Инструментом распознавания при этом является он сам.
...Философия, блин, какая-то!

Мне кажется, что классическое распознавание образов применяется прежде всего для нечетких объектов, например сетчатка глаза или отпечатки пальцев. Такие вещи являются изначально нечеткими. Задача - идентифицировать. Или, например, OCR, там из изображения идентифицируются буквы алфавита. Т.е. было изображение (не буква), стала - буква (не изображение).

А вот информация типа названия фильма изначально является формализованой.

Вы говорите примерно так: "Сами люди запутывают название фильма своими комментариями. Давайте мы придумаем программу, которая будет это распутывать". Не кажется ли Вам, что это как-то странно? С применением интеллектуальных технологий распознавания для решения подобных проблем я пока ещё не сталкивался.

Применять здесь технологии распознавания образов, всё равно, что заколачивать гвозди системным блоком.
 
Ответ: Sos!!!

to fedun

Все-таки, мне кажется, что по сути Вы меня поняли:)

Потому что от тезиса:
fedun сказал(а):
..общего решения в виде какого-то универсального софта-примочки здесь быть не может
вы пришли к:
fedun сказал(а):
информация типа названия фильма изначально является формализованной
А следовательно - возможно и более-менее универсальное решение. Очевидно, что способы этого решения выходят за рамки обычного поиска\замены с регулярными выражениями. Для меня очевидно также, что это типичная задача РО. К сожалению, ни мои доводы, ни постановка проблемы вместе с исходным материалом Вас в этом не убедили. И ладно. Боюсь, что если мы продолжим дискуссию в этом направлении, нас выгонят нафиг с форума за флейм:)

fedun сказал(а):
Вы говорите примерно так: "Сами люди запутывают название фильма своими комментариями. Давайте мы придумаем программу, которая будет это распутывать". Не кажется ли Вам, что это как-то странно?
А что Вы можете предложить? "интеллектуальный поиск/замена в Word'е, возможность назначать атрибуты именами стилей, вложенные стили в InDesign, в конце концов, Excel с возможностью исправлять время.. и решать задачу творческой комбинацией этих средств и/или усидчивостью" - согласен, это тоже решение, равно как и творчество тупого перебивания всего текста - видел, как это делается. Но, смею предположить, Вам этого делать не доводилось, во всяком случае в том объеме, который я описывал. Иначе оптимизма было бы меньше:)

P.S.
Еще вариант: посадить человек пять на прогу - обработают и сверщут. Быстро и наверное качественно. Придумка не моя - в одном из московских телегидов так проблему решили.
 
Ответ: Sos!!!

->Dr.Caligari
Я не то-чтобы Вас не понял. Я, просто, выступаю сильно против того, что Вы говорите. Хотя уже не раз пожалел о том своем первом - столь радикальном - сообщении. (Пытался радикальностью и резкостью сократить объем сообщения).

Что касается флейма, под общий заголовок сообщения "Sos!!!" такой флейм вполне подходит, как мне кажется. Виталий, я надеюсь, сообщит вначале, если что не так, перед тем как нам баны раздавать.


I.
Насчет распознавания образов. Классическая задача - OCR, да? Что мы имеем на входе? Набор пикселей. Что на выходе? Знак алфавита.
Еще раз. У нас в начале не было буквы. А потом она появилась. Сходная - хотя и немного другая - ситуация и при распознавании отпечатков пальцев или сетчатки. Там идентифицируются два и более разных варианта одного и того-же образа.

Что с телепрограммой? Название фильма запрятано среди комментариев. Т.е. оно не отсутствует в исходной информации. Распознавать его ОБРАЗ в принципе не нужно. Нужно как-бы распознать или идентифицировать, что вот эта данная последовательность букв и является названием фильма.

Наверное это можно назвать задачей распознавания, но вряд-ли - распознавания именно образов. Методология и технология здесь другая. Это скорее грамматический разбор предложения.

II.
Если мы рассматривает грамматический разбор, это скорее напоминает, те проблемы, которые возникают при создании электронных переводчиков. Судя по качеству их работы, нерешенных проблем в этой области предостаточно.

Как и классическое распознавание образов, грамматический разбор - весьма интеллектуальная и наукоемкая задача. Я считаю, что эти методы вряд-ли могут иметь экономически обоснованное применение именно для этой - весьма узкой - задачи. В то же время никакое упрощение здесь не годится. Потенциально, запутать такую усеченную программу распознавания будет очень легко. Я поэтому и говорю о забивании гвоздей системным блоком.

III.
Как распознавание чего бы то ни было решит Вашу проблему изменения времён начала передач?
(ср. с базами данных).

IV.
Если всё-же такая программа и будет создана, то к чему это приведет? Прежде всего, к еще большей расхлябанности среди тех, кто такую информацию предоставляет.
(ср. с базами данных)
То, что предлагаю я - это путь к стандартизации. Вы предлагаете путь к поощрению человеческого разгильдяйства. "Зачем мне заботится о корректности своей информации? Программа, - типа, - сама всё исправит!"
____________________________________

Я не спорю, что для сиюминутной задачи по оперативной верстке программы передач вот здесь и вот сейчас, мое предложение, - как впрочем и Ваше, - имеет мало смысла.

Путь через "5 человек", о котором Вы говорите, мне представляется вполне адекватным. Мы один раз таким образом решали задачу вытаскивания текста из PDF. Оказалось весьма эффективным: 60 листовок, 2 машинистки, 4 часа работы.

В таком объеме именно с этой(!) задачей я, действительно, никогда не сталкивался. А про оптимизм я ничего не говорил. В данном случае никакого оптимизма у меня нет. Я просто перичислял набор инструментов, которые помогут в решении этой задачи. Есть ещё, кстати, интеллектуальный поиск/замена ОРФО. Он умеет с разными словоформами работать.
 
Статус
Закрыто для дальнейших ответов.