Зрение - сравнение как принцип работы

  • Автор темы Автор темы sabos
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

sabos

Участник
Топикстартер
Сообщения
1 909
Реакции
286
Нашему пониманию принципов работы зрительного аппарата сильно мешает широко распространенная схема зрения, как некоторого фотоаппарата, в котором свет (изображение) проецируется на простую 2-х мерную матрицу сенсоров. Это упрощение очень удобно, ведь нас со всех сторон окружают железки, построенные по такому принципу - телевизоры, камеры, сканеры, принтеры, дисплеи и фотошопы, все они с успехом используют трехстимульный 2D-массив, вполне успешно выдавая нам красивые изображения. Почему бы и природе не сконструировать глаз аналогичным способом?

Исходя из этого посыла (механистичного) мы зачастую так и моделируем.


Не по теме:
Здесь я поддержу Alexey Shadrin - "инженерность" мышления может ставить такие ловушки для логики. Логики "здравого смысла" инженера.


Еще раз повторюсь - наши железки вполне успешно работают. Это вполне рабочий принцип цветовоспроизведения - назовем его Грассмановским (векторным, "физичным"), он вполне способен обеспечить достаточные условия визуальной эквивалентности.

Однако этот принцип имеет один очень важный недостаток - здесь нельзя нарушать условия воспроизведения (display situation). И, как следствие, еще одна неприятность - нельзя качественно изображения редактировать. Точнее, при редактировании мы постоянно сталкиваемся с проблемой неточности, "нюансов" цвета, которую давно знают профессиональные цветокорректоры. Профессионалы её успешно решают, но решают зачастую интуитивно, и, как следствие, частично - что метко подметил ув. C.H. "Это о тех, кто кривым молотком заколачивает кривые гвозди с помощью ряда приемов, отточенных в результате длительной практики".

Неприятность - это я взял очень мягкое слово. Одну из таких "неприятностей" демонстрирует тема Что такое "баланс белого" - трехстимульности критично мало, примитивного представления изображения, как массива пикселов не достаточно, любой CAT спотыкается на color inconstancy, смена display situation приводит к катастрофе, базовая (трехмерная) колориметрия постоянно буксует.

К сожалению, мы не найдем готовых ответов на эту тему у самых продвинутых наших колориметристов. Ни в Rochester'е, ни в Cambridge, ни в Stanford'e. Нет готовых ответов ни у "столпов" нашей науки, ни у популярных (в русскоязычной аудитории - стараниями Alexey Shadrin) Hunt'a и Fairchild'а, (хотя, по моим сведениям, Fairchild вопросом интересуется), нет ответов у CIE и ICC.

Мы много раз уже говорили про эти проблемы, и в моих "сражениях" с "истинными цветами" и "как пень вкопанными" cmf, и в наших попытках дать определение понятию "изображение", и при поиске связей между color и spatial appearance. Но, как верно сделал мне замечание Андрей: "Громил, громил. Только не слишком обосновывал" - и я в т.ч. плохо говорю на эту тему.

Пытаюсь исправиться - думаю, что пришло время проговорить эту тему поконкретнее.

Далi буде.
 
Ответ: Зрение - сравнение как принцип работы

sabos
Alexey Shadrin
Давайте в дальнейшем общаться расценивая меня как наблюдателя, т.е. считаем мои высказывания как личные наблюдения не соотносящиеся с той, или иной теорией, т.к. возразить есть много чего относительно подходов, но не даёте.

некоторого фотоаппарата, в котором свет (изображение) проецируется на простую 2-х мерную матрицу сенсоров
Давайте начнём именно с этого. Это хоть моделируется и формализуется.
т.е. на самом то деле матрица, конечно, шибко упрощённо, но нужно начинать с того, что известно на 100% и хоть как-то подлежит моделированию.

Но в общем то понятно, что адаптация зрения, это краеугольный камень, без которого проблема будет решена, хм... только на "инженерном" уровне.
Вот только проблема то не решена, т.к. механизмы адаптации изучены чисто на уровне теорий, при том различных теорий достаточно. В общем "адаптация", это таки "чёрный ящик", не более. Посему рассматривать нужно как чёрный ящик, пытаясь выдрать более-менее явные куски системы.
 
Ответ: Зрение - сравнение как принцип работы

Всем - привет.
Привет, JAV
JAW сказал(а):
Давайте начнём именно с этого. Это хоть моделируется и формализуется.
"Давайте искать под фонарем, там светлее". Этот подход в нашем деле процветает. Результат - "на лице".

JAW сказал(а):
на самом то деле матрица, конечно, шибко упрощённо, но нужно начинать с того, что известно на 100% и хоть как-то подлежит моделированию.
Поэтому будем считать, что имеем дело с паровозом, хотя твердо знаем, что имеем дело с современным автомобилем формулы 1. Из такого подхода уже все извлечено, дальше – тупик.

JAW сказал(а):
механизмы адаптации изучены чисто на уровне теорий, при том различных теорий достаточно. В общем "адаптация", это таки "чёрный ящик", не более.
Такое ощущение, как мне кажется, может возникать от недостатка знакомства с вопросом. Физиологи уже довольно глубоко (хотя и не до конца) прокопали вопрос о механизме работы колбочки. По моему, там уже можно начинать считать. Только не энергии, а штуки.

Привет, Саша.
«Теперь – сходитесь.» (с) А. С. Пушкин. Позиции начинают сходиться :). Задай форму: уже можно рассуждать или подождать Далi буде. ?

Только одно: ты правильно отмечаешь, что нельзя не только просто «регистрировать яркости», но и исходить из плоского «2D-массива», т. к. основа зрения – сферическое сканирование,, и это есть вторая половинка универсального определения: «что такое изображение».

С уважением, Андрей Френкель.
 
Ответ: Зрение - сравнение как принцип работы

Andrey Frenkel сказал(а):
сферическое сканирование
Поясните, пожалуйста. Имеется в виду не плоская поверхность сетчатки глаза или возможность перемещения зрачка?
 
Ответ: Зрение - сравнение как принцип работы

Происходит сканирование "сферы внешних стимулов" (всех излучений приходящих в "точку наблюдения"). Условно: сетчатка, как локатор, вращается вокруг некоей точки и улавливает излучения во всей сфере, окружающей эту точку или в ее части. Такое сканирование обеспечивается различными группами мышц, включая ноги (!). Поэтому "точка наблюдения" понятие несколько растяжимое (особенно учитывая что большая часть людей имеет два глаза :) ), но такое упрощение на начальном этапе понимания мне кажется оправданным.

С уважением, Андрей Френкель.
 
Ответ: Зрение - сравнение как принцип работы

Да, нужно помнить, что только очень небольшая (~ 2-4 градуса) часть сетчатки - это качественный результат. Остальное - только "черновик", и по разрешению, и по цвету...
 
Ответ: Зрение - сравнение как принцип работы

Andrey Frenkel сказал(а):
Физиологи уже довольно глубоко (хотя и не до конца) прокопали вопрос о механизме работы колбочки. По моему, там уже можно начинать считать. Только не энергии, а штуки.
Предположу, что если мы не можем считать энергии (не знаем что или пока не умеем), то мо можем и считаем реакции "хозяев колбочек" на эти энергии. Метод, конечно, не "технарский", но и он нам может о многом сказать.
 
Ответ: Зрение - сравнение как принцип работы

sabos сказал(а):
Нашему пониманию принципов работы зрительного аппарата сильно мешает широко распространенная схема зрения, как некоторого фотоаппарата
Да, конечно, все так. Но не стоит забывать, что LSR-детекция (low spatial resolution) проходит именно по фотографическому принципу. И не столь уж существенно, что проекция сцены идет на искривленный сенсор, и не столь важно, что образующая движений этого сенсора имеет хитрую неправильную форму. Не стоит забывать, что колбочками (вперемежку с палочками) заселена вся сетчатка и что знаменитая fovea -- это лишь беспалочковая зона с высокой плотностью паковки колбочек, что необходимо для HSR-детекции.

Существенно, имхо, совсем другое.

Камнем преткновения в нашем понимании механизмов зрения является отнюдь не работа сенсора -- он как-то работает (вполне вероятно, что хитрее, чем кажется на первый взгляд и чем мы знаем сегодня), но на выходе дает яркостный и два хроматических сигнала, что известно и, вроде бы, не подлежит сомнению.

Но ясно и то, что сигналы эти двухмерны. И что в результате детекции утрачена целая размерность -- глубина, т.е. удаление объекта от наблюдателя и протяженность этого объекта в направлении от наблюдателя. Тем не менее, даже одноглазый наблюдатель (!) вполне успешно ориентируется в трехмерном мире.

Значит каким-то образом происходит восстановление информации о третьей размерности из двухмерной сенсорной стимуляции. Даже когда мы смотрим на умело выполненный рисунок сцены, мы "вычисляем" третью размерность.

Можно подумать, что ответ кроется в механизмах нейронной обработки. Как выяснилось -- отнюдь. Нейроны работают примитивно и один нейрон способен лишь менять потенциал действия, его частоту. А вот алгоритм этого изменения в группе нейронов и есть то, что мы называем инверсией -- восстановлением трехмерной картины из двухмерной сенсорной стимуляции.

Ответ на вопрос "Каков алгоритм?" лежит не в физиологии -- физиология лишь реализует этот алгоритм. Ответ на вопрос лежит в той области знания, которая занимается т.н. эвристическими процессами. Как эта область называется -- я не знаю.

Так или иначе, мне видится, что смысл наших размышлений и их прикладная ценность не в юннатско-занимательной гистофизиологии сетчатки, а в соборном размышлении над тем, каким образом происходит восстановление исходной картины, исходной сцены из убогой сенсорной стимуляции, да еще и подвергнутой компрессии. И чтобы ответить на этот вопрос вовсе не нужно быть собственно физиологами, но просто образованными, рассудительными и/или просто заинтересованными людьми.

Прежде чем приступать к размышлениям, мне кааца, имеет смысл познакомиться с ведущими теориями зрительного восприятия. Их несколько (порядка шести). В чем-то они пересекаются, в чем-то принципиально разнятся. Так или иначе, где-то к маю я закончу работу над второй главой интегративного перевода по зрению -- главой, посвященной теориям зрения -- и выложу ее черновик. Полагаю, нам в первую голову нужно знать, где и как расставлены основные грабли, дабы лишний раз не наступать на них.

Наконец отмечу, что позиция Андрея очень схожа с позицией Джеймса Джерома Гибсона, полагавшего, что понимание сенсорных механизмов достаточно для понимания механизмов зрения в целом, потому что сенсорная стимуляция несет исчерпывающую информацию о сцене, если рассматривать эту стимуляцию во временнОм домене. Сей подход окрестили "экологическим", потому что акцент делается не на том, что происходит внутри особи -- но вне нее.

Экологическая позиция, так скажем, Гибсона-Френкеля -- это очень мощная научная парадигма, но которая-таки не может дать логически стройный и полный базис нашего понимания механизмов зрения. Это было понято примерно в 80-е годы минувшего века.

И последнее: смысл моего опуса сводится к тому, что не нужно циклиться на сенсорных механизмах -- на их детальное изучение жизни не хватит -- всегда нужно уметь вовремя остановиться, чтобы передохнуть и идти дальше. И прежде чем нас вновь проймет дрожь очередного инсайта, давайте познакомимся с инсайтами наших предшественников, дабы не изобретать очередной велосипед.
 
Ответ: Зрение - сравнение как принцип работы

Andrey Frenkel сказал(а):
Задай форму: уже можно рассуждать или подождать
Дай plz еще чуть времени - я нужно ввести пару понятий.

Первое понятие - зонная теория (zone theory) зрения.

Imho, не самое удачное название, её лучше называть "постадийная".

Сама идея появилась во времена "битв" между сторонниками трехстимульных моделей (Helmholtz) и моделей "трехоппонентности" (Hering). Суть идеи, автором которой, кстати, также был von Kries - между трехстимульностью и трехоппонентностью нет противоречия, это лишь две разные стадии восприятия. Над такими моделями работало много ученых, в т.ч. такие "столпы" науки, как Judd. В аттаче схема такой модели.

Можно считать, что и здесь von Kries не ошибся - модель хорошо прогнозирует восприятие (но это еще далеко не всё), плюс есть немало прямых физиологических доказательств, уже можно говорить, что найдены все необходимые элементы для такой схемы. Но, как я уже упоминал, не все элементы размещены в сетчатке. Например "детали" для конструирования "second stage" (color opponent coding) лежат в LGN. А "детали" для конструирования color constancy - еще дальше, в V1. Но не буду пока забегать вперед (хотя добраться до V1 очень хочется :-) ).
Alexey Shadrin сказал(а):
LSR-детекция (low spatial resolution) проходит именно по фотографическому принципу.
Немного не так. Даже нижний уровень, даже LSR уже нельзя считать "фотографическим принципом". Почему - объясню чуть позже (через receptive fields).
Alexey Shadrin сказал(а):
Ответ на вопрос "Каков алгоритм?" лежит не в физиологии
Чуть уточню. Именно физиологи (нейрофизиологи) дали наводку на "Каков алгоритм?" - именно Hubel'овский "blob" дал толчок (что толчок - взрыв) математическому моделированию в этой области (например blob detection или SIFT).
 

Вложения

  • 3_Stage_theory.png
    3_Stage_theory.png
    15.4 КБ · Просм.: 1 039
Ответ: Зрение - сравнение как принцип работы

sabos сказал(а):
Именно физиологи (нейрофизиологи) дали наводку на "Каков алгоритм?" - именно Hubel'овский "blob" дал толчок (что толчок - взрыв) математическому моделированию в этой области
Хорошо. И я хотел бы подчеркнуть то, что не стОит особо копаться в физиологическом исполнении этого механизма, не стОит искать ответ на вопрос "Как это сделано?". Во-первых, ответа не найдем (скорее всего); во-вторых -- не больно-то он и нужен, этот ответ. Важно, имхо, не то "Как?" (ну, -- как-то там) -- важно "Что?". И соборное размышление над тем "Что реализовано?" и "Зачем?" может очень и очень серьезно продвинуть наше умение работать с изображениями.
ИМХО.
 
Ответ: Зрение - сравнение как принцип работы

Alexey Shadrin сказал(а):
Прежде чем приступать к размышлениям, мне кааца, имеет смысл познакомиться с ведущими теориями зрительного восприятия..
Факт, знакомится с "ведущими теориями" нужно все время, образование не должно останавливаться. Но почему наша недостаточная компетенция должна мешать научному поиску? "Чем больше я знаю, тем больше понимаю, что ничего не знаю" (с) Сократ. Тем более, что я не планировал в этой теме "изобретать очередной велосипед", я лишь хочу проговорить важные на мой взгляд вещи из сенсорной обработки, которые пока проговаривались (в т.ч. и мной) плохо. Надеюсь, после этого мы легко выйдем на "Что такое баланс белого".

Справимся с этим - дойдем и до более сложных вещей, и до "дерева признаков", и до "зрительной достройки", и ...
 
Ответ: Зрение - сравнение как принцип работы

«Ты, Нин, на грубость нарываешься. Все, Нин, обидеть норовишь.» (с) В. Высоцкий.

Алексей, придется все-таки ответить тебе, хотя и не хотелось. Видишь ли, у тебя не слишком хорошая память, что странно - склероз-то у меня :) : я читаю книги и материалы в интернете на темы, о которых ты говоришь уже не первый год (так что про пионера – это ты брось), ты же стал знакомиться с проблемой полгода назад. Ты не стал читать Гибсона (которого я же тебе и критиковал года три тому), Соболева, Кроля и многое-многое другое – тебе было неинтересно. Ты, на сколько я знаю, так и не познакомился еще всерьез с Марром, с Хьюбелом и кучей других авторов – тебе некогда. Почему же ты решил, что три выбранных тобой автора – это и есть светоч, Грааль и т.д.? С жаром неофита ты бросаешься проповедовать свою новую веру, даже не разобравшись во что ты веришь. Книги эти, которые ты переводишь, нужные и важные. Очень нужные и очень важные. Но это точно не Священное Писание. И их точно недостаточно.

Отвечать тебе по сути не вижу смысла.

Один великий ученый, как-то посоветовал своему ассистенту поменьше работать, а то тот думать не успевал.

И еще написанное тобой является полным офтопом, так что хорошо бы удалить и твой пламенный опус, и мою суровую отповедь.

С уважением, Андрей Френкель.

P.S.
Alexey Shadrin сказал(а):
Джеймса Джерома Гибсона, полагавшего, что понимание сенсорных механизмов достаточно для понимания механизмов зрения в целом, потому что сенсорная стимуляция несет исчерпывающую информацию о сцене, если рассматривать эту стимуляцию во временнОм домене.
Я не знаю у кого ты это вычитал, но прежде чем цитировать неплохо бы познакомиться с первоисточником. У Гибсона суть совсем в другом.
 
Ответ: Зрение - сравнение как принцип работы

AlexWAR сказал(а):
Предположу, что если мы не можем считать энергии (не знаем что или пока не умеем), то мо можем и считаем реакции "хозяев колбочек" на эти энергии.
Из наших с Андреем споров не стоит делать вывод о том, что мы "пока не умеем" считать энергии. Фототрансдукция изучена неплохо, и на вполне достоверном уровне - на уровне молекулярных механизмов. Но и в ваших словах про реакции "хозяев колбочек" есть смысл - их также наука изучает. Идем вдоль всей схемы обработки сигнала. В аттаче пример реакции "хозяев хозяев хозяев колбочек", т.е. уже на 3-й стадии обработки.
 

Вложения

  • Opponent cell responses.png
    Opponent cell responses.png
    12.1 КБ · Просм.: 897
Ответ: Зрение - сравнение как принцип работы

Alexey Shadrin сказал(а):
Экологическая позиция, так скажем, Гибсона-Френкеля
К сказанному Андреем добавлю - суть теории Гибсона - зрение извлекает инварианты структур. Это ничуть не устарело, полностью согласуется со всем объемом экспериментальных данных, и должно, и будет входить в любую (разумную) теорию зрения.
 
Ответ: Зрение - сравнение как принцип работы

Перед тем, как ввести следующее понятие, попытаюсь обозначить проблему.

Почему мы так беззаботно называем стимулом свет, оговаривая лишь одну его характеристику (его SPD)? Можем ли мы так самоуверенно игнорировать другие его характеристики? Можно ли считать, что например размер (форма) без проблем отделяется от SPD? (мы точно знаем, что нет - и в доказательство этому есть огромное количество "феноменов"). Так ли проста связь стимула и окружения? Или то, о чем говорит Андрей - не упрощаем ли мы связь между адаптацией и колбочковым ответом до уровня линейных связей?

Поэтому я предлагаю ввести:

Второе понятие - рецептивное поле (receptive fields)

Я считаю это очень важным понятием, без которого нельзя правильно говорить даже о таких простых вещах, как "оппонентность". Нельзя говорить, что (на уровне сетчатки) есть цветоразностные сигналы +L-M (red), +M-L (green) и т.п. Нужно сперва указать, кто здесь центр, а кто фон. Или, другими словами, кто в этих стимулах "маленького" размера, а кто "большого".

Можно говорить: "малое пятно 'красного света' (для наших въедливых - стимул длинноволнового диапазона), освещающее центр рецептивного поля, усиливает его ответ, но чуть большее по размеру пятно 'зеленого света' снижает. В общем виде: стимул некоторого спектра некоторого размера, двигающийся по сетчатке по некоторой траектории, заставляет нейрон (нейрон верхнего сетчаточного уровня - которым заканчивается колбочковый домен рецептивного поля) реагировать по-разному (может быть возбудителем или тормозом - не соображу, как у физиологов правильно переводится increase/decrease rate of action potentials).

Алексей правильно заметил - нейрон (точнее его синапс) несложный обработчик сигнала. Один нейрон не может одновременно сравнивать по всем трем размерностям (цвет, размер, и движение). Но в рецептивное поле входит несколько нейронов, одни (биполярные) заняты сбором ответов от колбочек, другие (ганглиозные) сбором ответов от биполярных. Мы помним, редукция (упаковка данных) там очень большая, в среднем на 130 колбочек один аксон (аксон - это один 'провод' в зрительном нерве). Во время этой редукции идут достаточно сложные вычисления (сравнения), и по всем трем размерностям.

Отмечу, что сказанное не противоречит известным фактам о том, что "не так уж всё и сложно". Например то, что между CMFs и спектральными колбочек линейное преобразование - говорит лишь о том, что мы при измерении CMF's успешно нейтрализовали влияние аксонов (вычислителей), отвечающих за просчет формы стимула (и/или его адаптацию), нейтрализовали влияние аксонов, отвечающих за движения.

И еще добавлю - я не считаю рецептивное поле жесткой структурой. Да, в сетчатке обнаружены такие структуры (см. аттач), обнаружены некоторые важные их свойства (например перекрытие). Но я предлагаю считать эти структуры способными к модификации. К быстрой (дни) модификации.
 
Ответ: Зрение - сравнение как принцип работы

Забыл аттач.
 

Вложения

  • Receptive_fields.png
    Receptive_fields.png
    14.3 КБ · Просм.: 938
Ответ: Зрение - сравнение как принцип работы

Я лишь схематично набросал конструкцию рецептивного поля - нашего вычислителя первого уровня.

Лишь показал, что там возможны сложные вычисления, и что алгоритм там реализован в виде "hardware", инженеры такие обработчики ASIC'ами называют. Следующий логичный вопрос- сколько там типов asic'ов применяется, какие там алгоритмы? Забегая вперед скажу - типов немного. Но перед тем, как рассказывать про алгоритмы, сперва определимся с задачами по извлечению информации, что умеет решать зрительная система человека.

Также хочу подчеркнуть - именно такие вычислители я считаю основным в решении нашей задачи "сравнение как принцип работы", именно они ответственны за наши "феномены", именно здесь можно решить те неувязочки, которыми страдают более примитивные модели зрения.

Специально замечу, глаз (сетчатка) - это не только 130 "мегапикселов", это еще и очень мощный видеопроцессор, содержащий порядка 10^10 "транзисторов". Для сравнения - самые "продвинутые" современные CPU имеют порядка 10^8 транзисторов (хотя они и выигрывают у глаза по быстродействию).

Третье понятие - размерности, в которых работает наша система видеообработки (информационные домены).

Их четыре - контраст, цвет, пространство, время.

Я специально сделал разделение нашего любимого color на два домена, ибо там присутствуют два вида информационного кодирования - амплитудное (АМ-модуляция - или, на выбор, яркость, светлота, контраст) и частотное кодирование (FM-модуляция - или, на выбор, спектр, хроматика, "цвет").

Упрощенно можно сказать, что я ищу те фильтры, которые применяются в сетчатке при видеообработке. Конечно все мы понимаем, то такая аналогия очень приблизительна, ведь, в отличие от цифровой фотографии, зрительные данные нелинейны, здесь и нелинейный ответ сенсоров, причем ответ сенсоров параллельно может обрабатываться в нескольких фильтрах, здесь и мозаика неравномерная, и считывание нерегулярное.

К сожалению мне пока не удалось получить строгие данные по типам фильтров. Да я не жду увидеть там строгое разделение, это ведь биология, мне бы хоть схематично их назвать. В аттаче моя первая попытка (можно критиковать).
 

Вложения

  • Visual_Pathway.png
    Visual_Pathway.png
    1.6 КБ · Просм.: 976
Ответ: Зрение - сравнение как принцип работы

Всем привет.
Привет, Саша.
sabos сказал(а):
(можно критиковать).
Простор для обсуждения большой. :) Но есть главное:
sabos сказал(а):
два вида информационного кодирования - амплитудное (АМ-модуляция - или, на выбор, яркость, светлота, контраст) и частотное кодирование (FM-модуляция - или, на выбор, спектр, хроматика, "цвет").
Согласен. Но амплитуда и модуляция чего? Что закодировано в ответе колбочки?

С уважением, Андрей Френкель.
 
Ответ: Зрение - сравнение как принцип работы

Одна из целей этой ветки, смысл ввода всех этих понятий (поэтапность обработки, её размерности, ёё hardware) - пояснить в т.ч., как нужно задавать вопросы. Пояснить, что наивно надеяться узнать принцип работы системы, изучая лишь один её элемент. Нельзя получить ответ на вопрос "что кодирует колбочка". Но можно говорить: "малое пятно 'красного света', на фоне большего 'зеленого' пятна, может быть закодировано так-то и так-то." В такой постановке вопроса можно даже будет обсуждать алгоритм кодирования - нормализация, оппонентность, подавление шумов, вторая оппонентность.

На ixbt я пытался пояснить принцип работы частотного дискриминатора и почему для съема FM-информации нужно минимум два фильтра (знак производной). И как "в каше радиостанций" происходит разделение AM- и FM-модуляции.
 
Статус
Закрыто для дальнейших ответов.