メニュー

SIC画像コーデックと、同じ過大主張のパターン

SIC画像コーデックと、同じ過大主張のパターン

SIC非可逆画像コーデックで圧縮された画像の細部拡大
カテゴリ:
記事
タグ:
ADCSIC
言語:
ENJA
署名:
保存

これは ADC と、その周辺にあるより広い過大主張パターンについて扱ってきた連載の、おまけ兼最終回です。前回までの記事はこちらこちらこちらこちらです。

最初の4本は、音声コーデックである ADC の話でした。今回は、同じ作者による画像コーデック、SIC の話です。

SIC について公開されている資料、とくに encode.su のスレッドコーデックのホームページ を読んでいると、ADC ですでに見たのとまったく同じパターンが何度も出てきました。

  • 巨大な主張
  • 動き続ける技術説明
  • とても薄い公開証拠
  • そして、既存コーデックはどういうわけか古い発想に縛られていて、この新コーデックこそ革命であり未来である、という繰り返しの言い張り

ホームページの時点で、もう見覚えがある

SIC のホームページは、いつもの調子の文句から始まります。

  • "innovative image codec project"
  • "high-quality reconstruction at aggressive bitrates"
  • "distinctive architectural approaches"
  • "highly optimized OGBT Transform"
  • "advanced entropy coding engine featuring aggressive range coding"
  • "superior performance compared to the established WebP format"
  • "highly competitive" with AVIF

前の ADC 記事を読んでいるなら、こういう主張がどれくらい本当っぽいか、もう脳が先に察しているはずです。今回も同じプレゼンです。

  • 形容詞は多い
  • 硬い証拠はほとんどない
  • 比較主張だけは自信満々
  • そして今回もまた、Zenodo は特許庁でもないのに「Zenodo patent」リンクが出てくる

ホームページには、SIC は "highly optimized OGBT Transform" を使い、16x16 ブロックを動的に適用し、その係数を aggressive な range coding で符号化することで "paramount strength" を発揮するとあります。でも、公開ソースコードはない。公開仕様もない。ページ上には詳細なベンチマーク手法もない。主張に対応する再現可能なコーパスもない。なので、出だしから状況は見慣れたものです。証明よりマーケティングのほうがずっと詳しい。

SIC はころころ姿を変えた

SIC を評価しづらい最大の理由のひとつは、「SIC とは何か」がずっと動いていたことです。

encode.su スレッド上の大まかな公開タイムラインはこうです。

  1. 2025年6月、SIC は Discrete Tchebichef Transform (DTT) と独自の符号化ロジックを組み合わせた実験的画像コーデックとして紹介されました。当初は AVIF や HEIC と競うつもりはない、という比較的おとなしい実験扱いでした。なお、この DTT という表記は、要するに discrete Chebyshev transform をフランス語っぽく綴ったか転写しただけに見えます。しかも途中で一瞬 "discrete tree transform" みたいな説明まで出てきて、スレッド内の混乱にもちゃんと貢献していました。やれやれ。
  2. ところが、その framing はすぐに "I surpassed JPEG" になり、ついで "I outperform WebP in practically all metrics" になり、さらに AVIF 比較にまで膨らみました。
  3. 2025年6月末から7月にかけて、SIC は advanced intra prediction、16x16 DCT、高効率 range coding を使うものとして説明され、その後は可変ブロックサイズと変化する macroblock ロジックまで加わってきました。
  4. 2025年7月から8月にかけては、deblocking filter、ブロック選択ロジック、YUV モード、そして圧縮の中核戦略そのものまで、手直し、追加、削除、再導入が繰り返されました。
  5. 2025年10月11日、作者は次のバージョンでは従来路線を捨て、画像圧縮では "never been used" な新しい proprietary transform に切り替えると告知しました。へえ。あれだけ立派に語っていたわりには、元の方式はあまりうまくいかなかったんですかね。
  6. 2026年1月30日、その新変換を載せた SIC 0.200 が公開されました。OGBT、つまり "Orthogonalized Adaptive Gabor Basis for Energy Compaction in Two-Dimensional Block Transforms" です。

もちろん、実験すること自体は何も悪くありません。実験的コーデックなんて、変わって当然です。ただ、アーキテクチャも、変換も、ブロックロジックも、フィルタも、評価法も、全部が動く標的になってしまうと、「SIC は X に勝つ」みたいな大きな主張は、証拠がきわめて明確で、しかもバージョンごとに特定されていない限り、かなり真面目に受け取りにくくなります。そして、まさにそこが公開記録の弱いところです。

公開証拠はかなり薄い

公開資料という意味では、外部テストを含む実質的な議論は encode.su スレッドがほぼ唯一です。では、そのスレッドは何を見せているのか。長いあいだ、まともに評価すること自体が難しいコーデックだった、という事実です。

  • 初期には公開エンコーダがなく、デコーダ出力やスクリーンショットしかない
  • ビルドがクラッシュする、あるいは出力ファイルが生成されないという報告がある
  • AVX2 周りを含む CPU 依存の互換性問題がある
  • 一部のリリースはアンチウイルスに引っかかる
  • ダウンロードリンクが死ぬ

ライセンスだけでも、だいぶ物語っています。SIC は、非商用の評価目的に限る "closed source evaluation license agreement" で配布されていました。繰り返しますが、クローズドソース自体が悪いとは言いません。でも、JPEG、WebP、AVIF、JPEG XL に本気で挑めるコーデックだと世界に信じてほしいなら、「私のバイナリを信じてください」は、研究手法としてあまり説得力がありません。

再現性の問題もあります。スレッドでは、何度も私的なベンチマークセットへの言及が出てきます。

  • "27 images"
  • "40 images"
  • "44 images"
  • "23 images"

比較対象が「同じファイルサイズ」のこともあれば、セット全体の総バイト数のこともある。あるいは GIMP がたまたまその設定で吐いた AVIF と比べているだけのこともある。独自の重み付きスコアのこともある。PSNR のこともある。SSIMULACRA2 のこともある。足元がずっと動いているわけです。見出しだけ聞くと立派でも、主張の足場としてはかなり弱い。

スレッドの空気そのものも問題です

このスレッドには、見過ごすべきではない別のパターンもあります。作者は繰り返し「批判もフィードバックも歓迎だ」と言うのですが、実際に人がコーデックをテストし、好ましくない結果を報告すると、反応がかなり悪い。ここは重要です。SIC に外部的な信頼性らしきものを与えているのは、ほぼ公開テストだけだからです。コーデックがクローズドソースで、不安定で、再現もしづらく、自分のスクリーンショットと自分のメトリクスに大きく依存しているなら、比較を走らせてくれる人たちは、むしろ助けてくれている側です。それなのに、スレッドではそのテスターたちに対して、防御的、切り捨て気味、ときには露骨に見下したような態度が何度も出てきます。

Sebastian が、いくつかの例では SIC は JPEG より悪く見えると言ったとき、返ってきたのは「どの領域がそう見えますか?」でも「crop を共有してもらえますか?」でもなく、これでした。

Sebastian I thought you had more objective evaluation skills. Think about developing your own audio compression program.

音声圧縮プログラム、ですか。ああ、あの……いや、やめておきましょう。

その後、作者の別コーデックについての外部検証が強まったあとも、話はさらに妙な方向へ曲がっていきます。たとえば、私が Reddit で ADC コーデックのスペクトログラム評価を公開し、ファイル構造や内部音声パイプラインの可能性について書いたあとです。

The next version of SIC, which has been ready for release for some time, is being delayed precisely because I've noticed this behavior from a few rare birds who like to copy others' work. I'm sorry, but with the new obfuscation methods, I'll soon release the new version.

いや、コピーなんてしていません。そもそも、どうしてわざわざ劣ったコーデックをコピーするんですか。これは、公的な批判を「盗用への疑い」にすり替えようとする動きです。前後の文脈を見ても、コピーについて証拠ベースで心配しているというより、検証されること自体への苛立ちに見えます。コーデックをレビューすること、テスト結果を貼ること、公開挙動を分析することは、「他人の仕事をコピーする」には当たりません。むしろ、批判への返答が「さらに難読化します」だと、プロジェクト全体の信頼性はますます下がるだけです。

しかも、批判が毎回だいたい同じ視覚的問題に着地すると、今度は「異論そのもの」が問題だ、という framing に流れていきます。

  • 批判は "nostalgic" 扱いになる
  • 視覚評価は、自家製メトリクスや選択的な重み付きメトリクスより低く扱われる
  • ごく普通の批判が "nonsense" や "belittling" になる
  • 壊れたビルドを試し、比較画像を貼り、アーティファクトを細かく書いたあとでさえ、「constructive comments だけにしてくれ」と言われる

実際には、スレッドの中でいちばん建設的だったのは、むしろあしらわれていた側の人たちです。

  • 再現可能なエンコーダを求めた人たち
  • クラッシュや互換性問題を指摘した人たち
  • 同サイズ比較を投稿した人たち
  • 目に見えるアーティファクトの傾向を説明した人たち
  • もっとまともなテスト手法を提案した人たち

要するに、プロジェクト自身の見せ方がやっていなかった仕事を、代わりにやっていた人たちです。

ここが重要なのは、ADC と同じ社会的パターンだからです。理屈の上では批判歓迎。でも実際には、作者の望む物語を補強してくれる限りでしか歓迎されない。テスト結果がコーデックを持ち上げなくなった瞬間、テスターは偏っている、資格がない、懐古的だ、客観性が足りない、ということになる。

メトリクスの話は、もっと妙です

SIC の公開評価ストーリーは、単にメトリクスに頼っているだけではありません。変わり続けるメトリクス、自家製メトリクス、そして重み付きごった煮に頼っています。

スレッドでは、時期ごとに次のようなものが出てきました。

  • PSNR
  • SSIM
  • MSE
  • MAE
  • SAM
  • 独自の P-SIM
  • 独自の "overall weighted score"
  • その後、再構成または改造された SSIMULACRA2
  • さらにその後、公式の SSIMULACRA / SSIMULACRA2 ツールと新しい集計

スレッドには、次の挙動が全部含まれています。

  • 新しいメトリクス (P-SIM) を発明し、まともな審判のように提示する
  • 重み付けの式を途中で変える
  • 目的の違うメトリクスを、ひとつの見出し数字に混ぜ込む
  • 後になって、SSIMULACRA2 ロジックの一部を "with the help of AI" で再構成したと認める
  • そのあとで、ようやく公式ツールチェーンに置き換える

メトリクス自体は有用です。私も使います。でも、そのメトリクスの土台そのものが動いていて、一部が自家製で、何度も重み付けを変えているなら、それを実際の比較画像で誰の目にも見えていることに対する切り札みたいに振り回すことはできません。

この緊張関係は、スレッドでもかなり露骨に出ていました。複数のユーザーが繰り返し、だいたい次のようなことを言っています。

  • 目で見た結果は大事
  • アーティファクトは普通に見える
  • SIC はしばしば JPEG あたりの見た目
  • AVIF や JXL はやはり明らかに先にいる

それに対する返答は、しばしばこういう感じでした。

  • いや、メトリクスこそ公平な審判だ
  • 拡大しての視覚確認は誤解を招く
  • 目は客観的ではない

ある時点では、作者はこんなことまで書いています。

Your opinion is worth nothing to me, just as mine is worthless. Therefore, we need an impartial judge, which the eyes are not.

なかなかの発言です。画像コーデックの話で、「人間にどう見えるか」が全目的なのに。

外部テスターが実際に報告していたこと

自分で書いた総括をいったん脇に置いて、スレッド内の外部テスターたちが繰り返し何を報告していたのかだけを見ると、だいぶ地に足のついた絵が出てきます。

テスター繰り返し見られた公開上の指摘
Hakan AbbasSIC は、とくに滑らかであるべき領域で、ざらつき、量子化ノイズ、目立つブロックアーティファクトをしばしば持ち込んでいた。
Sebastian投稿サンプルでは SIC が JPEG より悪く見えることが多く、リンギングやアーティファクトブロックも強い。後期版でも、よくて JPEG 級くらいで、AVIF は依然として別格。
RoomWithAViewSIC は可変ブロックの DCT コーデックに見え、要するに "scalable JPEG-1" のようなもの。まだ若く、DCT っぽいアーティファクトと未熟なブロック判断に明らかに支配されている。
nika初期リリースはテスト自体が難しいか不可能で、その後の視覚比較でも JPEG に対する絶対的優位は見えなかった。速度と実用性では、なおさら JPEG に大きく劣る。
awmOGBT 移行後、巨大な1枚画像で PSNR 的に好意的な結果を1件投稿したが、それでも SIC は極低ビットレート狙いであり、ブロックはかなり目立つと書いていた。

私の感覚では、あの勝利宣言じみたメトリクス投稿群より、こちらのほうがずっと正直です。

それを少し具体的にするために、Unsplash からランダムに拾った画像を、最新の公開版 SIC "201mlt" でエンコードして、中心 712x534 の crop を3つ用意しました。記事用に lossless WebP へ書き出しています。AVIF 側は、それぞれ対応する SIC ファイルと同じ目標ファイルサイズになるようにエンコードしました。

SIC 51,958 B
AVIF 52,405 B
SIC 51,958 B Drag the divider or use the slider. AVIF 52,405 B
SIC 76,921 B
AVIF 78,547 B
SIC 76,921 B Drag the divider or use the slider. AVIF 78,547 B
SIC 34,509 B
AVIF 34,670 B
SIC 34,509 B Drag the divider or use the slider. AVIF 34,670 B

見れば、繰り返し出ていた不満点がそのまま見えてきます。ブロック境界、リンギング、そして平坦化されるテクスチャです。

公平のために言っておくと、スレッド全体が一様に否定的というわけではありません。前向きな瞬間もあります。

  • プロジェクト自体を面白いと感じたユーザーはいた
  • 初期出力の中には、ひどい JPEG エンコードより良かったものもある
  • 後期の DCT ベース版は、最初期版より改善しているように見える
  • OGBT 後の版については、巨大な JWST 画像の極低ビットレート結果を awm がひとつ公に称賛してもいる

そこはちゃんと重要ですし、公平に書いておきたいところです。でも、1枚で良い結果が出たとか、数枚そこそこ見栄えのする画像があった、というだけでは、次のような主張は支えられません。

  • WebP より superior
  • AVIF と highly competitive
  • AVIF や JPEG XL と very often compete できる

しかも公開スレッド全体の結論が、だいたい「見た目としてはまだ JPEG 圏内だよね」に寄っているなら、なおさらです。

その「秘密の」OGBT変換について

さて、ここで SIC が新しいアイデンティティとして押し出してきたもの、OGBT の話をしましょう。

名称は "Orthogonalized Adaptive Gabor Basis for Energy Compaction in Two-Dimensional Block Transforms" の略です。ずいぶん壮大です。公平に言えば、Zenodo のノートは少なくとも数学的な土台を示そうとはしています。ただ、ちゃんと読むと、この公開ノートは名前ほど神秘的でも革命的でもありません。

実際に書かれているのは、だいたいこういうことです。

  • Gaussian window をかけた cosine basis function から始める
  • ブロック基底を生成する
  • modified Gram-Schmidt で直交化する
  • それを separable な 2D ブロック変換として使う
  • そして、結果の変換が orthonormal なので、量子化がなければ完全再構成できると述べる

最後の点は、特にちょっと面白い。情報を量子化で捨てなければ完全再構成できる、というのは、OGBT に固有の魔法の売り文句ではありません。直交正規変換なら、まあそうなるでしょう、という話です。公開ノートが証明しているのは、OGBT がブレークスルーだということではなく、作者が直交ブロック変換とは何かを説明できる、ということくらいです。

もっと大事なのは、変換そのものは非可逆画像コーデックの一部にすぎないことです。コーデックの成否は、量子化、ブロック決定ロジック、色処理、フィルタ、エントロピー符号化、そのほか多くの周辺要素でも決まります。そして、その周辺部分についての SIC の公開証拠は、依然として疎で、不安定で、バージョン依存でした。

なので、「秘密めいている」部分は、OGBT が不可知だからというわけではありません。変換ノート自体はあります。本当に秘密めいているのは、その周囲の実コーデックがなお不透明で、主張された性能のどこまでが変換由来で、どこまでがチューニング由来で、どこまでが都合のいいテスト条件由来なのか、誰にも検証できないことです。

これは ADC と同じパターンです

ここまで来ると、ADC との類似はかなり見逃しにくいです。パターンとしては、こうです。

  1. まず、本当に面白い実験から始める。
  2. 公開証拠が正当化する以上の自信で見せる。
  3. 既存コーデックを、過剰に複雑だ、時代遅れだ、古い前提に囚われている、みたいに描く。
  4. バズワード、劇的な framing、疑似フォーマルな言い回しに頼る。
  5. プロジェクトが進むにつれて、技術説明そのものも変わる。
  6. 主張への批判を、実験そのものへの批判であるかのように扱う。
  7. 目で見たり耳で聞いたりした直接的な証拠が都合よくないときは、自分で選んだメトリクスや好都合な個別例に逃げる。

ADC のときに見た構造と、ほとんど同じです。そして ADC と同じく、いちばんもどかしいのは、これにはちゃんとした書き方の版もあるはずだ、ということです。もし作者が、たとえばこう言っていたなら。

私はクローズドソースの実験的な画像コーデックを作っています。まだ不安定で、アーキテクチャも速いペースで変わっています。初期結果の中には有望なものもあります。これまでの公開テストを見るかぎり、多くの画像ではだいたい JPEG から、よくて WebP くらいの領域に見えますが、面白い強みもあれば、わかりやすい弱みもあります。いろいろな変換、フィルタ、ブロック決定を試しながら、何が効くのかを探っています。

それなら全然いいんです。むしろ面白い。でも、実際に繰り返し提示されていたのは、そういう版ではありませんでした。話は次第にこう流れていった。

  • SIC は AVIF や JPEG XL への挑戦者である
  • SIC はすでに highly competitive である
  • SIC は、主流コーデックが過剰設計であることを、数学的またはアーキテクチャ的に証明している

そして公開記録は、単純にそれを支えていません。

ロードマップ

これは、ADC とその周辺にある過大主張パターンを扱ってきた連載の、おまけ兼最終回です。

記事一覧

  1. 革命的コーデックか、それとも過大評価された実験か?
  2. "Audio DNA" と、その他の何も意味しない言葉たち
  3. ADCの内部へ: コーデックの詳細解析
  4. スペクトログラムは嘘をつかない: ODG と実際にビットが使われている場所
  5. おまけ: SIC画像コーデックと、同じ過大主張のパターン <- 現在地

結び

SIC はこの連載の主題そのものではありません。でも、非常に示唆的な後日談ではあります。これを見ると、ADC はこの作者における「たまたまマーケティングが不器用だった一件」ではなかった、とわかるからです。もっと広い癖が見えます。実験的なコーデック案をひとつ持ってきて、そこに膨らんだ言葉をまとわせ、できるだけ早い段階で上位比較を始め、不完全な証拠をあたかも革命の証明みたいに扱う。その習慣です。

だからこそ、このおまけ記事は必要でした。

もちろんです。変なコーデック、大いに作ってください。ぜひ。物を作るのは楽しいので。でも、既存フォーマットに挑むなら、主張は証拠を追い越してはいけません。証拠が先で、主張は後です。SIC についても、ADC と同じく、その証拠はまだかなり追いつけていません。