ÎÄÕÂתÔØÓÚÁ¿×Óλ ½ñÄ꣬CVPR¹²ÓÐ13008·ÝÓÐЧͶ¸å²¢½øÈëÆÀÉóÁ÷³Ì£¬ÆäÖÐ2878ƪ±»Â¼Óã¬×îÖÕ¼ÓÃÂÊΪ22.1%¡£ ¼ÓÃÂÛÎÄÉÏÀ´¿´£¬¶àģ̬Ïà¹ØÄÚÈÝÈÔÊǹØ×¢Öص㡣 ÉϺ£½»Í¨´óѧ-ÃÀÍżÆËãÓëÖÇÄÜÁªºÏʵÑéÊÒ·¢²¼µÄÂÛÎÄÒ²±»Â¼Óã¬ÂÛÎÄÌá³öÁËQ-Eval-100KÊý¾Ý¼¯ÓëQ-Eval-ScoreÆÀ¹À¿ò¼Ü¡£ ÂÛÎÄÖÂÁ¦ÓÚ½â¾öÒÔÏÂÎÊÌ⣺ ÏÖÓеÄÎı¾µ½ÊÓ¾õÆÀ¹ÀÊý¾Ý¼¯´æÔڹؼüÆÀ¹Àά¶Èȱ·¦ÏµÍ³ÐÔ¡¢ÎÞ·¨Çø·ÖÊÓ¾õÖÊÁ¿ºÍÎı¾Ò»ÖÂÐÔ£¬ÒÔ¼°¹æÄ£²»×ãµÈÎÊÌ⣻ ÆÀ¹À¹ý³Ì¸´ÔÓ¡¢½á¹ûÄ£ºý£¬ÄÑÒÔÂú×ãÌض¨ÆÀ¹ÀÐèÇó£¬ÏÞÖÆÁË»ùÓÚ´óÄ£Ð͵ÄÆÀ¹ÀÄ£ÐÍÔÚʵ¼Ê³¡¾°ÖеÄÓ¦Óà Ïà¹ØʵÑéÒ²±íÃ÷Êý¾Ý¼¯ºÍ·½·¨ÔÚÆÀ¹À½áÂۺͷº»¯ÐÔ·½Ã涼×öµ½µÄµ±Ç°Òµ½çµÄÁìÏÈË®×¼¡£ ÔÚϱíÖпÉÒÔ¿´µ½Êý¾Ý¼¯Q-Eval-100KµÄʵÀýÊýÁ¿ºÍÈ˹¤±ê×¢ÊýÁ¿Ô¶³¬ÆäËûÊý¾Ý¼¯£¬¿ÉÒÔ˵Q-Eval-100KÊǵ±Ç°×î´óµÄAIGCÆÀ¹ÀÊý¾Ý¼¯¡£ ͬʱ¿çÊý¾Ý¼¯ÑéÖ¤ÏÔʾ£¬ÔÚQ-Eval-100KÉÏѵÁ·µÄÄ£ÐÍÔÚGenAI-BenchÊý¾Ý¼¯ÉϱíÏÖ³öÉ«£¬Ô¶³¬µ±Ç°ÏȽø·½·¨£¬³ä·ÖÖ¤Ã÷ÁËQ-Eval-100KÊý¾Ý¼¯µÄ·º»¯¼ÛÖµ¡£ Êý¾Ý¼¯Q-Eval-100K¿ªÆôÁËÎı¾µ½ÊÓ¾õÄÚÈÝÆÀ¹ÀµÄÐÂʱ´ú£¬Í¬Ê±Q-Eval-ScoreÌṩһ¸ö¿ªÔ´µÄ½ÏΪ׼ȷ¿Í¹ÛµÄAIGC´ò·Ö¿ò¼Ü£¬¿ÉÓÃÓÚ¶ÔAIGCͼƬÊÓƵÉú³ÉÀàÄ£Ð͵ÄÆÀ¹À¡£ Q-Eval-100KÊý¾Ý¼¯¹²¼Æ°üº¬ÁË100KµÄAIGCÉú³ÉÊý¾Ý£¨ÆäÖаüº¬60kµÄAIGCͼƬÒÔ¼°40kµÄAIGCÊÓƵ£©¡£ ½ÓÏÂÀ´£¬½«¶ÔQ-Eval-100KÊý¾Ý¼¯ÓëQ-Eval-ScoreÆÀ¹À¿ò¼Ü½øÐÐÏêϸ½éÉÜ¡£ 1 Êý¾Ý¼¯¹¹½¨ ÔÚÊý¾Ý¼¯¹¹½¨ÉÏ£¬ÍŶÓÈ·±£×ñÑÈý¸öÔÔò£º 1£©±£Ö¤Êý¾Ý¶àÑùÐÔ¡£ÎªÁËÊÕ¼¯µ½½Ó½üÕæʵ³¡¾°Ï¶àÑùÐÔµÄÊý¾Ý¼¯£¬ÍŶӴÓÈý¸ö´óµÄά¶È³ö·¢¹¹½¨Á˶ÔÓ¦µÄprompt¼¯£¬ÕâÈý¸ö´óµÄά¶È¿ÉÒÔ±»»®·ÖΪʵÌåÉú³É£¨people£¬objects,animals,etc.£©£¬ÊµÌåÊôÐÔÉú³É£¨clothing,color,material,etc.£©£¬½»²æÄÜÁ¦Ïbackrgound£¬spatialrelationship,etc.£©£¬Í¨¹ý¶ÔÓÚ²»Í¬Î¬¶ÈÊý¾ÝµÄ±ÈÀý¿ØÖÆ£¬È·±£ÁËpromptÊý¾ÝµÄ¶àÑùÐÔ¡£Í¬Ê±£¬ÍŶӻ¹Ê¹ÓÃÁ˵±Ç°SOTA¿ªÔ´»òÕßAPIµÄAIGCÄ£ÐͽøÐÐÊý¾ÝÉú³É£¬´Ó¶øÈ·±£ÁËÉú³ÉÊý¾ÝµÄ¸ßÖÊÁ¿¡£ÕâЩAIGCÄ£ÐÍ°üÀ¨FLUX£¬Lumina-T2X£¬PixArt£¬StableDiffusion 3£¬CogVideoX£¬Runway GEN-3£¬KlingµÈ¡£ 2£©¸ßÖÊÁ¿µÄÊý¾Ý±ê×¢¡£ÍŶÓÕÐļÁË200¶àÃû¾¹ýÅàѵµÄÈËÔ±½øÐÐÈ˹¤´ò·Ö±ê×¢£¬´ÓÕâЩÈËÔ±ÊÖÖÐÊÕ¼¯Á˳¬¹ý960kÌõÏà¹ØÊý¾ÝµÄ´ò·ÖÐÅÏ¢¡£¾¹ýÈ˹¤ÑϸñµÄɸѡºÍ¹ýÂ˺ó£¬×îÖյõ½ÁËÕâ100k AIGCÊý¾ÝÒÔ¼°Æä¶ÔÓ¦µÄÒ»ÖÂÐÔ/ÖÊÁ¿±ê×¢Êý¾Ý¡£Í¨¹ýÕâÑùµÄ·½Ê½£¬¿ÉÒÔÈ·±£±ê×¢Êý¾ÝÓëÈËÀàÆ«ºÃµÄ¸ß¶ÈÒ»ÖÂÐÔ£¬´Ó¶øÌáÉýÁËQ-Eval-ScoreÆÀ¹À¿ò¼ÜµÄÒ»ÖÂÐÔÓë·º»¯ÄÜÁ¦¡£ 3£©ÊÓ¾õÖÊÁ¿ºÍÎı¾Ò»ÖÂÐÔ½âñî±ê×¢¡£ÍŶӹ۲쵽µ±Ç°¶ÔÓÚAIGCÄ£ÐÍÖÊÁ¿µÄÑÐÅÐÖ÷Òª¾Û½¹ÓÚÊÓ¾õÖÊÁ¿ºÍÎı¾Ò»ÖÂÐÔÁ½¸ö·½Ã棬Òò´Ë£¬ÔÚÊý¾Ý¼¯¹¹½¨µÄ¹ý³Ìµ±Öн«Á½¸öά¶È²ð·Ö¿ª±ê×¢£¬ÒÔÈ·±£Q-Eval-Score¿ÉÒÔͬʱ¶ÔÕâÁ½¸öά¶È½øÐÐÆÀ¹À¡£ÈçÏÂͼËùʾ£¬ÔÚͳ¼ÆÁ˶à¸öAIGCÄ£Ð͵ÄÊÓ¾õÖÊÁ¿ºÍÎı¾Ò»ÖÂÐÔmos·Öºó£¬ÍŶӷ¢ÏÖÁ½¸öά¶ÈÉÏÄ£Ð͵ıíÏÖ´æÔÚÒ»¶¨µÄ²îÒìÐÔ£¬Òò´ËҲ˵Ã÷Á˽«Á½¸öά¶È½âñîµÄ±ØÒªÐÔ¡£ ÒÔÉÏÊý¾Ý¼¯ÒÑÔÚAGI-EvalÉçÇøÆÀ²â¼¯×¨ÇøÉÏÏß¡£ 1 ͳһÆÀ¹À¿ò¼Ü ÔÚQ-Eval-100kµÄ»ù´¡ÉÏ£¬ÍŶÓѵÁ·µÃµ½ÁËQ-Eval-ScoreÆÀ¹À¿ò¼Ü£¬¸Ã¿ò¼Ü½«Êý¾Ý¼¯×ª»»Îª¼à¶½Î¢µ÷£¨SFT£©Êý¾Ý¼¯£¬ÒÔÌض¨ÉÏÏÂÎÄprompt¸ñʽѵÁ·´óÓïÑÔÄ£ÐÍ£¨LMM£©£¬Ê¹ÆäÄܹ»¶ÀÁ¢ÆÀ¹ÀÊÓ¾õÖÊÁ¿ºÍÎı¾Ò»ÖÂÐÔ¡£ Ä£ÐÍѵÁ· Ê×ÏÈ£¬ÍŶӹ¹½¨Ò»¸öÉÏÏÂÎÄpromptÊý¾Ý¼¯ÓÃÓÚ´óÄ£Ð͵ÄSFT¹ý³Ì£¬Ä£°æÈçÏ£º ÔÙ½«È˹¤±ê×¢´ò·Ö°´ÕÕ1-5·Ö·Ö±ðÓ³Éäµ½5¸öµµÎ»{Bad,Poor,Fair,Good,Excellent}ÉÏ£¬ÒÔÈ·±£Êý¾Ý¿ÉÓÃÓÚ´óÄ£ÐÍSFT£¬È˹¤±ê×¢´ò·ÖÓ³ÉäµÄ¹ý³ÌÈçÏÂËùʾ¡£ ͨ¹ý½«ÎåµµµÃ·ÖµÄlogits¸ÅÂÊÓëȨÖؼÓȨµÃµ½×îÖյ÷֣¬È¨ÖØ1-0·Ö±ð±íʾ´ÓExcellentµ½BadµÄµÃ·ÖÓ³Éä¡£ ÔÚÄ£ÐÍÉÏ£¬ÍŶÓÑ¡ÔñÁ˵±Ç°ÔÚͼÏñÊÓƵÀí½âÉÏÐÔÄܽÏΪÓÅÒìµÄQwen2-VL-7B-InstructÄ£ÐͽøÐÐSFT΢µ÷£¬ÔÚ΢µ÷ʱͬʱÆôÓÃCE LossºÍMSELoss£¬ÓÃÓڼලģÐÍ´ò·ÖÄÜÁ¦µÄÌáÉý¡£ ³¤prompt¶ÔÆëÎÊÌâ ÔÚÎı¾Ò»ÖÂÐÔÉÏ£¬ÍŶӷ¢ÏÖÔÚ´¦Àí³¤prompt£¨³¬¹ý25¸ö´Ê³¤£©µÄ³¡¾°Ê±£¬³£»áµÍ¹À¶ÔÓ¦µÄ·ÖÊý£¬Õâͨ³£ÊÇÓÉÓÚѵÁ·¼¯µ±ÖгöÏֵĽϳ¤Ìáʾ´ÊÕ¼±È½ÏÉÙµ¼Ö¡£ Òò´Ë£¬Õë¶Ô³¤Ìáʾ´Ê¶ÔÆëÆÀ¹ÀÄÑÌ⣬ÍŶӴ´ÐÂÐÔµØÌá³ö¡°Vague-to-Specific¡±²ßÂÔ£¬½«³¤Ìáʾ´Ê²ð·ÖΪģºýÌáʾ´ÊºÍ¶à¸ö¾ßÌåÌáʾ´Ê·Ö±ðÆÀ¹À£¬ÔÙ×ۺϼÆËã×îÖյ÷֡£ ¶ÔÓÚÄ£ºýÌáʾ´Ê£¬ÍŶӰ´ÕÕ³£¹æ·½Ê½¼ÆËã¶ÔÆë¶ÈµÃ·Ö¡£ È»¶ø£¬¶ÔÓÚÌض¨Ìáʾ´ÊÀ´ËµÕâ¸ö²ßÂÔ²¢²»ºÏÊÊ£¬ÒòΪÿ¸öÌض¨Ìáʾ´ÊÖ»Éæ¼°ÊÓ¾õÄÚÈݵÄÒ»²¿·Ö¡£ ÊÜVQAScore·½·¨µÄÆô·¢£¬ÍŶӽ«ÎÊÌâÐÞ¸ÄΪ¸üκ͵ÄÐÎʽ£¬ÀýÈç¡°Doestheimage/videoshow[prompt]£¿¡±£¬ÒÔ´ËÀ´ÆÀ¹Àÿ¸öÌض¨Ìáʾ´ÊµÄ¶ÔÆë¶È¡£ ×îºó£¬ÍŶÓʹÓüÓȨ·½·¨½áºÏÄ£ºýÌáʾ´ÊºÍÌض¨Ìáʾ´ÊµÄ½á¹û£¬¼ÆËã×îÖյĶÔÆë·ÖÊý£º 1 ʵÑé½áÂÛ ÔÚÊÓ¾õÖÊÁ¿ÆÀ¹À·½Ã棬Q-Eval-ScoreÔÚͼÏñºÍÊÓƵµÄ²âÊÔÖоù±íÏÖÓÅÒ죬ÆäÔ¤²âµÃ·ÖÓëÈ˹¤´ò·ÖµÄ˹Ƥ¶ûÂüµÈ¼¶Ïà¹ØϵÊý£¨SRCC£©ºÍƤ¶ûÑ·ÏßÐÔÏà¹ØϵÊý£¨PLCC£©³¬Ô½Á˵±Ç°ËùÓеÄSOTAÄ£ÐÍ¡£ ÔÚÎı¾Ò»ÖÂÐÔÉÏ£¬Q-Eval-ScoreͬÑùÓÅÊÆÏÔÖø£¬ÔÚͼÏñºÍÊÓƵµÄ²âÊÔÖУ¬ÆäInstance-levelµÄSRCC·Ö±ðÁìÏÈÆäËûµÄsotaÄ£ÐÍ6%ºÍ12%¡£ ÏûÈÚʵÑé±íÃ÷£¬Ñо¿ÖÐÌá³öµÄ¸÷Ïî²ßÂÔºÍËðʧº¯Êý¶ÔÄ£ÐÍÐÔÄÜÌáÉý¹±Ï×ÏÔÖø¡£ ÔÚ³¤Ìáʾ´Ê×Ó¼¯²âÊÔÖУ¬¡°Vague-to-Specific¡±²ßÂÔÓÐЧÌá¸ßÁËÆÀ¹ÀÐÔÄÜ£» Q-Eval-100KºÍQ-Eval-ScoreµÄ³öÏÖÒâÒåÖØ´ó¡£ËüÃÇΪÎı¾µ½ÊÓ¾õÄ£Ð͵ÄÆÀ¹ÀÌṩÁ˸ü¿É¿¿¡¢È«ÃæµÄ·½°¸£¬ÓÐÖúÓÚÍƶ¯Éú³ÉʽģÐ͵ĽøÒ»²½·¢Õ¹ºÍʵ¼ÊÓ¦Óá£Î´À´£¬ÕâÒ»Ñо¿³É¹ûÓÐÍûΪÏà¹ØÁìÓòµÄ·¢Õ¹µì¶¨¼áʵ»ù´¡£¬ÖúÁ¦Îı¾µ½ÊÓ¾õ¼¼ÊõÂõÏòи߶ȡ£ AGI-EvalÆÀ²âÉçÇøÒ²Ò»Ö±ÖÂÁ¦ÓÚ¹²´´Èç¡°Q-Eval-100kÊý¾Ý¼¯¡±ÕâÑùÓÅÐãµÄÊý¾Ý¼¯£¬ÔÚÄ£ÐÍÆÀ²âÁìÓòÉî¸û£¬Ö¼ÔÚ´òÔ칫Õý¡¢¿ÉÐÅ¡¢¿Æѧ¡¢È«ÃæµÄÆÀ²âÉú̬ÒÔ¡°ÆÀ²âÖúÁ¦£¬ÈÃAI³ÉΪÈËÀà¸üºÃµÄ»ï°é¡±ÎªÊ¹Ãü¡£ ÔÚÆÀ²â¼¯ÉçÇø°å¿éÓÐÐÐÒµ¹«¿ªÑ§ÊõÆÀ²â¼¯£¬Ö§³ÖÓû§ÏÂÔØʹÓ㻹ٷ½×Ô½¨ÆÀ²â¼¯£¬Éæ¼°¶àÁìÓòµÄÄ£ÐÍÆÀ²â£»ÒÔ¼°Óû§×Ô½¨ÆÀ²â¼¯£¬Æ½Ì¨Ö§³ÖÓû§ÉÏ´«¸öÈËÆÀ²â¼¯£¬¹²½¨¿ªÔ´ÉçÇø¡£ ÂÛÎÄÁ´½Ó£º https://arxiv.org/abs/2503.02357 AGI-EvalÆÀ²â¼¯×¨Çø£ºhttps://agi-eval.cn/evaluation/Q-Eval-100K?id=55 µã¸ö¡° °®ÐÄ ¡±£¬ÔÙ×ß°É