Spaces:

unitxt
/

metric

Running

App Files Files Community

Elron commited on Dec 3, 2023

Commit

8977100

•

1 Parent(s): 212beb8

Upload metric.py with huggingface_hub

Browse files

Files changed (1) hide show

metric.py +94 -38

metric.py CHANGED Viewed

@@ -1,16 +1,13 @@
-from dataclasses import field
-from typing import Any, Dict, Generator, Iterable, List, Optional, Union
-import datasets
 import evaluate
-from datasets import Features, Sequence, Value
 from .artifact import __file__ as _
 from .blocks import __file__ as _
 from .card import __file__ as _
 from .catalog import __file__ as _
 from .collections import __file__ as _
-from .common import __file__ as _
 from .dataclass import __file__ as _
 from .dict_utils import __file__ as _
 from .file_utils import __file__ as _
@@ -23,20 +20,12 @@ from .load import __file__ as _
 from .loaders import __file__ as _
 from .metrics import __file__ as _
 from .normalizers import __file__ as _
-from .operator import (
- MultiStreamOperator,
- SequntialOperator,
- SequntialOperatorInitilizer,
- StreamInitializerOperator,
-)
 from .operator import __file__ as _
-from .operators import (
- ApplyOperatorsField,
- ApplyStreamOperatorsField,
- FlattenInstances,
- MergeStreams,
- SplitByValue,
-)
 from .operators import __file__ as _
 from .processors import __file__ as _
 from .random_utils import __file__ as _
@@ -44,6 +33,7 @@ from .recipe import __file__ as _
 from .register import __file__ as _
 from .register import _reset_env_local_catalogs, register_all_artifacts
 from .renderers import __file__ as _
 from .schema import __file__ as _
 from .split_utils import __file__ as _
 from .splitters import __file__ as _
@@ -75,12 +65,31 @@ class MultiStreamScoreMean(MultiStreamOperator):
  instance["score"]["global"]["groups_mean_score"] = score
  yield instance
  def process(self, multi_stream: MultiStream) -> MultiStream:
- mean_score = self.aggegate_results(multi_stream)
  result = {}
  for stream_name, stream in multi_stream.items():
- result[stream_name] = Stream(self.spread_results, gen_kwargs={"stream": stream, "score": mean_score})
  return MultiStream(result)
@@ -90,20 +99,41 @@ class FromPredictionsAndOriginalData(StreamInitializerOperator):
  for prediction, original in zip(predictions, references):
  yield {**original, "prediction": prediction}
- def process(self, predictions: List[str], references: Iterable, split_name: str = "all") -> MultiStream:
  return MultiStream(
- {split_name: Stream(self.zip, gen_kwargs={"predictions": predictions, "references": references})}
  )
-from .schema import UNITXT_DATASET_SCHEMA
-class MetricRecipe(SequntialOperatorInitilizer):
  def prepare(self):
  register_all_artifacts()
  self.steps = [
  FromPredictionsAndOriginalData(),
  ApplyOperatorsField(
  inputs_fields=["prediction", "references"],
  fields_to_treat_as_list=["references"],
@@ -111,37 +141,48 @@ class MetricRecipe(SequntialOperatorInitilizer):
  default_operators=["processors.to_string_stripped"],
  ),
  SplitByValue(["group"]),
- ApplyStreamOperatorsField(
  "metrics",
- reversed=True,
  ),
  MultiStreamScoreMean(),
  MergeStreams(),
  ]
-UNITXT_METRIC_SCHEMA = Features({"predictions": Value("string"), "references": dict(UNITXT_DATASET_SCHEMA)})
-def _compute(predictions: List[str], references: Iterable, flatten: bool = False, split_name: str = "all"):
  _reset_env_local_catalogs()
  register_all_artifacts()
- recipe = MetricRecipe()
- multi_stream = recipe(predictions=predictions, references=references, split_name=split_name)
  if flatten:
  operator = FlattenInstances()
  multi_stream = operator(multi_stream)
  stream = multi_stream[split_name]
  return list(stream)
 # TODO: currently we have two classes with this name. metric.Metric and matrics.Metric...
 # @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
 class Metric(evaluate.Metric):
  def _info(self):
  return evaluate.MetricInfo(
  description="_DESCRIPTION",
@@ -155,11 +196,16 @@ class Metric(evaluate.Metric):
  ],
  )
- def _compute(self, predictions: List[str], references: Iterable, flatten: bool = False, split_name: str = "all"):
  try:
- from unitxt.dataset import (
- get_dataset_artifact as get_dataset_artifact_installed,
- )
  unitxt_installed = True
  except ImportError:
@@ -169,7 +215,17 @@ class Metric(evaluate.Metric):
  from unitxt.metric import _compute as _compute_installed
  return _compute_installed(
- predictions=predictions, references=references, flatten=flatten, split_name=split_name
  )
- else:
- return _compute(predictions=predictions, references=references, flatten=flatten, split_name=split_name)

+from typing import Dict, Iterable, List
 import evaluate
+from datasets import Features, Value
 from .artifact import __file__ as _
 from .blocks import __file__ as _
 from .card import __file__ as _
 from .catalog import __file__ as _
 from .collections import __file__ as _
 from .dataclass import __file__ as _
 from .dict_utils import __file__ as _
 from .file_utils import __file__ as _
 from .loaders import __file__ as _
 from .metrics import __file__ as _
 from .normalizers import __file__ as _
+from .operator import (MultiStreamOperator, SequentialOperator,
+ SequentialOperatorInitilizer, StreamInitializerOperator)
 from .operator import __file__ as _
+from .operators import (Apply, ApplyMetric, ApplyOperatorsField,
+ ApplyStreamOperatorsField, FlattenInstances,
+ MergeStreams, SplitByValue)
 from .operators import __file__ as _
 from .processors import __file__ as _
 from .random_utils import __file__ as _
 from .register import __file__ as _
 from .register import _reset_env_local_catalogs, register_all_artifacts
 from .renderers import __file__ as _
+from .schema import UNITXT_DATASET_SCHEMA
 from .schema import __file__ as _
 from .split_utils import __file__ as _
 from .splitters import __file__ as _
  instance["score"]["global"]["groups_mean_score"] = score
  yield instance
+ def spread_results_one_stream(self, stream: Stream):
+ for instance in stream:
+ instance["score"]["global"]["groups_mean_score"] = instance["score"][
+ "global"
+ ]["score"]
+ yield instance
  def process(self, multi_stream: MultiStream) -> MultiStream:
+ result = {}
+ # optimization in to avoid double calculation of metrics
+ # when aggregating results, if there is only one stream.
+ if len(multi_stream) == 1:
+ for stream_name, stream in multi_stream.items():
+ result[stream_name] = Stream(
+ self.spread_results_one_stream, gen_kwargs={"stream": stream}
+ )
+ return MultiStream(result)
+ mean_score = self.aggegate_results(multi_stream)
  result = {}
  for stream_name, stream in multi_stream.items():
+ result[stream_name] = Stream(
+ self.spread_results, gen_kwargs={"stream": stream, "score": mean_score}
+ )
  return MultiStream(result)
  for prediction, original in zip(predictions, references):
  yield {**original, "prediction": prediction}
+ def process(
+ self, predictions: List[str], references: Iterable, split_name: str = "all"
+ ) -> MultiStream:
  return MultiStream(
+ {
+ split_name: Stream(
+ self.zip,
+ gen_kwargs={"predictions": predictions, "references": references},
+ )
+ }
  )
+# The additional_inputs field in the schema is defined as
+# Sequence({"key": Value(dtype="string"), "value": Value("string")})
+# When receiving instances from this scheme, the keys and values are returned as two separate
+# lists, and are converted to a dictionary.
+def _from_key_value_pairs(key_value_list: Dict[str, list]) -> Dict[str, str]:
+ return dict(zip(key_value_list["key"], key_value_list["value"]))
+class MetricRecipe(SequentialOperatorInitilizer):
+ calc_confidence_intervals: bool = True
  def prepare(self):
  register_all_artifacts()
  self.steps = [
  FromPredictionsAndOriginalData(),
+ Apply(
+ "additional_inputs",
+ function=_from_key_value_pairs,
+ to_field="additional_inputs",
+ ),
  ApplyOperatorsField(
  inputs_fields=["prediction", "references"],
  fields_to_treat_as_list=["references"],
  default_operators=["processors.to_string_stripped"],
  ),
  SplitByValue(["group"]),
+ ApplyMetric(
  "metrics",
+ calc_confidence_intervals=self.calc_confidence_intervals,
  ),
  MultiStreamScoreMean(),
  MergeStreams(),
  ]
+UNITXT_METRIC_SCHEMA = Features(
+ {"predictions": Value("string"), "references": dict(UNITXT_DATASET_SCHEMA)}
+)
+def _compute(
+ predictions: List[str],
+ references: Iterable,
+ flatten: bool = False,
+ split_name: str = "all",
+ calc_confidence_intervals: bool = True,
+):
  _reset_env_local_catalogs()
  register_all_artifacts()
+ recipe = MetricRecipe(calc_confidence_intervals=calc_confidence_intervals)
+ multi_stream = recipe(
+ predictions=predictions, references=references, split_name=split_name
+ )
  if flatten:
  operator = FlattenInstances()
  multi_stream = operator(multi_stream)
  stream = multi_stream[split_name]
  return list(stream)
 # TODO: currently we have two classes with this name. metric.Metric and matrics.Metric...
 # @evaluate.utils.file_utils.add_start_docstrings(_DESCRIPTION, _KWARGS_DESCRIPTION)
 class Metric(evaluate.Metric):
+ calc_confidence_intervals: bool = True
  def _info(self):
  return evaluate.MetricInfo(
  description="_DESCRIPTION",
  ],
  )
+ def _compute(
+ self,
+ predictions: List[str],
+ references: Iterable,
+ flatten: bool = False,
+ split_name: str = "all",
+ ):
  try:
+ from unitxt.dataset import \
+ get_dataset_artifact as get_dataset_artifact_installed
  unitxt_installed = True
  except ImportError:
  from unitxt.metric import _compute as _compute_installed
  return _compute_installed(
+ predictions=predictions,
+ references=references,
+ flatten=flatten,
+ split_name=split_name,
+ calc_confidence_intervals=self.calc_confidence_intervals,
  )
+ return _compute(
+ predictions=predictions,
+ references=references,
+ flatten=flatten,
+ split_name=split_name,
+ calc_confidence_intervals=self.calc_confidence_intervals,
+ )